他需要时间去接受文字转WAV音频