而是直接断言文字转WAV音频