这也符合他们内部讨论的结果文字转WAV音频