所以他们一定会有一个准备过程文字转WAV音频