所以他们一定会等文字转WAV音频