从一开始就推测出来了文字转WAV音频