所以他采取了最稳健的方法文字转WAV音频