但是过于理想化了文字转WAV音频