结果就是他们所看到的文字转WAV音频