但他也只用了一次文字转WAV音频