而不是单独的教导文字转WAV音频