其实他想过直接离开文字转WAV音频