毕竟他们担心文字转WAV音频