他们也需要适应文字转WAV音频