你在描述这些场景的时候文字转WAV音频