其实在经过第一个区域时文字转WAV音频