实际上会因为环境文字转WAV音频