因为一个是投影文字转WAV音频