所以他们必须到场文字转WAV音频