全部都是在场的文字转WAV音频