整个过程都在现场文字转WAV音频