每场戏几乎都是一次过文字转WAV音频