在最后的表演阶段文字转WAV音频