最终还是选择闭口文字转WAV音频