他们会更加依赖方源文字转WAV音频