然后再把我们的东西跟他们的东西融合文字转WAV音频