最终的办法还是要同化掉文字转WAV音频