问题归根结底还是在于前两年文字转WAV音频