他也很难区分两者之间的不同文字转WAV音频