第二次就能准确地分辨出他们谁是大的文字转WAV音频