因此全靠听的来分辨文字转WAV音频