所以他才能这么快辨认出来文字转WAV音频