这么做的目的主要是最大程度的保证视线文字转WAV音频