主要是用来定位所用文字转WAV音频