并且通过多点定位文字转WAV音频