最主要的目的还的定位文字转WAV音频