然后用本地人统治本地人文字转WAV音频