主要体现在远视文字转WAV音频