主要还是对付他们的上层文字转WAV音频