就是接应他们离开文字转WAV音频