必定会先传送他们的人文字转WAV音频