他们之间都是有着比较多的言语文字转WAV音频