他们同时去感知文字转WAV音频