同时嘴上回应着文字转WAV音频