所以他开口询问的第一句话文字转WAV音频