它一开始将大家捕捉回来文字转WAV音频