因此只能徒步追捕文字转WAV音频