只能根据地面和周围的痕迹来追寻文字转WAV音频