系统就捕捉到两辆汽车的轮廓文字转WAV音频