让他用言语描述一下视频的内容――然而文字转WAV音频