上传了他们所见到的场景文字转WAV音频