显然是拍摄初期的采访文字转WAV音频