但在摄影机的镜头里他们全都是背景文字转WAV音频