在现场捕捉着一个个的镜头文字转WAV音频