在某些镜头里面文字转WAV音频