分镜头已经在第一次拍摄时就做好了文字转WAV音频