优先安排他们俩的镜头文字转WAV音频