恐怕平均到每个放映场次文字转WAV音频