镜头之间的切换才慢慢缓和文字转WAV音频