然后按照真实电影的覆盖区域和时间文字转WAV音频