视频基本上都是分为两部分的文字转WAV音频