不过看口型好像就是很简单的一个字文字转WAV音频