基本上都是在做减法文字转WAV音频