他们大多数只会采用一种方法那就是直接夺舍文字转WAV音频