唯一的区别就是使用对象文字转WAV音频