而是分为通用核心跟专门处理核心文字转WAV音频