是建立在知识储备和逻辑推演的基础上的文字转WAV音频