所以我们将其定义为keter等级文字转WAV音频