而是在为卡卡解释文字转WAV音频