也就是本体的神智文字转WAV音频