顶多就是意识和能力文字转WAV音频