而是他们在现实世界中本就掌握的能力文字转WAV音频