他们必定会先建立一个空间节点文字转WAV音频