把这套模型应用到一个虚拟世界中文字转WAV音频