只不过环境是虚拟的文字转WAV音频