最终获取一个能够适合世界的基本逻辑框架文字转WAV音频