现在应该可以做到简单物品的传递阶段文字转WAV音频