它完全可以不依赖使用者文字转WAV音频