最重要的因素当然是黑暗视觉文字转WAV音频