但那个赫淮斯托斯说的是文字转WAV音频