而是一种难以用言语描述文字转WAV音频