他的猜想基本上是文字转WAV音频