顶多只能算是一种观察文字转WAV音频