基本上就是模糊不清的状态文字转WAV音频