其实就是一种思维若存若无的状态文字转WAV音频