然后重新凝聚成了一个模糊的人影文字转WAV音频