最终形成了一个模糊的人影文字转WAV音频