显然是接触到了人脸的目光文字转WAV音频