两者似乎是做了眼神的短时交流文字转WAV音频