并采集了面部特征文字转WAV音频