就是为了从这些人的表情和神态变化上文字转WAV音频