虽然不能把每个人脸和动作看的十分清楚文字转WAV音频