组成了一张庞大的人脸文字转WAV音频