人群中至少有四个人文字转WAV音频