平均每一组十几人文字转WAV音频