每个家族只能派出一个代表文字转WAV音频