后者是族群集体的文字转WAV音频