他们分为四组文字转WAV音频