是由三个城的人组成的文字转WAV音频