前者的构成很单纯文字转WAV音频