最后是主体建筑群文字转WAV音频