说难听点就是没有构建人体比例和透视关系文字转WAV音频