现在机体的比例和真人已经很接近了文字转WAV音频