再加上神态和举止都学的像文字转WAV音频