电脑会利用这些信息来生成动作中间的连贯运动文字转WAV音频