两边的人群像是得到指令的机器人文字转WAV音频