蹒(pán)跚学步的孩(hái)童,学会了跌倒后如何(hé)站起来,慢(màn)慢感受平衡,最终学会用双腿走路,这个过程很大(dà)程(chéng)度上(shàng)是通过反复(fù)试验学会的。但是,波士顿动力公(gōng)司的Spot和Atlas等机器人(rén)并不是这样的,他们被精心(xīn)编码处理特(tè)定的任务,结果可能会非常(cháng)好,但(dàn)是在软件编(biān)程没有设计到情(qíng)况下,机器人可能就会无所适从。据国外媒体1月6日消息,来自中(zhōng)国(guó)浙江大学和英国爱丁堡大(dà)学的一个联合研究小组称,他们开(kāi)发出了(le)更好(hǎo)的(de)方式来解(jiě)决这样的问题。
在最(zuì)近发表在(zài)《科(kē)学机器人》杂(zá)志上的一篇论文中,联合研究小组详细(xì)介绍了一(yī)种人工智能(néng)强(qiáng)化方法,他们用这(zhè)种方法让(ràng)自己的机(jī)器狗“绝影”学会如何走路和自主从跌倒中恢复过来。该团队表示(shì),他们(men)首先在模拟环境中通过软件(jiàn)训练虚拟机器(qì)人。这个软件由八名经过培训以掌(zhǎng)握特定技能的AI“专家”组成,例如,一个“专家”训练机器人(rén)流利的行走,而另一个训练机(jī)器人如(rú)何保持平衡。每次虚拟机器人成功完成一项任务时,团队都会以(yǐ)虚(xū)拟(nǐ)积(jī)分奖励它。这个过程听(tīng)起来(lái)与(yǔ)Google最近(jìn)用来训练MuZero算(suàn)法(fǎ)的方(fāng)法相同(tóng)。
当八种专项技能培训(xùn)完成后,研究团队(duì)开发了一(yī)个额外的神(shén)经(jīng)网络,有些类似(sì)于运动队(duì)伍中的总教练管理,它将管理其他八种专项技能,在特定的情况下,还(hái)会根据需要对一种或者多种技能进行优先排序。最后,研(yán)究团队(duì)会将软件(jiàn)移植到原型机器人上进行实际(jì)测试。
他们研(yán)究的目标是创造更(gèng)加智能化的(de)机器人(rén),这种机器人能够在行进中更加灵活地根据实(shí)际情况自适应选择技能,以便于(yú)处(chù)理未经训练(liàn)过的任务(wù)内容。目前,该团队面临的挑战之一是(shì)如(rú)何减(jiǎn)少模拟机器人训练所需要的(de)计(jì)算力,这样研究才(cái)更具有实用性价(jià)值。