2024年刚开年,机器人界就投掷了几个重磅炸弹,打响了开年第一枪。
无论是斯坦福Mobile ALOHA、DeepMind机器人技术三大进展,还是Figure 01机器人,都相继引爆社交媒体,将“机器人”在网络上的曝光度和讨论声量推上新高度。
一切是否预示着,我们真的来到了所谓的“机器人元年”?
斯坦福能炒菜会打扫的“全能管家”
家人们,谁懂干贝烧鸡、滑蛋虾仁、蚝油生菜对广东人的杀伤力啊!
那如果做出以上佳肴的是机器人,阁下又将如何应对?
只见机器人,一手锅一手铲,将去骨鸡腿肉煎至两面金黄,再加入干贝增香调味,并焖煮收汁,最后灵魂葱花一撒,一道诱人的干贝烧鸡就做好啦!(什么时候才能拥有能闻到味的手机,在线等挺馋的)
它不仅能炒菜,还能“收拾战场”,洗锅擦桌、整理橱柜全都得心应手,并且业务范围也不困于厨房的三寸之地,目光所及之处“全是活”。
浇花逗猫,洗衣折被……统统不在话下,甚至还能帮忙刮胡子!
“这不是我们梦寐以求的保姆机器人吗?”
一时间,不少网友为之惊艳,表示“眼里有活的机器人终于来了!”(让家长看见,不仅比不过叉烧,这回连机器人也比不过了)
这台名叫Mobile ALOHA的机器人,来自斯坦福大学由博士生Zipeng Fu、Tony Z. Zha和助理教授Chelsea Finn组成的研究团队。
研究论文中表示,Mobile ALOHA是一个低成本的移动操作平台,由移动基座、双手操作系统、传感器和摄像头组成,可以搜集机器人运动控制数据并加以训练。
研究团队发现,通过监督学习方法,Mobile ALOHA在观看人类示范同一个任务50次后,,就可以在复杂环境中学会移动操控任务,完成如叫电梯、开柜门等操作,成功率可高达90%。
Mobile ALOHA采用全模块化和开源设计,整体硬件成本只有32000美元(约合人民币22万元),其中移动平台成本只有7000美元,并配备14kg的电池供电,使机器人可以自主移动;而在“大脑”方面,英特尔RTX3070Ti芯片就足以支撑其运算。这相比许多专业机器人平台具有显著的价格优势,研究门槛大幅降低。
在视频爆火后,研究团队“自行打脸”,放出“翻车”视频,澄清Mobile ALOHA并非全知全能,目前还有很多能力需要人类远程操控,视频中的很多“极限操作“也是采用混合模式。
在Zhao放出失败集锦后,在鼓励大家关注原论文的同时也表示:“这可能是我迄今为止最喜欢的视频”,也有网友表示认同:“还怪可爱的!”(暂时不用担心被取代啦)
Mobile ALOHA视频一出,确实给了不少人震撼,让人感慨机器人的自动化已经发展到如此精细的程度,但它的“混动”其实也在意料之中。
一是依照现有技术,想让机器人完成如此复杂的完全自主运作,还需时日;而是主创团队也压根没想瞒的,只要细心一点就能发现,在不少镜头都出现了人工操控的身影,视频结尾也有出现机器人驾驶员的说明。
但很明显绝大多数人都被机器人前面的炫技吸引,没有将目光落到最后的细节,更不会去看项目网站和原论文。
英伟达科学家Jim Fan也在平台发文:我们距离拥有完全自主的机器人厨师或女仆还很遥远,但我对这项新研究依然感到振奋!
谷歌DeepMind的三大突破
在Mobile ALOHA发布同日,DeepMind从数据采集、决策速度、泛化能力方面,祭出三大研究进展“隔空对打”。
捡水果、从抽屉拿出可乐、摆牙刷……让机器人达成这些操作的是一个自动化数据收集系统AutoRT,以及加速决策速度的新模型SARA-RT。
研究人员花费7个月时间,利用AutoRT系统控制机器人完成任务,已经收集了涵盖7000次试验和6650个独特任务的多样化数据,可同时控制最多52台机器人,让机器人操作速度提高14%、准确度上升10.6%。
此外,还有一个主打泛化能力的新框架RT-Trajectory,通过解释机器人的具体动作,来帮助其深入理解如何完成一个任务,而不仅是简单匹配指令和动作,能让机器人面对41项从未见过的任务时,成功率高达63%。
在推出一系列重要系统进展的同时,谷歌DeepMind团队还起草了世界上第一部面向智能机器人的宪法。
其灵感来源于科幻小说家阿西莫夫的“机器人三定律”,主要核心是确保机器人不伤害人类。DeepMind为LLM模型设置了护栏,确保其生成的任务建议不涉及人类、动物、尖锐物品等不安全内容,同时编程限制机器人关节,并添加控制的物理开关。
之前围绕着AI伦理的讨论多集中在算法本身是否存在偏见等问题上,很少涉及AI尤其是具有物理形态的智能机器人应该遵循哪些道德规范。
首部机器人宪法体现了技术应该为人类服务的理念,而非单纯追求功能、效率。虽然作为第一步的尝试,这部机器人宪法还较为简单和原则,如何使其拥有更严密的逻辑体系,如何覆盖各种情形和伦理,还需要广泛讨论和不断完善。
但人类文明进步史,是一个不断学习、探索、犯错、修正的过程,当我们站在技术发展的新阶段,既然已经迈出第一步,其影响力就绝不会限于技术层面。
Figure 01看视频就能学会煮咖啡
这台Figure 01机器人,出自硅谷吸金力极强的Figure公司。
号称要做世界上第一台商业上可行的通用机器人的Figure,在去年先后完成共计7900万美元的融资(约合人民币566万元),股东阵容更是包括英伟达等明星企业。
继去年10月的初亮相后,Figure 01这次不“蹒跚踱步”了,而是煮起了咖啡!
Figure 01配备了端到端的AI系统,主要观看10小时人类煮咖啡的视频,就能完全自主地完成打开机盖、放入咖啡、按下冲泡按钮等步骤,中途遇到问题还会自我调试优化。
公司创始人表示视频速度没有经过任何加速,那这么看来Figure 01的操作速度和流畅程度还是十分可观的,甚至可以说令人惊喜。
若之后具备了强大的泛化能力,Figure 01能通过视频演示实现快速迁移学习,让机器人摆脱传统的编程模式,转向大数据和AI实现自主控制,极大优化人机交互。
结语
伴随着AI技术热度的持续升腾,人形机器人和通用机器人成为行业新风口,不仅众多高玩下场入局,国家也出台政策强势撑腰,俨然已成为机圈的新一代“流量王”。
据高盛预测,未来10至15年,机器人市场空间至少达60亿美元,而在最理想情况下,预计2035年机器人市场空间有望达1540亿美元。
然即便潜力在前,也奋力狂追,但凭现今的技术与市场,机器人离“走进千家万户”的目标差得不止一两步。
但Mobile ALOHA、DeepMind和Figure的最新成果,也为机器人行业提振了不少信心,让“机器人元年”也显得更加未来可期了一点。当这些先进技术,真正从实验室落到实地,融入生活,或许我们才将迎来真正的“机器人元年”。