ChatGPT变「狗」了?波士顿动力机器狗妙语连珠,网友:有内味了!

发布者:EtherealJourney最新更新时间:2023-10-30 来源: OFweek机器人网作者: Lemontree 手机看文章 扫描二维码
随时随地手机看文章

ChatGPT给机器狗开窍,Spot开口说话啦!

作为波士顿动力的「当红炸子鸡」,机器狗Spot每次登场都能狂刷眼球,掀起讨论热潮,「狗界顶流」的统治力可见一斑。

毕竟谁能拒绝一只会巡逻、会搬砖、会跳舞、还会卖萌的可爱狗狗呢?虽然波士顿动力的技术力大家都有目共睹,但若给Spot装上一个像ChatGPT这么聪明的大脑,对你说「可以开始我们的旅程了吗?」,阁下又将如何应对?

今天,波士顿动力官网发布爆炸性新闻:摒弃卖萌「主业」,商业化取得突破进展的Spot,不仅拥有了导游的新身份,还在ChatGPT的加持下,从只能用肢体表达的「哑巴小狗」,摇身一变成能主动与人对话的智能「究极机器狗」。

01 Spot机器狗超进化

机器狗当导游,多新鲜呐。

在波士顿动力发布的最新视频中,Spot头戴黑色小礼帽,留着小胡子,用低沉的英伦腔发出邀请:「请跟我来!」,然后迈着矫健的步伐,领人参观公司设施。

四处转悠的同时,Spot的「嘴巴」也没停过,会在关键之处为你讲解,并且还能消化参观者抛出的问题。

当你提问:「Hey,Spot!你看到了什么?」

它会迅速做出反应:「我看到了一块二维码的板子,还有一扇很大的窗户。」

并且还能玩一些新奇的「cosplay」:

变身莎士比亚时代的旅行者

化身19世纪的考古学家

也能如诗人一般出口成章,作出这样富有哲理诗句:发电机在沉闷的房间里发出嗡嗡声响。就像我的灵魂。Generator hums low in a room devoid of joy. Much like my soul.

02 会聊天的机器狗是如何炼成的?

让一个哑巴开口说话,几乎是天方夜谭;但想让机器狗学会说话,却没想象中那么困难。

硬件:语音模块

想要让一只机器狗能够「说话」,首先需要为它配备语音合成与识别的硬件设备。

波士顿动力团队为Spot安装了一个扬声器,同时也给它添加了语音传感器,用来接收外界语音指令,这就像给机器狗装上了「耳朵」和「嘴巴」,使它拥有了听觉输入和语音输出的通道。

1 – EAP2;2 – 扬声器V2;3 – 蓝牙扬声器;4 – 点臂和抓手相机

硬件系统为机器狗「说话」提供了必要基础,但真正让它会说话的,还需要强大的语言理解生成算法加持。

软件:ChatGPT大脑赋予语言逻辑

当语音模块就位后,研究团队使用ChatGPT以及其他开源LLM大模型来进行数据训练,为机器狗装上了强大的语言处理「大脑」,让它获得了交互的灵魂,是让Spot成功「说话」的关键所在。

具体来说,大模型一方面负责将识别到的语音指令转换文本,让Spot解析指令意图另一方面,能将Spot的文本反馈,转换成流畅自然的语音输出。

借助ChatGPT,充分掌握语言技巧的Spot可以与人类进行无障碍的实时交流。

此外,为了让Spot与环境交互,波士顿还集成了VQA技术,使Spot可以自动分析摄像头画面,生成对景物的文字描述,从而「看图说话」。

Spot SDK实现软硬件结合

语音模块和ChatGPT算法本身并不能让机器狗自动说话,它们仍需在一个具备环境感知和运动能力的物理平台上进行整合,也就是Spot本体。

团队为Spot编写了一个关于公司环境的脚本,将重要坐标进行标注,例如1是实验室,3是博物馆。

接着再为Spot装配上3D感知与定位系统,让它可以自主在工作环境中进行移动和定位,通过摄像头可以拍摄周围景物,并配合VQA技术实现环境理解,再为具体的详细坐标打上标题。

利用一些模型经过反复训练后,Spot就可以对公司整体布置「了然于心」,可以正式上岗了。

03 一些小惊喜

前面,我们探讨了ChatGPT如何赋予Spot机器狗说话的能力,以及这个过程中的技术原理。

然而在研发团队的实际交互测试中,他们发现了一些意想不到的小惊喜,Spot已经具备作简单决策的自主能力。

例如当被问Marc Raibert是谁?」,面对陌生的名字,Spot的CPU并没有被干烧了,而是会当机立断:「我们去问服务台吧!」

你随口的一句「口渴了」,也会被它放在心上,亲自帮你领到咖啡柜前,并为你介绍:「我们这里有小吃店和咖啡机。这是我们的人类同时补充能量的地方。请随意补充水分、给自己充能,就像我们机器人基站里所做的那样。」

如果你想见见它的「父母」,它会把你领到机器人展示厅,给你介绍它的「前辈」。

ChatGPT加持下的Spot,已经超越了被动执行指令的机械阶段,并且还会主动向同行者提问:「你见过神秘生物吗?」来活跃气氛,具备了某些人类才具有的独特「个性」。

04 结语

以ChatGPT为首的大语言模型到底有什么意义,为什么被视为足以推动时代进程的又一「魔法」?

ChatGPT诞生之处,虽然展现出了惊人的语言理解和生成能力,但彼时的人们普遍都认为其只是一个单纯的文本生成工具。而随着ChatGPT以惊人的速度飞速发展,人们发现大模型可以写文章,可以写代码,可以画图,可以剪视频……几乎可以做人类所能做的一切工作。

也在这时,警报惊响,人们开始担心是否会被AI取代,开始讨论AI的红线到底在哪?

但无论如何,从目前的现状来看,AI发展是利大于弊的,并且其发展已成为了不可扭转的时代趋势。就Spot而言,ChatGPT的使用,让机器狗实现从命令行到图形,再到语音的人机交互模式优化升级,不仅大大降低了机器人的使用门槛,更提高了其智能上限。

展望未来,AI技术将赋能更多智能交互设备革新,推动全产业智能化发展。

所以,哪怕现在的Spot有一些缺陷,「人工智障」的情况仍然存在,人们也依然觉得「未来可期」。因为当前,我们正站在人工智能与机器人技术的交叉点上,机器人为我们提供了一种在现实中「落地」大模型的绝佳方法,尝试、挫败、改进在所难免。

改革锣鼓已响,未来的「AI+机器人」能发展到什么地步?我们拭目以待。

引用地址:ChatGPT变「狗」了?波士顿动力机器狗妙语连珠,网友:有内味了!

上一篇:清洁的寒冬迎来AI大咖入局,是春暖花开还是低位套牢?
下一篇:工业“慧”眼,机器视觉新浪潮

小广播
最新机器人文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关:

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved