ChatGPT给机器狗开窍,Spot开口说话啦!
作为波士顿动力的「当红炸子鸡」,机器狗Spot每次登场都能狂刷眼球,掀起讨论热潮,「狗界顶流」的统治力可见一斑。
毕竟谁能拒绝一只会巡逻、会搬砖、会跳舞、还会卖萌的可爱狗狗呢?虽然波士顿动力的技术力大家都有目共睹,但若给Spot装上一个像ChatGPT这么聪明的大脑,对你说「可以开始我们的旅程了吗?」,阁下又将如何应对?
今天,波士顿动力官网发布爆炸性新闻:摒弃卖萌「主业」,商业化取得突破进展的Spot,不仅拥有了导游的新身份,还在ChatGPT的加持下,从只能用肢体表达的「哑巴小狗」,摇身一变成能主动与人对话的智能「究极机器狗」。
01 Spot机器狗超进化
机器狗当导游,多新鲜呐。
在波士顿动力发布的最新视频中,Spot头戴黑色小礼帽,留着小胡子,用低沉的英伦腔发出邀请:「请跟我来!」,然后迈着矫健的步伐,领人参观公司设施。
四处转悠的同时,Spot的「嘴巴」也没停过,会在关键之处为你讲解,并且还能消化参观者抛出的问题。
当你提问:「Hey,Spot!你看到了什么?」
它会迅速做出反应:「我看到了一块二维码的板子,还有一扇很大的窗户。」 并且还能玩一些新奇的「cosplay」:
变身莎士比亚时代的旅行者
化身19世纪的考古学家
也能如诗人一般出口成章,作出这样富有哲理诗句:发电机在沉闷的房间里发出嗡嗡声响。就像我的灵魂。Generator hums low in a room devoid of joy. Much like my soul.
02 会聊天的机器狗是如何炼成的?
让一个哑巴开口说话,几乎是天方夜谭;但想让机器狗学会说话,却没想象中那么困难。
硬件:语音模块
想要让一只机器狗能够「说话」,首先需要为它配备语音合成与识别的硬件设备。
波士顿动力团队为Spot安装了一个扬声器,同时也给它添加了语音传感器,用来接收外界语音指令,这就像给机器狗装上了「耳朵」和「嘴巴」,使它拥有了听觉输入和语音输出的通道。
1 – EAP2;2 – 扬声器V2;3 – 蓝牙扬声器;4 – 点臂和抓手相机
硬件系统为机器狗「说话」提供了必要基础,但真正让它会说话的,还需要强大的语言理解生成算法加持。
软件:ChatGPT大脑赋予语言逻辑
当语音模块就位后,研究团队使用ChatGPT以及其他开源LLM大模型来进行数据训练,为机器狗装上了强大的语言处理「大脑」,让它获得了交互的灵魂,是让Spot成功「说话」的关键所在。
具体来说,大模型一方面负责将识别到的语音指令转换文本,让Spot解析指令意图另一方面,能将Spot的文本反馈,转换成流畅自然的语音输出。
借助ChatGPT,充分掌握语言技巧的Spot可以与人类进行无障碍的实时交流。
此外,为了让Spot与环境交互,波士顿还集成了VQA技术,使Spot可以自动分析摄像头画面,生成对景物的文字描述,从而「看图说话」。
Spot SDK实现软硬件结合
语音模块和ChatGPT算法本身并不能让机器狗自动说话,它们仍需在一个具备环境感知和运动能力的物理平台上进行整合,也就是Spot本体。
团队为Spot编写了一个关于公司环境的脚本,将重要坐标进行标注,例如1是实验室,3是博物馆。
接着再为Spot装配上3D感知与定位系统,让它可以自主在工作环境中进行移动和定位,通过摄像头可以拍摄周围景物,并配合VQA技术实现环境理解,再为具体的详细坐标打上标题。
利用一些模型经过反复训练后,Spot就可以对公司整体布置「了然于心」,可以正式上岗了。
03 一些小惊喜
前面,我们探讨了ChatGPT如何赋予Spot机器狗说话的能力,以及这个过程中的技术原理。
然而在研发团队的实际交互测试中,他们发现了一些意想不到的小惊喜,Spot已经具备作简单决策的自主能力。
例如当被问「Marc Raibert是谁?」,面对陌生的名字,Spot的CPU并没有被干烧了,而是会当机立断:「我们去问服务台吧!」
你随口的一句「口渴了」,也会被它放在心上,亲自帮你领到咖啡柜前,并为你介绍:「我们这里有小吃店和咖啡机。这是我们的人类同时补充能量的地方。请随意补充水分、给自己充能,就像我们机器人在基站里所做的那样。」
如果你想见见它的「父母」,它会把你领到机器人展示厅,给你介绍它的「前辈」。
ChatGPT加持下的Spot,已经超越了被动执行指令的机械阶段,并且还会主动向同行者提问:「你见过神秘生物吗?」来活跃气氛,具备了某些人类才具有的独特「个性」。
04 结语
以ChatGPT为首的大语言模型到底有什么意义,为什么被视为足以推动时代进程的又一「魔法」?
ChatGPT诞生之处,虽然展现出了惊人的语言理解和生成能力,但彼时的人们普遍都认为其只是一个单纯的文本生成工具。而随着ChatGPT以惊人的速度飞速发展,人们发现大模型可以写文章,可以写代码,可以画图,可以剪视频……几乎可以做人类所能做的一切工作。
也在这时,警报惊响,人们开始担心是否会被AI取代,开始讨论AI的红线到底在哪?
但无论如何,从目前的现状来看,AI发展是利大于弊的,并且其发展已成为了不可扭转的时代趋势。就Spot而言,ChatGPT的使用,让机器狗实现从命令行到图形,再到语音的人机交互模式优化升级,不仅大大降低了机器人的使用门槛,更提高了其智能上限。
展望未来,AI技术将赋能更多智能交互设备革新,推动全产业智能化发展。
所以,哪怕现在的Spot有一些缺陷,「人工智障」的情况仍然存在,人们也依然觉得「未来可期」。因为当前,我们正站在人工智能与机器人技术的交叉点上,机器人为我们提供了一种在现实中「落地」大模型的绝佳方法,尝试、挫败、改进在所难免。
改革锣鼓已响,未来的「AI+机器人」能发展到什么地步?我们拭目以待。
- LTC1728ES5-1.8 单电源监视器与其他禁用的典型应用
- 具有电源良好状态的 LT3976IUDD 5V、2MHz 降压转换器的典型应用电路
- 使用 LTC3639IMSE 高效 100 mA 降压稳压器的典型应用
- OM13074: 面向LPC11U37H的LPCXpresso电路板
- STEVAL-ILL066V1,使用 STLUX385A MCU 的 100W LED 路灯评估板
- ADR5045B 5V 输出精密微功率并联模式电压基准的典型应用,适用于 ±15V 输出,采用堆叠式 ADR5045 器件
- OP113ESZ 单电源应变计放大器的典型应用
- 大道至简 书法(PCB版本)
- 禁用看门狗的 LTC2938IMS 四电源监视器的典型应用电路
- AD8604ARZ放大器光电二极管电路的典型应用
- AMD推出第二代Versal Premium系列产品:首款PCIe 6.0和CXL 3.1的SoC FPGA
- 红帽宣布达成收购Neural Magic的最终协议
- 5G网速比4G快但感知差!邬贺铨:6G标准制定应重视用户需求
- SEMI报告:2024年第三季度全球硅晶圆出货量增长6%
- OpenAI呼吁建立“北美人工智能联盟” 好与中国竞争
- 传OpenAI即将推出新款智能体 能为用户自动执行任务
- 尼得科智动率先推出两轮车用电动离合器ECU
- ASML在2024 年投资者日会议上就市场机遇提供最新看法
- AMD将裁员4%,以在人工智能芯片领域争取更强的市场地位
- Arm:以高效计算平台为核心,内外协力共筑可持续未来