从感知到交互,多模态协同到底离我们有多远

发布者:雅逸之风最新更新时间:2018-04-23 来源: eefocus关键字:AI  物联网  交互 手机看文章 扫描二维码
随时随地手机看文章

技术这个事情,很多时候不是一蹴而就的。

 

更多时候,是大家先看到了一个东西非常美好,结果左发展右发展也发展不起来,在吃瓜群众们兴奋地送上一首《凉凉》之后,搞不好哪天却突然一个胜负手抛出来,一切又都不一样了。

 

 

曾经的移动通讯、触屏交互莫不如是,今天的3D打印、VR说不定也在重复这个套路。更明显的可能是物联网。这个我们念叨了好多年,虽然也一直在发展,但始终没有大热的技术,到底在等待什么呢?

 

等待AI?但是音箱刮过一阵语音交互的风潮之后,IoT设备搭载语音控制模块也火了起来。可是直到今天,我们好像发现物联网还是那个物联网,基本没什么变化。

 

让我们往更深层开个脑洞,“AI of Things”在等待的,可能不仅是语音交互,而是耳目鼻口耳协同工作的多模态AI交互。

 

你不温柔,我不主动:为什么我们始终远离IoT?

 

 

首先我们要搞懂一件事:为什么给设备联网的方案推行了这么多年,我们身边,包括工业和工程领域,真正用到的物联网设备还是没有多少?

 

答案在于,光给机器设备联网是没用的。你家的桌椅板凳又不想聊微信逛淘宝看快手,它们要网作甚?

 

人最终需要的是服务,所以设备仅仅联网是没用的,联网之后必须能干点什么才行。这就需要两件事情:

 

人与设备可交互;

 

2. 设备能够感知到人的需求。

 

在触屏、键盘和手机集成遥控模式,都被证明太麻烦之后,物联网开始把目光投向了能够提供自然交互与感知能力的AI。

 

机器能够听懂人类说话,并且产生对话并提供服务,似乎某种意义上从源头解决了物联网设备缺乏实际价值的尴尬。于是我们见到了越来越多搭载语音交互平台,能够实现对话的物联网设备。从电视、冰箱到家居设备,再到各种终端不胜枚举。

 

但实践下来发现,这种模式问题还是不少:

 

比如语言控制不如屏幕控制那么精准,很多时候会误判指令和错误唤醒,比较语言充满了不确定性;

 

再比如,语音交互的物联网设备还是缺乏主动服务的能力,只是换了操作方式而已,用户体验没有本质提升。

 

仅仅是“能听”,并且还经常听错的物联网设备,就像是两个人谈恋爱,其中一方从来不看你,不会知冷知热、嘘寒问暖,还经常搞错对方的意思,那另一方当然表示我懒得理你……

目前来看,把按钮换成了语音命令平台,隐藏的不确定性太多,而实际价值太少,很难成为物联网爆发的真正依托。

 

这种“你不温柔我不主动”的人机关系究竟怎么改变呢?

 

答案也许是让机器能够听和说之外,还要能看,能感觉,甚至能将五感联系到一起进行思考。

 

感知到交互:机器的五感俱全

所谓“模态modality”,是德国生理学家赫尔姆霍茨提出一种生物学概念。即生物凭借感知器官与经验来接受信息的通道,比如人类有视觉模态、听觉模态等等。

 

后来这个概念引申到人文科学领域,成为哲学和文学上的一种话语批评方式;而来到机器人和计算机科学领域,就成了机器与物理世界联系的通道。

 

假如我们把“模态”通俗地理解为感官,那么智能音箱就是只具备听觉模态的物联网设备,而加载AI分析能力的摄像头可以视为视觉模态的物联网设备。把听觉、视觉甚至更多模态组合到一起,多模态物联网也就诞生了。

 

事实上,在AI研究当中多模态转换是非常普遍的课题。比如一个很出名的AI研究方向是让智能体根据看到的某张图片来生成文字(也有看到文字生成图片和视频的),这就是让AI模型完成在视觉和语义之间的模态转换。

 

运用到物联网设备当中,今天主要的AI感知模态有三种:

 

语音交互,包括语音指令控制、语义理解、多轮对话、NLP、语音精准识别等领域;

 

2. 机器视觉,包括自然物体识别、人脸识别、肢体动作识别等;

 

3. 传感器智能,包括AI对热量、红外捕捉信号、空间信号的阅读与理解。

 

把这三种东西融合在一起,物联网设备就可以在单纯的能听会说之外,同时还用摄像头观察、用传感器判断。而比较前沿的多模态感知研究当中,还包括机器嗅觉,机器触觉和情绪理解等内容。

 

我们在等待的下一代物联网设备,很可能诀窍就是把这些模态给揉在一起,完成从多模态感知到多模态交互的体验。用一句我们十分熟悉的话说,就是要让机器身上的五感“生态化反”……

 

今天让人乐观的多模态交互型IoT

 

又能听,又能看,又有传感器的设备,听上去似乎有点过分乐观了。但好在综合了较多采访与观察之后,我们发现今年确实是值得为多模态物联网设备乐观一下的时候。

 

可以看到,很多双模态交互,甚至多模态混合交互的解决方案都在从实验室里走出来,甚至已经可以在我们生活中看到。这些解决方案更重要价值是作为案例,可以让更多企业、开发者和垂直行业看到多模态物联网的可复制价值。

 

举例来说,离我们最近的多模态AI交互技术投射在物联网设备上,大概就是用机器视觉技术进行嘴唇识别,来分离语音交互指令。我们可以看到很多实验室和科技公司,都在尝试用机器视觉来读取说话人的唇语和动作,从而判断每个声音指令的来源。

 

这种技术已经在国内被运用到地铁售票解决方案中,通过机器视觉来识别买票人,从而在地铁站的嘈杂环境中完成语音售票。

 

另一个我们能看到的例子是空调。在一些新的智能空调解决方案中,空调会在语音交互的基础上通过机器视觉来判断用户的位置,提供智能送冷,并且会结合传感器判断屋内温度和湿度,提供更精准的环境方案。

 

同样是在家电上,今年电视背后的AI平台战打得风生水起,把机器视觉技术引入电视成为了新的趋势。通过机器视觉来让电视观察屋内照明情况、用户与电视的距离,电视可以主动调节屏幕光线强度,输出比较护眼的模式。还有的AI应用是让电视在观察到儿童看电视后主动开启童锁。

 

在日常生活之外,多模态交互设备也在应用于工业设备中。比如通过给机器设备搭载机器视觉+传感器提供安全警告,以及利用机器视觉+故障信号的方式判断设备问题等。

 

把不同信号模态整合在一起,实现设备的多维感知,今天正在以比较快的速度来到应用市场。

 

高精度判断用户命令,输出主动服务;提供实时化、弹性化的体验,可以说是AI带来的多模态交互技术放进物联网世界中的一张鬼牌。

 

当然了,还是有几道难关……

 

按照惯例,最后我们还是要正视任何技术都存在不足。刚刚有一点萌芽的多模态交互+物联网当然也不例外。

 

最核心的一个问题,是我们到底靠什么实现多模态协同?

 

目前来看,无论是家电还是工业设备,实现多模态混合的主要方式还是把不同的传感源输入到设备处理中心,启动一定程序来开启相应服务。

 

换句话说,AI模型本身是没法理解多模态信号的,只是不同的算法启动不同的开关而已。这种“伪AI多模态”的设备也不是不行,只是在实时化和复杂的推理判断上会有心无力。

 

解决方案可能是一种叫做“多模态深度学习”的技术,让AI智能体本身能够理解多模态信号,从算法本身就容纳听觉、视觉、传感信号进行统一思考。这样可以保证设备高度实时化,并且可以让设备进行多模态协同学习,真正地“聪明”起来。

 

这要求在算法上对多维度数据的各自表示、融合、对齐有新的突破,今天我们还只能等待学术界的好消息。

 

另外一个问题,是今天的多模态交互缺少有效的开发平台,开发者和企业很难复制这一模式,来进行独立的物联网解决方案开发。当然,目前来看这应该仅仅是个时间问题。

 

与之相对应的,是在缺乏行业标准、开发基础的前提下,今天开发一个多模态物联网项目需要大量的人才成本和综合开发成本。并且缺少芯片、专用传感器等后端硬件的支撑。这个领域国内有一些芯片和算法公司,但似乎大部分处在做PPT的画饼阶段。

 

综合来看,AI带来的多模态想象力,大概确实可以完成一些物联网很早就希望实现的东西。但方兴未艾的产业局势,还需要巨头搭建平台、优质案例出现、开发者路径明确等几个环节才能开启下一轮风口。

 

但无论如何,耳聪目明的机器,已经在跑步过来的路上了……


关键字:AI  物联网  交互 引用地址:从感知到交互,多模态协同到底离我们有多远

上一篇:习近平: 互联网核心技术受制于人是我们最大的隐患
下一篇:没有“高帽”人才,这家小公司怎么把AI技术搞进软银的系统

推荐阅读最新更新时间:2024-05-03 02:47

争食物联网商机大饼 半导体厂十八般武艺尽出
    半导体厂新一波物联网投资及产品攻势全面迸发。为争抢物联网商机,国际晶片及IP大厂正拼尽全力研发新一代兼具高性能与省电特色的半导体解决方案;同时更纷纷祭出银弹攻势,大举购并宽频通讯、蓝牙和记忆体IC厂,以凑齐物联网潜力技术阵容,足见各家厂商皆已使出十八般武艺,圈地市场版图。 物联网(IoT)应用跃居半导体产业技术布局新焦点。随着物联网刺激穿戴式装置、巨量资料(Big Data)等应用需求涌现,全球半导体厂商逐渐转为发展先进逻辑(Logic)制程,以及低功耗/嵌入式记忆体等特殊制程双线并进的策略,以拓展物联网系统单晶片(SoC)技术;与此同时,国际IC大厂也相继藉由收购方式,展开垂直或水平供应链整合,期弥补不足的通讯、储存和
[手机便携]
摇滚机器人:白色条纹乐队的AI辅助视觉交响乐
地下动画师 Michael Warlla 顽皮地将艺术和技术融合在一起,使用 技术为白色条纹乐队(The White Stripes)歌迷心目中的神曲《Black Math》注入了新的活力。 该作为庆祝开创性的专辑《Elephant》发行 20 周年而发布。 作为一名漫画师和动画师,Wartella 以风格迥异的作品而闻名。 他在布鲁克林开设的 Dream Factory Animation 工作室将数字和实用动画技术与 AI 生成图像相结合,制作出了这个“Black Math”视频。 Wartella 表示:“这首歌已经有 20 年的历史了,我们想让它焕然一新,同时保留经典白色条纹乐队视频的
[机器人]
JFrog 携手Qwak打造安全的 MLOps 工作流,加速AI应用程序批量化交付
全新原生集成助力企业借助端到端软件供应链的可视性、治理和安全性,高效地交付 ML 应用程序 2024年3月5日 —— 流式软件公司、 JFrog 软件供应链平台的缔造者JFrog ,近日宣布与全托管机器学习(ML)平台Qwak进行全新技术整合,将机器学习模型与传统软件开发流程相结合,以简化、加速和扩展ML应用的安全交付。 JFrog战略执行副总裁Gal Marder 表示:“目前,数据科学家和ML工程师正在使用大量不同的工具来发布成熟的模型,而这些工具大多与企业内的标准 DevOps 流程脱节。这不仅拖慢了MLOps流程,有损安全性,还增加了构建AI应用的成本。以Artifactory和Xray为核心的JFrog
[工业控制]
JFrog 携手Qwak打造安全的 MLOps 工作流,加速<font color='red'>AI</font>应用程序批量化交付
蓝牙技术联盟发布最新环境物联网市场研究报告
该环境物联网研究报告预测了物联网的发展演变和市场增长趋势 北京,2024年3月6日—— 负责监管蓝牙技术的行业协会蓝牙技术联盟(SIG)近日发布了中文版市场研究报告《环境物联网:一种新型蓝牙物联网设备》 ,深入分析了这种新型物联网设备。 环境物联网——物联网设备的全新发展 环境物联网是指一类新型物联网设备,它们利用无线电波、光、位移和热等环境能源作为主要动力源。环境物联网通过“能量采集”减少维护,解决了阻碍物联网发展和普及的供电限制问题。环境物联网能够大规模地部署在具有挑战性的安装地点,为行业带来新的发展机遇。 图1:环境物联网的定义属性、物联网硬件发展和应用(来源:ABI Research) 低功耗蓝牙——
[网络通信]
蓝牙技术联盟发布最新环境<font color='red'>物联网</font>市场研究报告
保险业中五个创新议题:大数据、物联网AI、无人机、区块
多年来,保险的目的一直保持不变,但其技术和流程方面却不断新创改变着该领域。自从1666年伦敦大火之后,第一家火灾保险公司成立以来,保险业几乎没有什么变化。 而保险的目的,是以保护人们免受经济的影响,但是最新的创新将会改变市场的运作方式,并对保险公司、经纪人和客户的利益产生影响。 大数据 大数据,保险公司使用越来越多的信息来源,以深入了解其所涉及的风险,具有庞大的好处。而除了更准确的承销和定价,也能更深入地了解客户,进而推动更多的个性化产品开发和营销。 而客户享受更平稳的保险申请流程,且保险公司不是从客户方面得到数据信息,则是从其他来源提取详细信息,进而节省时间并减少麻烦,使经纪人能够与客户共度更多的时间。但能有
[网络通信]
视比特机器人核心产品 | AI机器视觉柔性在线检测专机
在生产制造过程中,大规模、多品种的零件装配很容易发生混装、错装、漏装、人为跳步等现象而导致整个产品不合格,因零件错装漏装引发的安全事故或召回事件时有发生。零部件产线自动化量产的同时,如何高效防错、避免不良品流向市场? 视比特机器人自主研发的AI机器视觉柔性在线检测专机,已帮助全球数十家汽车主机厂、零部件厂商实现零件错漏装的柔性、高效检测,有效提升了产品质量管控水平。 1.零部件装配与检测痛点分析 零件装配质量管控难 零部件装配具有多品种、大批量、工艺过程复杂等特点,易出现错装、漏装、多装、跳工序等异常情况,品质管控难度大。 人工检测效率低 目前市场上错漏装检测主要依赖人工,耗时长、效率低,难以准确高效地识别
[机器人]
微软将推出第二代AI处理器 争夺AI行业领导权
【AI世代编者按】外媒报道,微软将于周一发布第二代HoloLens全息处理器,即一款新的AI处理器。这种AI处理器将使HoloLens能够实时分析看到的和听到的内容,而不必将数据传输到云端来处理。 科技公司热衷于让手机和增强现实设备具备AI功能。但是,这些公司面临一个很大的挑战:如何管理海量数据,以使AI功能在这些设备上成为可能,同时又不至于使设备运行速度变得太慢或者在几分钟内耗尽电池。 微软最近宣称,该公司已经找到了应对方案。微软为其HoloLens护目镜设计了一款芯片——一款新的AI处理器,能够在设备上实时分析用户看到和听到的内容,而不必将这些数据发送至云端,这样就可以节约宝贵的时间。 这款新的处理器是微软全息处理器(Holo
[半导体设计/制造]
物联网安全不容忽视 嵌入式系统亟需优化
导语:安全技术专家布鲁斯-施奈尔(Bruce Schneier)在《连线》上撰文称,嵌入式系统是物联网的核心技术。物联网在将计算技术带入与人类生活密切相关领域的同时,也向外界敞开了大门,增加了外部攻击的风险。 全文如下: 安全隐患 嵌入式系统是物联网的核心技术。所谓嵌入式系统,就是被嵌入硬件之中的计算技术,从广义上来说就是计算机系统。 与PC这样的通用计算机系统不同,嵌入式系统通常只针对某一特殊任务,其核心是由一个或几个预先编程好用来执行少数几项任务的微处理器或单片机组成。因此,设计人员能够对其进行优化,减小尺寸或降低成本,厂家也通常进行大量生产。 但问题是,当物联网将计算技术带入与人类生活密切相关的领
[物联网]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved