多模态学习或将带来AI全新应用场景

2020-07-07来源: eefocus关键字:AI技术  人工智能  机器学习  多模态学习技术  微软

新的 AI 技术发展趋势有哪些?多模态学习技术一定是其中之一。

 

最近,刚刚宣布“自立门户”的微软 AI 明星产品小冰改名为“红棉小冰”。殊不知 2014 年诞生的这一个 AI 对话机器人已经在 5 年时间里更新到了第七代了,据称能力上正在“无限接近人类”。现在的小冰,不仅是那个会作诗的机器人了,她还会唱歌作曲、阅读朗诵、撰写新闻,甚至去年还办了一个虚拟 7 位画家的个人画展。多模态识别技术正是小冰越来越像人一样沟通表达的关键之一。

 

 

多模态技术同样也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺推出的“只看 TA”功能,优酷视频正在使用的视频帧、人脸帧的图向量检索,都离不开多模态识别技术的支持。而像京东淘宝等电商平台的“拍照购”、“拍立淘”的搜索技术背后也都是在计算机视觉技术下,使用了图像、文本和高层语义属性等多模态下的信息融合,才实现高精度的“以图搜图”功能。百度提出的“多模态深度语义理解”,则让 AI 实现从“看清听清”到“看懂听懂”的进化。

 

可以说,人工智能在通向人的智能的道路上,多模态学习就是一个绕不开的发展方向。因为人类本身就是一个多模态学习的典范。

 

现在,多模态学习技术正在带来众多全新的应用场景。关注 AI 技术和应用发展趋势的你,想必也想了解下多模态学习的来龙去脉,以及在这些新应用场景中的技术现状与问题。而这些问题也是本文重点探讨的内容。


“多模态学习”,正式认识下

模态(Modality),虽然不是我们的日常用语,但却十分容易理解。

 

我们每一天都会接触到各种不同来源和形式的信息。正如我们有视觉、听觉、嗅觉和触觉等,那么我们接触的信息就有视频、图像、文字、语音、味道、软硬度等,这每一种信息的形式就可以称作一种模态。

 

模态的范围要比我们的感知能力更宽泛。除了视觉、听觉获得的模态信息,我们也可以利用传感器获得诸如雷达、红外线等不同感应数据的模态信息。

 

 

此外,模态的类型定义也可以非常宽泛,比如我们可以把两种不同的语言当做是两种模态,把不同结构下采集的数据,也可以当做两种模态。比如,仅仅一个视频内容数据,就是一个高维度、多模态的数据信息,其中包含了标题、简介、评论、字幕等文本信息,也有视频帧的图像、声音,以及连贯动作视频片段的视觉、声音信息。

 

多模态学习,从上世纪 70 年代就已经起步,几经发展,现在正进入到机器学习特别是深度学习的阶段。通常称为多模态机器学习(Multi-Modal Machine Learning ,MMML),试图通过机器学习的方法实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。

 

当前,多模态学习主要研究方向有多模态表示学习、模态间映射,多模态对齐、融合、协同学习等。

 

多模态表示学习,研究如何将多个模态数据所蕴含的语义信息数值化为实值向量,通俗理解就是对多个模态的数据进行相关性编码,让不同模态建立起映射关系。按多模态表示共享的方式,主要分为公共表示学习和特异性表示学习,后者由于是分别学习不同模态的特征,可以应用于诸如零次学习、模态间映射、跨模态检索等任务中。

 

 

模态间映射,研究如何将某一特定模态数据中的信息映射至另一模态。例如,给定一幅图像,通过机器学习得到这副图像的描述,或者给定一段文字,生成一幅匹配的图像。类似于我们学习中遇到的“看图说话”和“以题作画”的问题。模态间映射早已可以应用于语音合成、图像视频描述以及跨模态检索等应用中。

 

此外,多模态对齐,主要研究如何识别不同模态之间的部件、元素的对应关系,以促进学习到的多模态表示更加精确,例如将电影画面、口型、语音、字幕的自动对齐;多模态融合,主要致力于不同模态间的模型与特征的整合,以获得更全面的特征,提高模型鲁棒性,并且保证模型在某些模态缺失时仍能有效工作;而多模态协同学习,主要考虑如何从信息丰富模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。典型的方法包括多模态的零样本学习、领域自适应等。

 

近两年,随着机器学习的模型的飞速进展,多模态学习中出现的映射质量问题、对齐的匹配度量以及融合噪声干扰等问题,都在实现很好的优化解决,为多模态的落地应用做好了准备。


多模态学习,正在丰富哪些应用场景?

通过以上解释可以知道,其实很多我们熟知的 AI 技术都可以归类到模态学习当中。比如,像机器翻译,通过输入的一种 A 语言即时翻译为另一种 B 语言,其实质就是一种模态之间的映射转化。类似的还有唇读识别和语音翻译,也就是分别将唇部视觉和语音信息转换为文本信息。

 

 

在图像识别中,会应用到一种“图片语义分割”,即尝试给图片的不同像素区域对应到每一种类型标签,实现视觉和词汇的对应。这就是多模态对齐在空间维度的应用。

 

当然,基于多模态数据的丰富表示以及映射、对齐和融合的应用,可以将目前 AI 的三种主要感知模态——语音交互、机器视觉、传感器智能进行多模态组合,产生全新的应用场景。

 

在语音交互上,“多模态深度语义理解”技术正在为其带来更深度的应用场景。

 

对于前几年的智能音箱,我们都有这样的感触,那就是语音交互只能完成简单的搜索,一旦多聊几句,就发现机器人要么只有万能的“套路”公式,要么就“答非所问”。这一问题的根源就是人工智能无法更好的理解对话者的深层涵义,也没有灵活的应答机制和内容。此外,也更难理解人的语气、情绪这类情感模态信息,当然因为没有视觉感知,更不可能去理解人的表情、动作、姿态等信息。

 

 

多模态深度语义理解可以极大改善这类语音交互的语义理解难题。比如,其中一个应用场景是智能汽车的数字座舱,正在从原本单一的车载语音识别,实现融合视觉、语音、车内外场景图像的多模态识别的转变。

 

在实际的语音交互中,车载智能助手不仅可以实现语音的识别,也可以通过摄像头识别人的表情神态、动作,比如识别疲劳驾驶、分心、发热等状况,以进行即时的语音提醒。语音交互也可以更加以人类的自然语言进行交互,而不必要使用生硬的指令型语言。

 

而在以机器视觉为主的应用中,多模态学习技术也带来新的应用可能。

 

以电商平台购物为例,用户的一大痛点就是看到一些“心水”的好物或者同款,但不知道名字,通过拍照识别和检索,将为用户提供最便捷的推荐服务。另外,在电商的智能客服,用户也希望能够通过简单对话或者发送图片、视频的方式处理订单问题。在这些场景中,跨模态检索和映射转化技术就得到了深度应用。

 

比如,在商品推荐和信息流广告中,就需要结合海量商品图像与对应的商品语义属性,学习图像语义特征表达,以提高符合用户需求的商品推荐度。而与智能客服进行的多轮对话中,融入视觉到语言的跨模态转换技术,可以自动实现对用户上传的图片或视频进行自动应答。

 

在传感器智能上,多模态识别技术可以应用到大量的物联网设备场景中。通过在大量的智能设备中增加视觉、温度、湿度和光线传感器,来实现多模态的智能交互。比如在智能空调中,加入语音交互、视觉识别指令,结合传感器判断屋内温度和湿度,可以根据屋内人数、位置等因素来实现更精准的控温方案。而现在更多智能大屏应用,也在将机器视觉、语音交互和一些智能传感器引入到智能硬件中,实现对屋内光线的调节、音量、观看者状态(离得是否太近,是否有未成年人)等因素的智能识别和调节。

 

 

而近期,华为推出的一款针对办公场景的智慧屏幕,可以根据视频会议中的发言对象进行视角跟踪,将摄像头跟踪、焦点人物识别和身份识别结合起来。

 

正如开始列举的,多模态学习技术更主要的应用还是集中在语音和视觉的多模态识别上。在爱奇艺的“只看 TA”的功能中,除了人脸识别要区分是真人还是卡通人物,还要对人体信息,甚至还有微表情、身体语言等识别,多模态技术成为视频场景中不可缺少的技术支撑。而在未来的聊天机器人或者智能助手上,多模态学习将帮助智能机器人综合处理图像、声音和文字信息,同时可以进行综合模态,甚至包括情感等特征信息的输出与表达。


技术尚在中途,未来仍需努力

不过,我们仍然需要指出的是,尽管多模态学习技术已经有诸多的应用场景,但其技术实现仍然有诸多不足,也会有一些场景仍然是“伪多模态”的技术应用状态,导致一些场景体验仍然不能“尽如人意”。

 

现在的多模态技术的结合多为“

[1] [2]
关键字:AI技术  人工智能  机器学习  多模态学习技术  微软 编辑:什么鱼 引用地址:http://news.eeworld.com.cn/qrs/ic502438.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:三星明年量产量子点OLED面板,将引领下一代高清技术
下一篇:注意,科创板第一个解禁洪峰即将来临

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

TWS抢占AIoT入口,哪项技术是关键?
;GX8002 采用了 MCU+NPU 架构,集成了国芯第二代自研神经网络处理器 gxNPU V200、平头哥 CK804 处理器等。经测试,该芯片在 VAD 待机模式下功耗低至 70μW,运行功耗为 0.6mW,支持多级唤醒,通过 NPU 能力,单芯片可实现语音唤醒、指令识别、AI 降噪、声纹识别等众多功能。  据了解,GX8002 超低功耗的背后,离不开两大技术突破——自研神经网络处理器 gxNPU V200 和自研硬件 VAD。与第一代神经网络处理器相比,第二代专门针对低功耗进行了优化,计算能效达到了普通 DSP 的 10 倍以上。支持 DNN/CNN/RNN 等各种模型,自动实现网络量化压缩
发表于 2020-07-29
TWS抢占<font color='red'>AI</font>oT入口,哪项<font color='red'>技术</font>是关键?
三菱电机开发场景感知技术,紧贴AI技术首次实现人类直观交互
据悉,三菱电机近日宣布,该公司开发了它认为是世界上第一项能够与人类进行高度自然和直观的交互的技术,其基础是将多模态传感信息转换为自然语言的场景感知能力。 这种新颖的技术,场景感知互动,融合了三菱电机的专利 Maisart。紧凑的人工智能技术,通过自然语言的生成,分析多模态感知信息,以实现与人类高度自然和直观的交互。 这次,作为适用于本技术的应用程序之一,构筑了人与车载机器用自然语言进行对话的路径向导系统。 图源:三菱电机 通过世界上第一个独特的 End-to-End 深层学习,实现人与设备的顺利沟通,端到端深度学习,只需输入和输出样本即可学习,采用摄像机拍摄的图像信息、麦克风
发表于 2020-07-27
三菱电机开发场景感知技术,紧贴AI技术首次实现人类直观交互
类脑智能或成迈向通用人工智能新可能
如今,第三次人工智能浪潮的兴起已经是一个不争的事实。我们知道这一次的人工智能浪潮不仅仅是一次技术的创新,更是一场产业的变革。机器学习,特别是深度学习等算法的突破、算力和数据的井喷,让 AI 技术已经广泛应用在社会生产生活的众多领域。 不过从这一轮 AI 变革的实质来看,深度学习算法依然是一种数据驱动的一种模拟计算,目前仅仅在语音、图像、文字识别等感知领域有着较强的应用,距离人类更加复杂的因果推理、假设联想等高级认知能力还有很远距离,甚至有着本质的差别。 在从当前弱人工智能通向强人工智能,以致于通用人工智能的道路上,学术界正在推动以类脑智能和类脑计算为方向的新的研究方向,来实现由弱到强的人工智能的升级。 
发表于 2020-07-23
类脑智能或成迈向通用人工智能新可能
AI进化论:由技术驱动到商业驱动,逆向创新深入上游芯片
到底是人类驯服了小麦还是小麦驯服了人类?在AI技术发展和商业落地两者的关系上,如今也呈现出同样的状态。李开复上周在世界人工智能大会上指出,过去几年来AI有一个特别大的转型,即从技术驱动变成商业驱动,其产业化和商业化速度越来越快,而AI创业已经从“AI+”推进到“+AI”时代。两者的区别在于,前者是以AI技术(AI工程师、科学家)为核心来寻找商业机会;后者是针对传统应用去产生价值,从而一定程度反过来影响上游技术的发展路径。在更上游的AI芯片领域,情况同样如此。“无芯片,不AI”已成为业界共识。市场调研公司Tractica的报告则显示,AI芯片的市场规模将由2018年的51亿美元增长到2025年的726亿美元,年均复合增长率达
发表于 2020-07-21
工信部:利用5G、AI、区块链技术,增强制造业产业链韧性
7月15日,工业和信息化部党组成员、副部长辛国斌主持召开《5G、AI等新技术在智能制造领域中的拓展应用研究》部重大软课题专家研讨会,就5G、AI、区块链技术与智能制造融合发展进行了研讨与交流。工信部消息显示,会议上,辛国斌分析了5G、AI、区块链技术与智能制造融合的发展脉络、应用场景和技术趋势,分类梳理了不同行业的典型案例,提出了融合发展的推进路径,对不断推动智能制造、加快制造业高质量发展具有重要意义。此外,辛国斌还强调,随着全球疫情快速蔓延,制造业产业链、供应链稳定性受到不同程度影响,应发挥智能制造强大成长潜力,充分利用5G、AI、区块链技术后发优势,不断增强制造业产业链韧性。
发表于 2020-07-17
Rimac推出AI技术“驾驶教练” 为驾驶员开车/提供最佳驾驶体验
想象一下,你拥有一辆超级跑车,可以开着去参加当地的超跑聚会,或者周末开着它旅行,但是却无法让它发挥最大的性能。但是你又没有时间去参加高性能驾驶课程,为此,Rimac想出了一种方法,让顾客可以与车进行交流,交流方式并不是语音指令或数字化助手,而且真实的反馈和鼓励信息。据外媒报道,Rimac自动驾驶部门首创了一种人工智能技术——驾驶教练(Driver Coach),可以分析大量数据,为驾驶员提供让车辆发挥最佳性能的方式。此外,还能够为驾驶员开车。(图片来源:motor1.com,车型:Rimac C_Two)Rimac即将推出的C_Two车型马力达1887匹,百公里加速时间不到2秒,在不会开车的人手中可能会导致很多麻烦
发表于 2020-07-15
Rimac推出<font color='red'>AI</font><font color='red'>技术</font>“驾驶教练” 为驾驶员开车/提供最佳驾驶体验
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved