麻省理工新型AI技术融合了语音和物体识别技术-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

麻省理工学院的研究人员已经创建了一个新的人工智能程序，它不仅能够同时识别图像和语音中的物体，而且还能积极地将两者结合起来，从而更有效地理解和利用两者。这个人工智能程序可以分析带有音频标题的图像，然后把这两个资源放在一起，然后找出哪个对象对应于标题的哪些部分。它在测试中通过突出显示图像区域和对象来演示这一点，而它们是由标题描述的。根据该项目的研究人员的说法，这比传统的语音识别或图像识别训练更自然、更有机。从本质上讲，人工智能正在像人类一样学习，这将使它更加灵活，从而在未来更有能力。

这个人工智能程序实际上是一个以前的模型的扩展，它能够将单词和短语与图像的主题集合相匹配，比如颜色和原型。该模型使用两个卷积神经网络，分别处理语音输入和图像输入，然后一个更高的层组合这些神经网络并构建关联。研究人员向模型展示了正确和不正确的关联，以帮助它学会识别或缺乏联系。

这个项目的意义是相当大的，而且是显而易见的。这一发现不仅可以在未来的模型中实现更快的语音识别和图像识别AI训练，还将为基于卷积神经网络的人工智能铺平道路，这种神经网络不仅在结构上模仿人类的大脑，而且在学习方法上也是如此。理论上,这将打开通往诸如人工智能与常识,知道它是不好开车的悬崖,或人工智能识别和适当应对人类情感,如知道一个哭泣的孩子可以通过做或说一些安慰孩子变成破涕为笑。改进的基于人工的翻译也是一种可能，因为人工智能有可能在同一时间内，在相同的材料上学习单词和其他语言的对等物，即使在没有足够的语言转录语言来进行传统的语音识别或翻译训练时也是如此。

关键字：人工智能程序语音识别图像识别引用地址：麻省理工新型AI技术融合了语音和物体识别技术

上一篇：蓝牙NFC等技术在门禁上应用各有何特点？
下一篇：自研芯片吹响号角安防厂商为何纷纷入局？

推荐阅读最新更新时间：2024-03-16 11:30

支持向量机语音识别算法在OMAP5912上的移植

　　随着语音识别和语音合成技术的不断更新与发展，将语音识别技术应用于嵌入式产品中已得到广泛应用。SVM(支持向量机)作为统汁概率模型已经被证明是一种很好的识别模型。OMAP5912处理器是由TI公司的TMS320C55X 型DSP内核与低功耗、增强型ARM926EJ-S微处理器组成的双核应用处理器。ARM核可满足控制和接口方面的需要，DSP核以其低功耗高性能来实现多媒体应用。目前存0MAP平台上实现的多媒体应用有语音、音频、图像、视频等。在实验室开发的基于0MAP5912嵌入式语音识别系统上进行基于SVM 的语音识别程序开发。　　1 SVM多类分类方法　　SVM最初是为处理两类分类问题而设计的，如何有效地处理多类分类问题目

[嵌入式]

从语言学习对虚拟助手的挑战，看为啥Siri还不能与人交流？

苹果最近的秋季发布会主要围绕着 iPhone X ，更换Touch ID的人脸识别，OLED显示屏以及支持蜂窝网络的Apple Watch。但是，生活在波兰、立陶宛、斯洛伐克、捷克共和国以及世界上许多其他地方的人们，并没有注意以上那些“闪光点”，而是发现另外一件事情。 Siri没有学习新的语言，这可是件大事。触摸屏作为智能手机的界面工作得很出色，但是对于智能手表的微型显示器来说，它就成了一个麻烦。苹果计划在今年年底前推出的智能音箱根本就不会有屏幕。Siri和其他虚拟助手，如Google Assistant、Cortana或Bixby，正日益成为我们与设备交互的主要方式。设想一下在自己的国家，要用外语与机器交谈，仅仅是为

[嵌入式]

stm32c8t6利用语音识别与播报检测DHT11温湿度

其他串口利用printf函数输出文字首先，你要想用printf函数的话需要配置串口的相关参数，也就是初始化，学过stm32的都清楚串口初始化的大概配置过程，这里我就不细讲了，重点讲一下printf函数，这个printf函数在MDK5里面好像是找不到的，看了网上很多教程，发现是在fputc这个函数里面修改串口的输出，而这个fput函数一般在usart.c文件里面，如下所示： //重定义fputc函数 int fputc(int ch, FILE *f) {/*这个可以发送文字*/ while((USART3- SR & 0X40) == 0); //循环发送,直到发送完毕,给串口3发送数据 USART3- DR = (u8

[单片机]

stm32c8t6利用<font color='red'>语音识别</font>与播报检测DHT11温湿度

天数智芯图像识别在权威的AI竞赛表现第一

近日，斯坦福大学发布了最新DAWNBench深度学习推理榜单。在这份榜单上华为、阿里云、天数智芯等企业上榜。据介绍，斯坦福大学DAWNBench是人工智能领域最权威的竞赛之一，是用来衡量端到端的深度学习模型训练和推理性能的国际权威基准测试平台，其排行榜反映了当前全球业界深度学习平台技术的领先性。推理项目要求参赛机构对50000张图片进行精准识别并分类，平均每张图片的推理耗时越短越好。天数智芯官方消息显示，天数智芯斩获图像识别性能冠军。天数智芯以平均每张图片耗时1.868ms，性能值比之前榜单最好机构成绩提升30%的表现，获得DAWNBench深度学习推理榜单最新冠军。 DAWNBench官网显示，在“Latency requi

[手机便携]

天数智芯<font color='red'>图像识别</font>在权威的<font color='red'>AI</font>竞赛表现第一

不再是睁眼瞎子：图像识别技术的现状和未来

　 1、图像识别技术的背景　　移动互联网、智能手机以及社交网络的发展带来了海量图片信息，根据BI五月份的文章，Instagram每天图片上传量约为6000万张；今年2月份WhatsApp每天的图片发送量为5亿张；国内的微信朋友圈也是以图片分享为驱动。不受地域和语言限制的图片逐渐取代了繁琐而微妙的文字，成为了传词达意的主要媒介。图片成为互联网信息交流主要媒介的原因主要在于两点：第一，从用户读取信息的习惯来看，相比于文字，图片能够为用户提供更加生动、容易理解、有趣及更具艺术感的信息；第二，从图片来源来看，智能手机为我们带来方便的拍摄和截屏手段，帮助我们更快的用图片来采集和记录信息。　　但伴随着图片成为互联网中的主要

[安防电子]

谷歌是人工智能的行家？

人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大，可以设想，未来人工智能带来的科技产品，将会是人类智慧的“容器”。下面就随嵌入式小编一起来了解一下相关内容吧。 Google I/O 的开幕 Keynote 正在进行，毫无疑问，AI 成为了今年 Google I/O 大会的绝对

[嵌入式]

3G手机语音识别应用中DSP的选择策略

　　随着DSP技术的进步，计算能力更强、功耗更低和体积更小的DSP已经出现，使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前，基本ASR应用可以分成三大类：1. 语音-文本转换(语音输入)；2. 讲者识别；3. 语音命令控制(语音控制)。　　　　这三类功能包含了3G所需的众多ASR性能。语音-文本转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出存储器中的个人数据，从而满足*定购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口，它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音标签。　　　　语音识别的

[手机便携]

3G手机<font color='red'>语音识别</font>应用中DSP的选择策略

应用、算法、芯片，“三位一体”浅析语音识别

雷锋网(公众号：雷锋网) AI科技评论按：本文作者为辰韬资本黄松延，原文首发于微信公众号：辰韬资本（ID: chentaoziben），雷锋网AI科技评论获其授权转载。黄松延，浙江大学人工智能博士，前华为高级算法工程师，对深度学习及其应用有深入的研究，阅后若有所感，欢迎通过邮箱syhuang@chentao-capital.com或者微信号Nikola_629与他交流。人工智能产业链由基础层、技术层与应用层构成，同样，智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化，近年，语音识别准确率取得了不断的提升。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化，近年，语音识

[手机便携]