首席科学家李飞飞却只关心人工智能技术的下一个突破点?

发布者:EnchantedDream最新更新时间:2018-07-01 来源: eefocus关键字:人工智能  谷歌  李飞飞  卷积神经网络 手机看文章 扫描二维码
随时随地手机看文章

说起人工智能,孕育了卷积神经网络和深度学习算法的 ImageNet 挑战赛恐怕是世界上最著名的 AI 数据集。8 年来,在 ImageNet 数据集的训练下,人工智能对于图像识别的准确度整整提高了 10 倍,甚至超越了人类视觉本身。

 

然而,AI 领域的科学家们并没有停下前进的脚步。上个周末,人工智能领域最卓越的科学家之一:斯坦福大学终身教授、谷歌云首席科学家李飞飞在未来论坛年会上,为我们做了一场名为“超越 ImageNet 的视觉智能”的精彩演讲。她告诉我们,AI 不仅仅能够精准辨认物体,还能够理解图片内容、甚至能根据一张图片写一小段文章,还能“看懂”视频……

 

 

我们都知道,地球上有很多种动物,这其中的绝大多数都有眼睛,这告诉我们视觉是最为重要的一种感觉和认知方式。它对动物的生存和发展至关重要。

 

所以无论我们在讨论动物智能还是机器智能,视觉是非常重要的基石。世界上所存在的这些系统当中,我们目前了解最深入的是人类的视觉系统。从 5 亿多年前寒武纪大爆发开始,我们的视觉系统就不断地进化发展,这一重要的过程得以让我们理解这个世界。而且视觉系统是我们大脑当中最为复杂的系统,大脑中负责视觉加工的皮层占所有皮层的 50%,这告诉我们,人类的视觉系统非常了不起。

 

寒武纪物种大爆发

 

一位认知心理学家做过一个非常著名的实验,这个实验能告诉大家,人类的视觉体系有多么了不起。大家看一下这个视频,你的任务是如果看到一个人的话就举手。每张图呈现的时间是非常短的,也就是 1/10 秒。不仅这样,如果让大家去寻找一个人,你并不知道对方是什么样的人,或者 TA 站在哪里,用什么样的姿势,穿什么样的衣服,然而你仍然能快速准确地识别出这个人。

 

1996 年的时候,法国著名的心理学家、神经科学家 Simon J. Thorpe 的论文证明出视觉认知能力是人类大脑当中最为了不起的能力,因为它的速度非常快,大概是 150 毫秒。在 150 毫秒之内,我们的大脑能够把非常复杂的含动物和不含动物的图像区别出来。那个时候计算机与人类存在天壤之别,这激励着计算机科学家,他们希望解决的最为基本的问题就是图像识别问题。

 

在 ImageNet 之外,在单纯的物体识别之外,我们还能做些什么?

 

过了 20 年到现在,计算机领域内的专家们也针对物体识别发明了几代技术,这个就是众所周知的 ImageNet。我们在图像识别领域内取得了非常大的进步:8 年的时间里,在 ImageNet 挑战赛中,计算机对图像分类的错误率降低了 10 倍。同时,这 8 年当中一项巨大的革命也出现了: 2012 年,卷积神经网络(convolutionary neural network)和 GPU(图形处理器,Graphic Processing Unit)技术的出现,对于计算机视觉和人工智能研究来说是个非常令人激动的进步。作为科学家,我也在思考,在 ImageNet 之外,在单纯的物体识别之外,我们还能做些什么?

 

8年的时间里,在ImageNet挑战赛中,计算机对图像分类的错误率降低了10倍。

 

通过一个例子告诉大家:两张图片,都包含一个动物和一个人,如果只是单纯的观察这两张图中出现的事物,这两张图是非常相似的,但是他们呈现出来的故事却是完全不同的。当然你肯定不想出现在右边这张图的场景当中。

 

 

这里体现出了一个非常重要的问题,也就是人类能够做到的、最为重要、最为基础的图像识别功能——理解图像中物体之间的关系。为了模拟人类,在计算机的图像识别任务中,输入的是图像,计算机所输出的信息包括图像中的物体、它们所处的位置以及物体之间的关系。目前我们有一些前期工作,但是绝大多数由计算机所判断的物体之间的关系都是十分有限的。

 

最近我们开始了一项新的研究,我们使用深度学习算法和视觉语言模型,让计算机去了解图像中不同物体之间的关系。

 

计算机能够告诉我们不同物体之间的空间关系,能在物体之间进行比较,观察它们是否对称,然后了解他们之间的动作,以及他们之间的介词方位关系。所以这是一个更为丰富的方法,去了解我们的视觉世界,而不仅仅是简单识别一堆物体的名称。

 

Visual Relationship Detection with Language Priors

 

更有趣的是,我们甚至可以让计算机实现 Zero short(0 样本学习)对象关系识别。举个例子,用一张某人坐在椅子上、消防栓在旁边的图片训练算法。然后再拿出另一张图片,一个人坐在消防栓上。虽然算法没见过这张图片,但能够表达出这是“一个人坐在消防栓上”。类似的,算法能识别出“一匹马戴着帽子”,虽然训练集里只有“人骑马”以及“人戴着帽子”的图片。

 

让 AI 读懂图像

在物体识别问题已经很大程度上解决以后,我们的下一个目标是走出物体本身,关注更为广泛的对象之间的关系、语言等等。

 

ImageNet 为我们带来了很多,但是它从图像中识别出的信息是非常有限的。COCO 软件则能够识别一个场景中的多个物体,并且能够生成一个描述场景的短句子。但是视觉信息数据远不止这些。

 

经过三年的研究,我们发现了一个可以有更为丰富的方法来描述这些内容,通过不同的标签,描述这些物体,包括他们的性质、属性以及关系,然后通过这样的一个图谱建立起他们之间的联系,我们称之为 Visual Genome dataset(视觉基因组数据集)。这个数据集中包含 10 多万张图片,100 多万种属性和关系标签,还有几百万个描述和问答信息。在我们这样一个数据集中,能够非常精确地让我们超越物体识别,来进行更加精确的对于物体间关系识别的研究。

 

 

那么我们到底要怎么使用这个工具呢?场景识别就是一个例子:它单独来看是一项简单的任务,比如在谷歌里搜索“穿西装的男人”或者“可爱的小狗”,都能直接得到理想的结果。但是当你搜索“穿西装的男人抱着可爱的小狗”的时候,它的表现就变得糟糕了,这种物体间的关系是一件很难处理的事情。

 

绝大多数搜索引擎的这种算法,在搜索图像的时候,可能很多还是仅仅使用物体本身的信息,算法只是简单地了解这个图有什么物体,但是这是不够的。比如搜索一个坐在椅子上的男性的图片,如果我们能把物体之外、场景之内的关系全都包含进来,然后再想办法提取精确的关系,这个结果就会更好一些。

 

2015 年的时候,我们开始去探索这种新的呈现方法,我们可以去输入非常长的描述性的段落,放进 ImageNet 数据集中,然后反过来把它和我们的场景图进行对比,我们通过这种算法能够帮助我们进行很好的搜索,这就远远地超过了我们在之前的这个图像搜索技术当中所看到的结果。

 

Google图片的准确率已经得到了显著提升

 

这看起来非常棒,但是大家会有一个问题,在哪里能够找到这些场景图像呢?构建起一个场景图是一件非常复杂并且很困难的事情。目前 Visual Genome 数据集中的场景图都是人工定义的,里面的实体、结构、实体间的关系和到图像的匹配都是我们人工完成的,过程挺痛苦的,我们也不希望以后还要对每一个场景都做这样的工作。

 

所以我们下一步的工作,就是希望能够出现自动地产生场景图的一个技术。所以我们在今年夏天发表的一篇 CVPR 文章中做了这样一个自动生成场景图的方案:对于一张输入图像,我们首先得到物体识别的备选结果,然后用图推理算法得到实体和实体之间的关系等等;这个过程都是自动完成的。

 

Scene Graph Generation by Iterative Message Passing


关键字:人工智能  谷歌  李飞飞  卷积神经网络 引用地址:首席科学家李飞飞却只关心人工智能技术的下一个突破点?

上一篇:iRobot任命高瑞彬博士为董事会成员
下一篇:2019年IPC APEX展位即将售罄

推荐阅读最新更新时间:2024-05-03 03:04

国产电视出海自有优势 大屏、视觉、AI仍不可小看
彩电新一轮竞争即将来袭,在传统电视与互联网电视的海外之争中,传统电视依然处于主导地位,国产电视出海自有优势。从各方优势来看,互联网电视们同样实力不容小觑,全球市场风向永远是个变局,除了拼大屏、拼AI,海信、TCL们出海还要注意什么? 2018年国际消费类电子产品展览会(CES)于近日在美国拉斯维加斯开幕,参展商包括许多国内外著名电视品牌海信、TCL、LG、三星等,各种黑科技产品在展会上群雄逐鹿。 对于国产智能手机的厮杀较量,相信众人早已司空见惯,相比之下,电视行业的角逐似乎要显得低调与柔和许多,实则不然。同国产智能手机一样,国产电视同样面临国内市场增长乏力的境遇,为寻找增量,国产电视品牌同样有着一颗拓张海外的决心。 彩
[家用电子]
谷歌开发Home Max智能音箱 比Home更高端
新浪科技讯 北京时间9月28日上午消息,Pixel有一个伙伴,名叫Pixel XL,它的尺寸更大一些。同样的,很快大号版谷歌Home也可能会走进我们的视野。据说新设备代号为“谷歌Home Max”,配有立体声扬声器。今年10月4日谷歌将会召开发布会,Home Max可能会登台亮相,但是也有可能暂时不会发布。 9to5Google报道称,两名熟悉内情的知情人士已经证实设备的存在。早先有消息称,谷歌曾组织过聚集群测试,探讨推出高端Chromebook Pixel(据说是二代产品)和谷歌Home Mini的可行性。关于Home Max的功能和设计,现在还没有确切消息,只知道它会安装立体声扬声器。消息人士称,Max的设计和材质更有高端
[家用电子]
无人驾驶车最大的尴尬,没人愿用?
据美国知名投资网站The Motley Fool报道,无论何时,当媒体谈及 谷歌 (微博)创造 无人驾驶 汽车努力时,都不免会关注其面临的诸多挑战。尽管这些挑战十分重要,但谷歌进军无人驾驶汽车领域的最大阻碍可能是人们根本不想使用这种技术。 当然,总会有部分民众抵制将汽车控制权完全交给人工智能的创意,只因为他们自己喜欢驾驶汽车。然而人们购买豪华跑车已经没有经济意义,只是被越来越可怕的漫长里程所驱动。很多时候,为了驾车上下班,他们甚至牺牲了阅读和睡眠的时间。   美国汽车协会(AAA)最新调查显示,并非激情的司机促使谷歌、 苹果 以及其他公司坚信无人驾驶汽车必将成为现实,这是个可怕的情况。如果人们害怕乘坐无人驾驶汽车,那么是
[嵌入式]
人工智能飞速发展,预计2025年深度学习芯片销量达到29亿
GPU和CPU目前在市场份额中处于领先地位,但到2022年ASIC将占据领先地位,SoC加速器和FPGA的机会也在增长。 在当今的人工智能市场,硬件是解决该行业许多挑战的关键,而芯片组是该硬件解决方案的核心。考虑到AI的广泛使用,几乎可以肯定的是未来的每个应用程序都需要使用AI芯片组进行某种加速,无论是在数据中心还是在边缘。加速可以采取多种形式,从在CPU上运行的简单AI库到更复杂的定制硬件。 Tractica预测,AI市场的这种增长和演变将推动深度学习芯片组的出货量从2018年的1.649亿增长到2025年的29亿单位以上。届时,深度学习芯片组的全球市场将达到726亿美元。到2025年,专用集成电路(ASIC)将占
[物联网]
<font color='red'>人工智能</font>飞速发展,预计2025年深度学习芯片销量达到29亿
谷歌Pixel手机用摄像头即可监测心率与测量呼吸频率
谷歌在上个月表示,很快就会为其Pixel智能手机的 Fit 应用增加一些有趣的新功能,用户将能够通过将手指放在后置摄像头上来测量心率,并能够通过自拍测量呼吸频率。据 AndroidPolice 报道,谷歌今日将推出这两项 Fit Mobile Vitals(移动生命体征)新功能。 在心率监测时,用户只需用手指覆盖后置摄像头,并在完全覆盖时 “轻压”。相机传感器就可以通过追踪血液在指尖移动时的颜色变化(称为 “脉冲光声信号”)来判断心率。用户可以将该测量结果保存到心率日志中。 在测量呼吸频率时,用户需通过自拍,将上半身放置在取景框内,然后呼吸即可。该软件会监测用户胸部的起伏,并据此推断出呼吸频率。同样,用户可以将测量结果保存
[手机便携]
人工智能技术可以制造假指纹 欺骗指纹扫描仪
指纹扫描传感器已经成为了绝大多数智能手机的标配,甚至在某些情况下,在部分笔记本电脑上也已经变得非常普遍。考虑到我们每个人都有独特的指纹图案,指纹识别作为一种生物识别安全手段的使用能够普及,还是存在一定的合理性。但遗憾的是,现在指纹识别可能不再像我们想象的那样安全了。 根据纽约大学的研究人员最近的一项研究结果发现,我们都听说过的人工智能技术实际上可以用来生成一个合成的“假指纹”,并且这种“假指纹”可以骗过某些生物识别扫描仪。该系统被称为DeepMasterPrints,并且这个系统似乎成功复制了23%的指纹,同时这个系统的错误率只有千分之一。 DeepMasterPrints利用了这样一个事实,即大多数生物识别系统都不会将部分指纹图
[安防电子]
AI救不了电视!
一位电视圈打拼十多年的沙场“老炮”,历经传统电视与互联网电视的浪潮,站在AI时代的高点,向我们讲述着电视行业这些年的“打怪升级”之路:   第一条路是电视外观的演变,尺寸越来越大,从32吋到40吋、49吋、55吋、65吋,再到70吋以上;另外一端是机身越来越薄,超薄、无边框之类的概念在越来越多的电视上涌现,尽管电视越来越像艺术品,但这条路也似乎已到尽头,再走下去就是大量成本的增加。   第二条路是显示技术的升级,电视的分辨率从标清到720P、1080P、2K、4K不断提升,再走下去行业也是困难重重。   第三条路是芯片上演的“摩尔定律”,电视机芯片也在从单核、双核、四核不断迭代,但越来越多的算力除了不断上涨的成本,似乎找不到更大的
[家用电子]
雅马哈开发了Music:AI技术,用于优化车载音响效果
根据雅马哈(YAMAHA)官方公告,雅马哈开发了一种名为Music:AI的人工智能声学技术。根据官方介绍,目前雅马哈正在开发搭载该技术的高端功放,并计划于2025年进入量产阶段,并销往全球范围的汽车制造商。 在公告中,雅马哈认为随着科技发展汽车内部空间已成为大众享受影音娱乐的“第二客厅”,但这种需求引发了新的矛盾,因为传统调音技术无法让车内空间的音响效果实现高级化。因为车内空间的噪音源较多,比如存在附近车辆、喇叭声、胎噪等噪音,而且车内空间也会因为各种不同材质的反射和吸音效果不一样而影响音效效果。 对此,雅马哈的Music:AI技术基于“for Cabin”、“for Music”、“for Person”的理念开发,“f
[汽车电子]
雅马哈开发了Music:<font color='red'>AI</font>技术,用于优化车载音响效果
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved