科技新势力：机器视觉让人类看到的世界更精彩-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

极客公园创新大会在北京开幕。格灵深瞳联合创始人兼CEO何搏飞作了主旨演讲。他分享了视觉的重要性，及视觉对人类产生的影响。

何搏飞表示，我们大脑所接收80%的信息都源自视觉，同时大脑中接近一千亿个神经元，绝大多数只做一件事情，就是处理我们的视觉信息。

为什么我们是一步步地从文字，发展到声音，最后才到动态视频？何搏飞认为，就是因为动态的视觉信息是最丰富，但也是最复杂的。

那么机器有没有视觉？何搏飞表示，实际上在很多领域，机器视觉已经在改变我们的生活，他举了微软体感游戏的例子说，当我们做各种动作时，它会理解我们的行为，配合多媒体的体验，让我们有种互动和丰富的感受。

机器有了视觉之后会产生什么影响？何搏飞分享了几个案例来阐述，机器视觉可以给予我们一个更加互动、更加健康、更加便捷的世界。

格灵深瞳创立一年多就拿到了两轮融资，去年获得了红杉资本数千万美元的A轮融资。比尔·盖茨访华时还专门造访了格灵深瞳。何搏飞毕业于美国斯坦福大学，他和联合创始人赵勇的愿景是将格灵深瞳打造成一家千亿级的人工智能公司。

以下是整理的何搏飞的演讲实录：
大家好！“Vision”这个单词在任何一本英汉词典里，第一条解释就是视觉，视觉是什么？视觉是一种感知能力。我们人身上一共有五种感知能力，包括视觉、听觉、嗅觉、味觉和触觉。

余凯博士刚才讲到人工智能的本质就是自主学习的能力。我们人的大脑之所以这么聪明，这么复杂，这么高级，就是因为我们人可以自主地学习，而自主学习能力主要源自这五种感知能力。[page]

这五种感知能力中，我们大脑所接收的80%的信息都来自视觉，我问大家一个问题，如果我们不得不放弃四种感知能力，只保留一种，你会保留哪一种？

我相信在座的很多人答案跟我一样，你会保留视觉信息。大家有没有想过为什么？我们都知道有这样一个数据，我们的大脑分成两半，左脑和右脑，左脑是理性，右脑是感性的，是有创造力的。

还有一个数据可能大家并不知道，我们大脑有接近一千亿个神经元，绝大多数只做一件事情，就是处理我们的视觉信息。大家想想当我们休息时，会做什么，通常会闭上我们的眼睛，所以每一天当我们的眼睛睁开时我们在主动或者被动地接受大量的复杂信息。

大家知道，我们人类主要是通过学习来成长，智慧也是在这样的过程中提高。那么分享知识就非常重要。从几千年前开始我们人类就把文字编辑成书。但文字承载的信息量是有限的，我们还希望它更加的丰富多彩。

所以到了100多年前有了电话，我们可以远距离的让听到我们的声音，后来我们就了广播，终于几十年前我们有了电视，到了十年前最近这段时间大家知道在网络带宽成为可能的情况下视频网站才成为可能。

为什么从文字，到声音，到视频，一步一步到几千年前，到最近几年，才能随时随地的分享动态的画面视频？没有其他原因，就是因为动态的视觉信息是最丰富的，也是最复杂的。

当我们讨论人工智能，讨论计算机、机器是否有学习能力时，我们首先要问自己一个问题，那就是机器有视觉吗？我必须要这样讲，在今天绝大多数场合下，对我们绝大多数人来说，机器是没有视觉的，机器是瞎子。

你们可能会反对我，会说我在用手机拍照，我的电脑上也有摄像头，大街小巷有这么多摄像头，难道它们不都是机器的眼睛吗？难道这不是视觉吗？但是大家想一想，当我们拍了这些照片视频，最终计算机看懂这些视频照片了吗？

我们把它存下来，不管是单反相机、摄像机，拍完以后，最终还是要人处理这些信息。为什么？因为在绝大多数情况下，电脑是无法处理这种复杂信息的。

机器视觉给予我们一个更加互动的世界
但今天我也要告诉大家，实际上在很多领域，机器视觉已经在改变我们的生活。当我说到这儿时，可能很多人马上会想到的第一件事情是微软的体感游戏，当你做各种动作时它会理解你的行为，配合多媒体的体验，你会感受到互动和丰富的感受。

所以，当机器有视觉的时候，首先带给我们的就是一个更加互动的世界。在这儿我给大家看一段特别有意思的视频，我的朋友黄沙，就用微软的这个传感器拍了一段动感的视频。
我们知道，好莱坞电影和美剧在制作过程中会有一个绿色的背景，它就是做一件事情，就是把人和背景区分开，这样后期制作时，就可以把绿色背景换成任何的场景，但有了三维计算机视觉，任何在座的每个人都能超越好莱坞特效师，更好地完成精彩的动画，这只是个简单的例子。

机器视觉带给我们一个更加健康的世界

当机器有了视觉以后，还会给我们带来一个更加健康的世界。举个例子，在我们做心脏手术时有一件特别痛苦的事。大家知道，人的心脏是唯一不能够被麻醉药麻痹使它静止的器官，只要人活着心脏就会不停的跳动，在跳动的心脏上做手术难度是非常大的。

所以，很多时候当要对心脏做手术的时候，医生做的第一件事情就是通过医学的手段让心脏停止跳动，然后用最短的时间做完手术再让心脏重新起搏，但将有30%心脏将会永远不能再跳动起来。但如果有一种技术使医生在跳动的心脏上做手术将会挽救很多人的人。

大家想一下，人的心脏跳动是非常有规律的，如果手术刀可以跟心脏同频率振动，医生通过摄像头看到的就是相对静止的心脏，那时动手术就相当于在静止的心脏上做手术。

这个画面上，白色的网格就是要做手术的区域，通过计算机深度视觉，已经把它稳定下来了。心脏手术很多人看了可能会不舒服，所以我们做了这样一个演示，医生给葡萄剥皮，这在国外已经应用了，我相信不会很久中国也会应用。

机器视觉创造一个更加便捷的世界
刚才余凯博士也谈到了自动驾驶汽车，大家想一想，当自动驾驶这一天来临时，我们将有一个更加便捷的世界。各位极客可能对刚刚过去的2015美国电子消费展CES有更深刻的印象。

除了智能硬件以外，应该说2015年今年是自动驾驶的元年。奔驰、宝马、尼桑，几乎所有的车厂都在今年推出了自己自动驾驶汽车的计划，很多车厂宣称在2020年，就是五年以后，他们的自动驾驶汽车就会跑在大街小巷。

我在这里有个判断，我个人觉得，自动驾驶汽车，将会是第一个真正被人类大规模使用，且对人类生活产生颠覆性影响，真正意义上的机器人。因为当汽车可以自动驾驶时，它对我们来说才是一个真正智能，不需要人为干预的机器人。

大家可能都看到过左边这辆汽车，它其实就是Google的无人驾驶汽车。Google应该说是到现在为止全世界第一个让自动驾驶汽车在人类的公路上行驶超过100万公里的公司。

我曾经跟Google无人驾驶汽车负责人聊过，当时我开了个玩笑，你们Google自动驾驶汽车业只敢在美国这样的城市测试，敢来北京测吗？他当时告诉我，无人驾驶汽车这件事情要成功，最大的障碍和挑战只有一个，那就是计算机视觉。[page]

大家想一想，控制汽车的方向盘、油门、刹车，这些事情简单的传感技术就可以解决，甚至如果是一个纯电动车的话，可能一个软件就可以解决。告诉汽车，从A到B你的目的地在哪，这件事情GPS就可以解决。

但面对路上发生的一切，可能很多人也学过，所以大家都知道，特别是现在自动挡的车，要把车开起来非常容易，开车真正难的是如何应对路上各种复杂的状况，而这些需要的就是视觉的感知能力。我们想一想，如果没有视觉感知，你如何知道前面有行人在穿越马路，必须要依靠计算机视觉。

大家可能也知道，格灵深瞳是把计算机视觉技术应用在监控领域的公司，为什么到处有这么多摄像头，连接到监控中心，有很多人盯着它看，为什么还需要计算机视觉，我们需要人工智能做这么多事儿吗？

我在这里给大家假象一个场景，如果让你在你自己家里，你在看电视，比如时下特别热门的一部电视剧，在很认真的看，这时又把ipad摆在前面观看意甲联赛，同时你的朋友还在给你发微信，三个屏幕。

我跟你打个赌，给你10分钟时间，10分钟以后我随机考你这三个屏幕的内容，我相信在座很少有人跟我赌，为什么？因为三个屏幕展示的东西动态画面的时候，对人来说信息太复杂了。

但想一想，安保中心监控室面对的是这样一个屏幕，我看了很多美剧电影，有那么多高端技术，我可以告诉大家，我曾经参观过拉斯维加斯所有大赌场后台的监控中心，跟中国任何一家普通银行的监控中心没有任何区别，都是这样一个大屏幕，几个人盯着这个屏幕在看。

我自己在监控中心呆过可能超过100个小时，我当时去的时候正好是世界杯期间，保安们大多数在玩儿手机、看球赛，但相信我，如果让你们去，这不是职业道德的问题，人类是有极限的，当人盯着这样一个大屏幕看，超过10分钟时，说实话你其实跟什么都没看一样。

所以大家想象一下，现在屏幕上所显示的一共是10个大屏，每个大屏16宫格，也就是160路视频。北京机场就有几万路视频，也就是说，如果把每一路视频放一分钟把这些视频轮一遍，就需要5万个小时。所以，发生事情能看到吗？

每时每刻，每一路视频我们都把它存下来，最后我们当证据用。是的，但你想一想，这么多路视频无时不刻都在存，全世界每卖出两块视频，其中有一块就是卖给安防监控视频的。当有这样海量数据的时候，人类如何处理？

所以大家想象一下，如果我们可以把每个摄象头，都换成一个智慧像小机器人一样帮我们盯着，当发生问题的时候就可以第一时间预警。所以，当我们的机器有了视觉的时候，我相信大家都能够看到，我们的世界会变得更好。

但是当世界变得更好时，我们人会变成什么样呢？可能你会说人会变得更高、更快、更强，那是奥林匹克精神，其实在我看来，我个人觉得我们人的愿望，其实一开始就跟更高、更快、更强是相反的，我们有时候经常说越是说什么越是代表不具备什么。

我自己有个观点，我总觉得，人类从一开始所有技术进步的唯一源动力，就是把自己解放出来，或者说的更直白一点，就是让自己变得更懒。

今天有很多服务都可以上门，O2O上门美甲、洗车，所有事情都是把人类解放出来。每次重大的技术革命，比如17世纪的蒸汽机革命，19世纪的电力革命，近代的信息革命。工业革命发生以后，机器可以开始取代人类做一些简单的体力劳动，我们的四肢被解放出来，去到一个地方不再需要走路去，可以坐车去。

随着电力革命、信息革命，到今天大脑一部分功能都已经被计算机所替代。比如我们要去做运算的时候，我们可以用计算器，电脑、手机也可以帮助我们记忆、存储。

但是我觉得，这就是为什么我总觉得，人工智能这件事情一定会实现，因为从潜意识里，人一定会不懈的朝着这个方向努力，因为对人来说，最终最难被解放的两个器官，一个是眼睛、一个是大脑。

也曾经有人问我说，大家可能也都知道，马斯特和霍金都对人工智能发表了很多威胁论，人工智能成熟以后是不是有很多人会失业？

我对这个问题是这么看的。技术变革时，都会迫使我们做更有创造力、更高级的事情。举个例子，比如农民工进城，过去做农活这是个相对来说更加简单的体力劳动，而当这样的体力劳动被机械化所替代时，我们的农民工来到城里，他们做了泥瓦匠、水电工、月嫂，他们挣的钱比我们很多人都多。

而未来人工智能替代人做更多事情时，人会逼迫做更高级的事情。而人能做什么呢？去交流、去分享、去进步、最终去进化。所以人做的所有事情，最终就是想实现一件事情，那就是人工智能，把我们的大脑彻底解放出来，让人自由自在地做有创造性的事。

今天我们这个论坛的主题叫X论坛，“Vision”这个词的第二条解释是“远见”，也就是在未看见的时候，就能通过想象力看到未来。今天我希望大家在一起分享，能跟我一样，看见未来其实就在我们眼前。谢谢！

关键字：机器视觉人工智能智能硬件自动驾驶格灵深瞳引用地址：科技新势力：机器视觉让人类看到的世界更精彩

上一篇：日欧企业搭台，国产机器人没戏？
下一篇：工业4.0，德国做给中国看的一场戏

推荐阅读最新更新时间：2024-05-02 23:26

高薪抢夺中国自动驾驶人才，由吴新宙牵头！

日前，据英伟达官方，NVIDIA 正在扩大其自动驾驶中国团队。招聘岗位信息显示，涉及岗位包括自动驾驶软件组、自动驾驶平台组、系统集成 & 测试组、地图 & 仿真组、产品组五个部门的25个岗位。工作地点为北京、上海、深圳三地。从职位介绍来看，此次招聘主要围绕自动驾驶软件、算法及产品岗。 NVIDIA自动驾驶团队致力于为自动化和自动驾驶汽车构建人工智能驱动系统。他们的 DRIVE 生态系统包括了数百家汽车制造商、卡车制造商、班车公司、Tier1厂商、传感器制造商、软件公司、地图公司和初创公司，提供了从数据中心到单一架构车辆的全面解决方案。值得注意的是，该团队由吴新宙领导，他于今年8月辞去小鹏负责自动驾驶业务

[汽车电子]

马斯克开撕谷歌自动驾驶，这一次，特斯拉输了？

在抢滩新四化的途中，枪林弹雨少不了，顶部玩家的口水仗自然也少不了，而至于谁能够最终胜出，在当下确实还很难下定论，虽然从更立体的比较维度看，似乎Waymo要比特斯拉在自动驾驶领域更扎实一些。一向爱打嘴炮的马斯克，最近又因为自动驾驶技术的高下之争，和谷歌Waymo的掌门人互撕了起来。 Waymo首席执行官约翰·科拉菲克（John Krafcik）在接受德国《经理人》杂志采访时说，他们研发的是“完全自动驾驶系统”，而特斯拉则提供了“较为出色的驾驶辅助系统”，两家公司在自动驾驶领域聚焦的并不是同一件事情，根本无法相提并论。隔着屏幕，约翰·科拉菲克的话里洋溢着对自家技术的优越感，马斯克引以为傲的FSD，在Waymo看

[汽车电子]

马斯克开撕谷歌<font color='red'>自动驾驶</font>，这一次，特斯拉输了？

无人驾驶时代困扰了谁？汽车保险业表示烦

无论是科技巨头还是传统汽车制造商都在加速抢滩无人驾驶，层出不穷的技术发展愈发推动无人驾驶时代到来的进程。但对于汽车保险行业，这可能并不是一个好消息。正如巴菲特在5月接受采访中所说：任何能让汽车更加安全的事情都是有利于社会的，但这对汽车保险业却是不利的。汽车保险产业始终致力于让汽车更加安全，但如果没有汽车事故，也就没有汽车保险存在的必要了。日前，野村在最新的一份金融科技报告中也对相关问题作了阐述。报告认为在技术进步的初期，主要的汽车保险公司，如中国人民保险公司、平安保险、中国太平洋保险，将随着驾驶风险大规模下降而获利。但最终，汽车保险行业市场将萎缩，利润率也将下降。相关原因有以下

[嵌入式]

李飞飞：视觉将成为人工智能的“杀手级应用”

Google人工智能与机器学习首席科学家李飞飞在Google I / O开发者大会最后一天的小组讨论中指出，人工智能是“第四次工业革命的驱动力”。她补充说，人工智能“有可能改变人类生活、工作和沟通的方式。” 李飞飞认为，科技工作者们才刚刚开始意识到AI的巨大影响力。随着技术逐渐成熟，视觉将成为“杀手级应用”。 “视觉很可能是5.4亿年前寒武纪大爆发背后的驱动力，在相对短的时间里，它催生了多种多样的生命形态。当动物首次发育出视觉系统时，它们的生命具有了能动性……生命的演化过程发生了改变……数亿年后，人类成了最智能的视觉动物，而人脑中有一半是负责处理视觉信号的。” 此外，当前世界中视觉数据的规模之庞大也充分证明了它的重要性。据估计，

[机器人]

自动驾驶势力或成未来出行领域的王者

自动驾驶公司也不一定完全靠着自动驾驶养活自己。相信已经没有人再怀疑自动驾驶技术的未来前景，但若要实现大规模的商业化还有待时日。因此，推动相关技术在出行市场上的应用，被认为是自动驾驶技术可以预见的最有价值的商业化方式。被德尔福收购的自动驾驶软件解决方案商nuTonomy的CTO Emilio Frazzoli曾分析称，在出租车行业的成本架构中，司机的劳动力成本占到了50%–70%，而自动驾驶系统可以减少出租车行业劳动力成本的80%。实际上，传统汽车价值链上的参与者，都有野心和机会分食出行这块大蛋糕。在资源上，正处于转型阶段的主机厂优势明显；在模式上，滴滴、Uber等网约车大户市场占有率高、模式成熟；在技术上，自动驾驶科技公司

[汽车电子]

智能汽车噱头大于实用：进入市场还很遥远

近日智能汽车出现在上海车展上，受到了广泛的关注，这是否意味着智能汽车很快就能进入量产的阶段了呢。此次上海车展上的智能车充其量也只能算是个半成品，距离量产和上路还有很大的一段距离。不久前，百度、阿里、腾讯三巨头高调宣布要研发智能汽车，并且会推出相关的汽车操作系统，其实就是基于汽车的安卓系统。私家车的数量在逐年增加，未来几年内私家车市场将会蓬勃发展，围绕私家车的产品需求量也会大增。　　　　其实智能汽车这个名词出现已经有几年了，以为也推出过一些概念性的产品，可惜的是一直都未能投入市场。更别提走进寻常百姓家了，究竟什么样的汽车才可以称为智能汽车呢。相信众多私家车主都没有这个概念，我个人的理解就是智能车必须具备三个特征：　　

[嵌入式]

AI造脸能否以假乱真？泰尔实验室：98.9％可鉴别

近日，泰尔终端实验室发布了“AI 伪造人脸鉴别平台”，基于单帧和多帧的方法，利用人脸生物特征、抖动精度等特性，结合多轮训练模型、测试集技术，能够识别图像、视频文件的异常，进而辨别真伪。我们知道，随着人工智能、深度学习技术的发展，一些不法分子也找到了新的空子，利用新技术实现非常逼真的“变脸”。比如去年出现的几款一夜爆火的移动 APP，借助 Deepfake 技术，只需上传一张照片就能秒变“戏精”，可以和偶像同台飙戏，在某些国家的选举活动中甚至还出现了足以以假乱真的伪造视频。小到个人声誉和生活，大到国家安全，都因此面临极大的威胁。对此，中国信息通信研究院泰尔终端实验室专门致力于 AI 技术领域的探索和研究，在

[嵌入式]

<font color='red'>AI</font>造脸能否以假乱真？泰尔实验室：98.9％可鉴别

Xilinx助力Zynq SoC大幅提升机器视觉生产力

利用业界领先的HALCON和VisualApplets开发平台，赛灵思打造出实现最高设计生产力的端对端 Smarter Vision 开发环境中国北京 - All Programmable技术和器件的全球领先企业赛灵思公司（Xilinx,Inc.(NASDAQ:XLNX)）今天宣布公司利用HALCON和VisualApplets开发平台为Zynq®-7000 All Programmable SoC打造端对端Smarter Vision开发环境，大幅提升机器视觉应用的设计生产力。MVTec公司的HALCON机器视觉软件性能高，全面支持视频分析，并可在Zynq All Programmable SoC等多核平台上运行。HALCO

[嵌入式]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■免费申请 | 上百份MPS MIE模块，免费试用还有礼！

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■有奖直播报名:大联大世平集团&恩智浦 | AI 无所不在，单板电脑也可以

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中