AI DAY解读 — 特斯拉Autopilot的视觉架构

发布者:神光骑士最新更新时间:2021-08-26 来源: eefocus关键字:特斯拉  自动驾驶  摄像头 手机看文章 扫描二维码
随时随地手机看文章

是的,我还在跟特斯拉AI DAY缠斗。AI DAY那天最复杂、也最难懂的恐怕就是Andrej Karpathy发表的视觉架构部分,通过8个摄像头获取的图像到底是如何让车辆在道路上自动驾驶的?有步骤,有内容。

 

我们都知道特斯拉用8个摄像头来感知周围环境。但你不能简单地把从这8个摄像头中获取的所有信息直接输入给人工智能,让它来做判断,因为这会一次处理太多信息,而现在的计算机还没有这么强大。

 


为了解决这个问题,就必须压缩数据,同时保留最相关的信息,类似于我们的大脑对眼睛的信息所做的那样。为了做到这一点,特斯拉将这8个摄像头的数据转移到了一个更小的矢量空间(Vector Space)。

 

 

 

这是一个三维空间,包含了环境中所有的相关信息,如路标、汽车、人、车道线等。然后Vector Space就用来实现汽车必须做的许多不同的任务,如物体检测、交通信号、车道线预测等。

 

但如何从这8个摄像头组成的三维输入,变成一个单一的三维输出呢?这基本上是通过以下步骤实现的,并且所有8个摄像头都是并行完成的,效率非常高。

 

 

牢记这张图,下面会反复提及

 

 

第1步:Rectify

首先,图像被送入一个校正模块(Rectify),该模块接收图像,并通过将其转化为虚拟表示来校准它们。这一步极大地提高了Autopilot的性能,因为它会使图像在一般情况下(没有发生事件时)看起来更加相似,使网络能够更容易地比较图像,并聚焦于不属于典型背景的重要部分。

 

第2步:RegNet

然后,这些新生成的图像被送入到RegNet。 这个RegNet只是CNN的一个优化版本。基本上,RegNet会把这些新的图像,像金字塔一样反复压缩信息,网络的起点由一些神经元组成,这些神经元代表图像的一些变化集中在特定的物体上,告诉我们它在空间上的位置。越深入,这些图像就越小,但它们将代表整体图像,同时也聚焦于特定物体。因此,在这个金字塔的末端,最终会有许多神经元,每个神经元都告诉你关于整体图像的一般信息,是否包含一辆车、一个路标,等等。

 

为了两全其美,会在这个金字塔的多个层上提取信息,这也可以看作是不同尺度的图像表示,侧重于原始图像的特定特征。我们最终得到的是局部的和一般的信息,所有这些信息都告诉我们图像是由什么组成的,以及在哪里。

 

 

 

 

第3步:BiFPN

 

然后,这些信息被送入BiFPN,这个模型会迫使这些来自不同尺度的信息在一起沟通,并在其中包含的一般和特殊信息中提取最有价值的知识。BiFPN的输出将是来自8个摄像头的最有趣和有用的信息。因此,它既包含了关于图像的一般信息,也包含具体信息,如在哪里、什么尺寸等等。例如,它将使用来自金字塔顶端提取的深层特征的一般知识的context理解Karpathy所展示的情况,“因为这两个模糊的灯光是在两条车道之间的道路上,它们可能是附着在一个特定的物体上,这个物体是在网络的早期层中从一个摄像头中识别出来的。”

 

利用这一context,并知道它是一个单一物体的一部分,就可以成功地猜到这些模糊的灯光是一辆车上的。

 

第4步:Transformer

所以,现在有了来自所有8个摄像头的不同比例的最有用的信息。然后需要压缩这些信息,这样就不会有8个不同的数据输入,这是通过Transformer模块完成的。简而言之,这个模块将把8个不同图片的浓缩信息,转移到我们想要的Vector Space。它将使用这些一般的和空间信息,这里称为Key,计算Query,就是Vector Space的维度,并试图找出什么东西(what)去哪里(where)。例如,一个Query可以被看作是Vector Space的一个像素,寻找前方车辆的一个特定部分。这个值将相应地合并这两个信息,告诉我们在Vector Space中什么东西(what)在哪里(where)。Transformer可以被看作是8个摄像头和Vector Space的桥梁,了解各摄像头之间的所有的相互关系。

 

时间戳问题

现在,终于把数据浓缩成了一个三维表示,可以开始真正的工作了。这是他们用来标注用于训练导航网络数据的空间,因为这个空间没有8个摄像机那么复杂,更容易进行标注。现在有了一个有效的方法来表示所有的8个摄像头,但仍然有一个问题:单摄像头的输入是不智能的。如果对面的一辆车被另一辆车遮挡,就需要Autopilot知道它还在那里,那辆车并没有因为另一辆车在它前面就消失了。为了解决这个问题,就必须使用时间信息,或者,换句话说,使用多个帧。特斯拉选择使用“Feature Queue”和“Video Module”。

 

 

第5步:Feature Queue

Feature Queue将占用一些帧并将其保存在缓存中。然后,每隔一米,或每隔27毫秒,就会把缓存的帧发送给模型。在这里,他们同时使用时间或距离测量来衡量车辆的移动和停止。然后,这些刚刚处理过的帧的三维表示与它们相应的位置和包含车辆加速度和速度的运动学数据合并,告诉我们它在每一帧是如何运动的。

 

第6步:Video Module

所有这些宝贵的信息随后被送入Video Module。Video Module利用这些信息来理解车辆本身和它在当前和过去几帧中的环境。这个理解过程是通过一个RNN完成的,RNN会在所有帧上反复处理所有这些信息,以更好地理解Context,并最终构建出定义明确的地图。由于使用了过去的帧,RNN现在就有更多的信息来更好地理解当前的状况,这对临时遮挡等情况来说是必要的。

 

 

这就是视觉过程的最终架构,它的输出在下图的右下,你可以看到其中一些输出被翻译回图像,以显示车辆在我们对世界的表述中看到的东西,或者说是8个摄像头的表述。Video Module的输出,会并行地发送给车辆的所有任务,如物体检测、车道预测、交通信号等。

 

 


关键字:特斯拉  自动驾驶  摄像头 引用地址:AI DAY解读 — 特斯拉Autopilot的视觉架构

上一篇:DM-i所代表的另外一种增程
下一篇:造车行业也有“鄙视链”?

推荐阅读最新更新时间:2024-11-13 10:20

特斯拉Model S续航再获突破!这次是539公里
据外媒报道,美国电动汽车制造商特斯拉(Tesla Motors)已将其全新Model S车型的续航里程提升至335英里(约合539公里),这将进一步巩固其在纯电动汽车领域的领导地位。 特斯拉周五在网站上披露其全新版本Model S,型号为100D,其100千瓦时的电池能够比前代最好的车型多跑20英里。 去年8月份,特斯拉开始销售其高性能的型号P100D,其配置100千瓦时电池的续航能力达到了315英里,树立了业界标杆。通用汽车的全新纯电动车Chevrolet Bolt续航能力为238英里,而宝马i3则为114英里。捷豹路虎去年11月宣布计划推出纯电动的SUV,配置90千瓦时的电池能让这款汽车的续航里程达到220英里。 不过,这
[汽车电子]
部分iPhone 7 Plus用户反映遇到摄像头无法使用的故障
 智能手机的制造,涉及一套相当复杂的流程。再完美的产品,也难免会出现瑕疵。三星 Galaxy Note 7 的电池设计给业界留下了深刻的教训,而部分苹果 iPhone 7 Plus 也遇到了头疼的摄像头不能正常使用的问题。苹果最新的 iPhone 机型被打上了“无聊”的标签,因为它在设计上和 iPhone 6 / iPhone 6s 几乎没有太大的差别,即便 iPhone 7 Plus 比 iPhone 7 多了后置双摄像头的加成。·   报道称,iPhone 7 Plus 酷炫的双摄像头引发了一些问题,早在 3 个月前,就有用户抱怨摄像头挂掉了(dying)—— 打开相机 app(或其它第三方照相应用),预览界面只能看到黑漆漆
[手机便携]
自从买了特斯拉:不是在充电,就是在充电的路上
对于一、二线城市正在受摇号、拍牌之苦的准车主们来说,纯电动汽车不失为一种选择。但很多准车主摇摆不定,迟迟不敢下手,纯电动汽车的充电以及续航问题都让许多人望而却步。那么,纯电动汽车值得买么?    为此,人民汽车编辑部采访了一组新能源车的车主故事,真实反映车主在使用电动车时的情况。希望厂家能对车主们提出的建议认真调研;也希望向犹豫着想买电动车的消费者传递一些实用的信息。      新能源车主自述系列: 北汽EV150续航里程略短车主不敢开出六环外 每天往返130公里支出电费12元启辰晨风雨天充电有点难 充满电要20小时比亚迪E6钻不进机械式车库 “飞线充电”江淮IEV4车主化身“高级电工” 腾
[嵌入式]
控制系统与自动驾驶安全设计的关系
智能驾驶是一个交叉学科,既需要车辆工程,控制工程, 计算机 科学等工程学科的知识,也需要数学,物理学等基础科学支撑。智能驾驶汽车通过搭载先进的车载 传感器 、控制器和数据处理器、执行机构等装置,从而具备在复杂行驶环境下的传感感知、决策规划、控制执行等功能,以实现安全、高效、舒适和节能的智能行驶。那么无论是物理意义上的传感器,控制器和执行机构,还是算法层面的传感感知,决策规划和控制执行,其实都是一种控制系统。本文就从控制理论与控制工程的角度跟大家聊聊控制系统与 自动驾驶 安全设计的关系。 1. 控制系统概述20世纪40年代是自动化技术和理论形成的关键时期,一批科学家为了解决军事上提出的火炮控制、鱼雷导航、飞机导航等技术问题,逐步
[汽车电子]
控制系统与<font color='red'>自动驾驶</font>安全设计的关系
地图看懵?那就对了,这是给自动驾驶准备的
不管新兴科技巨头还是传统汽车厂商都在开发自动驾驶技术,但是目前的自动驾驶技术还相当初级,仅在部分条件下才能开启,也就是Level 3和Level 4级别的有限自动驾驶技术。 按照预计,在未来五年内完全的自动驾驶技术将成为可能,但要想让一辆汽车不管在哪里都能自动地安全行驶,汽车就必须对自己的周围情况了如指掌,所以地图就变得至关重要,但这份地图可得比给游客看的要精细全面多了。现在宝马、奥迪、奔驰、福特等厂商都已经自掏腰包在地图业务上砸钱,为的就是给自动驾驶技术做铺垫。 Here地图负责高度自动驾驶项目的高管Sanjay Sood表示,该公司从2013年起就开始和戴姆勒合作探索自动驾驶模式,而Here本身的关注点依然主要在地图业务方面
[汽车电子]
特斯拉不是电动车发展方向
最近一段时间, 媒体上热炒特斯拉(Tesla),然而特拉斯是什么?不仅一般中国人相当陌生,大多数媒体人也不甚熟悉。 资料显示,特斯拉(Tesla)是一家生产电动汽车的公司,创始人工程师马丁·艾伯哈德偶然发现,丰田普锐斯身旁常会出现超级跑车的身影,于是产生了将跑车和新能源结合的想法,客户群定位于高收入人士和社会名流。 2003年,马丁·艾伯哈德与马克·塔彭宁合伙成立特斯拉(TESLA)汽车公司,穆思科投资630万美元,总部设在美国加州硅谷地区,用英国莲花Elise作开发基础车型。据称,特斯拉是世界上第一个采用锂离子电池的电动车公司,推出的Model S是一款兼顾性能与舒适的四门轿跑,车身尺寸比奔驰CLS级稍大,整车线条与捷豹
[嵌入式]
Kodiak机器人公司开创自动驾驶长途运输新时代
Kodiak机器人公司开创自动驾驶长途运输新时代 Kodiak将自动驾驶技术带入商业卡车运输车队 商业卡车运输是美国经济的支柱,这一点在过去几年里表现得最为明显,因为新冠疫情导致的供应链中断席卷了整个美国。与此同时,找到愿意开卡车的人越来越难。 美国卡车运输协会 (American Trucking Association) 数据显示,美国卡车司机的平均年龄约为 48 岁,长途卡车司机的平均年龄甚至更高,这可能就是为什么去年美国卡车司机短缺 8 万名的原因所在。 Kodiak机器人公司的长途卡车运输自动驾驶技术 kodiakDriver 包含一个名为 SensorPods™ 的模块化硬件系统,该系统集成了使用
[机器人]
Kodiak机器人公司开创<font color='red'>自动驾驶</font>长途运输新时代
自动驾驶L2、L3落地疾行 沿视觉加传感器路线并行推进
  头部公司正围绕可落地的自动驾驶展开竞速。   6月6日,特斯拉在中国推送新版自动辅助导航驾驶功能,稍晚几天,蔚来正式推送NIO Pilot自动辅助驾驶系统7项新功能。与蔚来同一天,另一家国内自动驾驶初创公司纽劢科技也发布了更高级别的L3自动驾驶系统解决方案。   纵观各家方案,采用“视觉为主加多传感器融合”的路线成为主流,这也与车规级激光雷达尚未大规模出现有关。具体到一些细节上,大家又各有所长,在搭载芯片、摄像头以及高精地图等方面各有侧重。但无论是车企采取自主研发,抑或由供应商提供技术支持,最终都是为了抢食自动驾驶这块大蛋糕。   一旦自动驾驶系统的功能可靠且好用,人们就会越来越习惯将车辆交给系统去控制,搭载这些功能的车辆将
[汽车电子]
<font color='red'>自动驾驶</font>L2、L3落地疾行 沿<font color='red'>视觉</font>加传感器路线并行推进
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
更多往期活动
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved