自动驾驶多模态数据感知融合方案对比-电子工程世界

2023年城市NOA成为自动驾驶新的战场，各车企纷纷发布新产品、立下新目标，要在高阶辅助驾驶的赛场上大展身手。感知模块作为自动驾驶流程中的第一环，也是将物理世界与车机大脑相连接的重要一环。如何让汽车像人类一样，将“眼前所看”转化为“脑中所想”，进一步变成“所作所为”，对于算法模型有很大的考验。基于Transformer模型的BEV技术成为当下的热门选择。亿欧汽车始终关注智能电动汽车领域的技术进展与商业动态，特此撰写BEV+Transformer系列文章，从技术、商业、趋势三个维度分别入手，深度剖析自动驾驶感知模块发展的新浪潮。

01 高阶智能驾驶感知模块：汽车成为机器生物的第一步

实现高级辅助驾驶乃至自动驾驶的第一步就是感知，如何更准确、高效地感知到路面信息是智驾系统良好运转的起点。路面信息包括静态和动态两类，静态信息包括墙壁、立杆、车道线、车位线、斑马线等，以及其他路面障碍物，动态信息则是指行人、车辆等其他交通参与方。正如时任特斯拉Autopilot负责人Andrej Karpathy在2021年Tesla AI DAY上所讲，自动驾驶研发像是“从头开始合成人造动物”，从人眼所及到大脑所感，信息在人类头脑中经历了2D到3D的转换，而这一转换同样是高阶智能驾驶的感知模块所需要学习的能力。

02 感知路线：纯视觉与多模态融合两条路线并行

从感知角度来划分，目前高阶智能驾驶领域分为两派，一派为特斯拉和mobileye坚持的纯视觉感知技术路线，其余则大多选择多传感器融合的技术路线。纯视觉感知方案只需将摄像头收集到的图像数据进行特征提取、处理、转化为3D数据；而多传感器融合的方案采用摄像头与激光雷达相结合，通过多种工作原理提升感知精度，也能在某一设备失效的情况下起到冗余的安全防护作用。但多传感器方案中，不同工作原理下，传感器收集到的数据类型、所处坐标系都不同，摄像头收集到的视觉数据属于2D图像空间，激光雷达获得的点云数据属于3D空间，处理与融合这些数据的策略及路径成为有效保留数据信息的关键。

03 融合方式：不同逻辑下数据处理各有利弊

具体来讲，基于融合的不同位置，可以分为前、中、后融合三种方式，三种方式分别发生在数据处理的不同阶段，在信息保留、算力使用、通信速率等多方面也具有不同特征。

3.1 后融合：应用广泛但存在先验式局限

在BEV大范围应用前，最常用的是后融合方案，也称为“目标级融合”。顾名思义，后融合方案中，不同传感器获得的数据通过不同网络算法独立处理，处理后得到各自的目标数据，再将目标数据在决策层由主处理器进行融合。

例如，针对图像数据，算法逐张提取2D特征后，对应转化到3D空间中，得出物体边界信息；针对点云数据，算法直接进行3D检测得到对应结果。各自处理后，所有的输出结果通过基于规则的（rule-based）融合方式融合到同一坐标系中。可见，在融合之前，不同数据处于各自的处理通道中，算法只需适配对应类型的数据，融合模块设置不同场景、不同传感器的置信度，最终输出融合结果用于决策。整体更易解耦，既易于整车厂自主研发，也便于Tier 1按照下游需求进行模块化定制。但是，正是由于后融合方式是基于规则处理的，因而存在“从结果反推过程”的先验式思路，无论是不同数据处理过程中的目标识别，还是对传感器置信度的设置，都是以预设结果为导向的，不仅会造成信息损耗、成本升高，也难以突破当下认知局限。

3.2 前融合：融合形成超级传感数据，但算力要求高

与之对应的，是传感器前融合方案，也称为“数据级融合”。前融合方案将融合步骤前置，所有传感器的识别结果连同其他自动驾驶所需数据，统一融合到为一整组数据，再将融合后的所有数据依据目标进行感知。前融合方案下，相当于不同的传感器组合为一个更加超级、多能的传感器，既能看图、又能探测，感知算法无需区分数据来源与类型，直接进行综合处理。

显然，前融合方案的逻辑更加类似于人眼到大脑的工作方式，将所有数据整体分析，增强了数据关联性，也减少了信息丢失。但与此同时，异构数据的融合对于算法也有着极大的考验。首先庞大的数据量对于存储能力、算力都有较高要求，而且由于坐标系的不同，不同数据间的转换效率和效果也需要不同的算法逻辑来实现。

3.3 中融合：平衡规则局限与算力要求，适应BEV视角

基于架构特性和操作可行性，目前业内更青睐中融合方案，即“特征级融合”，这一方案也更适合BEV视角。

相较于前、后融合，中融合将特征提取置于融合之前，但将数据感知置于融合之后。换言之，中融合方案先通过神经网络提取数据有效特征，将有效特征与BEV空间特征相融合，最终输出BEV视角下的整套数据，用于决策层的感知和输出。中融合方案中，数据处理更直接，信息损耗更少，相应地，算力需求也一定程度降低，研发重点来到了神经网络模型的更新上。随着深度学习的发展，Transformer的应用突破了过往算法依赖人为规则所带来的认知局限和逻辑上的反复。 04 视角转换：前视放射转为俯视全景，BEV+Transformer弥补原有不足不同融合方案的选择和迭代的背后，是感知视角的根本性转换。

4.1 2D直视图+CNN：感知不够全面、连贯，后融合学习速度慢

在此之前，传统的自动驾驶技术可以概括为“2D 直视图+CNN”时代，路况感知信号由相机收集到的 2D 图像和雷达收集到的 3D 图像组成，感知数据基于每个传感器的位置形成放射图像，不同感知结果通过 CNN（卷积神经网络）进行后融合，通过大量计算统一升维到 3D，符合 3D 状态下车机行驶的坐标系。这样的方式存在很多欠缺和隐患： · 画面遮挡部分难以预测，矩形框标注损失细节，不够精确； · 高度或深度方面认知存在误差，坡度影响难以准确预测； · 缺少时间信息，感知与预测的连续性难以确认； · 多种感知信息进行后融合，时间与人力成本较高。在这种情况下，感知的思路是将“所见”与“所学”相对应，试图成功“认出”路上有什么，就难免出现“挡住了所以没看见”“看见了但认错了”“不认识就当不存在”这些看似好笑、实则危险的情况。

4.2 BEV+Transformer：上帝视角减少前视局限，多模态数据融合是关键

1）路径：从2D到3D到4D，算法推动端到端优化 BEV+Transformer方案应运而生。 BEV（Bird's Eye View），是指一种鸟瞰式的视角或坐标系，可以立体描述感知到的现实世界，相当于在车辆正上方10-20米处向下俯视车辆及周围环境，也被叫做“上帝视角”。相对应的，BEV也代指将视觉信息由图像空间端到端地转换到BEV空间下的技术。在BEV视图中，道路信息自上而下展示在以自车为中心的坐标系中，避免了原先前视放射视角下的尺度、遮挡等感知问题，信息展示更加全面。但视角变化后深度的估计难度增大，前融合方案的处理难度增大，如何创新算法，将不同特征最优化表达是目前BEV研究中的重点。

尽管各家研发进度和细节略有不同，但BEV+Transformer方案的整体思路基本一致：“输入-提取-转换-融合-时序-输出”，并在这个过程中完成“2D到3D到4D”的转换。 · 输入：将多个摄像头数据输入到共享的骨干网络（Backbone） · 提取：骨干网络提取摄像头数据中的特征（feature） · 转换：所有源于摄像头数据的特征转换到BEV空间中（2D->3D） · 融合：图像数据特征与其他传感器数据特征融合 · 时序：增加时序信息，形成具有时空连续性的感知信息（3D->4D） · 输出：输出感知结果，包括静态语义地图、动态目标检测以及运动预测等，用于决策规控 Transformer作为一种新型神经网络架构，相比传统神经网络（如CNN），可以直接进行2D、3D不同序列之间的转换。Transformer采用交叉注意力机制，并行训练数据，在跨模态融合以及时序融合过程中，能够更加全面地在空间时序上建模，形成时序融合下的4D空间信息，从而使感知结果更加连续、稳定。在此基础上，BEV算法进一步迭代为Occupancy Networks（占用网络），更加直接地打造3D空间。有别于感知2D图像、提取像素（pixel）转化为3D特征，Occupancy Networks直接感知3D空间中的体素（voxel），也就是将世界划分为多个大小一致的立方体，快速识别每个体素是否被占用，继而判断车辆是否要躲避。Occupancy Networks可以在10ms内完成计算，感知更高效、结果更精准，将BEV空间在高度上进行了进一步扩展。

2）优势：全局视野、4D时空，感知更稳定，预测更可靠整体来讲，基于Transformer的BEV感知技术，对过往感知过程中的弊病给出了不同思路的解决方案，具有明显优势。 1. 俯视图少有遮挡，算法也可以对被遮挡区域进行预测 2. 异构数据进行特征级融合，减少层层处理以及先验规则带来的信息丢失 3. 多模态数据特征在同一空间中融合，信息关联性更强 4. 引入时序信息，感知结果更连续稳定 5. 多模态数据统一在以自车为中心的同一坐标系中，下游规控模块提取更高效 6. 感知任务在BEV空间运行，迭代更快，可实现端到端优化 3）应用：处理多类长尾场景，加速去高精地图因此，BEV+Transformer方案能够处理多种自动驾驶的corner case场景。

1. 感知复杂道路：在交通拥堵、路口复杂、路面不规则等情况下，BEV+Transformer以连续的俯视视角生成更全面的感知情况，以做出更可靠的路径规划；甚至在路面狭窄、有遮挡的情况下，俯视视角、跨模态融合、注意力机制下的算法，这些都能够使车辆更好地识别周边环境。

2. 应对恶劣天气：在雨雪雾霾等恶劣天气条件下，摄像头和激光雷达的感知效果都会受到影响，BEV+Transformer方案相比能够减少损耗，避免各传感器“各自为战”。

3. 应对动态交通：高阶智能驾驶不仅需要在常规交通中平稳运行，还需要对并车、合流等复杂任务作出反应，另外还需要应对交通事故、路段封闭等突发情况。BEV+Transformer能够实时输出交通状况，并对路面行人、车辆作出预测，便于智驾系统做出更加合适的应急策略。更重要的是，BEV+Transformer的方案将静态道路信息与动态道路参与方统一到了同一个坐标系下，通过实时感知与转换，在行驶中即可实时生成“活地图”，推动自动驾驶中“感知-决策-规划”的任务进行。这也就意味着高精地图不再成为强需求。对于车企来讲，使用高精地图一直面临着“资质门槛高、采购成本高、维护成本高”的“三高”难题，如果能够将BEV+Transformer上车使用，摆脱高精地图将指日可待，在当下“以价换量”的市场竞争中，又能向前一大步。

关键字：自动驾驶多模态引用地址：自动驾驶多模态数据感知融合方案对比

上一篇：基于以太网的汽车信息物理系统车辆数据基础设施框架
下一篇：应用于ADAS和汽车传感的相干激光雷达设计方案

推荐阅读最新更新时间：2024-11-13 03:12

大众自建汽车软件部门，提升自行开发软件比例

大众汽车表示，计划在2025年之前将5000名数字专家投入一个名为“汽车软件”（Car.software）的新部门，争取到那时将自行开发的软件比例从现在的不到10%提高至至少60%。该公司表示，到2025年，其所有新车型都将使用同一软件平台，包括其名为“vw.os”的汽车操作系统，以及大众汽车云。近日，大众表示，大众与福特即将就共同开发自动驾驶汽车和电动汽车的合作伙伴关系达成协议。今年3月，大众与这个美国第二大汽车制造商签署了一项开发皮卡的协议，双方一直在讨论将合作扩大到自动驾驶和移动服务领域，以及允许福特使用大众MEB电动汽车平台。大众汽车首席执行官赫伯特-迪斯（Herbert Diess）表示，谈判“进

[嵌入式]

长波红外/可见光四摄齐发应对自动驾驶严苛要求

据麦姆斯咨询报道，CES 2019（消费电子展）汽车智能和自动驾驶技术类别的创新奖获得者Foresight Autonomous Holdings，将直播展示其专为半自动和自动驾驶设计的QuadSight视觉系统。在以色列夜间的道路直播中，Foresight将实时展示QuadSight系统如何在黑暗、雾、雨和眩光中发现障碍物。针对由汽车工程师协会树立的Level 3级、4级和5级自动驾驶严苛要求，QuadSight系统旨在实现所有天气和照明条件下，接近0误报的障碍物探测。利用数十年经过现场验证的安全技术和先进的图像处理算法，QuadSight能够独特地使车辆在完全黑暗、雪、雨、雾、沙尘暴和眩光环境中获得可靠的视觉能力。For

[汽车电子]

CES自动驾驶点评：英特尔英伟达高通暗自较劲

在代表未来发展方向的自动驾驶领域，新兴企业对此充满兴趣。近期举行的国际消费电子展（CES）上，传统汽车厂商、互联网巨头、芯片制造商和初创公司都已经加入这一巨大的阵营。根据CES官方统计，今年与自动驾驶技术相关的汽车展台的容量比往年扩大了三分之一。亚马逊、英特尔、英伟达、思科等企业，都在CES上宣布达成与自动驾驶相关的协议。根据英伟达创始人、CEO黄仁勋在CES上重申的自动驾驶发展路线图：“L3等级的自动驾驶将于2020年早期实现，L4等级的自动驾驶将于2021年晚期实现，而L5等级的全自动驾驶出租车（Robotaxi）将最早在明年实现。” 科技巨头齐上阵在全球市值最高的五大科技公司FAAMG（Facebook

[嵌入式]

智能汽车E/E架构研究：特斯拉遥遥领先，传统车企发力猛追

随着汽车新四化发展，传统分布式 E/E 架构受到挑战：EV 的三电系统，增加了汽车 E/E 架构的复杂程度；智能座舱、自动驾驶等功能，需要融合更多传感器数据，对 OTA、算力和车辆安全等提出更多挑战。因此，未来汽车需要更高算力的 ECU 协同以及可拓展性的架构设计，域集中电子电气架构、车辆集中电子电气架构等对现有分布式架构的替代作用将逐渐显现，车企和 Tier1 争相进行前瞻布局。丰田电子电气架构开发部总经理 Nishikawa 总结的电子电气架构演进路线为：简单 LAN→分层 LAN→中央网关+域 LAN→计算平台（包括在线云）→计算平台++（包括在线云、线下云）。来源：丰田博世则将汽车电子电

[汽车电子]

叉车也能做到无人驾驶？Seegrid助力自动驾驶复杂方案

无人驾驶叉车（也称为自动叉车或机器人叉车）已经超越了新颖性阶段，越来越多地应用于物料存储和运输中，以补充或替代人工操作叉车。据外媒报道，美国 Seegrid 筹集了 2500 万美元股权融资，由 G2VP 投资，G2VP 的联合创始人 David Mount 将加入公司的董事会。该轮融资后，公司的估值达到数亿美元。公司将利用这笔资金加快原定于 2021 年和 2022 年推出的新产品，并招聘更多的专业人才，促进公司增长。 Seegrid 是一家基于视觉的工业自动驾驶公司，成立于 2003 年，总部位于美国匹兹堡，由 Hans Moravec 和 Scott Friedman 联合创立，旨在降低制造工厂、物流运输和

[嵌入式]

叉车也能做到无人驾驶？Seegrid助力<font color='red'>自动驾驶</font>复杂方案

TUM研究人员开发新技术提高自动驾驶道路安全

据外媒报道，在Providentia++项目中，慕尼黑工业大学（TUM）研究人员与行业合作伙伴开发出新技术，以基于车载传感器输入和交通状况鸟瞰图来补充车辆视角，从而提高道路安全，包括自动驾驶。法雷奥德国驾驶高级研究负责人Jörg Schrepfer表示：“自动驾驶汽车不仅要在低速行驶时保障安全，在快速行驶时依然要确保安全。但当物体从卡车上掉下来或其他情况下，自动驾驶汽车的‘以自我为中心’的视角往往无法及时检测到危险，因此很难执行平稳的规避行动。” 图片来源：慕尼黑工业大学 Providentia++项目的研究人员开发出一种系统，可以将交通状况的附加视图传输到车辆中。TUM项目主管经理Alois Knoll教授

[汽车电子]

TUM研究人员开发新技术提高<font color='red'>自动驾驶</font>道路安全

L3 自动驾驶标准有望出台业内人士：能够带动相关行业快速发展

据新华社报道，日前，工业和信息化部副部长辛国斌在国务院新闻办公室举行的政策例行吹风会上表示，将启动智能网联汽车准入和上路通行试点，组织开展城市级“车路云一体化”示范应用，支持有条件的自动驾驶。 “这里面讲的是L3级及更高级别的自动驾驶功能商业化应用。我们已经启动了这项工作，地方也在积极响应。相信在不久的将来，更多有智能化水平的产品会跑在路上。”辛国斌表示。图源：商汤官网此外，工信部方面5月中旬曾透露，《智能网联汽车标准体系指南》即将正式发布，加快制定十多项重点急需的标准，其中就包括支持L3级以上自动驾驶功能商业化应用。招银国际研究部副总裁白毅阳表示，智能网联汽车标准的制定能够在安全标准、责任划分等方面做出明

[汽车电子]

L3 <font color='red'>自动驾驶</font>标准有望出台业内人士：能够带动相关行业快速发展

自动驾驶测试场景深度解析

本文内容主要围绕自动驾驶汽车测试场景的内涵、作用、尺度、视角以及数据来源等方面进行了详细阐述。 01. 场景要素和场景分类在进行测试场景构建时，首先需要明确测试场景所涵盖的要素。真实世界中的场景无穷无尽，要素纷繁复杂，对场景进行分解，提取场景中包含的要素类型，是对现实世界场景进行降维和抽象的基本方法。为了便于要素的分析及组织，需要对场景要素进行分类。根据不同的组织结构，场景要素划分有多种方式。从自动驾驶测试的需求角度出发，场景要素可以分为环境要素和自车任务两类要素。从场景要素的基本属性出发，可以分为静态要素和动态要素等。从场景要素的拓扑关系出发，可以分为道路要素、交通参与者要素、气象要素等。场景要素是测

[嵌入式]

热门资源推荐
热门放大器推荐

小广播