一文了解什么是BEV感知？-电子工程世界

#01 初始BEV

车辆感知作为高等级辅助驾驶产品中的重要一环，是以多种传感器的数据与高精度地图的信息为输入，经过一系列的计算和处理，对周围环境精确感知的系统，作用相当于人眼。其感知识别任务本质上是对物理世界进行3D几何重构，使计算机能够“认识”到物理世界中的实体和元素。

自动驾驶算法的传统感知方法是在前视图或透视图中执行检测、分割、跟踪等。之前所流行的2D感知的核心在于从单幅图像或连续图像序列中识别并区分目标物体。尽管这一传统视觉感知技术在过去的十年间得益于深度学习和大规模数据集，实现了显著的进步，这也是自动驾驶领域飞速进步的关键因素之一。但针对自动驾驶的具体需求，仅依赖2D感知并不足够。实际上，为了支持车辆在定位、轨迹预测和运动规划等下游任务，必须将2D感知所获得的信息转化到三维空间框架下。同时，随着车辆上搭载的传感器越来越多、越来越复杂，且安装位置、视角和数据格式不尽相同，因此，以统一的视角将来自不同传感器的多源信息进行数据整合，在统一的视图中表示特征变得至关重要。

因此，尽管2D视觉感知本身已日趋成熟，如何有效解决从2D向3D空间的转换难题，仍然是其在自动驾驶应用场景中的一大挑战。

BEV的英文全称为Bird's-Eye-View，即鸟瞰视图，这是一个形象生动的表达，用来描述从高空俯瞰地面时所获得的视角，就像一只鸟儿飞翔在空中向下看时所能见到的景象。在地图制作中，鸟瞰视图是一种特殊的地图表示形式，它模拟了从正上方垂直向下观看地球表面的效果，能够清晰地显示地形、建筑物、道路网络等地理要素之间的空间关系和布局。这种视图对于自动驾驶车辆而言至关重要，因为它简化了对周围环境的感知和理解。

与在2D视觉领域得到广泛研究的前视图或透视视图相比，BEV具有以下几个优点：

（1）没有2D感知中常见的遮挡或缩放问题。识别有遮挡或交叉的车辆可以得到更好的解决。

（2）以这种形式表示对象或道路元素有利于后续模块(如规划、控制)的开发和部署。

（3）全局视野与统一坐标框架。BEV能提供车辆周围较大范围的全景视野，不受单一传感器视线局限，对于复杂路口、交叉口以及交通拥堵等场景尤其重要。将来自不同传感器（如摄像头、雷达、LiDAR）的数据转换到同一BEV坐标系下，使得所有感知信息在一个标准化的空间内融合和处理，增强了信息的一致性和可靠性。

（4）多任务处理与并行化。在BEV视图下，可以更高效地并行执行多种感知任务，比如障碍物检测、车道线检测、可行驶区域估计等，减少了不同任务间的相互依赖。

（5）降低硬件成本与依赖。尽管BEV感知通常涉及多传感器融合，但也促进了基于纯视觉方案的BEV感知研究，通过视觉传感器实现低成本的3D感知，减轻对LiDAR设备的依赖。

#02 BEV的工作原理

以下是BEV感知的大致工作原理：

（1）传感器数据获取。首先，自动驾驶车辆搭载的各类传感器收集实时数据，包括但不限于来自相机的RGB图像、深度图像，或激光雷达的点云数据等。

（2）传感器数据预处理。对每种传感器的数据进行必要的预处理，例如校正畸变、滤波、去除噪声等。

（3）BEV视角转换。视角转换是将来自不同传感器（尤其是摄像头拍摄的透视视图图像）的数据转换为从上方看的鸟瞰视图的关键步骤。这个过程涉及到从二维图像或其他三维数据形式（如激光点云）中提取深度信息并重建出一个车辆周围的三维空间布局。

目前的研究工作可以根据视角变换分为两大类：基于几何变换和基于网络变换。前者利用相机的物理几何原理，以可解释性的方式转换视图。后者使用神经网络将透视图（PV）投影到BEV上。

基于几何变换的方法：

单目视觉：由于单目摄像头无法直接提供深度信息，通常需要借助深度学习模型来估计每个像素点的深度。一旦获得了图像中每个点的深度值，就可以结合摄像机内参（焦距、主点坐标等）和外参（摄像机相对于车辆的位置和姿态），通过三维空间几何变换（如透视投影变换）将图像像素映射到BEV空间。

双目立体视觉：利用两个摄像头间的基线关系计算视差，从而得到深度信息，同样经过几何变换映射至BEV。

多目视觉：多个摄像头的数据可以组合起来提高深度估计精度，进一步增强BEV空间的重构效果。

基于深度学习的投影变换：

直接学习投影变换：利用神经网络直接学习透视图像到BEV空间的非线性映射函数，这种映射通常是端到端训练的，可以从输入图像直接输出BEV空间下的特征图。

卷积神经网络与反投影：通过CNN对图像进行特征提取，并结合深度估计网络提供的深度信息，采用反投影操作将带有深度信息的特征点投射到BEV空间中。

点云数据处理：

LiDAR点云：激光雷达采集的点云数据已经是三维形式，可以直接通过坐标变换（旋转和平移）将点云数据转换到车辆坐标系下的BEV视图。这通常较为简单且精确，但涉及到大量的数据稀疏性和不规则性处理。

（5）多模态数据融合。各传感器获得的BEV视角数据进行融合，整合形成一个全面且精确的周围环境表示。通过结合不同传感器的优势互补缺失，例如雷达对于非可视条件下的探测能力，摄像头对于颜色和纹理的识别能力，激光雷达对于精准距离测量的能力。各种传感器首先分别进行初步处理，提取各自的特征信息（如摄像头图像的视觉特征、点云的几何特征），然后将这些特征进行深度融合。在BEV感知中，可能包括将从图像中检测到的物体边界框与点云中的三维几何信息相结合，以生成更精准的BEV场景表示。

（6）特征提取与建模。在BEV视角下，利用深度学习模型（如Transformer或者CNN等）提取和构建环境特征图，用于识别和追踪路面、车辆、行人、交通标志等关键元素。

（7）感知任务执行。在构建好的BEV特征图上，可以执行一系列感知任务，如目标检测、分类、轨迹预测等，从而让自动驾驶系统了解周围环境的状态，并据此做出决策。

（8）端到端优化。最新的BEV感知技术如LSS（Lift, Splat, Shoot）或BEVFormer等，实现了端到端的训练，可以直接从原始传感器输入到BEV特征的生成，同时进行感知任务的学习和优化，提高了整个系统的效率和性能。

#03 BEV的解决方案

BEV（Bird's-Eye-View）感知的解决方案按照输入数据类型和处理方法的不同，分为以下几类：

（1）视觉BEV（Visual BEV）

视觉BEV主要是基于摄像头图像数据进行BEV空间的重建。这类方法主要利用单目或多目摄像头捕获的2D透视图像，通过深度学习技术进行深度估计，然后再结合摄像机参数将图像信息投影到BEV空间中。代表性工作如BEVDepth、Mono3D等，其中一些最新的技术如BEVFormer等更是直接从原始图像输入出发，通过神经网络学习映射到BEV空间的特征表示，实现目标检测和场景理解。

（2）激光点云BEV（LiDAR BEV）

激光点云BEV则是基于LiDAR（激光雷达）采集的3D点云数据。由于LiDAR本身就提供了直接的三维空间信息，将点云数据转换为BEV视角相对较直接。通过将点云进行降采样、聚类、分割等预处理后，可以很容易地将点云数据投影到BEV空间，从而进行3D目标检测和场景解析。这类方法的特点是能够在BEV空间内充分利用点云数据的精确几何特性。

（3）融合BEV（Fusion BEV）

融合BEV则综合了视觉和LiDAR等多种传感器的数据，在BEV空间中进行跨模态融合。这种方案的优势在于可以结合摄像头图像丰富的纹理和色彩信息以及LiDAR数据的精准深度信息，实现更高精度和更鲁棒的环境感知。融合的方式包括早期融合（数据级融合）、中期融合（特征级融合）和后期融合（决策级融合）等多种策略。例如，有的方法会先分别将摄像头和LiDAR数据转换到BEV空间，然后将两者在BEV空间内进行特征融合，生成融合后的BEV特征图，用于后续的感知任务。

此外，还有研究探索如何将雷达数据、IMU数据等其他传感器信息融入BEV感知框架中，以增强自动驾驶系统在复杂环境和恶劣天气条件下的性能。总的来说，选择哪种BEV感知方案取决于实际应用场景的需求、可用传感器资源以及对精度、实时性等方面的权衡。

#04 BEV的局限性与挑战