很多自动驾驶公司包括 Waymo、百度、奔驰(Cityscape)、英伟达(PilotNet)、本田(H3D)、安波福(nuScense)、Lyft、Uber 都公开了其部分训练验证数据集,还有一些知名大学也公开了其训练验证数据集,包括 MIT、剑桥、牛津、巴克利、加州理工大学(Caltech)、CMU、悉尼大学、密歇根、德国鲁尔(交通灯)、加拿大约克(JAAD)、斯坦福。但是 Argo AI 的数据集 Argoverse 仍然值得一提。
2020 年 6 月 2 日,Argo AI 公司 CEO Bryan Salesky 和该公司慕尼黑分部(即 AID)副总裁 Reinhard Stolle 在其官方 Blog 上联合发布了一篇声明,宣布 Argo AI 由此走向国际化。而这一事件完成最关键的标志就是——德国大众集团完成了对 Argo AI 价值 26 亿美元的注资正式结束。大众将与福特持有相同的股份,剩余部分则归 Argo AI 公司员工所有。Argo AI 公司的董事会也会由 5 人增至 7 人,其中大众和福特各占 2 个席位,另外的 3 个席位则归属于 Argo AI 自己。Argo AI 与大多数自动驾驶公司将总部放在加州也不一样,其总部在匹兹堡,美国汽车工业心脏地带,而不是加州的高科技地带。
自动驾驶感知环节,不仅要探测移动目标,还要对移动目标的行动轨迹做出预测,就像人类驾驶的预判,这样才是真正的自动驾驶,才能提高安全性。也就是 MODT(Moving Object Detection and Tracking),上面提到的数据集都是针对 Detection 的,而 Argoverse 主要是 3D 轨迹追踪和预测,这是其独特之处。
再者,Argoverse 将高精度地图与 3D 轨迹追踪并预测结合,用确定性的地图提高整体系统的确定性,这才是自动驾驶大厂所关注,传统车厂更注重确定性,更在意安全。拥有高精度地图的数据集只有两个,一个是 Argoverse,另一个是 nuScense。
Argoverse 与其他数据集的对比
上图是 Argo AI 的数据采集车,激光雷达部分采用两个 VLP-32C 堆叠。扫描密度是 nuScense 的 3 倍,7 个 200 万像素摄像头呈环状分布,帧率 30Hz,一个 500 万像素双目摄像头,帧率 5Hz,基线宽 29.86 厘米,还有 6DOF 的高精度定位。这个数据采集车同时也是 Argo AI 的自动驾驶原型车,主要采集地点在匹兹堡和迈阿密。
最上面一行是 4 个 200 万像素相机影像,中间右边是双目相机影像,最下面一行是 3 个 200 万像素相机影像,右边是地面高度的矢量地图。所有序列都与包含车道中心线(洋红色),可行驶区域(橙色)和地面高度的地图对齐。序列用 3D 长方体轨道(绿色)标注。
显示三个参考坐标系:(1)车架,Xv 向前,Yv 左,Zv 向上,(2)相机架,Xc 跨像平面,Yc 朝下像平面,Zc 沿光轴,( 3)LiDAR 框架,向前 XL,向左 YL,向上 ZL。为每个坐标系定义正旋转 RX,RY,RZ 为遵循右手定则的绕相应轴的旋转。
如果地图直接告诉我们哪些 3D 点属于道路,哪些属于静态建筑物,所跟踪的对象位于哪个车道,到下一个交叉路口的距离等,则 3D 场景理解会更容易,更容易预测其运动轨迹。但是,由于公开可用数据集不包含丰富的映射属性,如何表示和利用这些特征是一个开放的研究问题。Argoverse 是第一个具有此类详细地图的大规模自动驾驶数据集。Argo AI 在 3D 跟踪和运动预测这两个任务上研究了这些新地图功能的潜在用途,并且提供了大量的现实世界,带标注的数据,以为这些问题提供新的基准。
Argoverse 的场景可视化,用激光雷达鸟瞰图(BirdEyed View)视觉化,车辆或其他目标用 3D 框标注,用双目计算出可行驶区域,并用青色表示,用黄线表示边界。从中也可以看出,未来大众和福特的自动驾驶类似奔驰的,也是以双目为核心,以双目计算出可行驶区域,以激光雷达定位和 MDOT 避障。
Argoverse 用高精度地图移除地面静态物体。有了高精度地图,再配合激光雷达鸟瞰图,可以准确地移除基于地面的静止目标,减轻自动驾驶的感知计算复杂程度,更容易识别出重要的运动目标。如果地面有坡度,这种算法难度较高,Argo AI 用准确的高度匹配和 3D 地图解决这个问题,最终效果如右边一列。
Argoverse 跟踪数据集包含 113 条带有人类注释 3D 轨迹的片段。这 113 个片段的长度从 15 到 30 秒不等,总共包含 11,052 个跟踪对象。使用 3D Bounding Box 对所有感兴趣的对象(动态和静态)进行标注。仅标注了地图定义的可行驶区域 5 m 内的对象。对于整个片段持续时间不可见的对象,在 LiDAR 点云中该对象变为可见后立即实点化轨迹,并在该对象不再可见时终止轨迹。即使暂时被遮挡,相同的对象 ID 仍用于同一对象。每个对象都标记有 15 个类别之一,其中包括 ON_ROAD_OBSTACLE 和 OTHER_MOVER,用于不属于其他预定义类别的静态和动态对象。超过 70%的被跟踪对象是车辆,还观察到行人,自行车,轻便摩托车等。
所有标注均通过人工手动标注保证质量。将带注释的跟踪数据分为 65 个训练,24 个验证和 24 个测试序列。
在移动目标轨迹运动预测中,Argoverse 可以预测将来某个时间跟踪对象的位置。许多车辆的运动相对无意义 - 在给定的帧中,大多数汽车都以几乎恒定的速度停泊或行驶。这样的轨迹很难代表真实的预测挑战。Argo AI 想要一个具有多种场景的基准测试,例如交叉路口,车道合并车辆减速,转弯后加速,道路上的行人停车等。为了对这些有趣的场景进行足够的采样,Argo AI 跟踪了迈阿密和匹兹堡 1006 个行驶小时内的物体,并找到了 Argo AI 感兴趣的车辆在那 320 小时内的行为。主要包括(1)在十字路口,要么(2)左转或右转,(3)转向相邻车道,或者(4)在交通繁忙时。Argo AI 总共收集了 324,557 个 5 秒序列,并将其用于预测基准。
这些序列的地理分布如上图
每个序列都包含以 10 Hz 采样的每个被跟踪物体的 2D 鸟瞰中心。每个序列中的“焦点”对象始终是车辆,但是其他跟踪的对象可以是车辆,行人或自行车。它们的轨迹可用作“社会(Social)”预测模型的上下文。324,557 个序列分为 205,942 个训练序列,39,472 个验证和 78,143 个测试序列。每个序列都有一个具有挑战性的轨迹。训练,验证和测试序列取自城市的不相连部分,即每个城市的大约八分之一和四分之一被分别留作验证和测试数据。该数据集远大于可以从公共可用的自动驾驶数据集中挖掘的数据集。如此规模的数据很吸引人,因为它使我们能够看到罕见的行为并训练复杂的模型,但它太大了,无法详尽地验证开采轨迹的准确性,因此,数据中固有一些噪声和误差。
Argo AI 使用 Baseline Tracker 基线追踪器,给定一系列 F 帧,其中每个帧包含一组环形摄像头图像和来自 LiDARPi 的 3D 点,其中 Pi 的 x,y,z 坐标,我们想要确定一组轨迹假设{Tj | j = 1,…,n},其中 n 是整个序列中唯一对象的数量,Tj 包含对象中心位置和方向的集合。我们通常有一个动态的观察者,因为我们的汽车经常行驶。场景中的车辆可以是静止的或移动的。
基线跟踪器。Argo AI 的基线跟踪管道在 LiDAR 点云的可行驶区域(在地图上标出)内工作,以检测潜在的物体,使用 Mask R-CNN 去除非车辆的 LiDAR 信息,使用最近相邻和匈牙利算法将聚类随时间进行关联,使用迭代最接近点(ICP)估计群集之间的转换,并使用等速运动模型通过经典的卡尔曼滤波器估算车辆姿态。所有车辆均使用相同的预定义 3D Bounding Box 尺寸。
如果无法通过匈牙利方法找到对象的匹配项,则在删除对象或将其关联到新的群集之前,仅使用最多 5 帧的运动模型来维持对象的姿势。即使对象在短时间内被遮挡并重新出现,这也使跟踪器可以保持相同的对象 ID。如果集群不与当前跟踪的对象相关联,将为其初始化一个新的对象 ID。
跟踪器使用以下地图属性:
可行驶区域 Argoverse 侧重于车辆跟踪,因此将跟踪器限制在地图指定的可驾驶区域。该可行驶区域覆盖车辆可能行驶的任何区域。这种限制减少了误报的机会。
地面高度。使用地图信息去除地面上的 LiDAR 点云。与局部地平面估计方法相比,基于地图的方法在倾斜和不平坦的环境中有效。
车道方向。由于 LiDAR 的稀疏性和局部视野,仅凭 LiDAR 来确定车辆方向是一项艰巨的任务。Argo AI 观察到车辆方向很少违反车道方向,尤其是在十字路口外。幸运的是,此类信息可在地图中获得,因此,只要车辆不在十字路口且包含的 LiDAR 点太少,Argo AI 就会根据车道方向调整车辆方向。
评估标准方面,Argo AI 将对 MOTP(Moving Object Tracking Processing)使用三个距离度量:MOTP-D(3DBounding Box 中心 Centroid 距离),MOTP-O(方向误差)和 MOTP-I(交叉路口误差) 。MOTP-D 是由相关跟踪器输出和地面真实情况之间的 3D 边界框质心距离计算的,在 MOTA 中也用作检测关联范围。我们的“遗失”轨道阈值是 2 米,是美国平均家庭用车长度的一半(编者注:这个显然错了,应该是 2.5 米)。MOTP-O 是绕 z 轴(垂直)的最小角度差,从而忽略了前后对象的方向,而 MOTP-I 是无模态形状估计误差,由 3D 边界框的 1-IoU 计算得出与 nuScenes 中一样对齐方向和质心。对于所有三个 MOTP 分数,较低的数值表示较高的准确性。
24 个片段的测试结果,结果显示,远距离效果不是太好。
与基于地图的地面拟合方法相比,基于地图的地面去除方法在较长距离下具有更好的 3D IoU 评分和更好的检测性能(更高的 MOTA),但方向稍差。另一方面,地图上如果加上车道线信息,车道方向追踪性能可显着改善。
运动预测方面,Argo AI 首先挖掘“有意义”的序列,在其中观察“焦点”车辆 5 秒钟。作为上下文,Argo AI 具有所有其他跟踪对象(包括自动驾驶车辆本身)的质心,这些质心被折叠为一个“其他”类。
预测坐标系和归一化。用于轨迹预测的坐标系是自顶向下的鸟瞰图(BEV)。预测涉及三个参考坐标系:(1)在城市坐标系中存储和评估原始轨迹数据。(2)对于使用车道中心线作为参考路径的模型,Argo AI 定义了一个二维曲线坐标系,其轴线与车道中心线相切且垂直。(3)对于没有参考路径(没有地图)的模型,Argo AI 对轨迹进行归一化,以使轨迹的观察部分始于原点,并在正 x 轴上结束。如果(x,y)表示在时间步 t 处轨迹 V 的坐标,则此归一化可确保 ytobs=0,其中 Tobs 是轨迹的最后观察到的时间步。Argo AI 发现这种归一化比将轨迹留在绝对地图坐标或绝对方向上更好。
抽出特征,对于交通环境,使用到前面,后面和附近对象的最小距离。这种启发式方法旨在捕获车辆之间的交通互动。对于空间上下文,Argo AI 通过计算车道线段坐标系中的特征将地图用作先验。Argo AI 计算与每个轨迹相对应的车道中心线,然后将坐标(x,y)映射到沿中心线 a 的距离并偏离中心线 o。在随后的部分中,Argo AI 分别通过时间 st 和 mt 分别表示时间步 t 的轨迹 Vi 的交通特征和地图特征。
Argo AI 使用关联速度( Constant Velocity),最小近邻(NN)和 LSTM 来做预测。给定车辆轨迹的过去输入坐标 Vi ,其中对于时间步长 t 的 X,预测时间步长 T 的未来坐标 Y。对于汽车,5 s 足以捕获轨迹的显着部分,例如。过十字路口。Argo AI 将运动预测任务定义为观察 20 个过去的帧(2 s),然后预测未来的 30 个帧(3 s)。每个预测任务可以按相同顺序利用其他对象的轨迹来捕获交通环境并为空间环境映射信息。
Argo AI 使用最小平均距离误差 Average Displacement Error (minADE)最小最终距离误差 minimum Final Displacement Error (minFDE)可行驶区域服从度 DAC( Drivable Area Compliance)Miss Rate (MR,阈值为 1 米)来评估预测效果。minADE 指的是轨迹的 ADE,具有最小 FDE,而不是最小 ADE,因为要评估单个最佳预测。就是说,minADE 误差可能不是一个足够的指标。K 指一条路径上的预测次数。如果只预测一次,LSTM 效果比较好,预测多次,NN 加地图性能更好。无论哪一种,加了地图之后性能都更好。
上一篇:LG Chem电动汽车电池销售额增长83.7%,今年有望成全球领导者
下一篇:5月份国内动力电池行业解析
推荐阅读最新更新时间:2024-10-19 19:00