智能驾驶如何拥抱大模型？-电子工程世界

几个月的时间，以ChatGPT为代表的大模型飞速蹿红，狂飙迭代，大有席卷各行各业之势。当这股热风吹进智能驾驶领域，带来了一些恐慌，也带来了新的方向。

一个是在云上满足泛化性多任务的语言类模型，一个是在公共交通环境下运行的智能驾驶系统，在智己汽车智驾中心软件高级经理殷玮看来，二者是通往AGI（Artificial General Intelligence通用人工智能）雏形的两条不同路径，ChatGPT从“云”出发走向“可信任”，智能驾驶从“端”出发走向“泛用”。

在通向AGI的路上，它们会有哪些交集？大模型对于智能驾驶的发展有什么指导意义？未来智能驾驶又会朝着什么方向演进？

在2023中国（亦庄）智能网联汽车科技周暨第十届国际智能网联汽车技术年会（CICV2023）上，殷玮分享了他的思考。

以下根据殷玮演讲速记整理，略有删减：

1、大模型和智能驾驶在何处交集？

智己汽车智驾中心软件高级经理殷玮

1）感知融合预测

ChatGPT和智能驾驶都属于系统范畴，而任何系统的研究，讨论的就是两个问题：一个是泛用性（指一个模型经过训练后，应用到新数据并做出准确预测，实现广泛场景覆盖的能力），一个是可靠性。通过泛用性来维持自己的不确定性，通过可靠性来维持确定性。

目前，智驾领域从原来只有图像感知使用模型、其它则使用规则算法的方式，到现在除了规控以外，感知融合预测已经可以全模型化。

研究车端大模型对于整个软件泛化性的控制，对corner case的处理有非常积极的意义，也是发展趋势。

2）数据引擎

数据闭环是ChatGPT和智能驾驶都必不可少的。不过，过去谈数据闭环，模型的变更还很多，但最近讨论的重点变成了看怎么用模型去得到结果，再用结果得到模型，循环套娃。

其实ChatGPT也类似，从1.0到4.0，整个数据结构就像脑子里的神经元，基本结构没发生多大变化，只是每次教育改革训练我们脑子的学习资料变化很大，让脑子变得很快。

3）Transformer

Transformer即为GPT的T，在智能驾驶领域里也被广泛提及。它是一种利用注意力机制来提高模型训练速度的深度学习模型，由编码和解码两部分组成。

智能驾驶系统和大模型在没有商量的情况下，高度一致地选择了Transformer，看似巧合，背后却有一定客观规律存在。Transformer对于时空逻辑带有一些因果推理过程，至少当前情况下正在统一化整个智能系统研发的策略。

智能驾驶系统现在处于一种大编码器的研发策略，对于解码器的使用还是在研状态，但是大模型已经进入到了解码器阶段，这对于智能驾驶往后做Transformer开发是有借鉴意义的。

4）多模态

现在，语言类、文字类的大模型火出圈，图片类、视频类、语音类开始流行起来，还没有出圈的模态就是行为类的大模型，跟机器人的结合。一旦大模型走到行为这一步，就开始跟智能驾驶进入统一的讨论范畴了。

但是智能驾驶系统的发展会有点区别，现在更多讨论的是相机、激光雷达等感知的BEV模型，也讨论地图预测过程中，怎么用模型来进行原来高精度地图做的一些拓扑映射，这些对于智能驾驶的规划决策都是输入。在这个维度上，语言模型的突破，对于智能驾驶系统规划接下来的发展，有很强的借鉴意义。

5）平权

这个词最近智能驾驶和大模型都在提，但是两者平权逻辑不太一样。

智能驾驶谈平权，大部分都跟降本有关，要保证高迭代情况下还要降本，整个集中化架构要怎么做，还有软件边际成本的降低。在适配新车型、新算法、新业务状态的时候，要保证软件的变更最低，模型化对于这件事情确实有极大贡献。

当然它也会带来新的问题，如果模型输入源发生变化，可能带来成本的极大增加。

但从大模型领域出发，平权更多谈论的是所有权问题，这么恐怖的生产力掌握在谁手上的问题。

2、在确定性和不确定性之间反复横跳

要研究大模型和智能驾驶的工作流状态，就要理解它们在处理泛化性和可靠性时，都经历了怎样的过程。

ChatGPT的业务天生就是自解释的，面向多任务场景，高容错。它的整个训练过程，从最开始对数量要求最大的无监督学习，到结构化的微调、有监督学习过程，再到强化学习，训练完产生的结果到这个阶段其实已经可以用了。

但是要能真正用于工作流的话，还是要到达提示词工程（用AI听得懂的提示语言，帮助AI高效理解需求，实现功能）这个级别才能发挥生产力价值。

ChatGPT整个发展过程是从泛化性、高容错，转化到一些看上去很像智能汽车的价值观，如控制时延、少算力，增强交互的真实性、可控性。属于更强调不确定性的范式，要求从这个过程中得到一些答案和新的思考，人只是给到一个指引，但是不会去强行控制它的结果。

但纵观整个智能汽车的发展阶段，以及后面想做的事情，其实是跟ChatGPT是反过来的。

在智能汽车上，一开始无论系统多小，它其实已经是一个在公共交通环境下运行的机器人了，关系到生命安全，因此一定要强调安全性和可靠性。智能驾驶系统属于更强调确定性的范式，一个模型要先到达一个安全系数，再进行控制。

两种方法之间差异非常大，习惯了确定性做法或习惯了规则的人，和习惯了不确定性做法的人，他们之间可能完全无法相互理解。但智能驾驶系统的实现过程，就是在确定性和不确定性之间反复横跳的过程。

确定性的工作流，它在产品里最大的作用是确保短期的产品质量，为量产兜底，同时，也为不确定性的工作流提供了“差异识别”的能力。有一个确定性的方法或者安全系统，控制边界，给深度学习一点空间，这是量产比较好操作的方案。

不确定性的工作流，对产品的长期迭代有很深的影响，能帮助确定性工作流提升效率，缓解压力。

这种在确定性和不确定性之间的反复横跳是一种螺旋式上升，两者的变化会带来对智能驾驶系统认知维度的跃迁。

3、未来跳向何方？

ChatGPT在用户中有很高的付费意愿，产品迭代也很快，而智能驾驶商业化落地相比之下就慢多了，也导致很多资本从智能驾驶涌入ChatGPT。

两者在发展轨迹上注定是不同的，虽然都要走向广泛信任的终点，但以ChatGPT为代表的AIGC经历的是从广泛到广泛信任，智能驾驶经历的则是从信任到广泛信任。

虽然AIGC在这段时间的爆发异常迅猛，从语言，到多模态，到专业领域的定制化，到很多工具的调用，再到最后机器人的介入，速度会非常快，但AIGC的发展速度也不会一直这么快，总有慢下来的一天。

它会在什么时候慢下来？会在面临一些跟智能驾驶同样问题的时候慢下来。当进入到一些高敏感领域决策的问题，比如在一些机器人进入到公共安全领域时，它肯定会慢下来。

ChatGPT和智能驾驶之间，可能会经历三个阶段。

第一个阶段是恐慌，就是现在的感觉。

第二个阶段，LLM（大语言模型）类业务会开始指导智能驾驶的工程师实践，现在智能驾驶很多工作流也是朝这个方向去做，从万物感知，到预测、规划，到自解释的过程。

越往后会发现ChatGPT和智能驾驶在做的研究越像，很多时候会成为一些共性的问题。虽然现在的差距从工程上来说还比较大，两者联系并没有那么密切，但是未来这种趋势会变得越来越明显。最后，肯定会朝着AGI共同目标驱同演进。

引用地址：智能驾驶如何拥抱大模型？

上一篇：骁龙8155“继任者”发布，未来芯片会主导汽车换代吗？
下一篇：绿色出行合作共赢

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■有奖直播报名:大联大世平集团&恩智浦 | AI 无所不在，单板电脑也可以

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■Follow me第二季第4期来啦！与得捷一起解锁蓝牙/Wi-Fi板【Arduino Nano RP2040 Connect】超能力！

Vishay线上图书馆

白皮书技术文章视频热门推荐