FSD V12 将迎重大架构变化,“端到端自动驾驶”影响几何?
进“智车行家自动驾驶交流群”, 请加18512119620(微信同),备注公司-姓名-职位加群
摘要:
特斯拉多次表示 FSD V12 将实现全新的“端到端自动驾驶”,模型架构将迎 来重大变化。对于新架构的技术细节和潜在影响,市场仍有较多疑惑和分歧。 根 据特斯拉对外披露的信息及马斯克在X 平台(前推特)发布的信息,我们推 测特斯拉内部目前有两条“端到端”路线同步在研: 1)级联式端到端神经网 络;2)World Model。我们认为,FSD V12 是前者的可能性较大,有望于明 年初落地,以更好地实现L3 能力;World Model 仍较为新兴,但中长期有望 成为自动驾驶乃至具身智能领域的基础模型,可类比GPT 之于LLM,或对行 业格局产生颠覆性影响 。
2023 年 5 月 11 日,马斯克在 X 平台(前推特,后同)表示, FSD V12 版本将实现“端到端”的自动驾驶(End-to-End AI from Images in to Steering, Brakes & Acceleration Out);8 月 26 日,马斯克在 X 平台上进行了 FSD V12 工程版的首次试驾直播。特斯拉作为目前自动驾驶行业引领技术潮流的存在,使得“端到端自动驾驶” 走向台前并引发资本市场关注。但对于新模型的技术细节和潜在影响,市场仍有较多的疑惑和分歧。
根据特斯拉对外披露的信息及马斯克在 X 平台发布的信息,我们推测特斯拉内部目前有两条“端到端”自动驾驶技术路线同步在研:1)级联式端到端神经网络;2)World Model。我们认为,FSD V12 是前者的可能性更大,根据马斯克多次公开表态和 V12 demo 8 月底的直播表现,我们预计 V12 有望于明年初正式上车;而后者仍较为新兴,但中长期有望成为自动驾驶乃至具身智能的基础模型(Foundation Model),可类比 GPT 之于 LLM。本篇报告将重点探讨上述两类“端到端”模型未来将如何影响和改变特斯拉 FSD 乃至整个自动驾驶产业。
本质:全程使用神经网络,无需人工规则介入
“端到端”的本质是从系统输入到输出,全程使用神经网络算法,无需任何人工规则介入。 当前,自动驾驶模型多为模块化架构,感知预测、规划、控制等不同任务分属于多个不同的小模型,感知端通过 BEV+Transformer 架构已基本实现神经网络运算,但下游的规控环节则普遍仍以规则为主(rule-based,即工程师编写条件规则代码)。
相较之下,特斯拉的自动驾驶模型神经网络参与度最高,FSD 每一次大版本的迭代本质上就是将更多子任务交由神经网络完成,而减少人工规则的数量。而 FSD V12 所谓的“完全端到端”,就是在一个大的神经网络模型中输入图像后,直接输出转向、刹车、加速等控制指令,无需任何规则代码。
根据机器学习专家James Douma 在与X 平台/Youtube 博主Herbert Ong 对谈中的介绍:在 FSD Beta V10 中,仅感知端及规划端包含神经网络,且规划模块仍以规则为主; V11 引入了更多的神经网络,包括将 Bag-o-bits 转换器与感知神经网络合并、新增多步骤规划神经网络、控制神经网络等;V12 则致力于将所有模块集成为一个大的神经网络。 根据马斯克 2023 年 8 月 2 日的 X 平台发文,目前“车辆控制”是 FSD 端到端模型中的“最后一块拼图”,这将使得现在约 30 万行的 C++控制代码减少至约 3000 行。
为提升训练效果,“端到端”的大神经网络可能是由多个小的子神经网络级联而成。据机器学习专家 James Douma 的介绍,对于一个从未训练过的大神经网络,初期训练信号通常非常弱(weak training signal),训练难度很大。 因此,可先在子系统(subsystem)或子模块(block)层面对较小的神经网络进行训练,训练到一定程度后,再将其堆叠为一个大的端到端神经网络,再做进一步训练。尽管同样为模块级联,但传统的模块化架构中,模块与模块间通常是通过某些规则进行连接,因此无法进行整体的自动优化;而对于级联式神经网络,子模块间则是用神经网络的方式自行训练堆叠,因此可以用数据驱动的方式优化整个“端到端”模型,也就避免了“局部最优,而非全局最优”的困境。
商汤科技的感知决策一体化的自动驾驶通用大模型 UniAD 就利用了类似的思路,该研究论文《Planning-oriented Autonomous Driving(以路径规划为导向的自动驾驶)》(Yihan Hu, Jiazhi Yang, Li Chen等著)斩获了2023届CVPR的最佳论文奖(Best Paper Award),这也是 CVPR 历史上第一篇以自动驾驶为主题的最佳论文。 在 UniAD 大模型中,检测、跟踪、建图、轨迹预测、障碍物预测以及规划等子模块共享 BEV 特征,并利用 Transformer网络,连接整合至一个端到端框架下。具体来说,摄像头采集图像会通过 Transformer 映射至 BEV 空间;TrackFormer(跟踪模块)根据 BEV 信息推理出目标物的检测和跟踪信息;MapFormer(建图模块)根据 BEV 信息实时构建地图;
随后 Motion Former(轨迹预测模块)会根据 TrackerFormer、MapFormer 和 BEV 的结果,计算预测周围物体的整体轨迹;OccFormer(障碍物预测模块)则会根据上述信息输出占用网络的障碍物预测;最后 Planner 模块会进行整个大模型的最终输出。论文中提到,为了得到更稳定的训练结果, UniAD 的训练分为两个阶段,先对感知模块(包括跟踪和建图)做数次训练(实验中为 6次),再对模型整体进行多次训练(实验中为 20 次)。
影响:有望助力 FSD 更好地实现L3 能力,但能否迈向 L4 仍待观望
对于神经网络组成的端到端架构,模型迭代的关键由“工程师”变为了更易于规模化的“数据和算力”,因而训练效率和性能上限有望得到显著提升。 落到实处,我们认为端到端方案有望助力 FSD 以及其它自动驾驶系统更好地走向 L3。但端到端模型的“黑盒” 问题目前产业界尚未有十分成熟的解决方案,因此其最终能否迈向追求极致安全性的 L4全无人驾驶仍待观望。
端到端/神经网络的核心好处在于大幅提升模型的训练效率和性能上限。传统自动驾驶 模型中, 规则的占比较高,想要提升模型性能,就需要大量优秀的工程师编写海量的规则 代码并持续优化,模型的上限也取决于规则代码的质量。 而对于以神经网络为主的端到端模型,性能提升的关键由“人”变为了“数据和算力”,后者更可规模化,同时也更有可能出现大语言模型中的“涌现”概念(即当模型突破某个规模时,性能突然显著提升)。这或也是为何马斯克在 2023 年 6 月接受 CNBC 的采访中表示,FSD 有望在未来两年迎来自己的 ChatGPT 时刻(马斯克原话:I think Tesla will have sort of a ChatGPT moment, if not this year, I'd say no later than next year)。
落到实处,我们认为该端到端方案有望助力 FSD 更好地走向 L3。由于法规限制,FSD目前在美国仍属 L2+,驾驶员不可脱手脱脚,并自行承担事故责任。 而从技术的角度,根据 36 氪网站上的文章《智驾开城,没有“银子弹”》(2023/8/25,作者:李安琪), FSD目前的主动接管里程约 60 公里/次(被动接管里程将更长),这能否被视为“具备 L3 的能力”目前尚有争议。而我们认为,端到端方案所展示出的性能潜力有望大幅提升 FSD 的接管水平,从而实现真正无可争议的 L3 能力(例如达到每周接管 1 次)。
但端到端模型的最大痛点在于可解释性差,能否迈向 L4 目前仍待观望。端到端自动驾驶模型并非特斯拉首创,此前在学术和产业界已有诸多探讨,最早的端到端自动驾驶模型可追溯至 1998 年的 ALVINN 项目,可在大学校园里以 55 英里的时速行驶。
但端到端模型迟迟未能真正量产上车,主要原因在于端到端模型近乎黑盒的工作模式使得其出现问题时较难追溯根本原因,也就是无法针对某一个具体的 bug 进行定向优化。即使是采用级联式神经网络,也只能推测而无法证明感知、预测等子模块的中间输出结果和规划模块的最终输出结果之间究竟存在何种逻辑关系。事实上,端到端大模型之所以能够出现涌现,也正是得益于这种“不可解释性”。而自动驾驶又涉及安全性,容错率远低于 ChatGPT 等语言模型,因此端到端的黑盒问题显得更为致命。
我们认为,FSD 目前作为乘用车智驾系统,即使未来法规放开后走向 L3,也仍有驾驶员作为兜底,因此特斯拉可在效率、成本和绝对的安全之间进行平衡,无需追求 99.99%的安全性,只需“远比人安全”即可。但对于全无人的 L4 而言,“自动驾驶车辆究竟该追求多高的安全性”以及“系统是否需要具备可解释性”等问题,将在法律、道德和舆论层面受到更多挑战。
Wayve 推出的 Lingo-1 模型为自动驾驶端到端提供了一种可能的解法,但仍处于早期研究阶段。 AI 模型的可解释性问题是学术界重要的研究方向之一。2023 年 9 月 14 日,英国自动驾驶公司Wayve 宣布推出用于自动驾驶的视觉语言动作模型(VLAM)LINGO-1,将大语言模型和自动驾驶视觉模型进行深度融合。
具体来说,LINGO-1 可回答关于驾驶场景和驾驶行为的各种问题,例如“形容一下你所处的路况”、“你目前最关心的三个目标物是什么”、“你为什么放慢速度”等。LINGO-1 主要靠人类专家对驾驶场景的语言解说数据进行训练,截至 9 月准确率达到了人类水平的 60%。LINGO-1 为端到端自动驾驶模型的黑盒问题提供了一个可能的解法,有望帮助人类理解 AI 模型究竟在“想什么”,但目前仍处于早期研究阶段,其准确度、泛化能力、幻觉率等各方面皆有较大的提升空间。
进度:FSD V12 搭载概率大,有望明年初落地;国内距离“端到端”仍有较远距离
马斯克在 X 平台表示,特斯拉 FSD 将于下一代 V12 版本实现“端到端”自动驾驶,我们认为其所谓的 End-to-End AI 采用级联式神经网络的概率大。 而对于 FSD V12 在 8月 26 日的直播,我们认为,尽管其所展现出的能力距离正式推送给消费者仍有距离,但可基本推断当前的 V12 模型或已十分接近端到端,再配合特斯拉在数据和算力上的巨大投入,V12 接下来的迭代速度有望大大加快,正式推送时间点为明年初的可能性较大。但对于国内主机厂,乐观看“端到端”上车或也仍需 3 年左右的时间。
特斯拉 FSD 将于下一代 V12 版本实现“端到端”自动驾驶,采用级联式神经网络的概率大。 根据马斯克 2023 年 5 月的 X 平台原文,FSD V12 将实现的是“输入图像,直接输出转向、刹车、加速等控制信号的端到端 AI 模型(End-to-End AI from Images in to Steering, Brakes & Acceleration Out)”。而根据传记作家Walter Isaacson 在 2023 年 9 月发布的《马斯克传》中的介绍,特斯拉 2023 年年初才开始正式训练端到端模型,其训练方式主要是向神经网络投喂大量特斯拉车主的驾驶视频,初期就投喂了约 1000 万个视频片段(video clips)。书中还提到,为了让神经网络学会“正确开车”,特斯拉会有选择性地筛选出“良好的驾驶行为”片段,再让神经网络进行学习。这也意味着在模型正式训练前的数据处理清洗阶段,需要有人工标注员对视频进行评估和打分。
FSD V12 在直播中表现流畅自信,处理十分接近人类司机,但尚不成熟。8 月 26 日,马斯克在 X 平台进行了一场 45 分钟的 FSD V12 试驾直播。马斯克驾驶着一辆搭载 FSD V12 工程版的 Model S 从特斯拉湾区 Palo Alto 的总部出发,中间多次改变目的地,最后回到总部。行驶路段整体难度适中,尽管有一些具有挑战的场景(如施工、环岛等),且路线并未提前规划,但 Palo Alto 属于特斯拉车辆较多的区域,训练数据应较为丰富。
具体表现上,V12 在许多场景中的处理十分接近人类司机。例如直播中,特斯拉在面对 STOP SIGN 标志时并未完全停止,这主要是由于 V12 并未编写“看到 STOP SIGN 需完全停车”的规则代码,而训练数据集中的人类司机在面对 STOP SIGN 时基本不会选择停车而是减速通过。又例如直播中当特斯拉与一位骑行者同时在路口等待红灯,当绿灯亮起后,骑行者行驶在特斯拉的右前方,此时前方对向车道也有来车,特斯拉选择加速超过骑行者,而在过去情况下根据规则代码特斯拉可能会选择急刹。
马斯克也在直播中多次强调,某些场景在数据库中“从未见过”(例如施工标记和锥桶),某些场景模型中并未编写对应的规则代码(例如过减速带时需要减速),而是“完全靠神经网络基于视频进行训练”。但直播中也出现了一次较为致命的接管,位于直行车道等待红绿灯的特斯拉在前方左转灯变绿后选择起步并企图闯红灯,最终被马斯克接管。马斯克表示,后续需向 V12 投喂更多类似的“红绿灯”视频数据,以解决此次 failure case(失败案例)。
FSD V12 接下来的迭代速度有望大大加快,数据和算力是关键,落地时间点为明年初的可能性较大。 尽管 V12 在直播中展现出的能力距离正式推送给消费者仍有距离,但从马斯克直播中的言论以及 V12 的部分表现来看,V12 背后的模型已开始学习人类司机的驾驶行为,或已十分接近端到端。我们认为,架构的颠覆远比 V12 在直播中的表现更为重要,端到端最大的好处在于训练效率的提升,训练的关键从“人”转变为了“数据和算力”,而这两者正是特斯拉的强项和发力点所在:
- 数据方面, 《马斯克传》(Walter Isaacson 著)中提到,特斯拉每天可访问来自其车主约 1600 亿帧的视频,用于 FSD 的训练。同时,马斯克在 8 月 26 日的直播中提到,FSD V12 接下来将会开始向车主推送影子模式,在车辆后台进行运行对比,我们认为这将进一步增强特斯拉数据采集的效率和质量。
- 算力方面 ,特斯拉工程技术总监 Tim Zaman 在 X 平台发文表示,特斯拉已于 8月 28 日起正式启动了由 10000 块英伟达 H100 GPU 组成的算力集群。此外,特斯拉自研的 Dojo 超算中心也于今年 7 月量产,特斯拉规划至 2024 年年底为 Dojo投入 10 亿美元,至 2024 年年初成为全球规模最大的 5 台超级计算机之一。
我们认为,端到端神经网络模型的核心壁垒在于:专业的 AI 人才团队、海量的视频数据以及巨大的算力投入,国内主机厂乐观看或也仍需 3 年时间以实现“端到端”上车。 小鹏、华为、理想等国内主机厂从 2023 年开始陆续实现这一代“BEV+Transformer”架构的量产上车。目前,尽快实现“脱图”以及尽可能多地“开城”是国内智驾车企的重点。而对于下一代的“端到端”架构,国内主机厂最快的也仍处于早期研发的阶段。据 36 氪网站上的文章《CVPR 最佳论文:大模型成就端到端自动驾驶》(2023/6/25,作者:李安琪),小鹏和理想目前都在筹备研发全栈端到端的自动驾驶方案,但效果还不太好。
我们认为,特斯拉之所以能够在短短的八个月时间内完成令人惊喜的端到端 demo 亮相,主要是得益于其在过去 3-4 年的时间里打造了百万级别的车队规模并积累了丰富的数据飞轮经验,同时还有强大的 AI 算法团队和雄厚的财力。 而国内主机厂在 AI 人才团队、汽车销量规模、数据闭环能力、云端算力储备等方面皆有提升空间,即使现在开始投入研发,其神经网络模型的训练效率也势必会与特斯拉存在较大差距。
本质:自监督的预训练模型,有望打造视觉领域的基础底座
World Model 可预测动态视频的“下一帧”,需要模型对物理世界有强大的认知力和理解力。 在 2023 年 CVPR 大会上,特斯拉和 Wayve 分别展示了其目前正在研发的全新模型World Model(Wayve 模型名为 GAIA-1)。World Model 可生成自动驾驶相关的连续帧视频场景,并根据指令(Prompt)进行变化,例如让视频中的车辆直行、右转甚至偏离路面开到草地上等等。本质上,World Model 学习的是视频中的丰富语义以及背后的物理规律,从而对语言、语义以及世界演化的规律产生深刻理解。
例如有人从人行道向马路上扔了一个乒乓球,乒乓球会以怎样的抛物线和轨迹进行运动;又例如前方发生交通事故后,包括伤员、警车、救护车、路人等不同的交通参与者会有什么行为等。 特斯拉研发总监Ashok在 CVPR 大会上特别提到,特斯拉的World Model 生成的是多个摄像头多视角的场景,而从目前展示出的成果来看,其World Model 所生成的内容在不同视角中的动态行为皆能保持相对稳定,这说明模型已开始初步理解物体的一些物理变化规律。
国内玩家极佳科技和清华大学也在联合构建自己的世界模型 DriveDreamer。根据其论文《DriveDreamer:Towards Real-world-driven World Models for Autonomous Driving》(Xiaofeng Wang, Zheng Zhu, Guan Huang 等著),DriveDreamer 的输入条件除了初始参考帧(reference frame)外,还可增加对应的道路结构信息(包括 HDMap 和 3D 框,可通过人工标注或已有的 BEV 感知方法得到)作为约束条件,并利用 ActionFormer 预测未来的道路结构特征;上述条件输入至 Auto-DM 后,将生成可控的未来驾驶视频;同时DriveDreamer 还可根据过去的驾驶行为信息以及从 Auto-DM 中提取的多尺度特征来生成合理的未来驾驶行为,即合理预测驾驶动作的能力。
World Model 的本质是无需标注、自监督的预训练模型,有望成为视觉领域的基础模型(Foundation Model)。World Model 的训练任务是视频帧的预测,而视频属于序列数据,因此可进行自监督训练,类似于 GPT 利用词语接龙或词语填空的方式进行文本预测的自监督训练。 中长期来看,World Model 有潜力成为自动驾驶乃至具身智能领域的基础模型,可类比 GPT 模型为所有 NLP 问题提供了一个通用解。
具体来说,ChatGPT 在语言通用模型 GPT 的基础上,针对专门的对话场景,进行 RLHF 训练(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习),从而实现更好的互动沟通效果。与之类似,基于World Model 所提供的丰富语义信息以及对世界强大的理解力,自动驾驶模型的感知与预测能力有望得到显著提升,规划、控制等下游任务也有望迎刃而解。
Diffusion Model(扩散模型)或是 World Model 背后的核心技术之一。 马斯克在 X平台两次提到,针对视觉领域,Diffusion Model 或比 Transformer 更为高效。 极佳科技的世界模型DriveDreamer 也利用了Diffusion Model 来构建对复杂环境的表征,以帮助World Model 更好地理解复杂的自动驾驶场景。 Diffusion Model 是生成式模型的一种,其工作原理是通过学习数据集的扩散过程来生成数据的可能性分布,即先随机添加噪声来破坏训练数据,再学习逆转的去噪过程,以生成样本。
Diffusion Model 的应用使得图像生成有了新的可能,目前最为火热的图像生成模型,包括 OpenAI 的 DALL-E、Google 的 Imagen 和Stability AI 的Stable Diffusion,皆是基于Diffusion Model 来完成的。 最近,新兴的Diffusion Model 已开始扩展至视频乃至 3D 内容生成领域,并展示出了强大的能力 。
影响/进度:或仍处于GPT-1 阶段,中长期或对行业格局产生颠覆性影响
World Model 为自动驾驶提供了一套未经证明的新路径,若得以走通,将对行业产生较大颠覆。 我们对 World Model 的潜在影响进行可能性推演:中短期来看,World Model或将主要应用于数据合成和仿真模拟环节,厂商的车队规模对算法训练的重要性或有所下降,数据闭环的框架也将有所改变。长期来看,World Model 有潜力成为视觉领域的基础模型,行业内有望出现少数几家强大的平台方,以 SaaS 或 API 的方式为主机厂/运营方提供自动驾驶能力,而打造 World Model 的关键仍在于人才、数据和算力。
中短期来看,World Model 或将主要应用于数据合成和仿真模拟环节,影响数据闭环和模型训练的流程和效率。考虑到现实世界的复杂程度超乎想象,即使借助于规模庞大的量产车队,也难以遍历所有情形,因此引入仿真模式测试(Simulation)成为自动驾驶模型训练的必要手段。 仿真模拟的核心在于真实性,传统仿真平台基于 WorldSim+Unreal等游戏引擎搭建,真实度不够高,因此更多用于测试验证,而非算法训练。2022 年以来, Nerf(Neural radiance field,神经辐射场)、Diffusion Model、World Model 等新技术的出现提升了仿真平台的模拟保真度,使得仿真训练的质量大幅提升。
相较之下,World Model的还原度最高,同时可用于合成实车运行时很难收集到的 corner cases,且无需标注、灵活高效,因而有望大幅提升模型的训练效率。而当生成式 AI 成为数据的主要来源后,厂商的车队规模将不再是自动驾驶能力的关键,数据闭环的框架和流程也将有所改变。
长期来看,当 World Model 成为视觉领域的基础模型后,可能出现少数几个平台型玩家,对自动驾驶行业格局产生较大影响。 无论是语言还是视觉领域,长期来看基础模型都有望收敛至少数几个平台型玩家,而绝大多数应用都将围绕着这些基础模型进行开发。
这主要是由于:一方面,基础模型的参数量巨大、工程化复杂,同时需要庞大的数据集及高昂的算力成本;另一方面,基础模型具有较强的通用性和泛化性。 具体来说,在原来的技术路线下,自动驾驶算法需根据车端传感器的配置、位置乃至车型的尺寸进行调整。即使特斯拉将其现在的 FSD 算法代码开源,国内主机厂的适配工作量也不容小觑。包括前文中提到的“级联式端到端神经网络”,标准化程度也有限。这也是为什么目前主机厂都追求自研,且自研能力强的主机厂也走在了智驾行业的前列。
但对于 World Model 而言,由于对世界有了强大的感知和理解力,传感器和车型将不再是限制,云端调参将成为World Model 的核心,而车端部署时标准化程度有望明显提高,这将为平台型玩家的诞生奠定基础。而当少数平台型玩家的World Model 性能足够成熟强大后,就有望通过 SaaS或 API 的方式为主机厂/运营方提供高性价比的自动驾驶能力。
谁能成为 World Model 的平台型玩家?关键仍在于人才、数据和算力;资金投入需求较“BEV+Transformer”或有数倍增长。 与“级联式端到端神经网络”类似,World Model作为更纯粹的自监督预训练大模型,同样需要专业的 AI 人才团队、海量的视频数据以及巨大的算力储备。资金投入方面,尽管 World Model 所需要的工程师人数有所减少,但对AI 人才质量的要求将明显提升,同时考虑到算力需求的大幅增长,整体资金需求较这一代 “BEV+Transformer”或有数倍增长。
我们认为,特斯拉、华为等行业巨头在资金和资源上更占优势;而 WAYVE、极佳等初创企业的目标和精力更为聚焦,也有望吸引到更多的 AI 人才,类似于当年的 OpenAI。 而国内主机厂或许对World Model 已有所关注,但在激烈的竞争环境下,各家普遍有较大的销售和量产交付压力,且目前World Model 的前景也尚不明朗(或需等待特斯拉有更多成果展示),因此大家在人才和资源投入上或有所保留。
- 人才:AI 模型的首要难点在于人,团队不在大而在精,OpenAI 也仅百人规模。 World Model 的研发要求团队同时具有大模型、视觉和自动驾驶的背景知识和能力。同时,大模型的训练涉及数据存储、算法设计优化、超大规模算力集群、分布式通信等诸多工程化问题。这也是为何 OpenAI 相当重视算法和工程团队之间的紧密配合,搭载了有工程能力的算法团队和有算法理解的工程团队。
- 数据:根据《马斯克传》(Walter Isaacson 著)中的介绍,马斯克在开发“端到端神经网络”时发现,至少需要超过 100 万个视频片段,神经网络才会开始发挥性能。 而对于World Model 究竟需要多少数据量,目前尚无定论。但可以确定的是,基础模型对于数据的需求一定是海量的。据 36 氪网站上的文章《人类数据,要被 OpenAI 用完了,然后呢?》(2023/7/17,作者:极客公园),OpenAI 从GPT-1 到 GPT-3,训练数据集从 4.5GB 指数级增长到了 570GB。此外,与此前的数据驱动模型类似,World Model 同样对数据的质量有较高的要求。
- 算力:相较于文字,图像的信息密度明显更低,因此训练同等水平的 CV 基础模型比 NLP 模型需要更高的算力。 World Model 的训练究竟需要多少算力目前尚未有定论,但从特斯拉的算力投入来看,较此前的“BEV+Transformer”架构至少有数倍乃至数十倍的提升。
目前国内车企普遍选择与云厂商合作打造智算中心,算力水平普遍在小几千张英伟达 A100。 而根据知名半导体分析机构 Semianalysis 的预估,特斯拉在 2022年年底约拥有等效约 1 万张英伟达 A100 的算力。此外,根据特斯拉 AI 团队(Tesla_AI)2023 年 6 月在 X 平台公布的算力规划图,特斯拉目标至 2024 年 2月将算力规模扩大至全球前五规模,对应 10 万张英伟达 A100 算力总和;2024年 10 月算力总规模达 100EFLOPS,对应 30 万张英伟达 A100 算力总和。
从成本来看,据雷锋网报道,理想汽车智算中心向火山引擎购买了 300 多台英伟达服务器算力的公有云服务,算力在FP16精度下至少达750 PFLOPS。 根据A100 FP16 精度下 312TFLOPS 的算力计算(未采用稀疏技术),理想智算中心约租用了 2400 张英伟达 A100 的算力。据 36 氪网站上的文章《ChatGPT 们难以复制的原因,除了耗显卡,还有水电费太贵?》(2023/4/17,作者:爱范儿),一台 8张 A100 组成的 DGX A100 服务器售价约 19.9 万美元,对应 300 台的合计成本约 4 亿元人民币(仅为一次性购置费用,未考虑运营成本)。
而若以火山引擎官网,一台 8 张英伟达 A100 服务器包三年 340 万元人民币的租金计算,租赁 300 多台服务器三年需投入超 10 亿元人民币,平均每年投入约 3-4 亿元人民币。 而特斯拉于今年8 月底表示将启用1 万张英伟达H100 GPU 进行FSD 训练,据HPCwire,英伟达H100 当前售价约3 万美元,对应1万张英伟达H100 合计售价约21 亿元。此外,特斯拉还于今年 7 月表示,计划至 2024 年年底,在 Dojo 超算中心上投入超 10 亿美元(合计约 70 亿元)。
World Model 刚刚起步,目前或仍处于 GPT-1 前后阶段,但进展速度值得期待。我们认为,特斯拉、Wayve 等公司之所以不约而同地在今年推出World Model,很大程度上是受到了 ChatGPT 的启发。 当 OpenAI 为生成式 AI 指明了一条“大模型”的道路方向后,视觉模型有望追随文本从“判别式 AI 到生成式 AI 再到基础大模型”的发展路径。OpenAI自 2018 年初发布 GPT-1 到 2022 年初发布 GPT-3.5,历时 4 年。
而考虑到目前行业整体对“大模型”潜力的强烈共识、算力的升级以及以特斯拉为代表的玩家此前积累的海量数据,我们认为World Model 从 0 到 1 的爆发或更快。根据特斯拉工程师 Phil Duan 在今年CVPR 上的介绍,特斯拉今年初才开始研发 World Model,不到半年就展示出了不错的demo 能力,这或是得益于特斯拉此前所积累的海量场景数据。
篇幅有限,未完待续。 。 。
智车行家,专注于智能网联汽车行业智慧共享互动交流平台,组建了 10+ 行业交流群 ,定期放送线上专题直播。
诚邀您加入 智车行家自动驾驶行业微信交流群 :
群内包括国内 2000+自动驾驶 企业负责人, 主机厂模块工程师,涵盖企业总经理,研发总监,主任工程师,高校教授专家等,集合关联产业链行业精英。欢迎进群交流。
请加 小易@智车行家微信 :18512119620,申请入群 。
觉得好看,点个“在看”!