什么是深度强化学习?深度强化学习在自动驾驶领域的应用

发布者:明月昊天最新更新时间:2023-08-25 来源: elecfans关键字:深度强化学习  自动驾驶  人工智能 手机看文章 扫描二维码
随时随地手机看文章

最近,人工智能领域最火的莫过于大模型了。

由美国初创企业OpenAI开发的聊天应用ChatGPT引爆市场,生成式AI成为科技市场热点,ChatGPT背后是深度学习大模型,其理解和生成文字的能力超过以往AI产品。全球主要云计算公司例如亚马逊等都加入其中,争夺算力、开发和销售大模型,云计算市场迎来新一轮竞争热潮,覆盖AI计算所需的算力、算法、数据各层面。


在自动驾驶方面,今年的CVPR上,拿到best paper的自动驾驶领域论文,更是将端到端与大模型结合,将该领域推向了高潮。事实上,“端到端”是深度学习中的概念,英文为“End-to-End(E2E)”,指的是一个AI模型,只要输入原始数据就可以输出最终结果。


而隐藏在大模型背后的,便是人工智能领域的基石——深度强化学习技术。深度强化学习对于现阶段的科技工作者来说可能并不陌生,作为21世纪最为前沿领先的技术之一,深度强化学习早已在多个领域发挥了其不可替代的作用。例如前几年大火的AlphaGo战胜了一众围棋世界冠军,又比如游戏界DeepMind 研发的 AlphaStar 在《星际争霸2》中一战封神等等,火热的强人工智能加速了人们对于未来科技飞速发展的信心,而基于强化学习的方法更让人们看到了人工智能超越人类知识的可能。

 

如此前沿的技术必然在前沿的领域发挥举足轻重的作用,在自动驾驶领域,深度强化学习已然走出了自己特有的道路,并吸引一位又一位研究人员、企业对其展开探索,试图将这一人类能完成的最高智慧应用于未来的日常出行中。

 

什么是深度强化学习?

对于不太了解人工智能的小白来说,对深度强化学习这一名词的概念可能比较陌生,正式的定义为深度强化学习是将深度学习的感知能力和强化学习的决策能力相结合,可以直接根据输入的图像进行控制,是一种更接近人类思维方式的人工智能方法。

4c356aa8-1caf-11ee-962d-dac502259ad0.png

而作为两大学习方法的叠加,深度强化学习包含了两种方法的特征与优势。深度学习具有较强的感知能力,但是缺乏一定的决策能力;而强化学习具有决策能力,对感知问题束手无策。因此,将两者结合起来,优势互补,为复杂系统的感知决策问题提供了解决思路。更进一步来说,强化学习是一种典型的序贯决策方式,智能体通过与环境的交互获得反馈,在尝试和试错中不断进步。而深度强化学习综合了深度学习对高维数据的抽象感知能力与强化学习优秀的决策能力,能够处理更高维度的输入与输出数据。

近年来,深度强化学习算法已在许多领域都取得了令人震撼的成就。2016年,基于深度 Q 网络(Deep Q Network,DQN)和蒙特卡洛树搜索算法的围棋程序“AlphaGo”以4:1战胜世界冠军李世乭,轰动了世界,使得深度强化学习成为了人工智能领域研究的新风向。

 

近些年来深度强化学习算法取得的令人振奋的成果鼓励了工业界和学术界进一步深入研究深度强化学习算法及其应用。学者们将深度强化学习算法应用在机器人控制、楼宇空调系统控制、匝道控制等领域中,在汽车和智能交通等领域,深度强化学习也在车道保持、超车决策、主动制动、能量管理、交通流调度等方面得到了应用。

 

深度强化学习在自动驾驶领域的应用

机器学习是指计算机程序通过已知经验数据中进行训练,通过迭代训练以提高其在指定任务上预测准确性的过程。机器学习算法通常分为三大类流派,分别是监督学习、无监督学习和强化学习 (RL)。

监督学习算法基于归纳推理,通常需要使用有标记的数据进行训练,以执行分类或回归,而无监督学习一般应用于未标记数据的密度估计或聚类等技术。相比之下强化学习比较自成一派,其通过与环境交互来提高其在指定任务上的性能,与监督和非监督学习使用损失函数进行迭代训练的方式不同,强化学习一般使用奖励函数进行训练,比如OpenAI与王者荣耀的绝悟AI都属于强化学习的范畴,一般在电竞、机器人等方向上应用较多。

根据各类机器学习算法的特点,可以看出在“场景理解”的相关任务中,使用监督学习算法比较合适,而在“决策与规划”任务中,又非强化学习算法莫属。而深度强化学习(Deep reinforcement learning,DRL)兼具了深度学习对高维输入的处理能力与强化学习的决策能力,能够实现由高维的感知信息到连续动作空间输出的直接映射,非常适合处理环境复杂、交互频繁的自动驾驶任务。

4d05e746-1caf-11ee-962d-dac502259ad0.png

上图是百度 Apollo 使用的一种典型的感知-规划-控制序列式架构(Sequential perception-planning-action pipeline),主要包括高精地图、定位感知、决策规划、车辆控制等模块。高精地图和定位模块为自动驾驶车辆提供位置信息,感知模块提供静动态障碍物信息,决策规划模块根据定位和障碍物信息合理规划自动驾驶车辆的行为和路径,最后由车辆控制模块执行运动规划模块下发的路径跟踪控制指令。

但是感知-规划-控制序列式架构主流的处理方式是将感知信息处理成人类可以理解的语义信息和道路交通信息,然后基于专家知识和规则进行决策规划,这种方式在简单场景下可以完成自动驾驶任务。但却难以胜任在复杂不确定场景中执行的自动给驾驶任务,原因是现实场景的复杂多样性,使得专家知识和规则不能完全覆盖所有场景和工况。

4d4af82c-1caf-11ee-962d-dac502259ad0.png

基于深度强化学习的端到端(End-to-end)的控制架构是自动驾驶领域中新兴的研究热点,它能克服传统方式依赖先验环境建模的问题,可以直接实现通过从感知到控制功能的映射。例如今年CVPR的best paper中便指出,随着深度学习发展,自动驾驶算法被组装成一系列任务,包括目标检测与跟踪、在线建图、轨迹预测、占据栅格预测等子任务。基于这些子任务,行业有着多种自动驾驶系统框架设计:模块化设计,多任务框架,但两种方案都面临着累积错误或任务协调不足的困扰。比如自动驾驶公司Waymo、Cruise采用的模块化设计方案,每个独立的模块负责单独的子任务。这种方案具备简化研发团队分工,便于问题回溯,易于调试迭代等优点。但由于将不同任务解耦,各个模块相对于最终的驾驶规划目标存在信息损失问题,且多个模块间优化目标不一致,误差会在模块间传递。

论文同时认为,多任务框架是更优雅的一种设计方案,代表性企业有美国特斯拉、中国小鹏汽车等。方案中不同任务使用同一个特征提取器,具备便于任务拓展、节省计算资源等优点。但不同任务之间仍存在预测不一致、表征冲突的问题。相比之下,端到端自动驾驶方案将感知、预测和规划所有节点视为一个整体,将取得更优的效果。

 

端到端大模型面临的挑战

深度强化学习DRL已经被证实能够解决无人驾驶中的部分问题,但还面临很多挑战。一是人工智能技术要真正应用在汽车上,还需要制定相关的技术标准。二是DRL在解决复杂问题需要大量的训练时间和反复模型优化。三是需要设计一个稳定的智能系统,如何解决仿真和现实之间的gap差距,这也许不是添加噪声就能解决的问题。四是模型的精度和整个智能系统的架构设计会影响DRL的可用性。

 

因此,基于深度强化学习的端到端大模型,也面临着相应的困难:一方面,用简单的方式直接以传感器信号作为输入、以轨迹/控制作为输出,能够在仿真中取得较好结果,但缺乏可解释性与实际应用安全性,尤其是在复杂的城市道路场景。另一方面,对模型进行显式设计,将整个架构分为感知-预测-规划模块,使其具有部分中间结果表达。但这种方式面临检测结果在模块间不可微导致无法端到端优化,稠密BEV预测时长有限,过去-未来、物体-场景等多维度信息难以高效利用等困难。


因此,要想真正使得该项前沿技术大规模应用在自动驾驶领域现阶段来看还为时尚早,但深度强化学习的原理及潜力让我们看到了未来实现真正超越人类驾驶水平的自动驾驶技术的希望。作为目前最火热的研究方向,端到端大模型此次的进展无疑是喜人的,也给了从业者们更多的信心。


关键字:深度强化学习  自动驾驶  人工智能 引用地址:什么是深度强化学习?深度强化学习在自动驾驶领域的应用

上一篇:车载以太网时间同步Time Master行为
下一篇:车载AUTOSAR中gPTP协议介绍

推荐阅读最新更新时间:2024-11-04 11:49

丰田效仿特斯拉使用低成本摄像头开发自动驾驶技术
据外媒报道,丰田旗下的Woven Planet将效仿特斯拉,尝试在不使用激光雷达等价格高昂的传感器的情况下,开发自己的自动驾驶技术。 (图片来源: Woven Planet ) Woven Planet表示,他们能够使用低成本的摄像头来收集数据,并有效地训练其自动驾驶系统。该公司表示,这是一个“突破”,他们希望这种做法有助于降低成本和扩大技术规模。该公司表示,利用大规模的汽车车队收集多样化的驾驶数据,对开发强大的自动驾驶汽车系统来说至关重要,但使用昂贵的传感器来测试自动驾驶汽车,其成本过高,无法大规模应用。 一直以来,特斯拉都在使用摄像头来开发自动驾驶,利用其行驶在道路上的100多万辆汽车收集数据。而Waymo等竞争
[汽车电子]
丰田效仿特斯拉使用低成本摄像头开发<font color='red'>自动驾驶</font>技术
阿里确认布局自动驾驶AI首席科学家王刚率领
4月16日消息,继百度、腾讯之后,阿里也加入到无人驾驶领域。据《财新》报道,阿里团队正在研发自动驾驶技术,已有车辆进行常态化路测。阿里巴巴官方称,该科技由AI实验室首席科学家王刚率领研究,并且进展很快。 据悉,阿里团队研发的自动驾驶技术,选取的技术路线为L4全自动驾驶,行驶由机器主导,在绝大多数场景下都不需要人的干预。阿里的路测车辆改装自林肯MKZ,百度、英伟达和多家创业公司的自动驾驶系统均采用了该款车改装布置进行试验。目前,阿里已有车辆进行了常态化路测,并具备了开放路段测试的能力。 图|阿里巴巴AI实验室首席科学家王刚 早在今年1月14日,阿里巴巴首次出现在国际最大的自动驾驶计算机视觉算法集KITTI道路场景分割排行榜上。榜单
[机器人]
无人驾驶汽车将在10年内成行,安全不是问题?
为了推销自动驾驶汽车,汽车制造商以往吹嘘的是自动驾驶汽车的高效和舒适性。但是,汽车制造商现在重点考虑的是另一种性能:安全性。   “如果你想创造一种能够得到广泛采用的汽车技术,那么你需要考虑一个因素:安全。”Mobileye NV公司董事长Amnon Shashua说。Mobileye公司是一家发展迅速的辅助驾驶技术供应商。“如果将自动驾驶汽车定位为一种具有舒服性能的汽车,或者一种很酷的东西,那么它将不会获得大众市场。”   总部设在以色列耶路撒冷的Mobileye公司开发机器视觉芯片和软件。Shashua表示,到2018年,他的公司研发的芯片将被用于自动驾驶汽车上。如果司机心脏病发作,或者趴在方向盘上睡着了,或者因为其
[嵌入式]
想知道吗?人工智能可以预测你能活多大了
现在,已经有科学家开发出了一种全新的人工智能系统,能够通过观察人类的器官照片预测寿命,怎么样,听起来害怕吗? 这套系统由澳大利亚阿德莱德大学的研究人员开发,通过对48位病人胸部的医疗图像进行分析,并且预测其中哪些病人会在5年内死亡,准确率达到了69%。研究人员表示,这个预测准确率与临床医生的判断基本处于同一水平。 目前,这项研究已经发表在了科学报告上,对于早期诊断严重疾病和医疗干预有着重要的意义。“预测病人的病情对于未来具有非常重要的作用,因为它可能使医生更精确的为病人制定治疗方案。”阿德莱德大学Luke Oakden Rayner博士表示。 “对生物年龄的准确评估和患者的寿命预测,迄今为止都没有一个非常准确的方法,而医生也智能通
[医疗电子]
AI专利申请5年增1.8倍 海归人才成产业崛起中流砥柱
随着人工智能(以下简称AI)时代的到来,世界主要发达国家和科技公司纷纷将发展AI技术视为重要的科研方向,并投入巨资进行研发和战略布局。在产业发展中,中国也有直逼美国之势。今年7月,国务院发布的《新一代人工智能发展规划》便是最好的例证。除利好AI产业的政策陆续发布外,资金雄厚的科技巨头纷纷涌入该领域掘金,再加上中国现成的近14亿人口基数,高素质、高学历的顶尖AI海归人才选择主动回归,并逐渐成为中流砥柱。   此前被视为科技发展相对落后的中国,如今正把AI视为一个超越其他国家的机会。日经亚洲评论的研究显示,2010年至2014年间,中国在AI方面的专利申请达到8410项,比2005~2009年这五年增长了186%。   政策红利带动产
[手机便携]
国内外自动驾驶发展差异大,本土AI芯片厂商怎样立足?
集微网消息 随着5G时代到来以及AI技术的兴起,越来越多的行业将AI和IoT融合并应用到智能化领域,智能化也成了传统车企转型升级的目标和需求导向。 在汽车智能化发展过程中,自动驾驶在众多汽车应用场景中广受关注,也是门槛较高的一个领域,在对AI芯片提出更高挑战的同时,也增加了AI芯片的需求。在自动驾驶领域,目前全球已有英伟达、英特尔等不少芯片巨头公司已布局良久,在此背景下,国产AI芯片公司如何乘风破浪? 国内外汽车自动驾驶发展差异较大 在自动驾驶方面,特斯拉CEO埃隆·马斯克表示,特斯拉对未来实现L5级别自动驾驶或是完全自动驾驶非常有信心。他表示,“我觉得我们已经非常接近L5级别自动驾驶了。”特斯拉为此开发了自有的汽车AI芯片。 虽
[手机便携]
国内外<font color='red'>自动驾驶</font>发展差异大,本土<font color='red'>AI</font>芯片厂商怎样立足?
滴滴自动驾驶服务正式上线,可免费呼叫试乘
近日,滴滴自动驾驶服务正式上线。据悉,首先在上海开放自动驾驶试乘体验,用户可通过滴滴 APP 线上报名,审核通过后,将能在上海自动驾驶测试路段,免费呼叫自动驾驶车辆进行试乘体验。 现阶段,滴滴自动驾驶载人测试范围仅限于在上海开放测试道路上,路线经过汽车会展中心、办公区、地铁站、酒店等核心区域。用户通过滴滴 APP 在开放道路范围内选择起终点,可免费体验自动驾驶服务。 为确保行程安全,自动驾驶测试车依相关规定配备了安全员,可随时接管车辆,应对突发情况。与此同时,滴滴设立了国内首个自动驾驶安全护航中心,能实时监控车辆、路况,并在车辆面临复杂情况时,给与协助指令,解决未来自动驾驶运营中可能出现的远程协助问题。在测试区域的
[嵌入式]
滴滴<font color='red'>自动驾驶</font>服务正式上线,可免费呼叫试乘
联想2100TOPS自驾域控下线,至强算力引领自动驾驶新纪元
2024年8月2日,联想车计算宣布:面向L4级自动驾驶市场的车规级域控制器产品AD1在联想合肥产业基地首次下线。这一成就使联想成为全球首批成功点亮NVIDIA DRIVE Thor 平台的汽车一级供应商。 联想车计算AD1域控制器在AI加速能力上INT8/FP8算力高达2100 TOPS,基于SPECrate 2017评估的CPU算力值达到174,是名副其实的“性能猛兽”。 功能安全可以达到ISO 26262的ASIL D等级,网络安全满足ISO21434要求,且各种传感器接口丰富。联想正在基于NVIDIA DRIVE OS进行开发,该操作系统是NVIDIA为安全、AI定义汽车设计的车载计算解决方案。AD1是针对L4级自动驾驶
[汽车电子]
联想2100TOPS自驾域控下线,至强算力引领<font color='red'>自动驾驶</font>新纪元
热门资源推荐
热门放大器推荐
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved