特斯拉、高通、华为可用于智能驾驶领域AI处理器的深度分析

发布者:BlissfulJoy最新更新时间:2021-09-15 关键字:特斯拉  华为  CUDA  人工智能  智能驾驶 手机看文章 扫描二维码
随时随地手机看文章

很多人会问,为什么没有英伟达?目前所有主流深度学习运算主流框架后端都是英伟达的CUDA,包括TensorFlow、Caffe、Caffe2、PyTorch、mxnet、PaddlePaddle,CUDA包括微架构和指令集以及并行计算引擎。CUDA垄断了深度学习或者也可以说垄断了人工智能,这一点类似ARM的微架构和指令集。CUDA强大的生态系统,造就了英伟达牢不可破的霸主地位。深度学习的理论基础在上世纪五十年代就已经齐备,无法应用的关键就是缺乏像GPU这样的密集简单运算设备,是英伟达的GPU开创了人类的深度学习时代,或者说人工智能时代,CUDA强化了英伟达的地位。你可以不用英伟达的GPU,但必须转换格式来适应CUDA。

 

CUDA开启了并行计算或多核运算时代,今天人工智能用的所有加速器都是多核或众核处理器,几乎都离不开CUDA。CUDA程序构架分为两部分:Host和Device。一般而言,Host指的是CPU,Device指的是GPU或者叫AI加速器。在CUDA程序构架中,主程序还是由CPU 来执行,而当遇到数据并行处理的部分,CUDA 就会将程序编译成 GPU能执行的程序,并传送到GPU。而这个程序在CUDA里称做核(kernel)。CUDA允许程序员定义称为核的C语言函数,从而扩展了C语言,在调用此类函数时,它将由N个不同的CUDA线程并行执行N次,这与普通的C语言函数只执行一次的方式不同。执行核的每个线程都会被分配一个独特的线程ID,可通过内置的threadIdx变量在内核中访问此ID。在 CUDA 程序中,主程序在调用任何 GPU内核之前,必须对核进行执行配置,即确定线程块数和每个线程块中的线程数以及共享内存大小。你可以不用英伟达的GPU,但最终都离不开CUDA,也就是需要转换成CUDA格式,这就意味着效率的下降。所以英伟达是参考级的存在。

 

从CUDA的特性我们不难看出,单独的AI加速器是无法使用的。今天我们分析三款可用于智能驾驶领域的AI加速器,分别是高通的AI100,华为的昇腾,特斯拉的FSD。这其中高通AI100比较少见。

 

高通AI100最早于2019年4月在深圳的高通AI开放日露面,2020年9月量产。AI100是高通目前唯一的AI推理运算加速器,定位四个方面的应用:一是数据中心的边缘计算,二是5G行动边缘计算,三是智能驾驶与智能交通,四是5G基础设施。AI100有两个侧重点:一是5G游戏,AI100发布当天邀请了VIVO手机、腾讯王者荣耀开发团队利用AI100现场开了一场电玩竞赛,即把部分运算放到5G边缘服务器上,减轻手机端的负载。二是智能交通和智能驾驶,高通自动驾驶Ride平台的AI加速器很有可能就是AI100的车规翻版。

 

图片来源:互联网

 

高通特别展示了AI100在智能交通/智能驾驶领域的应用。

 

图片来源:互联网

 

同时支持24路200万像素帧率25Hz的图像识别,特斯拉的FSD不过是同时8路130万像素帧率30Hz的图像识别,性能至少是特斯拉FSD的3倍。

 

AI100可以像刀片服务器那样应用,用PCIe交换机最多16个级联。

 

图片来源:互联网

 

最高每瓦有12.37TOPs的算力,特斯拉FSD是36瓦的功耗,AI部分估计大约为24瓦,每瓦只有大约3TOPs每瓦的算力,英伟达的Orin大致为5.2TOPs每瓦的算力。

 

图片来源:互联网

 

上图为高通AI100内部框架图。设计很简洁,16个AI核,内核与内核之间是第四代PCIe连接,带宽有186GB/s,8通道的PCIe网络,然后再与各种片上网络(NoC),包括存储NoC、运算NoC和配置NoC通过PCIe总线连接。片上存储器容量高达144MB,带宽136GB/s。外围存储器为256Gb的LPDDR4。支持汽车行业的ISO26262安全标准,即ASIL,达到B级。

 

NoC是多核AI处理器的核心技术之一,特斯拉FSD只有两个NPU,很可能用不到NoC而用比较落后的总线技术,不过高通和华为都用到了。

 

图片来源:互联网

 

NoC的详细理论就不说了,可以理解为一个运行在PE与存储之间的通讯网络。NoC技术和网络通信中的OSI(Open System Interconnection)技术有很多相似之处,NoC技术的提出也是因为借鉴了并行计算机的互联网络和以太网络的分层思想,二者的相同点有:支持包交换、路由协议、任务调度、可扩展等。NoC更关注交换电路和缓存器的面积占用,在设计时主要考量的方面也是这些。NoC的基本组成为:IP核、路由器、网络适配器以及网络链路,IP核和路由器位于系统层,网络适配器位于网络适配层。针对NoC的这四个基本组成,也衍生出了许多的研究方向和优化途径。

 

图片来源:互联网

 

常见AI加速器的NoC如上表。需要指出高通和华为都用了Arteris,这家公司实际是高通的子公司,高通在2013年11月收购了这家仅有43人的法国小公司,今天中国几乎所有的大中型芯片公司都是其客户,包括瑞芯微、国民技术、华为、全志、炬力、展讯等,可以说都在给高通打工。英特尔在2019年收购了Netspeed,Facebook在2019年收购了Sonics,这两家的NoC使用面远不如高通的Arteris。

 

图片来源:互联网

 

每个AI核内部框架如上,主要分4个部分,分别是标量处理、向量处理、存储处理和张量处理。深度学习中经常出现4种量,标量、向量、矩阵和张量。神经网络最基本的数据结构就是向量和矩阵,神经网络的输入是向量,然后通过每个矩阵对向量进行线性变换,再经过激活函数的非线性变换,通过层层计算最终使得损失函数的最小化,完成模型的训练。

 

标量(scalar):一个标量就是一个单独的数(整数或实数),不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。标量通常用斜体的小写字母来表示,标量就相当于Python中定义的x=1。

 

向量(Vector),一个向量表示一组有序排列的数,通过次序中的索引我们能够找到每个单独的数,向量通常用粗体的小写字母表示,向量中的每个元素就是一个标量,向量相当于Python中的一维数组。

 

矩阵(matrix),矩阵是一个二维数组,其中的每一个元素由两个索引来决定,矩阵通常用加粗斜体的大写字母表示,我们可以将矩阵看作是一个二维的数据表,矩阵的每一行表示一个对象,每一列表示一个特征。

 

张量(Tensor),超过二维的数组,一般来说,一个数组中的元素分布在若干维坐标的规则网格中,被称为张量。如果一个张量是三维数组,那么我们就需要三个索引来决定元素的位置,张量通常用加粗的大写字母表示。

 

不太严谨地说,标量是0维空间中的一个点,向量是一维空间中的一条线,矩阵是二维空间的一个面,三维张量是三维空间中的一个体。也就是说,向量是由标量组成的,矩阵是向量组成的,张量是矩阵组成的。

 

标量运算部分可以看作一个小CPU,控制整个AI Core的运行。标量计算单元可以对程序中的循环进行控制,可以实现分支判断,其结果可以通过在事件同步模块中插入同步符的方式来控制AI Core中其它功能性单元的执行流水。它还为矩阵计算单元或向量计算单元提供数据地址和相关参数的计算,并且能够实现基本的算术运算。复杂度较高的标量运算如数据流量控制则由专门的AI CPU通过算子完成,AI处理器是无法单独工作的,必须要外置的CPU给予配合。

 

华为昇腾系列内核架构。图片来源:互联网

 

华为的昇腾910即Davinci Max,和高通AI100一样,也是8192个Int8,4096个FP16。不过昇腾910是训练用的,高通AI100是推理用的,但910不计成本使用HBM2代存储,性能远超AI100。

 

图片来源:互联网

 

上图为特斯拉FSD信号内部流转,相干流量即深度学习的数据流量需要CPU控制,当然也不只是为深度学习服务。

 

图像识别深度学习中运算量最大的卷积部分实际就是矩阵的乘和累加。可以分解为1维的标量或者叫算子(即权重)与2维的向量即输入图像乘和累加。

 

图片来源:互联网

 

上图为特斯拉FSD神经网络架构,特斯拉把矩阵的乘和累加简单写成了MulAccArray。特斯拉做芯片刚刚入门,FSD上除了NPU是自己做的外,其余都是对外采购的IP。NPU方面,主要就是堆砌MAC乘和累加单元,在稍微有技术含量的标量计算领域,特斯拉没有公布采用何种指令集,应该是没什么特色。华为和高通都是采用了VLIW。

 

高通的向量处理器可以简单看作一个DSP。众所周知,高通的AI技术来源于其DSP技术,高通对DSP非常青睐,而已经失去生命力的VLIW超长指令集非常适合用在深度学习上,深度学习运算算法非常单一且密集度极高,并不需要通用场景下的实时控制。并且其程序运行有严格的时间要求,cache这种不可控时间的结构就不适合了,通常采用固定周期的TCM作为缓存,这样内存访问时间就固定了。有了上述的特征,静态编译在通用场合下面临的那些困难就不存在了,而DSP其更高效的并行运算能力和简化的硬件结构被完全发挥出来。

 

AI100为了考虑多种应用场合,有FP16和Int8两种精度阵列,Int8即8位整数精度是智能驾驶领域最常见的,FP16则是游戏、AR/VR领域常用的。Int8有8192个,FP16有4096,特斯拉则是9216个Int8阵列,如果AI100只考虑智能驾驶,在总面积(差不多可等同于成本)不变的情况下算力还可以再提高不少。

 

图片来源:互联网

 

上图为特斯拉NPU部分流程与裸晶分布,算力理论峰值只是根据MAC数量简单计算得出,实际存储器是瓶颈,存储器能让算力大打折扣,这也是为什么训练用AI芯片都不惜成本用HBM内存的原因。特斯拉的芯片上,大部分都给了SRAM,也是为了解决存储器瓶颈问题。这里常见到两个单位,GiB和GB,GB是十进制,GiB是二进制,1GiB=(1024*1024*1024)B=1073741824B,1GB=(1000*1000*1000)B=1000000000B,1GiB/1GB=1073741824/1000000000=1.073741824。要求精度不高的话,可以直接替换,高通AI100有144MB的片上存储,特斯拉只有32MiB,高通显然可以碾压特斯拉的,此外外围的LPDDR4存储上,高通也是碾压特斯拉,特斯拉带宽只有63.58 GiB/s,高通AI100是136GB/s。

 

图片来源:互联网

 

最后说算力,AI处理器对比似乎离不开算力对比,实际单独讲算力数据毫无意义,上图是高通AI100在五个数据集上的表现,我们可以看到性能与效率差别巨大,AI算力越强,其适用面就越窄,与深度学习模型的捆绑程度就越高,换句话说,AI芯片只能在与其匹配的深度学习模型上才能发挥最大性能,换一个模型,可能只能发挥芯片10%的性能,所有AI芯片目前的算力数据都是理论峰值数据,实际应用中都无法达到理论峰值,某些情况下,可能只有峰值算力的10%甚至2%。100TOPS的算力可能会萎缩到2TOPS。

 

在芯片领域,特斯拉只能算是小学生,只要有意愿,高通、英特尔、英伟达、华为、AMD、联发科、三星都能碾压特斯拉。


关键字:特斯拉  华为  CUDA  人工智能  智能驾驶 引用地址:特斯拉、高通、华为可用于智能驾驶领域AI处理器的深度分析

上一篇:混搭出奇迹,自动驾驶AI芯片上演架构之争
下一篇:NeoPhotonics推出全新FMCW激光器和SOA 可用于AV中的相干激光雷达

推荐阅读最新更新时间:2024-11-02 12:51

Tesla正在研究基于AI的自动驾驶规划控制
Elon Musk最近宣布,特斯拉正全力攻克自动驾驶技术的最后难关:车辆控制。他再次预言,特斯拉将在今年年底前实现完全自动驾驶。 作为这一计划的一部分,特斯拉正在转向更多地依赖神经网络来控制车辆,以减少C++控制代码的使用。虽然特斯拉正在积极训练这些神经网络,但训练计算仍然是一个限制因素。 自动驾驶的规划控制框架和方法,主要包括以下方面: ◎ 车辆超车规划与跟踪 超车是一个涉及车辆侧向和纵向运动的复杂任务。超车操作包括换道到超车道、通过前车、换道回原车道等,并需要避免与其他车辆的碰撞。超车规划涉及车辆动力学和环境约束,以及对周围障碍物的精确知识。 ◎ 规划控制整体架构 自动驾驶的规划控制可分为三个主要层次:
[汽车电子]
Tesla正在研究基于<font color='red'>AI</font>的自动驾驶规划控制
斯诺登:美国NSA通过思科路由器监控中国网络
2013年6月14日整理报道,日前有消息称,斯诺登揭露美国NSA通过 思科 路由器监控中国网络和电脑。   知名电信专家项立刚昨日发布一则微博:“斯诺登揭露美国NSA通过ClSCO路由器监控中国网络和电脑。骨干网上的路由器被黑,意味了任何一台电脑都被和NSA联在一起,一个国家的骨干网的建设,确实存在重大的安全问题。美国人之所以抑制 华为 与中兴,也说明他们自己知道是怎么干的。未来的核心网络采购会越来越封闭,这可能是一个方向。”   此前,美国国会认定华为中兴威胁其国家安全。2012年10月,经过长达一年的调查后,美国众议院情报委员会得出结论,认定联邦政府应该对两家中国科技公司试图进入美国市场的意图“持怀疑态度”,因为他们可能为中
[手机便携]
华为沿用LCP天线,国内LCP材料厂商加速国产化
从5G商用确立到5G基建提速,5G号令下的关键材料及零部件需求进入快速增长期。其中,基于5G高频高速的技术革新下,LCP材料成为行业新宠,在天线模组、FPC连接器等领域占据得天独厚的优势。 从LCP产业链来看,我国LCP材料长期依赖进口,全球75%的LCP产能集中于美国和日本等地。然而,由于当前全球疫情的持续蔓延,美国成为全球确诊人数最多的国家,加州发布“就地避难令”,众多企业计划停产一个月;而日本已于4月6日宣布多地实施一个月的封城措施。 随着海外疫情的持续蔓延和发酵,LCP原料供应或将受到影响,而基于国内LCP材料持续增长的需求,LCP材料厂商的国产化进程开始提速。 华为高端旗舰沿用LCP天线 因5G手机通信的高频化,对天线材
[手机便携]
电动汽车迎接翻身机会,燃油车价值未来如何?
电动汽车并非上个世纪或是这个世纪的“新发明”,这个诞生于 19 世纪的技术曾经一度同蒸汽动力以及内燃机在汽车市场三分天下。 然而随着石油大量被发现和开采以及内燃机技术的进步,电动汽车逐渐被燃油车取代而淡出了人们的视线。 现在,电动车迎来了翻身时刻。据外媒报道,特斯拉 CEO 埃隆·马斯克(Elon Musk)对汽车消费者提出了警告。他认为消费者在购买车辆的时候应该考虑到这样一点:向电动汽车的过渡有可能“使汽油 / 柴油车辆的剩余价值在未来几年内大幅降低”。 去年马斯克曾声称,由于特斯拉车辆将具有自动驾驶能力,因此现在购买此车其实属于“资产增值”。 马斯克的目标是让特斯拉车辆能够成为车主的“创收资产”,但是如果价格不上
[嵌入式]
Iteris推出用于智能十字路口的AI探测传感器 可提升交通安全
据外媒报道,当地时间8月31日,智能移动出行基础设施管理全球领导者Iteris宣布推出Vantage Apex™,这是业内首个集成了人工智能(AI)算法的1080P高清视频与四维(4D)雷达传感器。 用于智能十字路口的传感器(图片来源:Iteris) 该款雷达传感器基于AI机器学习平台打造,采用Iteris强大的AI视频分析技术、广泛的图像库、高性能GPU/CPU计算、机器学习和中央神经网络算法识别物体,能够对很多不同类型的车辆以及行人和骑行者等弱势道路使用者进行高精度且详细的分类。 采用1080p摄像头拍摄的全高清视频内容可以清晰地展示十字路口的交通状况,同时可通过交通管理中心(TMC)或者通过Iteris Vid
[汽车电子]
Iteris推出用于智能十字路口的<font color='red'>AI</font>探测传感器 可提升交通安全
苹果收购法国 AI 新创公司 Regaind,专攻图像和脸部分析
据 TechCruch报导,苹果收购了一家名为 Regaind 的法国人工智能新创公司。 从 Regaind网站可了解,该公司开发了一种计算机视觉 API,可从图像提取内容。 「我们利用最先进的人工智能帮助公司和开发者处理大量图像数据流并分析和分类。 Regaind 可让你了解图像的内容,并评估技术和美学价值,以便透过高质量的照片最大化你的影响力。」 苹果可能会利用 Regaind 的技术改进 iOS 系统照片应用的回忆功能,该功能可智能地规划和搜寻照片和影片,找到活动、旅行、假期、任务、宠物等。 苹果基本上对收购案一律统一口径:「苹果会不时收购小型科技公司,我们通常不讨论目的或计划。」
[半导体设计/制造]
美报告引发针对华为中兴投诉 将启动第二轮调查
    在经历了11个月的调查后, 美国众议院情报委员会于当地时间10月8日发布了两家中国电信设备商华为和中兴“可能 对美国带来安全威胁”的调查结果。 路透社最新报道称,美国众议院发布调查报告后,掀起了一波检举华为中兴的行为,调查小组将启动针对华为中兴的新一轮调 查。以下是文章全文: 美国国会敦促美国企业停止与华为、中兴做生意,这份调查报告掀起了新一轮不利于两家中国公司的投诉及检举行为,也使得美国众议院调查小组启动了第二轮的调查行动。    检举行为激起新一轮调查   美国众议院情报委员会的一名委员透露,调查小组收到了非常多的来电,这些电话有的来自现任或前任员工,有的来自两家中国公司的客户,报告了这两家设备商的可
[手机便携]
华为发力智能汽车业务,Hicar车型进入调试阶段
尽管 华为 正遭遇前所未有的挑战,但从 智能汽车 业务来看,2020 年将是华为发力的关键一年。记者从知情人士处获悉,支持华为 Hicar 的汽车车型已基本确定,目前已进入最后调试阶段,今年有望推向市场。 华为在昨晚发布了一系列重磅产品,P40 系列、智慧屏 X65、新 MateBook XPro、新配色的 Watch GT2 以及新版 Sound X,在“1+8+N”的全场景智慧生活战略下,这些产品不同程度上展示了华为当前在创新上的最高水准。对此,华为消费者业务 CEO 余承东发布会上表示,华为的创新主要得益于每年的高研发投入。“2019 年华为研发投入高达 1317 亿元,占比总收入超过 15%。” 除了上述产品外,本场
[汽车电子]
<font color='red'>华为</font>发力智能汽车业务,Hicar车型进入调试阶段
小广播
最新汽车电子文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved