AI芯片和传统芯片到底有何不同?

发布者:iota19最新更新时间:2020-04-08 来源: 知乎关键字:AI芯片  传统芯片 手机看文章 扫描二维码
随时随地手机看文章

前几天成立仅两年国内专做人工智能FPGA加速算法的初创公司深鉴科技被国际巨头赛灵思收购了,在业界引起不小的震动。目前国内做AI芯片的公司可谓不少了,AI芯片已然成为了当下芯片行业最热领域。但是大部分人对AI芯片的架构应该都不是太了解。

 

那么AI 芯片和传统芯片有何区别?AI芯片的架构到底是怎么样的?带着这个疑问小编搜集到了来自知乎上的一些业内行家的观点,现在整理转发给大家。先回答问题:

 

性能与传统芯片,比如CPU、GPU有很大的区别。在执行AI算法时,更快、更节能。

 

工艺没有区别,大家都一样。至少目前来看,都一样。

 

所谓的AI芯片,一般是指针对AI算法的ASIC(专用芯片)。传统的CPU、GPU都可以拿来执行AI算法,但是速度慢,性能低,无法实际商用。

 

比如,自动驾驶需要识别道路行人红绿灯等状况,但是如果是当前的CPU去算,那么估计车翻到河里了还没发现前方是河,这是速度慢,时间就是生命。如果用GPU,的确速度要快得多,但是,功耗大,汽车的电池估计无法长时间支撑正常使用,而且,老黄家的GPU巨贵,经常单块上万,普通消费者也用不起,还经常缺货。另外,GPU因为不是专门针对AI算法开发的ASIC,所以,说到底,速度还没到极限,还有提升空间。而类似智能驾驶这样的领域,必须快!在手机终端,可以自行人脸识别、语音识别等AI应用,这个必须功耗低,所以GPU OUT!开发ASIC就成了必然。

 

说说,为什么需要AI芯片。AI算法,在图像识别等领域,常用的是CNN卷积网络,语音识别、自然语言处理等领域,主要是RNN,这是两类有区别的算法。但是,他们本质上,都是矩阵或vector的乘法、加法,然后配合一些除法、指数等算法。

 

一个成熟的AI算法,比如YOLO-V3,就是大量的卷积、残差网络、全连接等类型的计算,本质是乘法和加法。对于YOLO-V3来说,如果确定了具体的输入图形尺寸,那么总的乘法加法计算次数是确定的。比如一万亿次。(真实的情况比这个大得多的多)

 

那么要快速执行一次YOLO-V3,就必须执行完一万亿次的加法乘法次数。

 

这个时候就来看了,比如IBM的POWER8,最先进的服务器用超标量CPU之一,4GHz,SIMD,128bit,假设是处理16bit的数据,那就是8个数,那么一个周期,最多执行8个乘加计算。一次最多执行16个操作。这还是理论上,其实是不大可能的。

 

那么CPU一秒钟的巅峰计算次数=16* 4Gops =64Gops。这样,可以算算CPU计算一次的时间了。同样的,换成GPU算算,也能知道执行时间。因为对GPU内部结构不熟,所以不做具体分析。

 

再来说说AI芯片。比如大名鼎鼎的谷歌的TPU1。TPU1,大约700M Hz,有256X256尺寸的脉动阵列,如下图所示。一共256X256=64K个乘加单元,每个单元一次可执行一个乘法和一个加法。那就是128K个操作。(乘法算一个,加法再算一个)。

 

 

另外,除了脉动阵列,还有其他模块,比如激活等,这些里面也有乘法、加法等。

 

所以,看看TPU1一秒钟的巅峰计算次数至少是=128K X 700MHz=89600Gops=大约90Tops。

 

对比一下CPU与TPU1,会发现计算能力有几个数量级的差距,这就是为啥说CPU慢。

 

当然,以上的数据都是完全最理想的理论值,实际情况,能够达到5%吧。因为,芯片上的存储不够大,所以数据会存储在DRAM中,从DRAM取数据很慢的,所以,乘法逻辑往往要等待。另外,AI算法有许多层网络组成,必须一层一层的算,所以,在切换层的时候,乘法逻辑又是休息的,所以,诸多因素造成了实际的芯片并不能达到利润的计算峰值,而且差距还极大。

 

可能有人要说,搞研究慢一点也能将就用。目前来看,神经网络的尺寸是越来越大,参数越来越多,遇到大型NN模型,训练需要花几周甚至一两个月的时候,你会耐心等待么?突然断电,一切重来?曾经动手训练一个写小说的AI,然后,一次训练(50轮)需要大约一天一夜还多,记得如果第一天早上开始训练,需要到第二天下午才可能完成,这还是模型比较简单,数据只有几万条的小模型呀。

 

修改了模型,需要几个星期才能知道对错,确定等得起?突然有了TPU,然后你发现,吃个午饭回来就好了,参数优化一下,继续跑,多么爽!

 

计算速度快,才能迅速反复迭代,研发出更强的AI模型。速度就是金钱。

 

GPU的内核结构不清楚,所以就不比较了。肯定的是,GPU还是比较快的,至少比CPU快得多,所以目前大多数都用GPU,这玩意随便一个都能价格轻松上万,太贵,而且,功耗高,经常缺货。不适合数据中心大量使用。

 

总的来说,CPU与GPU并不是AI专用芯片,为了实现其他功能,内部有大量其他逻辑,而这些逻辑对于目前的AI算法来说是完全用不上的,所以,自然造成CPU与GPU并不能达到最优的性价比。

 

谷歌花钱研发TPU,而且目前已经出了TPU3,用得还挺欢,都开始支持谷歌云计算服务了,貌似6点几美元每小时吧,不记得单位了,懒得查。可见,谷歌觉得很有必要自己研发TPU。

 

目前在图像识别、语音识别、自然语言处理等领域,精度最高的算法就是基于深度学习的,传统的机器学习的计算精度已经被超越,目前应用最广的算法,估计非深度学习莫属,而且,传统机器学习的计算量与 深度学习比起来少很多,所以,我讨论AI芯片时就针对计算量特别大的深度学习而言。毕竟,计算量小的算法,说实话,CPU已经很快了。而且,CPU适合执行调度复杂的算法,这一点是GPU与AI芯片都做不到的,所以他们三者只是针对不同的应用场景而已,都有各自的主场。

 

至于为何用了CPU做对比?

 

而没有具体说GPU。是因为,我说了,我目前没有系统查看过GPU的论文,不了解GPU的情况,故不做分析。因为积累的缘故,比较熟悉超标量CPU,所以就用熟悉的CPU做详细比较。而且,小型的网络,完全可以用CPU去训练,没啥大问题,最多慢一点。只要不是太大的网络模型。

 

那些AI算法公司,比如旷世、商汤等,他们的模型很大,自然也不是一块GPU就能搞定的。GPU的算力也是很有限的。

 

至于说CPU是串行,GPU是并行

 

没错,但是不全面。只说说CPU串行。这位网友估计对CPU没有非常深入的理解。我的回答中举的CPU是IBM的POWER8,百度一下就知道,这是超标量的服务器用CPU,目前来看,性能已经是非常顶级的了,主频4GHZ。不知是否注意到我说了这是SIMD?

 

这个SIMD,就代表他可以同时执行多条同样的指令,这就是并行,而不是串行。单个数据是128bit的,如果是16bit的精度,那么一周期理论上最多可以计算八组数据的乘法或加法,或者乘加。这还不叫并行?只是并行的程度没有GPU那么厉害而已,但是,这也是并行。

 

不知道为啥就不能用CPU来比较算力?

 

有评论很推崇GPU。说用CPU来做比较,不合适。GPU本来是从CPU中分离出来专门处理图像计算的,也就是说,GPU是专门处理图像计算的。包括各种特效的显示。这也是GPU的天生的缺陷,GPU更加针对图像的渲染等计算算法。但是,这些算法,与深度学习的算法还是有比较大的区别,而我的回答里提到的AI芯片,比如TPU,这个是专门针对CNN等典型深度学习算法而开发的。另外,寒武纪的NPU,也是专门针对神经网络的,与TPU类似。

 

谷歌的TPU,寒武纪的DianNao,这些AI芯片刚出道的时候,就是用CPU/GPU来对比的。

 

看看,谷歌TPU论文的摘要直接对比了TPU1与CPU/GPU的性能比较结果,见红色框:

 

 

这就是摘要中介绍的TPU1与CPU/GPU的性能对比。再来看看寒武纪DianNao的paper,摘要中直接就是DianNao与CPU的性能的比较,见红色框:

 

 

回顾一下历史

 

上个世纪出现神经网络的时候,那一定是用CPU计算的。

 

比特币刚出来,那也是用CPU在挖。目前已经进化成ASIC矿机了。比特大陆了解一下。

 

从2006年开始开启的深度学习热潮,CPU与GPU都能计算,发现GPU速度更快,但是贵啊,更多用的是CPU,而且,那时候GPU的CUDA可还不怎么样,后来,随着NN模型越来越大,GPU的优势越来越明显,CUDA也越来越6,目前就成了GPU的专场。

 

寒武纪2014年的DianNao(NPU)比CPU快,而且更加节能。ASIC的优势很明显啊。这也是为啥要开发ASIC的理由。

 

至于说很多公司的方案是可编程的,也就是大多数与FPGA配合。你说的是商汤、深鉴么?的确,他们发表的论文,就是基于FPGA的。

 

这些创业公司,他们更多研究的是算法,至于芯片,还不是重点,另外,他们暂时还没有那个精力与实力。FPGA非常灵活,成本不高,可以很快实现架构设计原型,所以他们自然会选择基于FPGA的方案。不过,最近他们都大力融资,官网也在招聘芯片设计岗位,所以,应该也在涉足ASIC研发了。

 

如果以FPGA为代表的可编程方案真的有巨大的商业价值,那他们何必砸钱去做ASIC?

 

说了这么多,我也是半路出家的,因为工作需要而学习的。按照我目前的理解,看TPU1的专利及论文,一步一步推导出内部的设计方法,理解了TPU1,大概就知道了所谓的AI处理器的大部分。

 

然后研究研究寒武纪的一系列论文,有好几种不同的架构用于不同的情况,有兴趣可以研究一下。然后就是另外几个独角兽,比如商汤、深鉴科技等,他们每年都会有论文发表,没事去看看。这些论文,大概就代表了当前最先进的AI芯片的架构设计了。

 

当然,最先进,别人肯定不会公开,比如谷歌就不曾公开关于TPU2和TPU3的相关专利,反正我没查到。不过,没事,目前的文献已经代表了最近几年最先进的进展了。

 

关键字:AI芯片  传统芯片 引用地址:AI芯片和传统芯片到底有何不同?

上一篇:研华助力国产替换,推出ARM-Based系列工业级产品
下一篇:技术文章—Arm内核解析

推荐阅读最新更新时间:2024-11-06 11:47

智能汽车龙泉560 AI SoC芯片
智能汽车龙泉560 AI SoC芯片 车规级芯片 独特优势: AI前照灯芯片及解决方案 该解决方案采用全球首款车规级AI车灯专用芯片龙泉560,一套芯片平台方案可支持百级像素Matrix LED、万级像素Micro LED及百万级像素DLP车灯的应用场景需求。同时,智能感知、智能控制、智能光束等智能化功能可全部在车灯系统内部闭环实现,并支持自动远近光AFS及弯道照明增强,支持自闭环ADB,行人、机动车防眩目,30fps高精度实时光束控制,支持高清投影和领航光毯等最新功能(万级像素及以上)及个性化定制动画灯效。 AI尾灯芯片及解决方案 采用欧冶半导体全球首款车规级AI车灯专用芯片的Mini-LED尾灯智能交互显示系统,支
[汽车电子]
台积电7nm制程再夺博通AI芯片大单
博通推出已获硅认证(silicon-proven)的7纳米IP核,将以特殊应用芯片(ASIC)抢攻当红的人工智能(AI)、5G及高宽带网络等市场。博通为客户打造的7纳米ASIC去年底完成设计定案,博通也说明将把7纳米ASIC晶圆代工及CoWoS封装订单交由台积电负责。 台积电7nm制程领先同业,继业界传出苹果新一代A12应用处理器、AMD新一代Vega绘图芯片、高通新一代Snapdragon手机芯片等,均将采用台积电7nm制程投片外, 博通也确定将采用台积电7纳米制程打造ASIC平台,抢进需求强劲的AI及高速网络等市场。 博通基于台积电7nm制程打造ASIC平台,并宣布领先业界推出7nm制程硅认证的IP核,其中包括高速序列串行解串
[半导体设计/制造]
AI芯片落地难该如何解决
前几年的“人工智能热”让大小厂商陆续跳入AI芯片的研发大军中,而当这股潮水褪去,当初的50多家公司大多数都黯然退出历史舞台,如今只剩10家左右。AI芯片的风口已然过去。据艾瑞咨询发布的2019年《AI芯片行业研究报告》指出,目前AI芯片行业接近Gartner技术曲线泡沫顶端,只有通过市场检验和筛选的优质团队才能够继续获得产业、政策和资本的青睐与支持。 随着AI芯片进入深水区,人们更关注的不再是单纯的算力,还有对应用落地和商业化的支持:进入了哪些场景?合作了哪些客户?有没有软硬一体化方案?是否已经有实际案例?……“AI落地难”已成行业共识,浮华过后,AI芯片接下来将进入市场检验真理的阶段。 AI芯片为何落地难? 首
[嵌入式]
<font color='red'>AI</font><font color='red'>芯片</font>落地难该如何解决
便宜芯片与简单AI,Google 打造抛弃式语音识别产品
   Google 工程师PeteWarden在英国ARM研究高峰论坛表示,他希望打造超便宜的语音识别产品,搭载只要50美分的超低价芯片,一个硬币大小的电池,足以维持一年的电力,再搭配简单的人工智能算法,就可以让语音识别产品快速普及。下面就随网络通信小编一起来了解一下相关内容吧。   麻省理工科技评论(MITTechnologyReview)报导,这种超便宜的语音识别芯片可用来生产便宜的对话玩偶,或是简单的家用电器,如可被语音驱动的灯。在工业环境应用,这种芯片可辨识不寻常的声响,或是农田里的蟋蟀。   Warden为 Google 的云端人工智能工具开发行动和嵌入式应用,称为TensorFlow,他在开发过程中发现亚马逊的 AI
[网络通信]
受智慧城市、雪亮工程等影响,云端AI芯片逐渐崛起
  当前中国 AI 芯片 投资热情高涨。中国从事 AI 芯片 研发的公司超过20家,集中于边缘推断 芯片 。测算表明,部署于消费电子、自动驾驶汽车、安防设备、物联网设备等边缘设备上的全球推断芯片市场规模将年均增长132%至2022年的230亿美元。工业物联网相关的 AI 推断芯片也有可能是下一个蓝海市场。下面就随网络通信小编一起来了解一下相关内容吧。    巨头推动安防行业“芯”发展 国产化进程提速   随着谷歌、英伟达、IBM、英特尔等陆续进军云端AI芯片市场,云端AI芯片已经逐渐成为海外巨头们的战场。而在我国,由于受到智慧城市、雪亮工程等一系列国家项目的推进与支持,以安防为首的终端AI芯片成了各家创企的兵家必争之地。图像和
[网络通信]
IEEE首次在京举办人工智能研讨会 王飞跃称不存在AI芯片
6月9日至10日,IEEE SMC学会(IEEE System, Man, and Cybernetics Society)与中国自动化学会、中国科学院自动化研究所、青岛智能产业技术研究院共同在京举办IEEE 人工智能与控制论国际研讨会暨2018中国智联网大会。 本次会议是IEEE协会首次在中国举办的人工智能专题研讨会,汇聚了全球人工智能领域的顶级专家及前沿成果。会议旨在共同探讨人工智能未来发展的机遇和挑战。 昨天上午的学术会议由香港城市大学Sam Kwong教授主持, IEEE SMC学会介绍了SMC学会的整体概况,并针对系统科学和工程、人机系统、控制论这三个研究领域做了技术报告。下午的会议由台湾科技大学苏顺丰教授主持,中国自动
[嵌入式]
IEEE首次在京举办<font color='red'>人工智能</font>研讨会 王飞跃称不存在<font color='red'>AI</font><font color='red'>芯片</font>
从苹果仿生芯片到华为NPU 手机AI是否噱头大于功用
  人工智能的野火正呈现出燎原之势,从原来B端蔓延到了C端,与我们接触最为紧密智能手机就是其中一例。其从去年的AI算法应用于系统优化已快速进化到今年在核心处理器上占据一席之地,与CPU、GPU、ISP一道成为了专用处理单元之一。下面就随手机便携小编一起来了解一下相关内容吧。   诸如苹果为iPhone8、iPhone X系列新品搭载的A11仿生处理器就集成了一个每秒运算次数最高可达 6000 亿次的神经网络引擎, 华为 为Mate10系列新品搭载的麒麟970处理器上也集成了来自寒武纪授权的 NPU 专用处理单元。而高通骁龙虽然目前在处理器上还没有向苹果和 华为 那样推出专用AI处理单元,但事实上在高通骁龙835处理平台上也集成了
[手机便携]
AI浪潮来袭 芯片大厂加速并购力度
  人工智能( AI )浪潮来袭,国际大厂纷加速战略布局,各大 芯片 业者纷采取购并与加盟策略,力促 AI 战力快速跃升。其中,英特尔砸下重金强化完整生态链优势,以抗衡NVIDIA绘图 芯片 技术强项,面对各路人马强袭,NVIDIA也起身展开跟进展开购并交易,过去一年来银弹四射,在5国里投资了10多家公司,包括大陆自动驾驶新创业者景驰等,随着技术应用渐趋成熟, AI 产业购并整合潮将更为热络。下面就随网络通信小编一起来了解一下相关内容吧。   尽管在全球PC、数据中心平台市占掌控大宗版图,然于AI新世代即将来到之际,英特尔却未能一举取得领先地位,眼看着NVIDIA GPU平行运算成为技术主流与市场追捧焦点。GPU技术始终不及超微
[网络通信]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved