英特尔:下一代DNN到来时 未来FPGA能将败GPU

发布者:Serendipitous33最新更新时间:2017-03-24 关键字:英特尔  FPGA 手机看文章 扫描二维码
随时随地手机看文章

  在最近的FPGA国际研讨会(ISFPGA)上,英特尔加速器架构实验室(AAL)的Eriko Nurvitadhi博士,发表题为《Can FPGAs beat GPUs in Accelerating Next-Generation Deep Neural Networks》的报告,分享了英特尔的最新研究。下面就随网络通信小编一起来了解一下相关内容吧。

  这一研究,主要评估在DNN(深度神经网络)算法领域,两代英特尔FPGA(Intel Arria10和Intel Stratix 10),与NVIDIA TITAN X Pascal GPU相比性能如何。


  △ 深度神经网络概述

  英特尔表示在应用领域,FPGA在DNN研究中表现非常出色,可用于需要分析大量数据的AI、大数据或机器学习等领域。使用经修剪或紧凑的数据类型与全32位浮点数据(FP32)时,测试的Intel Stratix 10 FPGA的性能优于GPU。

  除了性能外,FPGA还具有强大的功能,因为它们具有适应性,通过重用现有的芯片可以轻松实现更改,从而让团队在六个月内从一个想法进入原型。

  而构建一个ASIC需要18个月。

  FPGA重要性正在提升


  △ FPGA非常适用于DNN

  硬件:与高端GPU相比,FPGA具有卓越的能源效率(性能/瓦特),但还有不被熟知的高峰值浮点性能。FPGA技术正在迅速发展。即将推出的英特尔Stratix 10 FPGA提供超过5,000个硬件浮点单元(DSP),超过28MB的片上RAM(M20K),与高带宽内存等特性。

  基于14nm工艺的英特尔Stratix 10在FP32吞吐量方面达到峰值9.2TFLOP/s。相比之下,最新的Titan X Pascal GPU的FP32吞吐量为11TFLOP/s。

  新兴的DNN算法:更深的网络提高了精度,但是大大增加了参数和模型大小。这增加了对计算、带宽和存储的需求。因此,新兴趋势是采用紧凑型低精度数据类型,远低于32位。16位和8位数据类型正在成为新常态,也得到DNN软件框架(例如TensorFlow)的支持。

  新兴的低精度和稀疏DNN算法比传统的密集FP32 DNN提供了数量级的算法效率改进,但是它们引入了难以处理的不规则并行度和定制数据类型。这时FPGA的优势就体现出来了。这种趋势使未来FPGA成为运行DNN,AI和ML应用的可行平台。

  研究所用的硬件和方法


  GPU:使用已知的库(cuBLAS)或框架(Torch with cuDNN)

  FPGA:使用Quartus Early Beta版本和PowerPlay

  研究一:矩阵乘法(GEMM)测试

  矩阵乘法(GEMM)测试的结果。GEMM是DNN中的关键操作,上述四个不同类型的测试表明,除了在FP32 Dense GEMM测试中,Stratix 10与TITAN X仍有差距。另外三项测试中新一代英特尔FPGA的表现都优于GPU。

  研究二:使用三元ResNet DNNs测试

英特尔:下一代DNN到来时 未来FPGA能将败GPU

  三进制DNN最近提出约束神经网络权重为+1,0或-1。这允许稀疏的2位权重,并用符号位操作代替乘法。与许多其他低精度和稀疏的DNN不同,三元DNN可以提供与现有技术DNN(即ResNet)相当的精度。

  上图右半部分,显示了英特尔Stratix 10 FPGA和TITAN X GPU的ResNet-50的性能和性能/功耗比。即使对于保守的性能估计,英特尔Stratix 10 FPGA已经比实现了TITAN X GPU性能提高了约60%。在性能/功耗比方面,英特尔Stratix 10比TITAN X要好2.3倍到4.3倍。

  结论

  再说一次,这个研究报告出自英特尔,这个研究团队还指出,除了DNN之外,FPGA在其他不规则应用程序以及延迟敏感程序(如ADAS)等领域也有机会。

    以上是关于网络通信中-英特尔:下一代DNN到来时 未来FPGA能将败GPU的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

关键字:英特尔  FPGA 引用地址:英特尔:下一代DNN到来时 未来FPGA能将败GPU

上一篇:站在CPU角度 你才能发现这个世界有多慢
下一篇:存储之变 紫光西部数据变“数据负担”为“数据宝藏”

推荐阅读最新更新时间:2024-05-07 17:19

AI计算,CPU仍有一战之力:英特尔第四代至强再现强大AI性能
近期,MLCommons公布了针对AI模型训练的行业标准MLPerf训练v3.1基准测试结果。其中,内置英特尔®高级矩阵扩展(英特尔®AMX)加速引擎的第四代英特尔®至强®可扩展处理器作为唯一提交MLPerf测试结果的CPU,在测试中展现出强大的性能,进一步印证了英特尔对加速在云、网、边、端的工作负载中大规模部署AI的承诺。 本次,英特尔提交了ResNet50、RetinaNet、BERT和DLRM dcnv2的测试结果。值得注意的是,在DLRM dcnv2这一个新提交的测试模型中,第四代英特尔至强可扩展处理器仅使用四个节点就在227分钟内完成了训练。而对于ResNet50、RetinaNet和BERT,第四代英特尔至强可扩展
[焦点新闻]
AI计算,CPU仍有一战之力:<font color='red'>英特尔</font>第四代至强再现强大AI性能
英特尔或于秋季推Android平板电脑
  有消息称,英特尔最早将于今年秋季推出采用Android 3.0“蜂巢”操作系统以及英特尔硬件平台的平板电脑。   尽管主流平板电脑厂商目前均没有采用英特尔的硬件,但英特尔并不打算放弃这一市场。英特尔此前与ARM的竞争只是“第一回合”,英特尔已经打算开始第二回合。   有供应商表示,英特尔已经接近与谷歌达成协议,最早将于今年第三季度推出采用“蜂巢”系统以及英特尔平台的平板电脑。业内人士认为,采用英特尔平台的平板电脑短期内不会成为现有平板电脑的竞争对手,但英特尔可以通过这样一款产品向平板电脑厂商展示其Cloverview平台的优势,英特尔也有可能于明年1月开售这款平板电脑。   对于MeeGo操作系统,有报道称英特尔目
[手机便携]
英特尔全球高级副总裁加盟,芯启源对标英伟达底气或会大增?
21世纪什么最贵?人才。这句话用在现代半导体行业再合适不过。近年来,随着5G、人工智能、物联网和云计算等技术日趋成熟,芯片产业发展的热点领域在不断丰富,并为集成电路产业带来了广阔的市场前景。但受新冠疫情、市场需求等影响,集成电路行业在饱受“缺芯”之苦的同时,人才短缺问题极为严峻,尤其是缺乏掌握相关核心技术的关键或领军人才。 对于这一问题,芯启源结合行业和自身发展需求,贯彻全球化、高端化和专业化用人理念,近日又吸引重磅大咖前英特尔全球高级副总裁、网络处理器总经理Jim Finnegan加盟。基于持续数年的竭力建构,芯启源目前已拥有一支在芯片领域深耕20多年的研发和管理团队,硕士和研发人员占比均达70%以上,同时研发中心遍布上海、南京
[手机便携]
台积电“大联盟”大战英特尔
    就在 2016 年台北国际电脑展(Computex)展前一个多月,台湾电脑业多年的亲密伙伴——英特尔宣布大规模重组,裁减一万两千名员工,震惊全球。         因本次改组而升任执行副总裁的英特尔数据中心事业群总经理布莱恩特(Diane Bryant),因此成为本次电脑展最受瞩目的嘉宾之一。不只因为她金发、一身鲜红洋装的抢眼造型,更因为她掌管的服务器、数据中心业务,已成为英特尔未来希望所寄。   该事业群 2015 年营收 160 亿美元,年增 11%,而且,虽只占英特尔总营收的 29%,布莱恩特在记者会时得意地透露,竟贡献英特尔超过一半的获利。   在服务器芯片领域,英特尔的市占率超过 9
[手机便携]
力旺电子连手英特尔晶圆代工服务推广高阶芯片安全硅智财
【新竹讯】亚洲最大半导体硅智财供货商力旺电子(eMemory Technology Inc.)宣布加入英特尔晶圆代工服务加速器 (Intel Foundry Services Accelerator) 计划,为使用IFS晶圆代工服务平台的共同客户提供全球首屈一指的安全IP解决方案。 作为IFS加速器计划的一员, 力旺电子将在英特尔的先进工艺节点提供一次性可编程内存OTP (NeoFuse)、物理不可复制功能PUF (NeoPUF)、和其子公司熵码科技(PUFsecurity Corporation)所开发之芯片安全IP。 IFS客户在使用英特尔先进工艺技术的同时可直接在产品中导入上述已在各工艺节点认证的IP,提升整体系统安全
[半导体设计/制造]
基于DSP和FPGA的电视观瞄系统设计
电视观瞄系统以FPGA为处理核心,实现红外数字视频信号的实时图像处理,DSP实现了部分的图像处理算法和FPGA的控制逻辑,并响应中断,实现数据通信和存储 引言 许多光学观瞄系统都增加了电视、红外辅助(周视)观瞄系统,称之为光电观瞄系统。在该系统中,需要用电视或红外成像来精确瞄准目标,但光电系统所在的平台总是处于运动状态,成像器件产生的图像也就随之运动,通过CCD成像器件或红外成像器件得到的图像不能保证观瞄精度。因此,克服平台运动造成的成图像旋转是解决观瞄精度的关键技术之一。目前的常用方法是机械消像旋,很多要求较高的光学系统仍然采用该方案,随DSP及FPGA的广泛应用,电子消像旋也应用到了光学观瞄系统上。 这两种方案各有优缺点:
[电源管理]
基于SYSTEM C的FPGA设计方法
一、概述    随着VLSI的集成度越来越高,设计也越趋复杂。一个系统的设计往往不仅需要硬件设计人员的参与,也需要有软件设计人员的参与。软件设计人员与硬件设计人员之间的相互协调就变的格外重要,它直接关系到工作的效率以及整个系统设计的成败。传统的设计方法没有使软件设计工作与硬件设计工作协调一致,而是将两者的工作割裂开来。软件算法的设计人员在系统设计后期不能为硬件设计人员的设计提供任何的帮助。同时现在有些大规模集成电路设计中往往带有DSP Core或其它CPU Core。这些都使得单纯地用原理图或硬件描述语言来设计、仿真这么复杂的系统变得十分困难。System C就是在这些矛盾的背景下提出的。它的出现为复杂的系统设计提供了一条有效的
[应用]
基于FPGA和SRAM的数控振荡器的设计与实现
摘要:介绍数控振荡器的工作原理,重点阐述用现场可编程门阵列(FPGA)和静态随机存储器(SRAM)实现数控振荡器的方法,同时给出采用此结构设计的数控振荡器的特点和性能。 关键词:数控振荡器(NCO);查找表;XC2V1000;CY7C1021;设计 中图分类号:TN914.3 文献标识码:A 文章编号:1006—6977(2006)01—0022一03 1 引言 数控振荡器是数字通信中调制解调单元必不可少的部分,同时也是各种数字频率合成器和数字信号发生器的核心。随着数字通信技术的发展。对传送数据的精度和速率要求越来越高。如何得到可数控的高精度的高频载波信号是实现高速数字通信系统必须解决的问题。可编程逻辑器件和大容量存储器的发展为
[应用]
小广播
最新网络通信文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved