让FPGA替代GPU,你会有怎样的顾虑?

发布者:学海飘香最新更新时间:2017-11-27 来源: 电子产品世界关键字:FPGA  GPU 手机看文章 扫描二维码
随时随地手机看文章

  这几天,已经退役的AlphaGo又强行刷了一波头条,不是又跟哪位世界高手对决,而是“新狗”通过无监督式学习,仅用3天时间就战胜了李世石版的AlphaGo,然后用了21天时间战胜了柯洁版本AlphaGo。AlphaGo让我们真真切切地看到了AI计算的强大。下面就随嵌入式小编一起来了解一下相关内容吧。

  目前,在AI计算平台使用最广泛的两种加速部件是GPUFPGAGPU可适用于具备计算密集、高并行、SIMD(SingleInstructionMultipleData,单指令多数据流)应用等特点的深度学习训练模型领域,并且GPU创建了包含CNN、DNN、RNN、LSTM以及强化学习网络等算法在内的应用加速平台和生态系统。

  但是,最近FPGA又频频被各AI领域的巨头看好,比如微软、百度、科大讯飞都对FPGA应用前景有所期待。那么如果让你选择FPGA作为AI计算系统的主力军,你会有什么样的顾虑?

  顾虑一:FPGA有啥优势?什么样的场景更适合FPGA?

  首先,深度学习包含两个计算环节,即训练和推理环节。GPU在深度学习算法模型训练上非常高效,但在推理时对于小批量数据,并行计算的优势不能发挥出来。而FPGA同时拥有流水线并行和数据并行,因此处理任务时候延迟更低。例如处理一个数据包有10个步骤,FPGA可以搭建一个10级流水线,流水线的不同级在处理不同的数据包,每个数据包流经10级之后处理完成。每处理完成一个数据包,就能马上输出。通常来说,FPGA加速只需要微秒级的PCIe延迟。当Intel推出通过QPI快速通道互联的Xeon+FPGA之后,CPU和FPGA之间的延迟甚至可以降到100纳秒以下。

  其次,FPGA是可编程芯片,算法烧录更加灵活。目前来看,深度学习算法还未完全成熟,算法还在迭代衍化过程中,若深度学习算法发生大的变化,FPGA是软件定义硬件,可以灵活切换算法,快速切入市场。

  未来至少95%的机器学习计算都是用于推断,只有不到5%是用于模型训练,而FPGA正是强在推断。大幅提升推断效率的同时,还能最小限度损失精确性,这正是FPGA的强项。

  顾虑二:FPGA的计算性能能不能满足我的需求?

  与CPU和GPU不同,FPGA是一种典型的非诺依曼架构,是硬件适配软件的模式,它能够根据系统资源和算法特征灵活的调整并行度,达到最优的适配,因此能效比高于CPU和GPU。

  以浪潮F10A为例,这是目前业界支持OpenCL的最高密度最高性能的FPGA加速设备,基于Altera的Arria10芯片,单芯片峰值运算能力达到了1.5TFlops,功耗却只需35W,每瓦特性能达到42GFlops。同时,F10A设计为高密度的半高半长PCI-E插卡,同时具有灵活的板卡内存配置,最大支持32G双通道内存,是业内同等FPGA卡内存容量的4-8倍。此外,F10A支持2个10Gb光口,可以实现数据直接从网络到板卡处理,无需经过CPU,大大减低了传输延时。

  测试数据显示,在语音识别应用下,浪潮F10A较CPU性能加速2.87倍,而功耗相当于CPU的15.7%,性能功耗比提升18倍。

  顾虑三:FPGA的开发周期得1年以上吧,这不能满足我的业务上线需求?

  传统的FPGA的开发类似于芯片的开发,采用硬件描述语言(HDL)开发,HDL开发带来的问题就会像芯片设计一样周期会比较长,从架构设计、到仿真验证、再到最终完成,需要一年左右的开发时间。

  但是互联网的业务迭代速度极快,在几个月时间内就可能完成庞大用户群的积累,因此业务对于数据中心的要求是“快”—计算力平台的升级要尽量快地满足业务的发展,因此FPGA的传统开发模式动辄以半年或年为单位的开发周期难以满足需求。

  为此浪潮尝试通过OpenCL高级语言开发方式,它把底层的硬件如总线、IO接口、访存控制器等和底层软件如驱动、函数调用等全部封装,变成标准单元提供上层支持,用户只需要关注算法本身,OpenCL开发的逻辑通过编译工具直接映射到FPGA中,开发周期从至少1年缩短至4个月以内。

  顾虑四:对于O经验的公司,怎样快速上线FPGA应用?

  或许你还是有些顾虑,即时开发效率大幅提升、开发周期大大缩短,但是对于技术和团队储备不足的中小型AI企业来说,FPGA仍是“高不可攀”的AI加速部件。如果,有一种方案能够将软件、算法和硬件板卡整合,以软硬一体化的形式,提供FaaS(FPGAasaService)服务。你还有什么顾虑么?

  目前,浪潮正在针对市场上需求最迫切的几种应用场景进行算法的移植开发,在图像压缩、文本数据压缩及神经网络加速等应用开发出业界领先的IP,省去客户的算法开发周期,最小化FPGA落地门槛、最大化FPGA落地效率。

  神经网络加速方案:基于浪潮F10A的AI线上推理加速方案,针对CNN卷积神经网络的相关算法进行优化和固化,可加速ResNet等神经网络,能够应用于图片分类、对象检测和人脸识别等应用场景。

  实测数据显示,在进行ResNet残差网络的图片识别分类任务时,浪潮F10A加速方案图片处理速度可达每秒742张,Top-5识别准确率达到99.6%,相比同档次GPU能效比提升3倍以上。而与通用CPU对比,在处理这种高并行、小计算量的任务时,F10A的优势将更明显。

  WebP图片转码压缩加速方案:针对图片数据的压缩应用,嵌入基于FPGA计算环境下的WebP编解码优化算法,通过充分利用硬件流水设计和任务级并行,大大提升WebP图像压缩编码算法的处理性能,能够实现JPEG-WebP图片格式的快速转换,比传统实现方式的整体处理效率平均高9.13倍左右,最高性能可比CPU提高14倍。

  数据压缩加速方案:为解决传统压缩架构的弊端,浪潮GZip算法加速方案充分利用板卡硬件流水设计和任务级并行,大幅提升了压缩任务的吞吐量并有效降低CPU的负载,压缩率(压缩率=1-压缩后文件/压缩前文件)最高可达94.8%,压缩速度达到1.2GB/s,10倍于传统方案的压缩效率。

  顾虑五:我是做云的,FPGA咋管理?支持虚拟机么?

  FaaS不仅仅是指板卡与软件算法的一体化服务,同时还可以支持公有云及在线远程管理和更新。浪潮FPGA解决方案能够支持动态逻辑的在线可重构、静态逻辑的远程更新,并且通过优化的监控管理机制,提升板卡远程监控管理的可靠性,通过它们可以实时的监控FPGA芯片的温度、板卡风扇转速、板卡内存特性等从而调整FPGA的工作频率。

  同时浪潮FPGA也支持虚拟机的直接访问,板卡本身也加入了很多RAS(可靠性、可用性、可扩展性)特性,如高可靠内存访问等,支持并行(FPP)和串行(AS)双加载模式,任何一种模式加载出现故障,都可以快速切换到另一种模式加载,保证了板卡大规模服务的可用性。

  有了这些特性,就可以利用浪潮FPGA方案,快速搭建FPGA云所需要的基础底层计算平台,不论是对外提供公有云服务,还是对内实现FPGA计算力快速分配都能够既高效又可靠。

  顾虑六:我可不想当小白鼠,有谁用过了?

  对于FPGA这种新兴的AI计算设备,“观望”往往是明智的选择,毕竟不是每家公司都想要作为新技术的小白鼠,而当有第一个吃螃蟹的人出现后,“跟进”则成为“飞猪”的必然之路。

  目前,浪潮FPGA已经在百度、阿里巴巴、腾讯、网易、科大讯飞取得批量的落地应用或深度测试,FPGA在人工智能线上推理的能效优势已经得到大部分互联网和AI公司的认可。

  那么,FPGA可以应用在哪些领域?我们可以听听腾讯云FPGA团队负责人怎么说:

  在机器学习领域、金融领域、大数据领域、基因检测领域都存在比较大的数据量需要分析计算,这些是FPGA可以发挥高吞吐优势的领域。

  网络安全领域有更安全、更低延时的需求,这些场景也可以发挥FPGA低延时的优势。

  超大规模图像处理,这些图片的处理都使用FPGA来进行处理加速,都可以得到满意的效果。

  现在比较热门的自然语言处理和语音识别这些也都是FPGA可以发挥优势的场景。

  当FPGA成为一种计算力服务,有着高效的硬件、成熟的IP和云化管理,你还在顾虑什么?

  浪潮拥有国内领先的FPGA软硬件开发团队,浪潮正联合Intel及BAT、科大讯飞、网易等AI领先企业深入研发基于FPGA的通用系统方案,包括深度学习、网络加速、存储优化等,并将方案推广到其它应用领域和客户。未来,CPU+FPGA或许将作为新的异构加速模式,被越来越多的应用领域采用。

    以上是关于嵌入式中-让FPGA替代GPU,你会有怎样的顾虑?的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

关键字:FPGA  GPU 引用地址:让FPGA替代GPU,你会有怎样的顾虑?

上一篇:ASIC AI,巨头才玩得起的游戏?未必
下一篇:Maxim Integrated保护嵌入式系统的交钥匙方案亮相TRUSTECH

推荐阅读最新更新时间:2024-05-03 02:02

基于FPGA的DS/CDMA解扩解调模块设计与实现
在CDMA通信系统中,用于基站信号转发的接收机是一个核心模块,一台接收机只是处理一路用户的解扩解调显然是不合理的,为了提高接收机的效率和降低成本,有必要设计一种多路CDMA信号通用解扩解调平台。而FPGA具有功能强大,开发工程投资小,周期短,可反复编程修改,保密性能好,开发工具智能化等优点,本项目决定采用FPGA作为设计平台;本文首先建立了CDMA信号的扩频调制与解扩解调系统模型,然后提出设计这样一个多路CDMA信号通用解扩解调平台。该平台将保证处理CDMA解扩解调的通用性,既可以将此平台用在CDMA信号蜂窝基站的建设上,也可以用在CDMA卫星地面的基站建设上。   图1 DS/CDMA解扩解调系统原理框图   1 DS
[单片机]
基于<font color='red'>FPGA</font>的DS/CDMA解扩解调模块设计与实现
ARM公司为下一代移动游戏定义新愿景
     2009年3月30日,代表着优秀CPU设计的ARM公司继续展示着其在提供具有最高性能的ARM® Mali™ 图形处理单元(GPU)技术方面所取得的成功。ARM近日在美国加利福尼亚州旧金山举行的第22届游戏开发者大会(GDC)上提出了公司对于打造下一代图形处理以及移动游戏未来的愿景。通过采取合作的方式开发图形加速解决方案,并结合ARM完整的Mali图形堆栈以及ARM合作伙伴生态系统,Mali技术现已被广泛采用,至今已有27个合作伙伴通过授权获得该技术。在此成功的基础上,ARM正在继续努力,提供众多强大的、易于配置的Mali图形IP,并与游戏和图形行业中领先的芯片合作伙伴、设备制造商和内容提供商一起,向市场提供越来越多的基于
[网络通信]
FPGA在直流电机位置控制中的应用
摘要:由于直流电机具有速度易控制,精度和效率高,能在宽范围内实现平滑调速等特点而在冶金、机械加工制造等行业中得到广泛应用。该设计采用FPGA作为直流电机的控制器件,负责信号处理,速度快、可靠性高。介绍直流电机进行位置控制的方法,给出位置控制模块的设计和实现,使用 VHDL语言进行编程完成了FPGA对直流电机的各种控制。 关键词:位置控制;直流电机;FPGA;VHDL 在直流电机控制系统中,被控制量一般都是电机的转速,控制的目的是保持电机的转速在所需要的定值上。但在实际生产过程中,电机带动生产机械或者其他负载运动的表现不一定都是转速,也可能是使生产机械或其机构产生一定的位置变化,这时需要的控制量就不再是电机的转速,而是控制对象
[工业控制]
<font color='red'>FPGA</font>在直流电机位置控制中的应用
基于FPGA的通用数控分频器的设计与实现
1.引言 分频器是数字系统中非常重要的模块之一,被广泛应用于各种控制电路中。在实际中,设计人员往往需要将一个标准的频率源通过分频技术以满足不同的需求。常见的分频形式主要有:偶数分频、奇数分频、半整数分频、小数分频、分数分频。在某些严格的情况下,还有占空比的要求。其中非等占空比的偶数分频器和奇数分频器其实现比较容易,但对于半整数分频器和占空比为50%的奇数分频器实现比较困难。 本文首先介绍了各种分频器的实现原理,并结合VHDL硬件描述语言对其进行了仿真,最后提出一个可控的通用分频器的设计方法,该方法可实现任意分频,资源消耗低,具有可编程等优点。 2.偶数分频器 偶数分频器比较简单,即利用计数器对需要分频的原始时钟信号进行计数翻转。
[电源管理]
基于<font color='red'>FPGA</font>的通用数控分频器的设计与实现
基于FPGA的扩频测距快速捕获仿真研究
  距离测量是测试技术中的一项基本测试技术,其几乎贯穿于工程实践的每个领域。在军事航天领域,由于其特殊的需求,对测距系统的量程、实时性和精度要求越来越高,而扩频测距由于其抗干扰能力强、精度高、作用范围广、隐蔽性好、适应性强、全天候等优势,在测距系统中得到了重视。   扩频测距也称伪码测距,它是采用一个较长周期的PN码序列作为发射信号,将它与目标反射或转发回来的PN码序列的相位进行比较,即比较两个码序列相差的码片数,从而看出其时间差,换算出发射机与目的地之间的距离。如果码片选得很窄,即码速率做得很高,那么就可以完成高精度的测距。但随着码速率的提高和码周期的加长,传统的捕获时间将达到不可容忍的地步,所以需要考虑快速捕获算法。   由扩
[测试测量]
基于<font color='red'>FPGA</font>的扩频测距快速捕获仿真研究
基于FPGA的160路数据采集系统设计
   l 引言   随着科学技术和国民经济的发展,电能需求量日益增加,对电能质量的要求也越来越高。这对电能质量的监测提出了挑战。电能质量的监测往往需要多通道数据采集,但因其覆盖面积大,周期性强,采集数据量大,因此对数据采集系统的采集、传输速度和精度提出了较高的要求。常用的数据采集方案往往采用单片机或数字信号处理器(DSP)作为控制器。以控制模数转换器(ADC)、存储器和其他外围电路的工作。但因单片机自身指令周期及处理速度的影响,很难达到多通道高速数据采集系统的要求,虽然DSP可以实现较高速的数据采集,但在提高其速度的同时,也增加了系统成本。现场可编程门阵列(FPGA)以其时钟频率高,内部延时小,速度快,效率高,组成形式灵活等特点
[测试测量]
基于<font color='red'>FPGA</font>的160路数据采集系统设计
基于FPGA的数字音频广播信道编码器的实现
    摘要: 介绍了数字音频广播(DAB)信道编码的原理和关键技术,并应用单片FLEX10K100系列FPGA实现DAB信道编码器。     关键词: 数字音频广播(DAB) 信道编码 FPGA 1 数字音频广播(DAB)发射系统及信道编码器 DAB是继调幅和调频广播之后的第三代广播体系。与模拟广播相比它不仅可以提供高质量的声音信号(CD音质),也可以提供数据、图像等多种其他附加服务。它可以保护在高速移动接收时的声音质量,具有很强的抗干扰能力,在同要瓣频带宽度和环境下,DAB可以提供高质量的多种多样的广播节目。    
[应用]
小广播
热门活动
换一批
更多
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

更多精选电路图
换一换 更多 相关热搜器件
更多每日新闻
随便看看
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved