datasheet

Icbank半导体行业观察

文章数:10529 被阅读:31132597

账号入驻

剑指CPU和GPU,FPGA霸主携自适应加速器开辟新战场

2019-08-08
    阅读数:


在网络、计算和存储领域,越来越多的应用需要专用的架构,以使硬件能够和算法进行匹配,从而达到最佳运行效果,或者是提高它的运行速度。现在,网络上有很多不同的数据,这些数据在运行过程当中,它的要求是不一样的。现在这个网络可能和下一代网络不一样,和下下一代网络就更不一样了。所以,就需要硬件能够跟上这些领域专用架构的要求,同时还要提升它的性能,充分发挥硬件的功能。


而要满足以上需求,FPGA方案是一个不错的选择,原因自然是其强大的灵活性。


2018年3月,赛灵思CEO Victor peng上任伊始,就宣布了该公司从器件到平台转型的三大策略,其中之一就是数据中心优先策略。去年10月,赛灵思推出了ACAP这个新的产品类别,同时推出了Alveo平台——面向数据中心加速的第一款自适应计算加速卡,去年11月,该公司推出了Alveo产品U280,而就在本周,赛灵思又推出了Alveo新品U50,把赛灵思数据中心优先策略往前推进了一步。


Alveo U50是专门面向所有服务器和云打造的业界首款自适应计算、网络、存储加速器。2018年赛灵思推出Alveo产品的时候,该公司就有这样一个愿景:不仅加速计算,而且同时加速网络和存储,实现在Alveo平台上的整体加速。在一系列数据中心的关键负载应用中,通过U50 这个Alveo平台扩展产品,显著改善吞吐量、时延和功耗效能。


据赛灵思数据中心业务部产品规划和市场营销总监Jamon Bowen介绍,Alveo U50是支持PCIe的一张卡,不是像GPU加速器那样的很大型的卡,像那样的卡用于电脑没有问题,但作为网络和存储加速就不行了。我们采用UltraScale+的架构,还集成了超高带宽的HBM2存储器技术,所以大幅缩小了这个产品的尺寸。因为内存现在加在了FPGA芯片上,所以不仅能够释放巨大的空间,还能使性能获得显著提升。


另外,U50用的是第四代PCIe即插即用型卡,也就是说采用的是市面上最前沿的技术,这是很多服务器刚刚开始支持的标准。此外,U50还有很多网络端口,Jamon Bowen表示,现在有越来越多的用户都在使用网络端口,相信随着我们产品进一步扩展,会有越来越多网络方面的用例。而且它的功耗也完全能够符合大家的预算要求,不到75瓦。

Alveo的优势

Jamon Bowen表示,我们从数据中心客户那里听到的一个最大的抱怨就是器件编程非常困难,Alveo就简化了硬件编程程序,它有一个非常开放的平台和环境,让开发者能够更加便捷地使用我们这个平台。如果有越来越多的开发者到我们这个平台上做开发的话,我们也会加入更多的云、更多的产品,并且能够实现原来只有在软件部分才有可能的硬件IP的灵活应变能力。



在具体应用方面,U50最主要的一些解决方案涵盖的领域包括数据分析、视频与图象处理、机器学习、生命科学和金融计算。Jamon Bowen表示,我们有非常广泛的客户和伙伴,都在用Alveo这样一个平台的生态。我们在上面也加入了很多IP和驱动来支持我们的合作伙伴和开发者。而且我们非常高兴地看到,我们希望这个生态系统能够开发一个全堆栈的解决方案,所以自Alveo推出不到一年的时间,现在已经有很多的生态合作伙伴推出了基于Alveo的解决方案。已发布的应用已经是2018年10月的2倍,而我们培训的开发者已经是那时候的4倍。


另外,因为赛灵思的产品是非常商业化的,而且是现成的标准化的产品,包括驱动,能够调动整个IT界的积极性,大家共同努力,和开源框架进行连接。Jamon Bowen表示,用我们的产品时,可以直接使用Kubernetes和docker的产品。因为是非常标准化的产品,Kubernetes当中可以直接有这样一个插件,它可以在系统内部很快反映出来有Alveo这样一个加速硬件。另外,开发者也可以把它和docker配合起来使用,第一步对Alveo进行编程,然后系统中也能体现出这样一个加速应用。如果没有这样一个标准化的产品配置的话,客户可能需要花费大量的投资才能实现这个功能。所以,这对于一些超大规模数据中心的应用来说是非常有必要的,既可以在云端,也可以用Alveo在本地进行加速,而且是一个非常开放式的架构,可以进行全面的加速。大家只要在Kubernetes的框架当中来看到我们这个插件,就一目了然了。


U50的应用

下面看一下Alveo U50的一些应用情况。


1、语音翻译

首先看语音翻译的计算负载加速,使用的是Alveo U50来实现这方面的功能,而不是GPU。从Alveo U50和CPU、GPU在语音翻译加速功能的比较来看,Alveo U50最重要的一个实现特征就是它的高吞吐量和低时延的推断性能,对于这个应用来说,这两个特点是非常重要的。因为在这个领域当中,用到的机器学习和之前的神经中枢网络是不一样的,而这个正是Alveo U50的优势所在。


将Alveo U50 和英伟达T4 相比,性能提升了10倍。Jamon Bowen表示,我们的性能非常优越,能够用于很多不同的网络。机器学习的推断还要求更低的时延推断来支持这样的案例,而且要求我们的硬件能够支持这样的推断,还要离数据源非常近。U50的小尺寸非常契合需要边缘计算的用例场景。


2、数据库分析

数据库分析方面的加速是完全不同的场景,主要是用于一些商业信息分析领域,如数据库查询加速运行的TPC-H Query5这样的体系,主要是一些商业营销决定的决策查询或者咨询建议。有很多企业都会面临这样的决策,他们有一个很庞大的数据库,里面有很多供应商,有很多的产品,也有很多的销售数据。在这个加速过程当中,会用到很多的标签节点,会列出很多相关的表格,然后进行具体的查询。在每一个节点对带宽的要求都是非常高的,而带宽又是顺利进行加速的关键点。


Jamon Bowen表示,我们做了一个比较,采用的是一台没有加速的英特尔最先进的多核处理器XEON系列产品,和我们加入了Alveo U50的结果比起来, 处理速度提升4倍,而且这时因为U50卡尺寸非常小,可以使用多张卡的形式,因为它的尺寸非常小,所以要进行多倍数的加速也是可以做到的。


3、金融市场建模

还有一个例子是金融,金融领域很多都是需要建模的,这样才能给这些金融工具定价。通常是有非常大量的数据输入,然后做几百万字的模拟,最后得出来一个平均值,得到一个结果的范围来确定在最糟糕的情况下它的风险是什么样的。


Jamon Bowen表示,我们在这里也进行了一项比较,一个是使用Alveo U50,还有用的是英伟达第一版的GPU,还有英特尔的CPU,我们和他们性能的比较都达到了20倍,同时,我们的成本只有GPU的一半。我们之所以能够实现这样的加速,就是赛灵思一直在开发它的计算库,尤其是量化的开发者能够在Alveo当中使用这些数据函数进行最优化的编码,同时能够在我们这个平台上完成其他的应用设计,建立这样一个模型。这对于计算加速来说是非常重要的扩展,尤其能够把所有的数学函数都吸收进来。


4、电子贸易业务

金融界有这样一个从技术到交易的衡量指标,就是看你获得市场数据之后下单完成交易之间需要多长时间。如果使用U50,就可以在不到500纳秒的时间内,首先收到市场数据,然后用综合的C语言来写一个交易逻辑,跟这样的交易逻辑进行执行和回应。Jamon Bowen表示,如果用CPU的话,第一步首先要从网络上把这个数据放入到界面的接口,然后进行缓存,如果是单向的话,它要耗时400纳秒。而且这仅仅是第一步,第一步首先把这样一个数据包先进入到它内存的层级,而且数据进去之后,数据的运行环境首先要发出信号,说明这个运行环境发生了变化。然后这个网络再把信息进行解码,从用户转变为核心,然后再把它传输给需要执行交易的部分。而且整个过程需要不断持续。而整个过程大概需要10毫秒,所以,在时间方面,CPU比U50多出近20倍,而且所有时间几乎对于CPU来说仅仅只能够完成将数据进入到CPU内存层级第一步的时间,而这个时延在这个领域是非常关键的一个决胜因素。对于这个应用来说,它的时延也是非常关键的。而且我们这种应用使它训练的基础设施和交易地点也非常接近,因为一般来说,都在证券交易所数据中心里,所以U50的小尺寸在这方面拥有非常好的优势,能够顺利接入到数据中心。


5、计算存储

刚才讲的是网络,现在来看一下存储。计算存储现在越来越重要,而且有这样一个趋势,就是计算离存储越来越近。


过去,很多字节都需要一系列传输的程序才能进行处理,非常复杂,比如要压缩、解压,还要进行数据保护,比如加密、解密,这里使用的是一个GZIP压缩吞吐量的指标,一个是使用Alveo,一个是CPU。因为每个字节都必须经过这样的流程,所以这里加速的带宽就非常重要了,此时,PCIe第四代技术在这方面可以大放异彩,可以实现 20 倍的改善。


6、Hadoop加速

下面看一下整体应用加速的例子,即Hadoop。Jamon Bowen表示,我们首先看数据,还有查询数据的工作量,它对带宽提出了很高的要求。如果要做高性能计算,这个数据就没办法去压缩,这样的话,基础设施就需要扩大一倍,而且还需要更多的存储,需要更多的存储带宽。如果用U50就可以非常顺利地进行压缩,而且还可以在高带宽的环境下来完成,这样你就没有必要选择到底要进行压缩,还是保留带宽。因为压缩之后,所需的存储空间只有原来的一半,需要的带宽也只有原来的一半。


所以,有了这样的加速之后,成本可能只有原来的1/2,而且不仅仅可以进行压缩,同时还可以确保它的性能不会受到影响。Alveo的用途非常广泛,虽然它并不像机器学习推断加速听起来这样的热门,但是它是非常实用的后端加速服务,能够帮助数据中心客户节约大量成本。


Jamon Bowen表示,我们还做了一个两个双CPU的服务器和搭载两个U50的Alveo服务器,我们看到越来越多的单插头应用,AMD在这方面部署与我们非常接近,它的PCIe线非常多,可以连接很多存储和加速器,所以,AMD处理器加上我们的加速器是一个非常好的组合,可以完美取代CPU双插头的组合方案。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2030期内容,欢迎关注。

推荐阅读

半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

思科|台积电|江北新区|I4nm|晶圆|大基金|集成电路|MEMS


回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!


About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved