是什么开启了计算机架构的新黄金十年?

2019-08-20来源: EEWORLD关键字:摩尔定律  阿姆达尔定律  硬件加速

翻译自——EEWORLD online,Daniel Joseph Barry

 

概要:

 

云计算、企业和电信网络的许多创新都是基于这样一个假设:服务器CPU的能力将继续按照摩尔定律增长。这个定律预测每平方英寸晶体管的数量将每18个月翻一番,从而增加每平方英寸的处理能力。这个预测已经持续了很长时间,以至于我们中的许多人都认为这是理所当然的现象。但现在越来越明显的是,服务器CPU处理能力在未来的增长将不会那么明显。到时候,我们怎么办?

 

摩尔定律的尽头

 

CPU处理能力的降低现在已经很明显了,各种措施延长了性能曲线。这表明,不仅摩尔定律在处理器性能方面即将结束,而且登纳德缩放比例定律[1]和Amdahl’s law (阿姆达尔定律)也将结束。处理器性能在过去40年的下降趋势如图所示:

 

 

上世纪80年代RISC计算的出现是Gordon Moore最初预测的基础,并且真实地显示处理器性能每18个月就会翻一番。但是,随着每个芯片时钟频率的限制开始出现,登纳德缩放比例定律和多核cpu的解决方案帮助延长了性能曲线。但值得注意的是,即使是在本世纪初,我们也不再处于摩尔定律曲线上,在这段时间里,性能翻倍需要3.5年的时间。

 

阿姆达尔定律指的是通过并行处理可以实现性能改进的极限。虽然并行化流程的执行可以提供初始的性能提升,但是总会有一个限制,因为有些执行任务不能并行化。我们最近发现,当使用多个CPU内核的好处减少时,这些限制就会生效,从而导致性能改进之间的时间间隔更长。

 

从上图可以看出,预测CPU处理能力现在需要20年才能在性能上翻倍。可想而知,摩尔定律已不复存在。

 

广为接受的观点是时候调整一下了

 

长期以来,摩尔定律一直是一种可靠的现象,我们许多人都把它视为理所当然事情。自上世纪80年代以来,许多计算机工程师的整个工作生涯都是如此。我们大多数人无法想象一个没有这条法律的世界。

 

值得关注的是,整个行业都是建立在摩尔定律的前提下,并期望不断提高加工性能。

 

例如,整个软件行业都假定处理能力将随着数据的增长而增长,并且能够满足未来软件的处理需求。因此,软件架构和设计的效率是不那么完整的。的确,越来越多地使用软件抽象层来使编程和脚本编写更加易用,但这是以处理能力为代价的。

 

例如,虚拟化得到了广泛的应用,但它是底层物理资源的软件抽象,会产生额外的处理成本。一方面,虚拟化可以更有效地使用硬件资源,但另一方面,依赖服务器CPU作为通用处理器来执行虚拟化软件和处理输入/输出数据,这给CPU处理器带来了相当大的负担。

 

看看云计算以及电信行业,就能清楚这一后果了。云计算行业的基础:标准商用现货(COTS)服务器的功能强大到足以处理任何类型的计算工作负载。使用虚拟化、容器化和其他抽象,可以使用“as-a-service”模型在多个客户机之间共享服务器资源。

 

电信运营商受到了这一模式的启发,云公司也成功地通过SDN、NFV和云本地计算等举措为其网络复制了这种方法。

 

然而,这里的基本业务模型假设是,随着客户机数量和工作量的增加,只需添加更多的服务器就足够了。但是,正如在前面的图表中可以清楚地看到的那样,在接下来的20年中,服务器处理性能每年只会增长3%。这远远低于预期,即未来5年要处理的数据量将增加两倍。

 

输入硬件加速

 

你可能会问:为什么处理器性能下降的问题没有更容易地表现出来。云计算公司似乎在没有任何表现问题的情况下取得了成功。因为是硬件加速的功劳。

 

云计算公司是第一个认识到摩尔定律气数已尽的公司,也是第一个体验到与摩尔定律相关的性能问题的公司。但实用主义思想影响了他们对这种情况下的反应。如果服务器CPU性能不会如预期的提高,则需要添加处理能力。换句话说,需要加速服务器硬件。

 

图灵奖[2]得主John Hennessey和David Patterson是《计算机架构:量化方法》一书的作者,这本书阐述了摩尔定律的终结,他们以领域特定体系结构(DSA)为例,这是专门构建的处理器,可以加速一些特定于应用程序的任务。

 

 

其思想是:不同的处理器不是像CPU这样的通用处理器来处理大量的任务,而是根据特定任务的需要定制不同类型的。例如由谷歌构建的用于深度神经网络推理任务的张量处理单元(TPU)芯片。这是专门为这项任务而构建的,而且由于这是谷歌业务的核心,所以将其卸载到特定的处理芯片上是非常有意义的。

 

所有云公司都使用了某种类型的加速技术来加速工作负载。图形处理单元(GPU)已经适应于支持大量的应用程序,并被许多云公司用于硬件加速。在网络方面,网络处理单元(NPU)得到了广泛的应用。GPU和NPU都提供了非常多的小处理器,在这些小处理器上可以将工作负载分解并行运行。

 

FPGA

 

在2010年,微软Azure选择了一条不同的出路:FPGA。

 

现场可编程门阵列(FPGA)已经存在了40多年。传统上,它们被用作设计专用集成电路(ASIC)半导体芯片的中间环节。FPGA的优势在于,使用与设计半导体芯片相同的工具和语言,但可以动态地用新的设计重写或重新配置FPGA。缺点是FPGA比ASIC更大,更耗电。

 

然而,随着生产ASIC的成本开始上升,也越来越难以证明投资ASIC生产的合理性。与此同时,FPGA变得更加高效和具有成本竞争力。因此,留在FPGA阶段并基于FPGA设计发布产品是有意义的。

 

现如今,FPGA被广泛应用于广泛的行业,特别是在网络和网络安全设备中,它们执行特定的硬件加速任务。

 

微软Azure的灵感来自于探索在标准服务器中使用基于FPGA的智能芯片,将计算和数据密集型任务从CPU转移到FPGA这一想法。如今,这些基于FPGA的智能芯片广泛应用于微软Azure的数据中心,支持Bing和Microsoft 365等服务。

 

FPGA作为硬件加速的可靠替代品,导致英特尔在2015年以160亿美元收购了FPGA芯片和开发软件的第二大生产商Altera。

 

从那以后,几家云公司在其服务产品中加入了FPGA技术,包括AWS、阿里巴巴、腾讯和百度等。

 

FPGA真的那么好?

 

FPGA的亮点之处在于,它在通用性、功率、效率和成本之间提供了一个很好的折衷。

 

FPGA几乎可以用于任何处理任务,可以在FPGA上实现并行处理,也可以实现其他处理架构。FPGA的优点之一,数据路径宽度和寄存器长度等细节可以根据应用程序的需要进行定制。实际上,在FPGA上设计解决方案时,最好考虑特定的用例和应用程序,以便真正利用FPGA的功能。

 

功耗方面,FPGA有多种的选择,即使只是考虑到最大的两个供应商,Xilinx和英特尔。例如,将用于无人机图像处理的最小FPGA与用于机器学习和人工智能的超大FPGA进行比较,在每瓦特上FPGA通常提供非常好的性能。基于FPGA的Smart NIC[3]可以处理高达200Gbps的数据,而不会超过服务器PCIe插槽的功率要求。

 

由于FPGA是可重构性以及可以专门针对应用程序进行定制,因此可以在需要时创建高效的解决方案来完成所需的工作。通用多处理器解决方案的缺点之一是,由于其通用性,在成本上存在开销。通用处理器可以同时做很多事情,但总是很难与设计用于加速特定任务的特定处理器竞争。

 

市场上有大量的FPGA解决方案,可以在合适的价格找到合适的模型来满足你的应用程序需求。与任何芯片技术一样,芯片的成本随着体积的增大而显著降低,FPGA也是如此。如今,它们作为ASIC芯片的替代品被广泛使用,提供了一个容量基础和具有竞争力的价格,这一价格在未来几年会得到改善。

 

摩尔定律之后我们的生活将会是?

 

摩尔定律的消亡并不意味着计算技术的消亡。但这确实意味着我们必须重新配置对高性能计算体系结构、编程语言和解决方案设计。这种柳暗花明的背后,显示的正是计算机计算架构的时代变革;新的方法、新的思维、新的目标引领了新的浪潮。2017 年图灵奖的两位得主 John L. Hennessy 和 David A. Patterson 就是这个新浪潮的见证者和引领者。近日他们在ACM 通讯(Communications of the ACM)发表了一篇长报告《A New Golden Age for Computer Architecture》,详细描述了引发计算机架构新时代到来的种种变化,他们也展望未来的十年将是计算机体系架构领域的“新的黄金十年”。

 

目前,有几种技术和解决方案可以通过硬件加速提高服务器的性能。FPGA正在作为一种多功能、强大的勘探候选者。

 ——————————————————————————

延伸阅读

 

DSA专用领域处理器架构

 

评估处理器性能的指标:程序运行时间,它的决定因素:

 

程序指令数:由程序代码、编译器、ISA决定

平均指令执行周期数(CPI):由ISA以及微架构决定。

时钟周期:由微架构以及半导体制造工艺决定。

 

摩尔定律使得处理器晶体管数持续上升,但是因为晶体管功耗和晶体管面积缩小的速度基本相同,因此前40年间芯片单位面积的功耗基本不变。

 

目前,三种技术趋势让传统的通用处理器演进遇到了瓶颈。半导体工艺角度,Dennard Scaling规律结束,芯片功耗急剧上升,同时摩尔定律减缓,晶体管成本不降低反升。从架构角度,指令级并行以及到达极限,单核时代已告结束;而Amadahl‘s Law提示多核架构的速度提升取决于程序中有多少部分无法并行执行,多核架构目前的速度提升也变得越来越慢。从应用角度,处理器应用场景从原来的桌面电脑变成了个人移动设备和云端超大规模服务器,这也带来了新的设计约束。

 

处理器的设计需求发生了变化。能效比正在成为目前最重要的指标。在移动领域,由于电池容量的限制,必须注重能效比。目前,处理器在移动设备中已经成为继屏幕之后能量消耗最大的元件,因此移动设备中处理器能效比是最关键的问题。在另一个未来处理器最大市场——云端服务器市场,能效比也是最关键的指标。目前数据中心的成本中,散热已经成了最大的成本之一,为了减少成本必须考虑处理器能效比。

 

为了提高能效比,一种很有希望的架构是针对应用领域做优化的专用领域处理器架构(DSA)。DSA的优点在于,可以为特定的一类应用(注意不是一种应用,而是一类)做架构优化从而实现更好的能效比。相对于通用(general purpose)处理器,DSA需要设计时考虑专用领域的特殊需求,也需要设计者能对该领域有深入的理解。DSA的例子包括为机器学习设计的神经网络处理器,以及为图像和虚拟现实设计的GPU。DSA设计将会成为处理器架构的新趋势。

 

Smart NIC介绍

 

Smart NIC即智能网卡,其核心是通过FPGA(现场可编程门阵列)协助CPU处理网络负载,编程网络接口功能,具有以下特征:

 

通过FPGA本地化编程支持数据面和控制面功能定制,协助CPU处理网络负载;

通常包含多个端口和内部交换机,快速转发数据并基于网络数据包、应用程序套接字等智能映射到到相关应用程序;

检测和管理网络流量。

 

Smart NIC能够提升应用程序和虚拟化性能,实现软件定义网络(SDN)和网络功能虚拟化(NFV)的诸多优势,将网络虚拟化、负载均衡和其他低级功能从服务器CPU中移除,确保为应用提供最大的处理能力。与此同时,智能网卡还能够提供分布式计算资源,使得用户可以开发自己的软件或提供接入服务,从而加速特定应用程序。

 

目前业界提供基于FPGA的Smart NIC的厂商包括Accolade、BittWare、Enyx、Ethernity、Napatech、Netcope、Reflex CES、Silicom和Solarflare,通常集成自Intel或Xilinx的FPGA来实现。此外,Broadcom,Cavium,Intel,Kalray,Mellanox,Netronome,Silicom和SolidRun均可提供基于处理器的Smart NIC,使用带有集成处理器内核或FPGA的处理器或智能I/O处理器;亚马逊和谷歌已经开发了Smart NIC ASIC。

 

更先进的SmartNIC甚至可以虚拟化网络存储,从而简化虚拟服务器和裸机服务器的配置。

 

 

绿色的内核可以自由地为应用程序提供服务,而红色内核仍在忙于优化网络。与此同时,网络性能得到改善,内核也得到了释放。例如,使用8个内核,每秒760万个数据包,提高到使用0个内核每秒8000万个数据包。这多亏了SmartNIC在网络中构建智能,而不是将所有东西都提交到服务器上去处理。

 

数据中心正在进行改造,以应对高要求应用的挑战。这些高要求应用包括大数据挖掘、人工智能到自动驾驶汽车等不一而足。

 

网络是将它们整合在一起的关键粘合剂,而SmartNIC正在释放处理器能力,以更好地支持应用程序。与此同时,他们正在构建一个智能网络,能够更好地处理日益增长的性能需求,并能够更好地识别和阻止更靠近源的恶意流量。结果是多方面的,其中包括了升级连网的存储,这样它就可以像本地存储一样好地执行所有的操作。

 

 


[1] Robert Dennard 在 1974 年提出,晶体管不断变小,但芯片的功率密度不变。随着晶体管密度的增加,每个晶体管的能耗将降低,因此硅芯片上每平方毫米上的能耗几乎保持恒定。由于每平方毫米硅芯片的计算能力随着技术的迭代而不断增强,计算机将变得更加节能。不过,登纳德缩放定律从 2007 年开始大幅放缓,大概在2012 年接近失效。

[2] 图灵奖(Turing Award),全称“A.M. 图灵奖(A.M Turing Award)”,由美国计算机协会(ACM)于1966年设立,专门奖励那些对计算机事业作出重要贡献的个人。其名称取自计算机科学的先驱、英国科学家艾伦·麦席森·图灵。

[3] Smart NIC即智能网卡,其核心是通过FPGA(现场可编程门阵列)协助CPU处理网络负载,编程网络接口功能。


关键字:摩尔定律  阿姆达尔定律  硬件加速

编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic471757.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:CHIPS联盟利用西部数据RISC-V内核和FuseSoC工具推出新项目
下一篇:清华新技术—津逮服务器芯片,有望解决芯片安全难题

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

杨健谈论EDA芯片投资和摩尔定律终结

南方基地的历史渊源。万里昆仑谁凿破,无边波浪拍天来。这是王安石写的《狼山观海》开头两句。基于通富微电、捷捷微电等IC封装、分立器件企业的发展,南通的集成电路产业规模在中国排入前10。在芯片产业活跃着一批原籍南通的人士,如SOI材料专家王曦院士,Imagination中国区总经理刘国军(中资近10亿美元收购的英国IP企业,曾长期担任Cadence中国区总经理)。我中学毕业于南通中学,之后故乡只有冬夏再无春秋。2007年我协助深创投去南通合作设立了南通创新投资基金。今年我们受到华东几个城市的邀请,新的半导体产业基金在设立中。问:您认为摩尔定律会终结吗?TSMC在先进封装方面的努力,异构芯片的整合,Intel的Loihi
发表于 2019-09-09
杨健谈论EDA芯片投资和摩尔定律终结

制程能做到0.1nm?台积电:摩尔定律仍有效

集微网消息,对于摩尔定律有没有走到极限一直是一个业界争论不休的问题。近日,台积电研发负责人、技术研究副总经理黄汉森在本周开幕的第31届HotChips大会专题演讲中表示,毋庸置疑,摩尔定律依然有效且表现良好,它没有死掉、也没有减缓。对于未来的技术路线,黄汉森认为像碳纳米管(1.2nm尺度)、二维层状材料等可以将芯片变得更快、更迷你;同时,PRAM、STT-RAM等会直接和处理器封装在一起,缩小体积,加快资料传递速度;此外还有3D堆叠封装技术。这不仅仅是台积电第一次表达这一观点。此前,台积电全球营销主管 Godfrey Cheng就在台积电官网发表一篇名为《摩尔定律未死》的文章,他表示,摩尔定律可以被视为观察半导体器件或芯片中电晶体
发表于 2019-08-26

台积电:摩尔定律还活着,晶体管密度还可更进一步

翻译自——tomshardware 摘要:摩尔定律的核心理念是提高晶体管的密度,现在我们通过并行化或者改进封装来实现。 台积电表示,尽管最近的时代思潮与摩尔定律相反,但摩尔定律依然存在。台积电还展示了一个巨大的2500平方米的硅中介层,包括8个HBM内存芯片和两个大处理器。本文讲述了台积电如何利用多层堆叠的方法来提高芯片性能。 台积电新任全球营销主管Godfrey Cheng在博客中写道:摩尔定律与性能无关,而是与晶体管密度有关。传统的方法,虽然性能是通过提高时钟速度和体系结构来提高的,但今天是通过硅架构创新和计算工作负载的线程化或并行化达到高性能目的,因此这需要增加芯片大小。这就说明了晶体管密度
发表于 2019-08-21
台积电:摩尔定律还活着,晶体管密度还可更进一步

台积电高管重申:摩尔定律并没死

近日,台积电全球市场部主管Godfrey Cheng在台积电官网上发表了一篇题为《摩尔定律没有死》的文章。Cheng 在文章中提到, 自2000 年开始,电脑的处理效能已不再通过提升时脉方式加快速度,而是通过架构创新及多线程平衡处理方式来提升效能。提升速度也不再是以推升时脉进行,而是增加更多的晶体管来进行运算,而摩尔定律就是与晶体管的密度有关,Cheng 认为有很多方法可以提高密度,例如通过多层堆叠和先进封装技术。Cheng指出,以台积电最近宣布的N5P工艺为例,这是台积电5nm工艺的增强版,在优化了前端及后端工艺后,可在同等功耗下带来7%的性能提升,或者在同等性能下降功耗降低15%。但Cheng表示,N5P工艺还不是台积电的重点
发表于 2019-08-19

比摩尔定律还神,冈珀茨曲线能够未卜先知?

——翻译自Semiwiki,Wally Rhines 1825年,Benjamin Gompertz提出了一个“S曲线”的时间序列数学模型。在数学上,它是一个双指数,公式为:y=a(exp(b(exp(-ct)),其中t为时间,a、b和c是调节S曲线陡度的可调系数。Gompertz曲线已被用于多种时间依赖模型,包括肿瘤生长、人口增长和金融市场演化。  S曲线在自然界中很常见。在任何一项新业务中或在生物学现象中都可适用,大概原理是这样:从很小的胚胎业务或者一个小细胞开始,它繁殖很慢,但是百分比增长率却很大。随着时间的推移,增长将会加速,直到最终达到饱和时才会减速。从市场角度来看,一个新产品的早期采用者要花
发表于 2019-08-12
比摩尔定律还神,冈珀茨曲线能够未卜先知?

硬件加速、软硬解耦的5G接入网云化方案全新亮相

在5G网络中,我们会面临不同的业务需求,而传统的物理设备我们网络物理设施是无法根据这些业务来配置的,网络切片则是关键技术。在6月27日开幕的世界移动大会MWC上海展会上,联想集团、中国移动、赛灵思(Xilinx)、Napatech、锐德世(Radisys)五家公司联合推出了业界首个支持多形态加速硬件、软硬件充分解耦的移动接入网云化方案 。 联想集团副总裁、联想研究院企业服务云计算实验室和5G实验室负责人黄莹博士表示:“无线网基站云化与虚拟化是5G时代的重要技术方向,对运营商优化网络效率、促进业务创新、提升用户体验等方面,均具有深远意义。联想致力打造基于NFV技术的端到端产品与服务,在硬件加速与整体软、硬件解决方案等方面
发表于 2018-07-03
硬件加速、软硬解耦的5G接入网云化方案全新亮相

小广播

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved