Graphcore 第二代IPU能否让AI焕然新生

2020-07-31来源: EEWORLD关键字:Graphcore  IPU  MK2

在AI浪潮推动下,大量新奇的AI应用迅猛而生。但这些应用非常场景化,既需要成熟的CPU和GPU,也需要全新的AI处理器。IPU(Intelligence Processing Unit)就是一种为AI计算而生的革命性架构,如今,IPU已经在金融、医疗、电信、机器人、云和互联网等领域取得成效。

 

Graphcore开放Poplar计算图库源代码


近日,英国初创公司Graphcore发布了第二代IPU以及用于大规模系统级产品IPU-Machine: M2000(IPU-M2000),新一代产品具有更强的处理能力、更多的内存和内置的可扩展性,可处理极其庞大的机器智能工作负载。据了解,IPU-M2000可构建成IPU-POD64这一Graphcore全新模块化机架规模解决方案,可用于极大型机器智能横向扩展,提供前所未有的AI计算可能性,以及完全的灵活性和易于部署的特性。它可以从一个机架式本地系统扩展到高度互连的超高性能AI计算设施中的1000多个IPU-POD64系统。

 

 

这款即插即用的机器智能刀片式计算单元能有出众的性能,得益于Graphcore全新的7nm Colossus MK2(也叫IPU GC200),并由Poplar®软件栈提供全面支持。

 

可不要小看那这块IPU,它是台积电7nm工艺的成果,晶体管数量高达594亿个,裸片面积达到823平方毫米。这比两个月前英伟达最新发布的安培架构GPU A100的540亿个晶体管增加了10%。

 

Graphcore发布第二代IPU GC200,超越全球最大7nm芯片A100!晶体管数高达594亿

 

IPU是一种全新的大规模并行处理器,此前报道,他们已经推出了基于台积电16nm工艺集成236亿个晶体管的GC2 IPU,120瓦的功耗下有125TFlops的混合精度、300M的SRAM能够把完整的模型放在片内。

 

据介绍,Graphcore最新的MK2对三大技术——计算、数据、通信进行了颠覆性突破:

 

1.计算

 

Mk2 GC200处理器是比较复杂的单一处理器,基于台积电7nm技术,集成了将近600亿个晶体管,拥有250TFlops AI-Float的算力和900MB的处理器内存储。处理器内核从上一代1217提升到了1472个独立处理器内核,从而达到有近9000个单独的并行线程。相对于第一代产品,其系统级的性能提升了8倍以上。

 

 

说到处理内存,可大致分为两部分:一部分是程序存储(Program Memory);另一部分是模型存储空间(Available Memory);当时的MK1拥有300MB SRAM,算是单一芯片里面最大的存储容量,在相同程序存储空间下,MK2拥有更大的Available Memory,相当于6倍以上的处理器内有效存储,大大提高了运算效率。这也使得每个IPU  Memory的带宽是47.5TB/s。同时还包含IPU Exchange以及PCI Gen4跟主机交互接口;互联速度(IPU-Links)也达到了320GB/s。

 

 

一个M2000的盒子里集成了4个GC200处理器,具有1PFlops16.16的算力,和近6000个处理器核心,以及超过35000个并行线程,In-Processor-Memory达到3.6GB。

 

 

2.数据

 

在处理数据方面,Graphcore提出了IPU Exchange Memory交换式存储的概念,较之英伟达HBM技术产品,Graphcore在M2000每个IPU-Machine里面通过IPU Exchange Memory,提供了将近超过100倍的带宽以及大约10倍的容量,这对于很多复杂的AI模型算法大有裨益。

 

3.通信

 

IPU-M2000具有内置的专用AI联网IPU-Fabric™。Graphcore创建了一个新的Graphcore GC4000 IPU-Gateway芯片,该芯片可提供令人难以置信的低时延和高带宽,每个IPU-M2000均可提供2.8Tbps。在从数十个IPU扩展到数以万计个IPU的过程中,IPU-Fabric技术使通信时延几乎保持恒定。卢涛表示:“它可以从一个机架式本地系统扩展到高度互连的超高性能AI计算设施中的1000多个IPU-POD64系统。它还可以做到2.8Tbps超低延时,同时最多可以支持64000个IPU之间横向扩展。通过直联或者是以太网交换机等技术做互联。此外,IPU-Fabric支持AI运算里面的集合通信或者全缩减(all-reduce)操作,这也是专门为AI应用从零开始设计的技术。”

 

IPU M2000的相关性能如下:

 

易于部署;

内含4个GC200 IPU,可达到1 PetaFlop 计算;

450GB Exchange Memory;

2.8Tbps IPU-Fabric,具备超低时延通信;

可满足最苛刻的机器智能负载;

 

 

罗旭介绍:“随着IPU-M2000和IPU-POD64的推出,Graphcore进一步扩大了在机器智能领域的产品竞争优势。通过技术创新实现更强有力的产品线,这些创新能够提供客户所期望的行业领先性能。对于寻求将机器智能计算添加到数据中心的客户而言,Graphcore最新推出的IPU-M2000凭借其强大的算力、易于扩展的灵活性和突出的易用性,将具有极强的可行性和价值提升潜力。”

 

IPU MK2 VS IPU MK1,性能猛蹿

 

拥有如此先进架构的IPU Mk2性能如何?据介绍,第二代IPU GC2000(MK2)与第一代IPU(MK1)相比,实际性能提高了8倍。

 

在计算、数据和通信这三块分别做了非常大的改进,总结下来有三大区别:

 

1.计算方面,它达到了两倍以上的peak能力,也就是Mk2峰值算力比Mk1的峰值算力高两倍,尤其是数据这块差别会很大;

2.基于六倍以上的处理器内有效存储,加上超过446GB的 IPU-Machine的流存储,其内存上的提升远非纸面上多出的600MB的优势;

3.基于大规模横向扩展IPU-Fabric技术,互联性能更强;

 

Mk2跟Mk1在系统级的对比,通过三个场景的比较,MK2都处于平均8倍的性能提升。

 

../Desktop/nigel头像.png

 

Graphcore联合创始人兼CEO Nigel Toon表示,GC200是目前世界上最复杂的处理器,可使创新者实现AI的革命性突破。

 

在IPU面前,GPU显得力不从心?

 

IPU的设计基础是Graphcore对于机器智能的Workload的理解。在所有形式的机器智能计算中,Graphcore试图从数据中推断知识模型,然后使用这些学习的模型从其他数据推断出新的结果。所以在很大程度上,工作量是由知识模型的性质来定义的。知识模型和对它们执行推理所需的算法最自然地表示为计算图。因此,他们用计算图来作为机器智能的基础表示方法。

 

 

其中计算图有以下特征:

 

1. 规模大,包括数千到数百万个顶点,意味着巨大的并行性;

2. 稀疏,必须在架构上适应这种稀疏性,因为它对处理器之间的存储器访问模式和通信模式有重大影响;

3. 数据的统计近似值;

4.模型参数的重用性,简单来说,卷积是空间重用,而回归是时间重用。这种重用可以获取数据中的空间或时间不变性。同时,如果重用参数,则会将其作用于给更多的数据,从而更快地学习;

5. 图形结构可以被视为静态,这对于构建高效的并行计算至关重要;

 

对于稀疏性,还可以更进一步说明。当我们把图模型存储到物理可实现的存储器中的时候,存储器访问的有效稀疏度进一步增加。例如,一个图中的顶点可能连接到同样接近的100个相邻顶点。但是,如果我将该顶点的状态存储在具有线性地址的存储器中,则它只能有两个直接邻居。在低维存储器中存储高维计算图的效果是使邻域分散在存储器中。这对于非常宽的向量机(如GPU)来说是一个潜在的问题。图处理有利于更细粒度的机器,从而有效地分散和收集(scatter and gather)数据。

 

 

在原生稀疏计算方面,把计算和数据结合起来看,就会看到IPU跟GPU截然不同的表现。无论是数据还是计算非常密集的情况下,从块稀疏(block sparse)到动态稀疏(dynamic sparse),GPU的表现实际上都很出色,但随着数据稀疏性越来越高,IPU的优势会越来越明显,比GPU领先10到50倍的性能。

 

这就是为什么IPU拥有比GPU更多的处理器,每个处理器都设计用于处理较窄的向量。基于上述对机器智能的Workload的理解,Graphcore提出了IPU的设计。和CPU (scalar workload),GPU (low-dimensional workload)相比,IPU是为了high-dimensional graph workload而设计的。

 

NLP方面,一机八卡的配置,IPU可以达到36.3小时的训练时间,提升了25%。

 

 

在分组卷积内核中,ResNeXt类型的模型下,Benchmark相对竞品有一个4倍到100倍的性能提升。

 

Graphcore IPU,大幅加速文本转语音模型

 

在Graphcore智能处理器(IPU)上,百度的Deep Voice 3实现了无与伦比的文本到语音的训练性能表现。IPU的独特架构特点以及与处理器共同设计的Poplar软件栈的优化共同促成了速度大幅提升。

 

与GPU PK一下,它的变现显得更出众。下图比较了IPU和GPU备选方案在训练期间的吞吐量数字。通过在具有2个Mk1 IPU(批处理大小为4)的C2卡上进行数据并行训练,可以实现每秒1260个查询(QPS)的吞吐量,相比GPU实现了6.8倍加速(使用与C2卡相同的功率)。换言之,要在VCTK语料库上完成一个训练阶段,使用Mk1 C2卡大约需要35秒,而使用GPU大约需要4分钟。

 

通过IPU-M2000中的单个Mk2 IPU和16的批处理大小,我们获得了每秒2744个查询的吞吐量,比GPU快14.8倍。即使发布了最新的GPU,基于已发布的GPU对比结果,我们预估第二代IPU仍然有大约10倍的优势。

 

 

软件Poplar SDK——助力创建下一代机器智能

 

 

IPU设计目的很明确,专为机器智能或AI应用场景而打造的,可同时做训练和推理。” Graphcore高级副总裁、中国区总经理卢涛表示,“IPU是一个处理器,针对IPU我们开发的 Poplar®软件,对程序员来说,在 IPU 上进行开发就是写一个TensorFlow或者Pytorch 的程序,易用性非常好。”

 

据悉,Poplar®目前已经提供750个高性能计算元素的 50 多种优化功能,支持标准机器学习框架,如TensorFlow1、2,ONNX和PyTorch,很快也会支持 PaddlePaddle。

 

Graphcore此次最新发布的SDK 1.2主要特性包括:

 

1.集成了先进的机器学习框架。

2.进一步开放低级别的API,主要是为上层的算法提供一个低层次API接口。

3.增加框架支持,包括对PyTorch和Keras的支持。

 

要开发一个好模型,除了SDK以及良好的驱动和上层框架支撑以外,工具也非常重要。为此Graphcore发布了一款基于一个图形的分析工具——PopVision 计算图,它可以做到基于算子层面,检测整个系统,将算力,内存的使用情况用图形界面直观的呈现出来。

 

 

除此之外,Graphcore还正式发布基于IPU的开发者云,面向中国的客户、大学、研究机构和个人研究者免费使用,使得前沿的机器智能创新者可以轻松获取IPU进行前沿AI模型的云端训练与推理,从而在新的一波机器智能浪潮中取得关键突破。该开发者云是中国首款IPU开发者云,部署在金山云上,使用了IPU PCIe卡适配完成的浪潮NF5568M5服务器和戴尔DSS8440服务器。

 

 

为了更好地赋能中国AI创新者,配合开发者云,Graphcore的创新社区现已全面正式上线,社区平台包含微信、知乎、微博以及Graphcore即将上线的中文创新社区网站。创新者们可以在自己常用的社交平台上轻松向Graphcore全球的科学家提问,获取IPU硬件产品与软件更新的最新资讯、阅读深度技术文章、并与其他创新者们一起交流成长。

 

 

到底什么是推理和训练?

 

AI智能处理单元最主要的工作就是训练和推理,那么二者有何区别?在Q&A环节中罗旭给出了答案:“推理比训练要简单很多,除前向计算外,训练主要还会涉及到反向计算。对于底层需要支持的算子。训练也会比推理多几倍;同样从底层的硬件角度来讲,训练对于处理器的通用性要求会更高。”

 

 

现在机器智能发展的方向之一就是Continuous Learning。如果在一个架构上能够同时很好的支持Training和Inference当然非常理想。不过从目前来看,Deep Learning中的Training和Inference还是有较大差异,运算量的巨大差别,精度要求不同,算法的差别,部署的Constraints等等都会收到限制。

 

如今,第三类AI处理器受到的关注度越来越高,IPU能否更好完成CPU和GPU不擅长的AI任务成为当之无愧的革命性架构?Graphcore的IPU能否很好的解决这些问题?结论还需时间来考量。


关键字:Graphcore  IPU  MK2 编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic504927.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:智在必得,速起边缘,英特尔发布AI计算盒参考设计
下一篇:华为海思发布FHD 智能电视芯片,可运行 Android 高版本

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

三大颠覆性技术早就Graphcore二代IPU超强性能
Graphcore正式发布第二代IPU以及用于大规模系统级产品IPU-Machine: M2000(IPU-M2000),新一代产品具有更强的处理能力、更多的内存和内置的可扩展性,可处理极其庞大的机器智能工作负载。 IPU-M2000是一款即插即用的机器智能刀片式计算单元,由Graphcore全新的7纳米 Colossus™ 第二代 GC200 IPU提供动力,并由Poplar™软件栈提供全面支持。其设计便于部署,并支持可扩展至大规模的系统。这款纤薄的1U刀片机可提供1个PetaFlop的机器智能计算,并集成了针对AI扩展优化的网络技术。      
发表于 2020-07-16
三大颠覆性技术早就Graphcore二代<font color='red'>IPU</font>超强性能
Graphcore发布IPU开发者云,致力解决世界上最棘手的AI问题
Graphcore正式发布基于IPU的开发者云,面向中国的客户、大学、研究机构和个人研究者免费使用,使得前沿的机器智能创新者可以轻松获取IPU进行前沿AI模型的云端训练与推理,从而在新的一波机器智能浪潮中取得关键突破。该开发者云是中国首款IPU开发者云,部署在金山云上,使用了IPU PCIe卡适配完成的浪潮NF5568M5服务器和戴尔DSS8440服务器。  中国众多的机器智能创新者活跃在各个AI领域的世界前端,通过IPU开发者云,前沿机器智能创新者可以快速便捷地获取IPU云,避开自建机房或者申购IPU服务器等繁琐内部流程,专注于在IPU上快速运行自己的AI模型结果。 “我们在与创新者交流时,很多创新
发表于 2020-07-08
Graphcore发布<font color='red'>IPU</font>开发者云,致力解决世界上最棘手的AI问题
实现机器智能突破性创新,Graphcore加入百度飞桨硬件生态圈
在今天的Wave Summit 2020深度学习开发者峰会上,百度正式宣布Graphcore为百度飞桨(PaddlePaddle)硬件生态圈共建计划伙伴之一,并且共同签署倡议书,以助力AI创新应用在各类场景落地,并推动行业统一标准建立。通过百度飞桨,更多中国的开发者将能够利用Graphcore IPU这一全新处理器架构,实现机器智能的突破性创新,大幅加速AI模型。百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜发布飞桨硬件生态圈 百度飞桨是中国首个开源开放、功能完备的产业级深度学习平台,目前累计开发者数量超过190 万,服务企业数量8.4 万家,创建了超过23万个模型,成为国内深度学习平台的领先者。百度飞桨硬件
发表于 2020-05-26
实现机器智能突破性创新,<font color='red'>Graphcore</font>加入百度飞桨硬件生态圈
Graphcore AI加速器芯片将商业化进程
致力于开发AI工作负载加速器的英国公司Graphcore宣布了一个里程碑:其智能处理单元(IPU)已在Azure上启动。这标志着微软等大型云供应商首次公开提供对Graphcore芯片的支持。Graphcore说,Azure上的IPU向客户开放,优先授权那些“专注于[自然语言处理]的边界”和“在机器智能方面取得新突破”的用户。资料显示,Graphcore(由Simon Knowles和Nigel Toon于2016年创立)迄今已从Robert Bosch Venture Capital,三星,Amadeus Capital Partners,C4 Ventures,Draper Esprit,Foundation Capital
发表于 2019-11-14
<font color='red'>Graphcore</font> AI加速器芯片将商业化进程
立志冲破行业格局的三大国外AI芯片公司
长期以来,计算机硬件和软件的创新是相互推动的,人工智能已经成为最新的驱动力。许多行业开始关注运行深度学习系统的硬件,而现有的人工智能芯片的局限性也日益明显。这导致有越来越多的投资者相信,人工智能可能是创建新兴的半导体公司的独特机会。 而且从长远来看,人工智能能力的产品的部署势头将继续增强,但需要越来越复杂的半导体设备来支持新一代智能产品。本文着重介绍了三家半导体厂商——Graphcore、GreenWavesTechnologies以及Gyrfalcon Technology Inc(GTI),它们提供创新的AI芯片,以推动这一趋势。下面就让我们一窥他们的真正实力。 英国AI芯片独角兽
发表于 2019-07-11
立志冲破行业格局的三大国外AI芯片公司
德赛西威汽车智能大脑即将量产
德赛西威自动驾驶域控制器IPU03的量产将让中国车企在进军L3级别自动驾驶之路上迈出了坚实的一步自动驾驶渐渐成为全球科技行业和汽车产业的一个重大热点,几乎所有的一线企业都已自愿或非自愿地置身其中,或集中自有资源进行研发,或投入巨资并购先进研发企业进行布局。虽然中国在自动驾驶方面入局较晚,但中国科技企业、汽车制造商以及一众初创技术公司嗅觉十分灵敏,发展速度很快,在自动驾驶技术的研发、商用模式的构建上都取得了很大进步,而中国中央政府和地方政府对自动驾驶的发展,无论是政策上、资金上还是基础设施、试验环境的建设上,都给予了大力支持。因此在普及自动驾驶方面,中国或许将会领先全世界。根据McKinsey和IHS Markit的数据,中国
发表于 2019-06-10
德赛西威汽车智能大脑即将量产
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved