Graphcore IPU-M2000性能测试，完胜GPU-电子工程世界

Graphcore为其最新的AI计算系统——IPU-M2000和纵向扩展的IPU-POD64发布了第一套性能benchmark。

在各种流行的模型中，Graphcore技术在训练和推理方面均显著优于NVIDIA的A100（基于DGX）。

亮点包括：

训练

EfficientNet-B4：吞吐量高18倍

ResNeXt-101：吞吐量高3.7倍

BERT-Large：与DGX A100相比，在IPU-POD64上的训练时间快5.3倍（比双DGX系统缩短2.6倍）

推理

LSTM：以更低时延实现吞吐量提升超过600倍

EfficientNet-B0：吞吐量提升60倍/时延缩短超过16倍

ResNeXt-101：吞吐量提升40倍/时延缩短10倍

BERT-Large：以更低的时延实现吞吐量提升3.4倍

Benchmark中包括了BERT-Large（基于Transformer的自然语言处理模型）在IPU-POD64的全部64个处理器上运行的结果。

BERT-Large的训练时间比最新的NVIDIA DGX-A100快5.3倍（比双DGX设置快2.6倍以上），这一结果彰显了Graphcore的IPU-POD横向扩展解决方案在数据中心的优势，以及Poplar软件栈管理复杂工作负载的能力，这些工作负载能够利用多个处理器并行工作。

Graphcore软件高级副总裁Matt Fyles在对测试结果发表评论时说：“这一整套全面的benchmark表明Graphcore的IPU-M2000和IPU-POD64在许多流行模型上的性能均优于GPU。”

“诸如EfficientNet之类的新型模型的benchmark特别具有启发性，因为它们证明了AI的发展方向越来越倾向于IPU的专业架构，而非图形处理器的传统设计。”

“客户需要能够处理稀疏性以高效运行大规模模型的计算系统，而这正是Graphcore IPU所擅长的。在这种客户需求的趋势下，差距只会不断扩大。”

Graphcore为阿里云HALO定制代码正式在GitHub开源

Graphcore是阿里云HALO的合作伙伴之一，为阿里云HALO定制开发的代码odla_PopArt已经在HALO的GitHub上开源，具体请见https://github.com/alibaba/heterogeneity-aware-lowering-and-optimization

MLCommons

除了发布其AI计算系统的全面benchmark外，Graphcore还宣布，其已经加入新成立的MLPerf下属机构MLCommons，成为MLCommons的会员。

Graphcore将从2021年开始参加MLCommons的比较benchmark测试。更多信息，请参阅MLCommons的成立公告。

现已出货

Graphcore最新benchmark的发布与IPU-M2000和IPU-POD64系统向全球客户的推出时间刚好一致。一些早期发货的产品已经在数据中心安装并运行。

销售工作得到了Graphcore全球合作伙伴网络以及公司在欧洲、亚洲和美洲的销售人员和现场工程团队的支持。

PyTorch和Poplar 1.4

Graphcore用户现在可以利用Poplar SDK 1.4，包括全面的PyTorch支持。PyTorch已成为从事尖端AI研究的开发人员的首选框架，在更广泛的AI社区中也收获了大批的追随者，并且追随者的数量还在快速增长。

PapersWithCode的最新数据显示，在具有关联代码的已发表论文中，47%的论文使用了PyTorch框架（2020年9月）。

额外补充的PyTorch支持，再加上Poplar对TensorFlow的现有支持，这意味着绝大多数AI应用程序现在都可以轻松部署在Graphcore系统上。

与Poplar软件栈的其他元素一样，Graphcore正在将其用于IPU接口库的PyTorch开源，从而使社区能够对PyTorch的开发做出贡献，并且加速PyTorch的开发。

关于IPU-M2000和IPU-POD

IPU-Machine：M2000（IPU-M2000）是一台即插即用的机器智能计算刀片，旨在轻松部署并为可大规模扩展的系统提供支持。

纤巧的1U刀片可提供1 PetaFlop的机器智能计算能力，并在机箱内部纳入针对AI横向扩展进行了优化的集成网络技术。

每个IPU-Machine：M2000（IPU-M2000）均由Graphcore的4个新型7纳米Colossus™ MK2 GC200 IPU处理器提供动力，并得到Poplar®软件栈的完全支持。

IPU-POD64是Graphcore的横向扩展解决方案，包括16台IPU-M2000，这些机器使用Graphcore的超高带宽IPU-Fabric™技术进行了预先配置和连接。

IPU-POD64专为需要大规模AI计算功能的客户而设计，既可以跨多个IPU运行单个工作负载以进行并行计算，也可以通过Graphcore的Virtual-IPU软件供多个用户共享使用。

关键字：Graphcore 引用地址：Graphcore IPU-M2000性能测试，完胜GPU

上一篇：NXP新一代雷达传感器芯片，推动4D成像技术发展
下一篇：魏少军：2020年我国芯片设计企业已增至2218家

推荐阅读最新更新时间：2024-11-09 17:53

三大颠覆性技术早就Graphcore二代IPU超强性能

Graphcore正式发布第二代IPU以及用于大规模系统级产品IPU-Machine: M2000（IPU-M2000），新一代产品具有更强的处理能力、更多的内存和内置的可扩展性，可处理极其庞大的机器智能工作负载。 IPU-M2000是一款即插即用的机器智能刀片式计算单元，由Graphcore全新的7纳米 Colossus™ 第二代 GC200 IPU提供动力，并由Poplar™软件栈提供全面支持。其设计便于部署，并支持可扩展至大规模的系统。这款纤薄的1U刀片机可提供1个PetaFlop的机器智能计算，并集成了针对AI扩展优化的网络技术。 IPU-M2000可构建成IPU

[嵌入式]

三大颠覆性技术早就<font color='red'>Graphcore</font>二代IPU超强性能

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■安世半导体理想二极管与负载开关，保障物联网应用的稳健高效运行

■报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

■免费申请 | 上百份MPS MIE模块，免费试用还有礼！

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源