亚马逊的新武器:推理芯片inferentia和Arm服务器芯片Graviton2

2019-12-04来源: 半导体行业观察综合关键字:亚马逊  inferentia  Graviton2

在拉斯维加斯举行的AWS re:Invent会议上,亚马逊带来了两款芯片的介绍。一款是去年推出的,专注于推理的芯片inferentia的应用,另一款是新的Arm服务器芯片Graviton2。

 

首先看inferentia。据了解,该芯片于去年首次宣布。据了解,AWS Inferentia 是一个由 AWS 定制设计的机器学习推理芯片,旨在以极低成本交付高吞吐量、低延迟推理性能。AWS Inferentia 将支持 TensorFlow、Apache MXNet 和 PyTorch 深度学习框架以及使用 ONNX 格式的模型。亚马逊进一步指出,AWS Inferentia 提供数百 TOPS(每秒万亿次运算)推理吞吐量,以允许复杂模型能够进行快速预测。对于更复杂的性能需求,可以组合使用多个 AWS Inferentia 芯片来支持数千 TOPS 的吞吐量。

 

 

从数据上看,AWS Inferentia每个芯片集成了4的neuroncore,每秒可提供128 Tera操作(每秒TOPS或数万亿次操作),支持FP16、BF16、INT8等数据类型,能支持多个框架(包括TensorFlow,PyTorch和Apache MXNet),每个Amazon EC2 Inf1实例最多可提供2000 TOPS。

 

 

正如AWS首席执行官安迪·贾西(Andy Jassy)指出的那样,许多公司都在关注可让您训练模型的定制芯片(尽管Google和其他公司肯定会对此表示反对)。他进一步指出,推理通常可以在常规CPU上很好地工作,但是定制芯片显然会更快。 


 

“与EC4上的常规Nvidia G4实例相比,借助Inferentia,AWS可提供更低的延迟和三倍的吞吐量,且每次推理成本降低40%”,Andy Jassy强调。 


 

从亚马逊的介绍我们可以看到,新的Inf1实例可实现多达2,000 TOPS的功能,并与TensorFlow,PyTorch和MXNet集成,以及用于在框架之间移动模型的ONNX格式。但目前,这颗芯片仅在EC2计算服务中可用,但很快也会用于AWS的容器服务及其SageMaker机器学习服务。 除此之外,亚马逊还带来了新一代的,拥有强悍性能表现的Arm服务器芯片Graviton2。据亚马逊介绍,AWS Graviton 2处理器的速度比以前一代的芯片快7倍,浮点性能是2倍。AWS进一步表示,Graviton2芯片的单核高速缓存是其两倍大,并具有额外的存储通道(根据定义,它几乎必须如此),并且这些功能一起使Graviton2的存储速度比原始Graviton快5倍。

 

资料显示,Graviton2是一个基于Arm全新内核Neoverse 定制设计的7nm SOC,具有64个Arm Neoverse N1内核(每个64KB L1 / 1MB L2高速缓存),支持双SIMD,并支持int8和fp16处理的特殊指令。

 

最为一个用用300亿晶体管的野兽,Graviton2的大小与AMD的EPYC相似,比其他任何数据中心处理器都要大。N1内核通过网状架构连接,具有大约2TB /秒的带宽,32MB L3高速缓存和64通道PCIe gen 4通道。Graviton2服务器通过带有临时密钥的AES-256支持8个DDR4-3200通道的始终加密的内存以及高达1Tbit / sec的压缩内存加速。这几乎是一个“核心”,具有一些非常特殊的功能,例如用于ML推理的本地fp16和始终加密的内存。给我留下深刻的印象。 针对更快的机器学习推理提供了优化的指令,以及针对压缩工作负载的自定义硬件加速。另外,AWS Graviton2处理器还提供始终在线的完全加密的DDR4内存,每核加密性能提高50%,以进一步增强安全性。

 

 

据透露,与第一代Graviton相比,AWS称Graviton2的性能是前代的7倍,计算核心是4倍,而内存则是5倍”。它还提供25Gbps网络和18Gbps EBS带宽。在和竞争对手相比,AWS Graviton2的实例也能提供不错的性能表现。


 

 

以下是AWS提供的,M6g在数据中心实例中,实测数据与M5对比,有了很好的提升: 

 

整数性能比SPECint2017速率高40%以上(估计)

 

SPECfp2017速率的浮点性能提高了20%以上(估计)

 

SPECjvm2008上的Java性能提高了40%以上(估计)

 

NGINX上的Web服务性能提高20%以上

 

在Memcached上的性能提高40%以上,并具有更低的延迟和更高的吞吐量

 

对于未压缩的1080p到H.264视频,媒体编码性能提高20%以上

 

BERT ML推理提高25%

 

Cadence Xcellium EDA工具的EDA性能提高50%以上

 

 另外,据亚马逊AWS介绍,客户可以在这个芯片的系统上运行以下程序: 操作系统/环境:Amazon Linux 2; Ubuntu 16.04 / 18.04 / 18.10; RHEL 7.6 / 8.0;适用于Arm 15的SUSE Linux Enterprise Server;Fedora Rawhide /原子;Debian 9.8; Docker桌面社区和Docker企业引擎(测试版),“更多即将推出” 容器:Amazon ECS和Amazon EKS(在预览中),AWS 表示 “在Docker Hub中托管的大多数Docker官方映像(截至今天,已超过70%)已经支持64位Arm系统以及x86。” 工具:AWS Marketplace,Systems Manager,CloudWatch,CodeBuild,CodeCommit,Cloud9,CodePipeline,Inspector,批处理,CDK,CodeDeploy,CodeStar,CLI,X-Ray和Amazon Corretto(OpenJDK发行版)。 AWS服务:Amazon ElastiCache,EMR,弹性负载平衡 亚马逊的芯片业务主要基于他们在2015年收购的以色列芯片设计公司Annapurna Labs。据悉,亚马逊收购Annapurna Labs的价格约为3.5亿美元。


该公司主要研发微处理器,这种微处理器可以让低功率的的计算服务器和存储服务器快速地运行数据。Annapurna Labs是过去10年中以色列国内成长起来的优秀初创型芯片厂商之一。 Jassy在re:Invent的开幕主题演讲中也表示:“在AWS的历史上,对我们来说,一个重大的转折点是我们收购了Annapurna Labs,这是一群由以色列非常有才华和专业的芯片设计师和制造商组成的团队,我们决定实际上将设计和制造芯片以尝试为您提供更多功能,” 因为数据中心是一个拥有超过90%以上的市场,为此亚马逊进入这个市场,被看作是与Intel的直接竞争。但亚马逊的贾西(Jassy)表示,英特尔是“非常紧密的合作伙伴,但为了更高的性价比,我们必须自己进行一些创新。而据介绍,这个价格/性能比会较之X86系统高于40%。

 


关键字:亚马逊  inferentia  Graviton2 编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic481965.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:高通首款5G SoC问市,命名为765
下一篇:瑞萨32位RX23W微控制器,为IoT终端设备提供Bluetooth® 5.0

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

欧盟对谷歌简单调查远远不够,或等采取强硬措施?
一份报告表明,欧盟可能在与欧洲大陆的反竞争做法作斗争中寻求实施“更具规范性”的措施。 之前,欧盟委员会对它们采取的措施主要是要求它们停止反竞争行为。情节严重的,可能会处以罚款。显然,欧盟如今认为这些已经不够。欧盟委员会负责市场竞争事务的代理总干事塞西里奥·马德罗·维拉雷霍(Cecilio Madero Villarejo)今日表示,之前的措施可能还不够,尤其是在数字市场。 根据路透社的报道,欧盟反垄断机构“欧盟委员会”一名高级官员表示,欧盟正考虑对苹果和谷歌等科技巨头采取更强硬的立场,迫使它们采取更多措施确保公平竞争。毫无疑问,此举可能影响到美国的四大科技巨头 Facebook、亚马逊、苹果和谷
发表于 2019-12-11
亚马逊发布第二代自主设计服务器芯片“Graviton2” 对比Intel
   亚马逊刚刚发布了第二代自主设计服务器芯片“Graviton2”,堪称迄今最强ARM平台处理器,对比Intel顶级的至强铂金也毫不逊色。亚马逊Graviton2采用了ARM最新的Neoverse N1 CPU架构,由自家设计团队打造,直接堆砌到64个核心,是第一代的四倍(比之前报道也多一倍),而且使用顶级配置,每个核心1MB二级缓存,总计64MB,所有核心共享32MB三级缓存。64个核心采用网格总线(Mesh Fabric)互连互通,合并带宽高达2TB/s。支持八通道DDR4-3200内存,支持硬件AES-256内存加密,支持64条PCIe 4.0。官方宣称,Graviton2性能是第一代的最多
发表于 2019-12-05
亚马逊发布第二代自主设计服务器芯片“Graviton2” 对比Intel
亚马逊AWS面向云服务开发全新ARM处理器 最多可达32核心
多年来,ARM架构一直希望冲出移动领域,进入桌面乃至是服务器市场,也有不少厂商先后推出了各种设计。现在,亚马逊AWS正在面向云服务开发全新的ARM处理器。亚马逊已经有了一款ARM架构处理器“Gravition”,基于ARM A72核心魔改,主频2.3GHz,最多16核心,分成四个四核集群,每个集群2MB共享二级缓存。新一代处理器暂无名字,使用了ARM的下一代架构Neoverse N1,最多可达32核心,并通过Fabirc总线连接各种外部特定目的加速器,以提升特定工作负载的效率。ARM Neoverse N1(又名ARES)架构基于消费级的A76,4宽度拾取/解码,11级流水线(需要时可改为9级),高频率设计以提升单线程性能
发表于 2019-12-05
亚马逊AWS面向云服务开发全新ARM处理器 最多可达32核心
硅谷六巨头避税超1000亿美元,亚马逊最多
据国外媒体报道,一家为企业提供良好税收行为认证的英国机构 Fair Tax Mark,在一份研究报告中分析了 Facebook、苹果、亚马逊、Netflix、微软、谷歌六家巨头公司过去 10 年的税收准备金,也就是企业在财务报告中预留的纳税金额,并与实际缴纳税款金额进行了对比。据了解,Fair Tax Mark 是一家为企业提供良好税收行为认证的英国机构,其研究了上述 6 家科技巨头的税收准备金(即企业在财务报告中预留的纳税金额),并将其与实际缴纳的税款进行了比较。研究人员发现,在过去的 10 年里,这 6 家科技巨头的税收准备金与他们实际缴纳的税款之间的差距达到了 1002 亿美元。 Fair
发表于 2019-12-05
硅谷六巨头避税超1000亿美元,亚马逊最多
亚马逊云量子计算服务Braket全球首发 !
据TechCrunch消息,亚马逊云(AWS)今日宣布了它自己的量子计算服务Braket的预览发布。开发人员可以构建量子算法和基本应用程序,然后在AWS上进行模拟测试,以及在其合作伙伴的量子计算机上进行测试。Braket并非完全由AWS开发,而是与D-Wave、IonQ和Rigetti三家量子计算公司合作,通过AWS云提供它们的量子计算系统。此外,AWS还推出了AWS量子计算中心和AWS量子解决方案实验室(AWS Center for Quantum Computing 和AWS Quantum Solutions Lab)。通过Braket,Rigetti Computing创始人兼首席执行官查德•里盖蒂(Chad
发表于 2019-12-03
亚马逊云量子计算服务Braket全球首发 !
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved