Arm架构是如何一步步成为全球计算的基石?

发布者:EEWorld资讯最新更新时间:2022-09-21 来源: EEWORLD关键字:Arm  Neoverse 手机看文章 扫描二维码
随时随地手机看文章

以前,提起Arm,人们更多想到的是手机和嵌入式,然而自从2018年开始,Arm宣布推出Neoverse并进军高性能计算市场,至今已过去了四年,如今Arm架构的基础设施已经成为了一个明显趋势,正如Arm 首席执行官 Rene Haas所说:“目前世界上所有主要的公有云服务提供商现在都在使用 Arm 架构。”


盘点2022年Arm Neoverse的里程碑


Arm高级副总裁兼基础设施事业部总经理 Chris Bergey 盘点了2022年Arm Neoverse的重要事件,其中包括:


在全球范围内,Arm 现已被用于各个主要公有云,包括 AWS、微软、谷歌、阿里巴巴、甲骨文等科技巨头。值得一提的是AWS,在一个月前,亚马逊副总裁James Hamilton 讲述了他们如何开始定制芯片之旅,2013 年,James 向Jeff Bezos 提出了一项双论点。其一,鉴于使用 Arm 架构的芯片出货数量,他确信 Arm 最终一定能设计出优异的服务器 CPU;其二,James 注意到,随着时间的推移,越来越多的功能逐渐从主板迁移到 SoC 上。手机领域已现端倪,他认为服务器方面自然也会效仿。AWS 多年来一直在打造定制服务器,并通过定制,为客户创造了更多价值。但如果服务器中的所有创新都转移至芯片上,而 AWS 不打造芯片的话,他们的创新将有所局限。从 James 的论点得出的结论是,AWS 需要开始打造 CPU。这也促使他们收购 Annapurna Labs,该公司基于 Arm Neoverse 创建了 AWS Graviton 系列 CPU。


在5G RAN领域,Neoverse无处不在。在世界移动通信大会 (MWC) 上,戴尔宣布将采用Marvell 的 OCTEON Fusion 平台开发O-RAN加速卡。高通也与乐天、HPE 达成了合作,同样基于Arm Neoverse平台。


而在HPC市场,NVIDIA 发布了面向 AI 及高性能计算 (HPC) 的 Grace超级芯片,基于最新的 Armv9 架构,单个 socket 拥有 144 个 CPU 核心,具备最高的单线程核心性能,支持 Arm 新一代矢量扩展。可实现当今领先服务器芯片内存带宽和能效的 2 倍。


除此之外,在软件和系统层面,Arm的Neoverse也正在得到越来越多的认可。比如,VMware 运用 DPU 开展 Monterrey 项目,RedHat 的 OpenShift 支持 Arm 架构,SAP HANA 正将其云基础设施迁移到 AWS Graviton 上,HPE的ProLiant 第 11 代平台,搭载了基于 Arm Neoverse 的 Ampere Altra 处理器,等等。


Neoverse已经在处理器上取得的一系列成就,包括:


第一个总内存带宽超过每秒 1TB 的 CPU

第一个单块裸片上能配置超过 100 个核心的 CPU,核心数达到 128 个

第一个将 DDR5 和 PCIe Gen5.0 推向市场的 CPU

第一个在 SPEC CPU 2017 基准测试中打破 500 整型跑分的 CPU


Arm公布最新Neoverse路线图


“Arm 架构是全球计算未来的基石。”Bergey如是说。“如今的基础设施是定制化打造,从 SSD 到 HDD,从 DPU 到视频加速器,服务器 CPU 算是最后的标准产品,将不会作为通用型产品继续发展。与此同时,计算工作负载正极力增长,而且愈加复杂。ML 和 AI 正在发挥取代作用。另外一个问题则是功耗问题,目前大型互联网公司的电力支出占到总拥有成本 (TCO) 的 30-40%,仅微次于电信网络运营商。”


也正因此,Arm公布了最新的Neoverse路线图,以满足基础设施的升级要求。


Neoverse共分为V、N 和 E 系列内核,针对了三种不同类型的性能。其中V 核追求最大化的性能表现,E核关注性能效率,而N 核则更关注吞吐效率。

image.png

如图所示,无论是V、N还是E系列,Neoverse都有详细的路线图升级规划公布。


Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll表示,单芯片性能和单线程性能是云决策者的两大关键指标。其中单线程性能是决策者是否可将对 “扩展” 要求最高且性能需求大的工作负载迁移到 Arm的指标。而单芯片性能则是其是否可以通过大量运行在平台上的 “横向扩展” 工作负载,来实现投资价值的最大化的关键所在。“使用 Arm Neoverse V1 核心的 AWS Graviton3 可提供最高的单线程性能,即便是即将上市的竞品 CPU 也无法动摇它的领先地位。我们预期 Graviton3 能提供出色的性价比和每瓦性能,而Ampere Altra Max 和阿里的倚天 710 能在所有 CPU 中提供最佳的单芯片吞吐量。”


而除了硬件,Driscoll还提到Arm一直在努力实现并优化全栈解决方案,从架构和 IP到技术库、运行环境和编译器,在全部基础设施软件范围内实现最佳性能。


而实际测试结果也表明,Arm在基础设施处理上已经实现甚至超越了传统架构。Driscoll以主流数据存储 MongoDB应用程序为例,通过从 AWS 处对比基于 Graviton2 和 Intel Xeon 的实例,测得 MongoDB 性能优于x86架构117% 之多。


Driscoll还表示,随着机器学习的流行,Neoverse V1 也拥有一组专门用于增强 ML 应用程序性能的功能。其中包括:


在架构方面,添加了 Bfloat16 (BF16)

调整了 V1 、N2 以及后续设计的微架构,旨在通过 BERT 提高 BF16 的执行

为 Arm 计算库 (ACL) 增加 BF16 支持

将 ACL 集成到 oneDNN ML 框架中 

oneDNN 框架与 Tensorflow 搭配使用以运行 BERT


同样的,Arm也在基于 V1 核心的 AWS EC2 C7g 上运行 BERT,并将其与使用最新 Xeon 核心的 C6i 进行对比,在 Arm 架构上经 BF16 优化的堆栈性能比英特尔高出 80%。同时,在 V1 添加的 BF16 和 Int8 MatMul意味着 ML 模型可以更紧凑地植入内存,因此它们需要更少的内存带宽,从而使 Graviton3 的 ML 性能达到 Graviton2 的 3 倍。


Driscoll在谈到Neoverse V2平台时,表示该平台可以同时满足客户“希望提升云工作负载的性能”、“在平衡功耗和面积的同时,继续推进单线程性能”以及“尽早发货,帮助快速开拓市场”这三点需求。


在机器学习性能方面,Neoverse V2 将提供市场领先的整型性能,目前Arm是用 SPEC Integer Rate 对预估值进行测量,并且一直利用模型中的各种云基础设施工作负载对微架构进行调整,整个系列的成果令Driscoll“十分兴奋”。对于像 HPC 之类正快速迁移到云端的工作负载而言,矢量性能依然很重要,在 Neoverse V2 上,Arm完成了从 SVE 到 SVE2 的过渡,SVE2 可以帮助满足更多非 HPC ML 类型的工作负载,同时添加了更多加密指令。另外矢量引擎重构为 4 通道的 128 位,并对微架构进行了调整,以提高其有效吞吐量。

 

此外,在系统层、IO层以及安全层等方面,Neoverse V2均有了一系列提升,这点从NVIDIA的Grace超级芯片的性能表现上就可看出。


Driscoll并没有更多透露N和E系列的进展,只表示,N 系列产品线将在明年迎来一次更新。市场采用方面,目前已经也有近 20 家客户正基于 N2 平台进行设计。


Driscoll表示:“基础设施市场正在被重新定义,以 Arm 的高性能、可扩展效率计算为中心,并通过我们合作伙伴的专用处理得以增强。在 Arm Neoverse 平台路线图的原则基础上,我们将为全球计算基础设施奠定新的起点。”这也是对Arm Neoverse诞生这四年的一次总结与展望。

关键字:Arm  Neoverse 引用地址:Arm架构是如何一步步成为全球计算的基石?

上一篇:Ampere下一代处理器将放弃Arm转而采用定制化内核
下一篇:英特尔携百度飞桨共创AI开发者生态,加速千行百业智能化升级

推荐阅读最新更新时间:2024-11-06 18:16

中移物联网与ICONIX加入ARM大学计划
2017年5月4日,中国北京——ARM宣布其ARM大学计划工作在亚太区再获重要进展,中国领先的物联网云平台提供商中移物联网和马来西亚知名的物联网及嵌入式教育培训机构ICONIX将加入ARM大学计划教育联盟,两家公司将分别就“物联网云平台”以及“物联网和嵌入式培训”与ARM大学计划开展深入合作。下面就随网络通信小编一起来了解一下相关内容吧。 ARM大学计划教育联盟旨在整合汇集ARM生态系统资源,打造完整的教育生态,实现产、学、研交流与协作,形成产业聚集效应,输送产业创新人才,提高集成电路产业技术的人才核心竞争力。借助ARM大学计划,学生将有机会接触到广泛的基于ARM技术的软硬件平台,使用与目前物联网产业内真实应用场景相同的技术和开
[工业控制]
浅谈分析Arm linux 内核移植及系统初始化的过程一
学习嵌入式ARM linux ,主要想必三个方向发展: 1 、嵌入式linux 应用软件开发 2 、linux 内核的剪裁和移植 3 、嵌入式linux 底层驱动的开发 主 要介绍内核移植过程中涉及文件的分布及其用途,以及简单介绍系统的初始化过程。整个arm linux内核的启动可分为三个阶段:第一阶段主要是进行 cpu和体系结构的检查、cpu本身的初始化以及页表的建立等;第二阶段主要是对系统中的一些基础设施进行初始化;最后则是更高层次的初始化,如根设备和 外部设备的初始化。了解系统的初始化过程,有益于更好地移植内核。 1. 内核移植 2. 涉及文件分布介绍 2.1. 内核移植 2.2. 涉及的头文件 /linux-2.6.1
[单片机]
ARM处理器的内存对齐问题
介绍 可以对齐或不对齐的内存访问。对齐的内存访问发生时的数据都位于其自然大小边界。例如,如果该数据类型的大小是4个字节,那么它属于被4整除的内存地址是位于其自然大小边界。未对齐的内存访问发生在所有其他情况下(在上面的例子中,内存地址时,是不能被4整除)。 ARM处理器的设计有效地访问对齐的数据。在ARM处理器上试图访问未对齐的数据会导致不正确的数据或显着的性能损失(这些不同的症状会在稍后讨论)。与此相反,大多数CISC型处理器(即x86)的访问未对齐的数据是无害的。 这份文件将讨论一些比较常见的方式,一个应用程序可能会执行未对齐的内存访问,并提供一些建议的解决方案,以避免这些问题, 。 症状 上述问题,适用于所有ARM架
[单片机]
ARM+FPGA最新重大进展!赛灵思ARM联手开拓嵌入式应用新蓝海
就像行走江湖的武林侠客都梦想有一把神兵利器一样,耕耘于电子产业的工程师们也希望有一种强大器件可以实现自己诸多的设计梦想,现在,这个器件终于要诞生了,近日,赛灵思和ARM联合发布了基于28nm工艺的全新的可扩展式处理平台 (Extensible Processing Platform) 架构,这款基于双核ARM® Cortex™-A9 MPCore™ 处理器平台可以让开发人员同时拥有串行和并行处理能力!它可为各种嵌入式系统的开发人员提供强大的系统性能、灵活性和集成度。   “与以往在FPGA中嵌入处理器内核最大的不同是,以往嵌入的内核都是依FPGA为主以处理器为辅,这次是以处理器为主FPGA为辅。”在该平台全球发布会上,赛灵
[汽车电子]
<font color='red'>ARM</font>+FPGA最新重大进展!赛灵思<font color='red'>ARM</font>联手开拓嵌入式应用新蓝海
基于ARM 64位ARMv8架构的手机今年渗透率将过半
64位处理器将跃居2015年手机市场主流。安谋国际(ARM)力推新一代64位ARMv8处理器架构,不断拱大软硬体设计生态系统,已吸引晶片大厂全面转攻四核/八核64位元SoC;而手机品牌业者也倾力部署100~750美元全系列机种,并预定于今年第二季陆续启动量产,可望促进64位元手机渗透 率在2015年底前冲破50%,登上市场主流。 ARM投资人关系副总裁Ian Thornton表示,2015年国际消费性电子展(CES)、全球行动通讯大会(MWC)中,品牌厂展出的新一代手机皆已搭载64位元Cortex-A53/A57处理器平台,再加上全球主要电信商也计画扩大引进64位元机种,因而刺激晶片商加紧部署64位元方案,可望推进
[单片机]
ARM】使用J-Link下载u-boot到Mini2440开发板
#1各种引导系统介绍 ##1.1 bios 1 BIOS是英文 Basic Input Output System 的缩略语,直译过来后中文名称就是 基本输入输出系统 。其实,它是一组固化到计算机内主板上一个ROM芯片上的程序,它保存着计算机最重要的基本输入输出的程序、系统设置信息、开机后自检程序和系统自启动程序。 其主要功能是为计算机提供最底层的、最直接的硬件设置和控制。 ##1.2 Grub 2 GNU GRUB(GRand Unified Bootloader简称“GRUB”)是一个来自GNU项目的多操作系统启动程序。GRUB是多启动规范的实现,它允许用户可以在计算机内同时拥有多个操作系统,并在计算机启动时选择希望运行的
[单片机]
【<font color='red'>ARM</font>】使用J-Link下载u-boot到Mini2440开发板
基于ARM的MPEG4视频解码器
1 引 言 本文旨在研究基于arm微处理器的MPEG-4视频解码技术,主要应用在手持移动设备中。利用嵌入式系统实现MPEG-4视频解码,处理器的选择是关键。在嵌入式系统中常用的RISC处理器是ARM核,主要是因为它具有体积小,功耗低,成本低,性价比高的特点,这对于移动应用领域非常重要。ARM7系列微处理器为低功耗的32位RISC处理器,最适合于对价位和功耗要求较高的消费类应用。本解码器定位于低分辨率和低帧率的应用场合,因此选择在arm7TDMI核上实现解码功能。要实现更高帧率和分辨率的解码,可将软件直接应用在更高端的处理器上。 2 MPEG-4视频解码算法的优化与实现 MPEG-4标准可以划分为一套子标准,标准的每一
[单片机]
ARM7系统中实现CF卡存储的文件系统设计
随着微控制器性能的不断提高,嵌入式应用越来越广泛。但是目前市场上的大型商用嵌入式实时系统,价格昂贵,而且都针对特定的硬件平台。对于中小型系统开发,购买商用实时系统并不划算。 目前我们正着手将嵌入式系统软件应用于汽车卫星导航仪系统的一步开发。传统的嵌入式应用并不包括文件系统,而我们要实现的文件系统需要在车辆导航系统中实现地图数据文件的读写。因此它既要支持与MS-DOS兼容的文件系统也要支持其它类型的文件系统。 另一方面,从数码相机到MP3播放机,从掌上电脑到数码摄像机,CF(CompactFlash)卡由于具有体积小、兼容性强、价格相对低廉等诸多优点,在数码设备上的应用越来越广泛。但若想在CF卡与PC之间传递数据,通常不得不
[单片机]
<font color='red'>ARM</font>7系统中实现CF卡存储的文件系统设计
小广播
最新网络通信文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved