Arm新十年,能否实现CPU计算“统治”?
作者 | 包永刚
本周三,Arm发布了最新一代架构Armv9,这一架构是在目前已经广泛使用的Armv8的基础上,面向未来十年的新一代架构。
雷锋网了解到,Armv9架构有三个系列,分别是针对通用计算的A系列,实时处理器的R系列,微控制器的M系列,预计未来两代移动基础设施CPU的性能提升将超过30%。首款基于Armv9架构CPU的移动处理器最快将在今年底问世,可能来自MediaTek。
Armv9架构的初代版本增强了安全性、机器学习、DSP性能,Armv9架构未来也将持续增强这些性能,并将加入新特性。
最近几年,Arm架构处理器已经从智能手机为代表的终端向对性能要求更高的PC、数据中心延伸。从最新的发布可以看到,Arm希望Armv9架构 CPU以及基于其GPU、NPU处理器能够无处不在。如果Arm的目标能够实现,是否可以实现CPU计算统治?Arm的第三个1000万出货目标多久能够达成?
1
安全是发挥计算架构潜能最大的挑战
Armv9架构的发布会上,安全性被频频提及,与安全相关的技术和介绍的篇幅也很长。Arm高级副总裁、首席架构师兼技术院士Richard Grisenthwaite解释称,“我看来,计算若要充分发挥潜能,安全是最大的挑战,越来越多的私人数据被存放在计算系统中,这让这些数据成为安全攻击的诱人目标。今年网络犯罪损失的金额预估高达6万亿美元。”
因此,Armv9架构在安全性方面做了多方面的工作。首先是引入了Arm机密计算架构(Confidential Compute Architecture, CCA),机密计算通过打造基于硬件的安全运行环境来执行计算,保护部分代码和数据,免于被存取或修改,甚至不受特权软件的影响。
Arm CCA将引入动态创建机密领域(Realms)的概念,机密领域面向所有应用,运行在独立于安全或非安全环境之外的环境中,实现保护数据安全的目的。比如,在商业应用中,机密领域可以保护系统中商用机密数据和代码,无论它们正被使用、闲置或正在传输中。
据悉,Arm会在今年下半年公布Arm CCA的更多信息。
内存标签扩展是Armv9架构的另一项安全技术。Richard Grisenthwaite说:“在分析了全球软件报告的大量安全问题后,我们发现许多问题的根源实际上与过去内存安全的老问题有关。这些问题已经困扰计算领域50年,两个持续多年特别常见的内存安全问题——缓存溢出和释放后重用。很大一部分的问题是,这些内存安全漏洞被利用之前就能发现问题,这是提高全球软件安全至关重要的一步。”
Arm持续与谷歌合作开发的“内存标签扩展”技术,可以在软件中查找空间和时间内存安全的问题,允许软件将指向内存的指针与标签建立关联,并在使用指针时检查这个标签是否正确。
Richard称,内存标签扩展是明年上市的第一代Armv9 CPU不可或缺的一部分。支持内存标签扩展的软件也正被引入到安卓11系统和OPENSUSE。
Arm还与剑桥大学在其CHERI架构上合作多年,从架构底层来提升安全性。据介绍,CHERI架构定义了可提供这种封装能力的硬件功能,这在未来将可能促成一个本质上更为安全的计算平台,但这也会使某些系统的变成方式产生重大改变。
不过,这种架构Arm已经在和其合作伙伴探索,如果成功,会在未来5-6年引入Armv9架构,成为Armv9架构主要的组件之一。
2
未来两代Armv9架构CPU性能提升将超过30%
安全性是计算架构的基础,性能提升则是满足越来越高的计算需求以及多样化计算需求的关键。Arm预计,新一代架构Armv9将保持超过业界CPU性能提升的速度,未来两代移动和基础设施CPU的性能提升将超过30%。
Richard强调:“这个数据是根据业界标准评测工具来衡量,30%的算力提升完全是凭借于本身架构而不是借助于制程工艺来实现。”
计算性能提升非常重要的驱动力就是AI,Statista Research Department今年1月发布的最近报告估计,到21世纪20年代中期,全球将有超过80亿台搭载AI语音辅助的设备。不同设备对于AI性能的需求不同,也就需要不同的AI处理器。
Arm与富士通合作开发了可伸缩矢量扩展(Scalable Vector Extension, SVE)技术并用在了全球最快的超级计算机“富岳”上。在SVE的基础上,Armv9中使用了新开发的SVE2技术,增强了对在CPU上本地运行的5G系统、虚拟和增强现实以及ML工作负载的处理能力,能够提供实现增强的机器学习和数字信号处理能力。
“我们还将通过提升频率、带宽、缓存大小、并减少内存延迟,以最大化CPU 性能。”Richard表示。
在解决新问题的过程中,Arm加入了一些复杂技术,这是否违背了精简指令集(RISC)的初衷?Richard的观点是:“Arm架构的精简指令(RISC)核心没有改变,我们依然遵循着注册到注册(registration to registration) 的操作原则,所以从硬件的角度来看,Arm指令集仍然保持着精益性。”
Arm称,除了大幅增强CPU内的矩阵乘法,Mali GPU和Ethos NPU也会持续进行AI创新,扩展Arm的技术能力。
3
统治CPU计算
目前,CPU领域最成功的架构当属x86,不过x86的成功和统治力在于PC和高性能计算市场,在Arm擅长的智能终端市场并不成功。近几年,Arm架构在高性能计算领域取得了一些进展,包括上面提到的“富岳”超级计算机,以及推出采用Arm架构的多款服务器。去年,苹果M1处理器Macbook Pro电脑的推出,也让业界看到了x86架构在PC市场的统治地位并非牢不可破。
Arm首席执行官Simon Segars说,“Arm芯片实现1000亿颗的出货花了26年,如果预测准确,接下来一年,我们的合作伙伴出货的Arm芯片将累计达到2000亿颗。也就是说,我们的第二个1000亿的出货将在短短5年内达成。”
雷锋网了解到,目前Arm架构的芯片出货已经超过1800亿颗,Armv9架构会成为实现Arm芯片3000亿颗芯片出货的先驱。没有人能准确预估Arm实现第三个1000亿颗芯片出货的时间,但可以明确的是Arm希望其芯片能够为所有智能计算提供算力,也就是让其芯片在未来无处不在。
为了实现这个目标,同时满足行业从通用计算向普遍的专用处理发展的需求,Arm也开始强调全面计算的理念。全面计算设计方法包含Arm的CPU、GPU、NPU,通过将全面计算的设计原则应用在包含汽车、客户端、基础设施和物联网解决方案的整个IP组合中。
与此配合,Arm也需要在标准化程度上取得平衡。Richard说:“如果过多的标准化,那么合作伙伴将无法开发合适的专用解决方案。而如果太少的标准化,我们得承担低价值、形同实异的解决方案的风险。这将让软件生态系统的成本增加、且毫无益处。”
Arm在服务器领域中已经看到了标准化平衡的价值,推出了“服务器基础架构SBSA”和相关的认证计划“服务器就绪”。
“我们也正在扩大标准化的范围,Arm SystemReady将服务器就绪计划的概念从云端延伸到物联网边缘等广泛的设备上,以实现通用操作系统及虚拟机管理程序之间的交互运作。”Richard说。
如果Arm的全面计算以及标准化探索成功,从终端到边缘再到云端,Arm是否就能够实现在未来的计算统治?实现3000亿颗甚至更多芯片出货又会有多快呢?
4
小结
现在看来,有两大方面的阻碍,一方面是在复杂的国际形势下,同属精简指令集的RISC-V正在快速发展,加上x86阵营intel和AMD也在加强x86的竞争力,Arm要真正撼动x86的优势领域并非易事。
另一方面,中国作为芯片进口的大国,Arm与Nvidia的收购交易,以及美国对中国领先芯片设计公司的出口限制,让客户产生担忧。
对于Armv9是否以供给包括华为在内的中国企业的问题,Arm的官方回复是:“Arm既有源于美国的IP,也有非源于美国的IP。经过全面的审查,Arm确定其Armv9架构不受美国出口管理条例(EAR)的约束。Arm已将此通知美国政府相关部门,我们将继续遵守美国商务部针对华为及其附属公司海思的指导方针。”
这样的回复,不知你怎么看?
本文由雷锋网原创,作者:包永刚。申请授权请回复“转载”,未经授权不得转载。
推荐帖子
- 好消息 元件今天又翻倍啦 大家做电子到 应该这次能大赚一笔啦 可以买房啦
- 来自:EEWORLD合作群:49900581群主:wangkj好消息元件今天又翻倍啦大家做电子到应该这次能大赚一笔啦可以买房啦记得囤积点囤积AVR的发了卖到南非本站强荐:185娱乐∟城.足球∟真_人.彩票齐全∟手机可投∟注任何游戏.首次开户送10元.首存送58元.信誉绝对保证185.cc工资不涨本站强荐:185娱乐й城.足球й真_人.彩票齐全й手机可投й注任何游戏.首次开户送10元.首存送58元.信誉绝对保证185.cc
- IC设计轻舟 淘e淘
- ARM的RTC时钟不会走呢?
- 1、把开发板的测试程序裁剪,RTC在终端里能自动更新时间。2、在main()函数中加入了这几句while(){GUI_DispDecAt(year,300,60,4);/GUI_DispCharAt(\':\',365,60);GUI_DispDecAt(month,375,60,2);GUI_DispCharAt(\':\',405,60);GUI_DispDecAt(da
- moneyhui19 ARM技术
- F401 SPI DMA Rx 不同長度
- 各位~使用4組SPI共用CLK,CS,分別接到4個Device上SPI_0=Mater,CLK,CS提供給SPI_1~SPI_3SPI_0DMA設定read1024bytesSPI_1DMA設定read1024bytesSPI_2DMA設定read1024bytesSPI_3DMA設定read512bytes目前看到SPI_3資料會錯,請問有人試過這樣設定?F401SPIDMARx不同長度spi共用clk那不就是
- willwu stm32/stm8
- TI TMS320F28335的EPWM如何软件强制开关状态
- 有时需要用到强制脉宽调制(PWM)的脉冲开关状态这种操作,比如封锁脉冲以停止电力电子开关管工作;在上电的初始时刻,经常也需要对PWM状态进行一种强制的初始化,比如强制高、强制低等等;一些特殊的PWM算法,如果不是基于三角载波比较法的,如一些SHEPWM、滞环PWM方法等等,也需要直接输出PWM脉冲的状态,此时不能使用比较值与定时器的直接比较来得到开关状态,而且在需要的开关状态已知情况下,直接强制PWM状态,即可得到需要PWM脉冲。在基于事件管理器(EV)的TIC2000DSP中,如TMS3
- Aguilera 微控制器 MCU
- 2051电子校音器源程序
- 2051电子校音器源程序2051电子校音器源程序
- yjtyjt 51单片机
- 求MAX14757EUE+T的替代芯片
- 各位大佬!求MAX14757EUE+T的替代芯片,请问有没有合适的芯片来替代这个芯片,主要是用在60V的场景中,实在是不知道该用哪种的了这是这个芯片的数据手册,非常感谢!!求MAX14757EUE+T的替代芯片
- zkc111 ADI参考电路