AI持续发热,Arm新一代Neoverse CSS V3和CSS N3为客户释放最优性能

发布者:EEWorld资讯最新更新时间:2024-02-28 来源: EEWORLD作者: 付斌关键字:AI  Neoverse 手机看文章 扫描二维码
随时随地手机看文章

AI热潮不仅没有熄火,反而愈演愈烈。2024年,由于市场对于AI硬件的需求永不满足,计算处于变革阵痛中。随着人工智能 (AI) 渗透到教育、就业、制造、医疗和交通等领域,AI 正在改变经济发展和我们的日常生活,而 Arm 是这一切改变的基石。


5年前,Arm 宣布了针对服务器、云和基础设施 CPU 内核的 Neoverse 计划。彼时,Arm制定了一项雄心勃勃的计划,计划开发V、N、E三个CPU内核系列产品,以满足市场的不同细分市场。虽然后续发展与Arm最初预测略有不同,但基于 Neoverse内核定制CPU的设计已经逐渐成为云服务商采用的风潮。


日前,Arm推出新一代Neoverse CPU内核和计算子系统(CSS)——Neoverse CSS V3和CSS N3,以此帮助数据中心实现更优的AI性能。




CSS V3最多128内核,具有CXL 3.0和HBM3


Neoverse V系列是强调性能优先的一个系列,拥有最高的单线程性能,也是Arm“秀肌肉”的战场。去年,Neoverse V3在Arm的路线图中被列为V-Next,代号Poseidon。


CSS V3 基于最新Neoverse V3核心打造,是Arm目前单线程性能最高的Neoverse 核心。V3为Arm机密计算架构 (CCA) 提供硬件支持。与CSS N2 产品相比,CSS V3的单芯片性能提高了50%。



CSS V3 在单芯片上最多可扩展至128核,支持12通道 (40b) DDR5/LPDDR5和HBM3内存、64路PCIe 5.0或CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。同时可提供业界领先的专用L2缓存大小,显著改善性能表现。


CSS V3针对3nm级工艺,并带有支持的平面图和实现流程,以最大限度地降低物理设计风险。


从核心功能上来看, V3基于Arm®v9.2-A A64指令集、支持AArch64 所有异常级别的执行状态(EL0 到 EL3)、拥有48 位物理地址 (PA) 和 48 位虚拟地址 (VA),实现具有 128 位向量长度的可扩展矢量扩展 (SVE) 和可扩展矢量扩展 2 (SVE2)。


从部件构成上来看,V3内核包括一个将内核连接到DSU-120的CPU桥接器。DSU-120将内核连接到外部存储器系统和SoC的其余部分。



CSS N3:最多32核,每瓦性能提高 20%


Neoverse N聚焦于能效,是Arm比较均衡的系列。与CSS N2相比,CSS N3每核心的每瓦性能提升20%。


此外,从核心的性能上来看,与Neoverse N2相比,Neoverse N3在机器学习和数据分析工作负载上的性能提高了约3倍,在SQL数据库上提高了1.3倍,在选定的压缩应用程序上提高了1.2倍,在整数性能上提高了1.1倍——在同一技术节点上,与Neoverse N2的面积和功耗大致相同。


根据Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll的介绍,Arm对CSS N3进行了调优,以填补市场的空缺,提供满足基础设施性能要求的高效计算。



CSS N3首个实例可提供32核,热设计功耗 (TDP) 低至40W,支持4通道(40b)DDR5/LPDDR5、32路PCIe 5.0和CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。CSS N3建立在Neoverse S3系统IP之上,其中包括相干网状网络CMN S3、系统内存管理单元MMU S3、片上网络NOC S3。


其可扩展性非常强,可覆盖电信、网络和DPU等一系列应用。同时Arm考虑横向扩展云配置。


CSS N3基于新的Neoverse N3 IP平台打造,为新的N系列引入了Armv9.2功能,能为每个核心提供2MB的专用L2缓存。



两大产品AI性能有巨大提升


AI飞临,除了加速器,很多工作负载也会落到CPU头上。Arm展示的数据则显示,Neoverse V3和N3内核在AI数据分析方面的性能分别比其前代产品提高了84%和196%。


更重要的是,如今,人们常常忽视的一点是,有多少计算周期最终被用于压缩和协议转换等后台任务。而N系列在压缩方面取得了性能优势,可降低云服务运营商的成本,并最终降低云服务客户的成本;同样,V系列显著提高了协议缓冲区的性能,这是在数据中心内传输数据的一项关键功能。



去年,有关 AI 的讨论焦点主要集中在于生成式 AI 和大语言模型 (LLM) 。目前行业重点更多放在训练LLM上,但随着生成式AI广泛应用于实际业务场景,其工作重点将转向推理。


这一转变意味着要找到合适的模型和模型配置,并加以训练,然后将其部署到更具成本效益的计算基础设施上。吞吐量是其中一部分考虑因素,而在当今广泛部署的基于 Arm架构的芯片上,Token生成吞吐量表现相当优异。



据最近统计,全世界打造AI加速器的企业已经超过80家,每一家都在加大自己的投入,但事实上,这些加速器也需要与CPU紧密耦合,才能发挥最佳功效。


比如说,NVIDIA不仅利用其领先的Hopper GPU,同时也使用了基于Neoverse V2平台的紧耦合计算芯粒Grace。NVIDIA Grace Hopper的一大关键创新在于内存容量和共享内存模式。这种紧耦合的CPU加上加速器配置,对大参数LLM非常有益,对检索-增强-生成 (RAG) 等新兴方法也很有帮助。


“Neoverse CSS是专为帮助客户在基于Arm领先的CPU平台上,快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口,以便选择耦合自身的加速器。这种方法既可以在需要CPU时提供CPU,又可以在需要AI加速器时提供AI加速器,做到两全其美。”Dermot O’Driscoll如是说。


CSS:给芯片打个包


这一次,V3和N3都有一个前缀CSS。所谓CSS全称是Compute Subsystem,可以理解成Arm把一切都打了个包,包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解,就是半预制菜。


如今,AI行业快速发展,芯片制程提高,成本不断攀升,芯片设计制作缓慢,但是需求并不缓慢,越来越多的企业开始定制化自己的芯片。此时,CSS就能省略很多开发步骤,包括IP选择、系统配置、布局规划、验证、确认、第三方IP和晶圆厂集成等。


根据Arm的分享,有客户使用CSS后,芯片开发从启动到流片,总共可以只花9个月。


在 Hot Chips 2023 上,Arm首次公开宣布推出新产品——Arm Neoverse计算子系统 (CSS) 以及首款产品 Arm Neoverse CSS N2。而现在,Neoverse V3和N3全面延续CSS。



不止如此,Arm一直在将更多半导体力量汇聚在一起,以此形成更好的Neoverse CSS服务——即Arm去年10月宣布的“Arm全面设计”。


该项目汇集了半导体领域的各路领先企业,囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等,共同加快并简化基于 Neoverse CSS 的系统开发。


目前,在推出后短短四个月内,Arm全面设计已经有20多家成员加入。其中包括新的 EDA和配套IP提供商,以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴,这些市场存在巨大的发展潜力。


其中,云豹智能是 Arm 全面设计生态项目在中国市场的首家合作伙伴。云豹智能是一家专注于云计算和数据中心数据处理器芯片 (DPU) 和解决方案的领先半导体公司。Arm 全面设计正帮助云豹智能将业务拓展到其他领域,并有助于其开发其他类型的基础设施系统级芯片 (SoC)。


此外,Arm正在与台积电、三星代工厂、英特尔代工服务三家主要代工厂合作,以确保CSS产品能在其先进工艺节点上进行优化。定制芯片离不开可靠供应链的支持,唯有Arm可提供多样的技术和选择。



Arm 基础设施事业部营销副总裁 Eddie Ramirez表示,三个典型案例揭示了合作伙伴可以借助Arm全面设计设计何种类型芯片:


  • 去年十月,Socionext 成为首家宣布计划在台积公司领先的2nm工艺上开发基于CSS芯粒的合作伙伴,这款设计基于Neoverse CSS V3打造,配置32核的芯粒可与其他芯粒结合使用,提供可扩展且经济高效的计算解决方案;

  • 智原科技也在构建基于芯粒的服务器芯片,该芯片将搭载64颗N系列核心,并基于英特尔代工服务的18A工艺节点进行生产制造;

  • 此外,ADTechnology将提供高性价比的16核CSS N系列边缘服务器平台。他们将与三星代工厂合作,为边缘计算释放更强大的算力。


灵活性是Arm的强项


当前 AI 计算领域火热,芯片技术要求不断变化,Arm高级副总裁兼基础设施事业部总经理Mohamed Awad认为,Arm独特的优势,就是能够赋能广泛的生态系统进行创新。正因如此,Arm汇聚高性能计算的形式,能为合作伙伴带来十足的灵活性,帮助他们打造新的设计,进行创新。


聚焦 Arm Neoverse 来看,Arm着手的方向包括:


  • 通过诸如Bfloat16、MatMul、SVE和SVE2等架构功能,以及微架构的优化,持续提升运行在CPU上的机器学习 (ML) 计算的表现;

  • 通过支持最新的行业标准接口,以及提供用于一致性高带宽连接的CHI协议,为定制 AI加速器与Arm Neoverse平台和Arm Neoverse CSS的紧耦合提供无与伦比的灵活性;

  • 为自研定制AI加速器的合作伙伴提供我们行业领先的系统互连技术,以实现与主机计算的紧密耦合链接,并提供CPU来处理AI工作的编排,同时支持利用Arm基础设施软件生态系统的云原生软件,以便最佳地运行在Arm平台上。


总结来说,Arm Neoverse CSS可以帮助合作伙伴在构建芯片时,进一步简化流程,进而加速产品上市时间。而Arm全面设计重要意义在于,现在Arm有许多不同的生态系统合作伙伴共同投资于Neoverse CSS,使得设计能够更轻松地推向市场,并且可以很容易地在Arm Neoverse CSS上取用到先进技术,进而加速产品上市时间,并降低构建新芯片的成本。最终,合作伙伴可以将构建芯片的投资重点放在创新上。

关键字:AI  Neoverse 引用地址:AI持续发热,Arm新一代Neoverse CSS V3和CSS N3为客户释放最优性能

上一篇:功率半导体设计挑战都有哪些?
下一篇:晶心科技与元视芯打造全球首款采用RISC-V的车规级CMOS图像传感器

推荐阅读最新更新时间:2024-11-13 08:51

AI技术已到应用时间点 传统企业要尽快行动
  长久以来, AI ( 人工智能 )都还只是概念,但最近的科技突破已经可以使之深入渗透到生活之中。当下, AI 技术的发展已经到了行业广泛应用的时间点,当前世界主要经济体的政府部门都已经开始行动,中国亦不例外。而中国广大的看上去离 AI 距离很远的传统企业,尤其需要尽快行动起来。下面就随网络通信小编一起来了解一下相关内容吧。   放眼全球的 人工智能 领域,中美英是最领先的三个国家,其他国家也不甘落后。三国政府对AI产业发展都有相当的政策支持,希望可以取得产业发展的相对竞争优势。   英国方面,去年11月,英国政府曾发布 人工智能 报告,希望借助人工智能的创新优势提升整体国力。今年10月15日,英国政府再次发布了名为《在英国发
[网络通信]
日本借深度神经网络破译人类思维 人工智能走近大脑
外媒称,日本研究人员已经成功借助人工智能破译了人类的思维和想象,从而在理解人类思想及其背后的大脑机制领域获得了重大突破。下面就随医疗电子小编一起来了解一下相关内容吧。 据阿根廷 21 世纪趋势网站 近日报道,破解人类思维的内容是科学界长久以来的愿望。事实上,此前的种种研究也已经实现了破译人类所见、回忆、想象和梦境的内容。 日本借深度神经网络破译人类思维 人工智能走近大脑 例如另一个日本科学家团队早在 2008 年就成功地在电脑屏幕上直接重现了从人类大脑活动中获取的图像。 但包括这一研究在内的其他以往研究都遭遇了难以逾越的障碍,因为每个个体的大脑内容都具有其独特性,因此思维模式的目录创建很难实现。 报道称,此外,这些模式还
[医疗电子]
日本借深度神经网络破译人类思维 <font color='red'>人工智能</font>走近大脑
自动驾驶AI软件有Bug?别担心,这个发明专门解决这个问题
市场上绝大部分的软件里都或多或少有 Bug,但是这里面 99% 的 bug 都不会给你的人身造成危险。 然而,随着自动驾驶汽车时代即将到来,驱动它们的人工智能软件一旦因为 Bug 而做出一个错误的决定,那么其后果很有可能就是致命的 。因此,美国哥伦比亚大学(Columbia University)和理海大学(Lehigh University)的研究人员开发出了一款 可以系统地找出深度学习算法 Bug 的方法,希望以此大幅度提高这种驱动自动驾驶汽车的技术的安全性。 这个名叫 DeepXplore 的技术是由理海大学计算机科学系的曹寅志副教授主导开发的。它可以使用三个以上的神经网络去相互参照,相互检查。通过 DeepXplore
[汽车电子]
Hot Chips:英特尔推动“人工智能无处不在”
在2019年Hot Chips大会上,英特尔公布了即将推出的高性能人工智能(AI)加速器——英特尔® Nervana™神经网络处理器的最新细节,包括用于训练的NNP-T和用于推理的NNP-I。英特尔工程师还介绍了混合芯片封装技术、英特尔®傲腾™数据中心级持久内存和光学I/O小芯片技术的细节。 “要想实现‘人工智能无处不在’的未来愿景,我们必须解决数据的积压问题,确保企业能够有效利用数据,必要的时候在收集数据的地方对数据进行处理,并更明智地利用上游的数据和计算资源。数据中心和云端需要为复杂的AI应用提供高性能和可扩展的通用计算,以及专门的加速。在人工智能无处不在的未来愿景中,从硬件到软件再到应用,都需要一种全面的解决方案。”
[物联网]
多模态AI技术的工具化趋势,正在快速推动焊接领域真正智能化
随着3D视觉以及轨迹规划系统的逐渐应用,焊接领域的自动化能力正在不断提高,但随之而来凸显的就是: 焊接质量目前普遍采用的事后检出方式 , 有明显的效率瓶颈和基于根因改善能力的先天不足,通过引入对工艺过程实现更快 、 更实时 、 更科学的分析诊断成为新的趋势性诉求 。 然而,过去这一类技术的研究和引入,往往是只有大型制造业企业才能有资金实力进行创新投资,且需要更多专业的复合型技术人才,成本高昂,无法成为行业级的普遍行为。 蕴硕物联作为焊接产业链上极少能用AI技术深挖工艺智能的独特性,具有前瞻性洞见布局和创新的理念,是高工一直保持重点关注的对象。 10月12日,以“‘焊’匠出击 勇者征程”为主题的2023(
[机器人]
人工智能时代 专家呼吁将“智能科学与技术”设为一级学科
  人工智能时代,学界呼吁给智能学科一个新“户口”   今年7月,国务院颁布《新一代人工智能发展规划》,按照规划,到2030年中国要成为世界主要“人工智能”的创新中心,同时宣告,这是一个人工智能“无时不有、无处不在”的时代。那么,人才,从哪里来?   日前,在天津大学举办的“新工科建设专题培训班”吸引了来自各省级教育行政部门、各相关行业协会及各高校的300余名专家学者。一个共识是,创新驱动发展已成为时代的最强音,智能成为经济发展的新引擎,教育已经成为这个时代最大的人才红利。   专家呼吁将“智能科学与技术”设为一级学科   “我们这个星球上要迎来机器人新人类,他们有智慧、有个性、有行为能力。”中国工程院院士、中国人工智能协
[机器人]
韩KAIST开发出AI脸部识别系统K-Eye及CNNP芯片
据韩媒Money Today报导,由韩国科学技术院(KAIST)电机暨电子工程系教授柳会峻带领的研究团队,开发出全球最省电、采深度学习的人工智能(AI)半导体芯片,将其命名为CNNP,并发表搭载CNNP芯片的脸部识别系统K-Eye系列。   近期全球科技业者竞相发表类似Google AlphaGo的AI技术,但大部分多为软体,速度较慢,难在移动装置环境下运作。若欲以高速、低电力进行驱动,必须开发出AI半导体芯片。   KAIST开发出全球最省电、采深度学习的CNNP芯片。KAIST     柳会峻研究团队在2017年2月国际固态电路研讨会(ISSCC)会发表这项研发成果,由于是全球最低功耗CNN芯片,因此备受瞩目。   研究团队表
[半导体设计/制造]
人工智能领域最重要的10大里程碑:AlphaGo征服世人
【腾讯科技编者按】业界媒体TechRadar发表文章,称人工智能(AI)是目前科技界最热门的流行语,经过几十年的研究和发展之后,科幻小说中的许多技术已经在这几年慢慢转化为科学现实。这篇文章总结了AI领域的10大里程碑。以下为原文内容: AI技术已经成为我们生活中非常重要的一部分:AI决定了我们的搜索结果,将我们的声音转化为计算机指令,甚至可以帮助我们对黄瓜进行分类(这件事后文中会提到)。在接下来的几年里,我们将用AI驾驶汽车,回应顾客的询问,以及处理其他无数事情。 但是我们怎么走到这个阶段的?这种强大的新技术是怎么来的?下面就来看看AI技术发展的十大里程碑。 笛卡尔的理念 人工智能的概念并不是突然出现的 ——直到今天,人工智能
[家用电子]
小广播
最新半导体设计/制造文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 市场动态 半导体生产 材料技术 封装测试 工艺设备 光伏产业 平板显示 EDA与IP 电子制造 视频教程

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved