AI持续发热，Arm新一代Neoverse CSS V3和CSS N3为客户释放最优性能-电子工程世界

AI热潮不仅没有熄火，反而愈演愈烈。2024年，由于市场对于AI硬件的需求永不满足，计算处于变革阵痛中。随着人工智能 (AI) 渗透到教育、就业、制造、医疗和交通等领域，AI 正在改变经济发展和我们的日常生活，而 Arm 是这一切改变的基石。

5年前，Arm 宣布了针对服务器、云和基础设施 CPU 内核的 Neoverse 计划。彼时，Arm制定了一项雄心勃勃的计划，计划开发V、N、E三个CPU内核系列产品，以满足市场的不同细分市场。虽然后续发展与Arm最初预测略有不同，但基于 Neoverse内核定制CPU的设计已经逐渐成为云服务商采用的风潮。

日前，Arm推出新一代Neoverse CPU内核和计算子系统（CSS）——Neoverse CSS V3和CSS N3，以此帮助数据中心实现更优的AI性能。

CSS V3：最多128内核，具有CXL 3.0和HBM3

Neoverse V系列是强调性能优先的一个系列，拥有最高的单线程性能，也是Arm“秀肌肉”的战场。去年，Neoverse V3在Arm的路线图中被列为V-Next，代号Poseidon。

CSS V3 基于最新Neoverse V3核心打造，是Arm目前单线程性能最高的Neoverse 核心。V3为Arm机密计算架构 (CCA) 提供硬件支持。与CSS N2 产品相比，CSS V3的单芯片性能提高了50%。

CSS V3 在单芯片上最多可扩展至128核，支持12通道 (40b) DDR5/LPDDR5和HBM3内存、64路PCIe 5.0或CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。同时可提供业界领先的专用L2缓存大小，显著改善性能表现。

CSS V3针对3nm级工艺，并带有支持的平面图和实现流程，以最大限度地降低物理设计风险。

从核心功能上来看， V3基于Arm®v9.2-A A64指令集、支持AArch64 所有异常级别的执行状态（EL0 到 EL3）、拥有48 位物理地址（PA）和 48 位虚拟地址（VA），实现具有 128 位向量长度的可扩展矢量扩展（SVE）和可扩展矢量扩展 2 （SVE2）。

从部件构成上来看，V3内核包括一个将内核连接到DSU-120的CPU桥接器。DSU-120将内核连接到外部存储器系统和SoC的其余部分。

CSS N3：最多32核，每瓦性能提高 20%

Neoverse N聚焦于能效，是Arm比较均衡的系列。与CSS N2相比，CSS N3每核心的每瓦性能提升20%。

此外，从核心的性能上来看，与Neoverse N2相比，Neoverse N3在机器学习和数据分析工作负载上的性能提高了约3倍，在SQL数据库上提高了1.3倍，在选定的压缩应用程序上提高了1.2倍，在整数性能上提高了1.1倍——在同一技术节点上，与Neoverse N2的面积和功耗大致相同。

根据Arm 基础设施事业部产品解决方案副总裁 Dermot O’Driscoll的介绍，Arm对CSS N3进行了调优，以填补市场的空缺，提供满足基础设施性能要求的高效计算。

CSS N3首个实例可提供32核，热设计功耗 (TDP) 低至40W，支持4通道（40b）DDR5/LPDDR5、32路PCIe 5.0和CXL 3.0、支持UCIe 1.1或定制化PHYS高速互联。CSS N3建立在Neoverse S3系统IP之上，其中包括相干网状网络CMN S3、系统内存管理单元MMU S3、片上网络NOC S3。

其可扩展性非常强，可覆盖电信、网络和DPU等一系列应用。同时Arm考虑横向扩展云配置。

CSS N3基于新的Neoverse N3 IP平台打造，为新的N系列引入了Armv9.2功能，能为每个核心提供2MB的专用L2缓存。

两大产品在AI性能有巨大提升

AI飞临，除了加速器，很多工作负载也会落到CPU头上。Arm展示的数据则显示，Neoverse V3和N3内核在AI数据分析方面的性能分别比其前代产品提高了84%和196%。

更重要的是，如今，人们常常忽视的一点是，有多少计算周期最终被用于压缩和协议转换等后台任务。而N系列在压缩方面取得了性能优势，可降低云服务运营商的成本，并最终降低云服务客户的成本；同样，V系列显著提高了协议缓冲区的性能，这是在数据中心内传输数据的一项关键功能。

去年，有关 AI 的讨论焦点主要集中在于生成式 AI 和大语言模型 (LLM) 。目前行业重点更多放在训练LLM上，但随着生成式AI广泛应用于实际业务场景，其工作重点将转向推理。

这一转变意味着要找到合适的模型和模型配置，并加以训练，然后将其部署到更具成本效益的计算基础设施上。吞吐量是其中一部分考虑因素，而在当今广泛部署的基于 Arm架构的芯片上，Token生成吞吐量表现相当优异。

据最近统计，全世界打造AI加速器的企业已经超过80家，每一家都在加大自己的投入，但事实上，这些加速器也需要与CPU紧密耦合，才能发挥最佳功效。

比如说，NVIDIA不仅利用其领先的Hopper GPU，同时也使用了基于Neoverse V2平台的紧耦合计算芯粒Grace。NVIDIA Grace Hopper的一大关键创新在于内存容量和共享内存模式。这种紧耦合的CPU加上加速器配置，对大参数LLM非常有益，对检索-增强-生成 (RAG) 等新兴方法也很有帮助。

“Neoverse CSS是专为帮助客户在基于Arm领先的CPU平台上，快速打造通用计算芯粒而推出的产品。它能提供客户所需的所有接口，以便选择耦合自身的加速器。这种方法既可以在需要CPU时提供CPU，又可以在需要AI加速器时提供AI加速器，做到两全其美。”Dermot O’Driscoll如是说。

CSS：给芯片打个包

这一次，V3和N3都有一个前缀CSS。所谓CSS全称是Compute Subsystem，可以理解成Arm把一切都打了个包，包括core、CMN mesh、系统IP、系统管理、电源管理、软件和开发工具等。更通俗点的理解，就是半预制菜。

如今，AI行业快速发展，芯片制程提高，成本不断攀升，芯片设计制作缓慢，但是需求并不缓慢，越来越多的企业开始定制化自己的芯片。此时，CSS就能省略很多开发步骤，包括IP选择、系统配置、布局规划、验证、确认、第三方IP和晶圆厂集成等。

根据Arm的分享，有客户使用CSS后，芯片开发从启动到流片，总共可以只花9个月。

在 Hot Chips 2023 上，Arm首次公开宣布推出新产品——Arm Neoverse计算子系统 (CSS) 以及首款产品 Arm Neoverse CSS N2。而现在，Neoverse V3和N3全面延续CSS。

不止如此，Arm一直在将更多半导体力量汇聚在一起，以此形成更好的Neoverse CSS服务——即Arm去年10月宣布的“Arm全面设计”。

该项目汇集了半导体领域的各路领先企业，囊括了芯片设计合作伙伴、IP 供应商、EDA 工具提供商、代工厂和固件开发商等，共同加快并简化基于 Neoverse CSS 的系统开发。

目前，在推出后短短四个月内，Arm全面设计已经有20多家成员加入。其中包括新的 EDA和配套IP提供商，以及来自包括韩国、中国台湾、中国大陆和印度等战略市场的芯片设计合作伙伴，这些市场存在巨大的发展潜力。

其中，云豹智能是 Arm 全面设计生态项目在中国市场的首家合作伙伴。云豹智能是一家专注于云计算和数据中心数据处理器芯片 (DPU) 和解决方案的领先半导体公司。Arm 全面设计正帮助云豹智能将业务拓展到其他领域，并有助于其开发其他类型的基础设施系统级芯片 (SoC)。

此外，Arm正在与台积电、三星代工厂、英特尔代工服务三家主要代工厂合作，以确保CSS产品能在其先进工艺节点上进行优化。定制芯片离不开可靠供应链的支持，唯有Arm可提供多样的技术和选择。

Arm 基础设施事业部营销副总裁 Eddie Ramirez表示，三个典型案例揭示了合作伙伴可以借助Arm全面设计设计何种类型芯片：

去年十月，Socionext 成为首家宣布计划在台积公司领先的2nm工艺上开发基于CSS芯粒的合作伙伴，这款设计基于Neoverse CSS V3打造，配置32核的芯粒可与其他芯粒结合使用，提供可扩展且经济高效的计算解决方案；
智原科技也在构建基于芯粒的服务器芯片，该芯片将搭载64颗N系列核心，并基于英特尔代工服务的18A工艺节点进行生产制造；
此外，ADTechnology将提供高性价比的16核CSS N系列边缘服务器平台。他们将与三星代工厂合作，为边缘计算释放更强大的算力。

灵活性是Arm的强项

当前 AI 计算领域火热，芯片技术要求不断变化，Arm高级副总裁兼基础设施事业部总经理Mohamed Awad认为，Arm独特的优势，就是能够赋能广泛的生态系统进行创新。正因如此，Arm汇聚高性能计算的形式，能为合作伙伴带来十足的灵活性，帮助他们打造新的设计，进行创新。

聚焦 Arm Neoverse 来看，Arm着手的方向包括：

通过诸如Bfloat16、MatMul、SVE和SVE2等架构功能，以及微架构的优化，持续提升运行在CPU上的机器学习 (ML) 计算的表现；
通过支持最新的行业标准接口，以及提供用于一致性高带宽连接的CHI协议，为定制 AI加速器与Arm Neoverse平台和Arm Neoverse CSS的紧耦合提供无与伦比的灵活性；
为自研定制AI加速器的合作伙伴提供我们行业领先的系统互连技术，以实现与主机计算的紧密耦合链接，并提供CPU来处理AI工作的编排，同时支持利用Arm基础设施软件生态系统的云原生软件，以便最佳地运行在Arm平台上。

总结来说，Arm Neoverse CSS可以帮助合作伙伴在构建芯片时，进一步简化流程，进而加速产品上市时间。而Arm全面设计重要意义在于，现在Arm有许多不同的生态系统合作伙伴共同投资于Neoverse CSS，使得设计能够更轻松地推向市场，并且可以很容易地在Arm Neoverse CSS上取用到先进技术，进而加速产品上市时间，并降低构建新芯片的成本。最终，合作伙伴可以将构建芯片的投资重点放在创新上。

关键字：AI Neoverse 引用地址：AI持续发热，Arm新一代Neoverse CSS V3和CSS N3为客户释放最优性能

上一篇：功率半导体设计挑战都有哪些？
下一篇：晶心科技与元视芯打造全球首款采用RISC-V的车规级CMOS图像传感器

推荐阅读最新更新时间：2024-11-13 08:51

AI技术已到应用时间点传统企业要尽快行动

　　长久以来， AI ( 人工智能 )都还只是概念，但最近的科技突破已经可以使之深入渗透到生活之中。当下， AI 技术的发展已经到了行业广泛应用的时间点，当前世界主要经济体的政府部门都已经开始行动，中国亦不例外。而中国广大的看上去离 AI 距离很远的传统企业，尤其需要尽快行动起来。下面就随网络通信小编一起来了解一下相关内容吧。　　放眼全球的人工智能领域，中美英是最领先的三个国家，其他国家也不甘落后。三国政府对AI产业发展都有相当的政策支持，希望可以取得产业发展的相对竞争优势。　　英国方面，去年11月，英国政府曾发布人工智能报告，希望借助人工智能的创新优势提升整体国力。今年10月15日，英国政府再次发布了名为《在英国发

[网络通信]

日本借深度神经网络破译人类思维人工智能走近大脑

外媒称，日本研究人员已经成功借助人工智能破译了人类的思维和想象，从而在理解人类思想及其背后的大脑机制领域获得了重大突破。下面就随医疗电子小编一起来了解一下相关内容吧。据阿根廷 21 世纪趋势网站近日报道，破解人类思维的内容是科学界长久以来的愿望。事实上，此前的种种研究也已经实现了破译人类所见、回忆、想象和梦境的内容。日本借深度神经网络破译人类思维人工智能走近大脑例如另一个日本科学家团队早在 2008 年就成功地在电脑屏幕上直接重现了从人类大脑活动中获取的图像。但包括这一研究在内的其他以往研究都遭遇了难以逾越的障碍，因为每个个体的大脑内容都具有其独特性，因此思维模式的目录创建很难实现。报道称，此外，这些模式还

[医疗电子]

日本借深度神经网络破译人类思维 <font color='red'>人工智能</font>走近大脑

自动驾驶AI软件有Bug？别担心，这个发明专门解决这个问题

市场上绝大部分的软件里都或多或少有 Bug，但是这里面 99% 的 bug 都不会给你的人身造成危险。然而，随着自动驾驶汽车时代即将到来，驱动它们的人工智能软件一旦因为 Bug 而做出一个错误的决定，那么其后果很有可能就是致命的。因此，美国哥伦比亚大学（Columbia University）和理海大学（Lehigh University）的研究人员开发出了一款可以系统地找出深度学习算法 Bug 的方法，希望以此大幅度提高这种驱动自动驾驶汽车的技术的安全性。这个名叫 DeepXplore 的技术是由理海大学计算机科学系的曹寅志副教授主导开发的。它可以使用三个以上的神经网络去相互参照，相互检查。通过 DeepXplore

[汽车电子]

Hot Chips：英特尔推动“人工智能无处不在”

在2019年Hot Chips大会上，英特尔公布了即将推出的高性能人工智能（AI）加速器——英特尔® Nervana™神经网络处理器的最新细节，包括用于训练的NNP-T和用于推理的NNP-I。英特尔工程师还介绍了混合芯片封装技术、英特尔®傲腾™数据中心级持久内存和光学I/O小芯片技术的细节。 “要想实现‘人工智能无处不在’的未来愿景，我们必须解决数据的积压问题，确保企业能够有效利用数据，必要的时候在收集数据的地方对数据进行处理，并更明智地利用上游的数据和计算资源。数据中心和云端需要为复杂的AI应用提供高性能和可扩展的通用计算，以及专门的加速。在人工智能无处不在的未来愿景中，从硬件到软件再到应用，都需要一种全面的解决方案。”

[物联网]

多模态AI技术的工具化趋势，正在快速推动焊接领域真正智能化

随着3D视觉以及轨迹规划系统的逐渐应用，焊接领域的自动化能力正在不断提高，但随之而来凸显的就是：焊接质量目前普遍采用的事后检出方式，有明显的效率瓶颈和基于根因改善能力的先天不足，通过引入对工艺过程实现更快、更实时、更科学的分析诊断成为新的趋势性诉求。然而，过去这一类技术的研究和引入，往往是只有大型制造业企业才能有资金实力进行创新投资，且需要更多专业的复合型技术人才，成本高昂，无法成为行业级的普遍行为。蕴硕物联作为焊接产业链上极少能用AI技术深挖工艺智能的独特性，具有前瞻性洞见布局和创新的理念，是高工一直保持重点关注的对象。 10月12日，以“‘焊’匠出击勇者征程”为主题的2023(

[机器人]

人工智能时代专家呼吁将“智能科学与技术”设为一级学科

　　人工智能时代，学界呼吁给智能学科一个新“户口” 　　今年7月，国务院颁布《新一代人工智能发展规划》，按照规划，到2030年中国要成为世界主要“人工智能”的创新中心，同时宣告，这是一个人工智能“无时不有、无处不在”的时代。那么，人才，从哪里来？　　日前，在天津大学举办的“新工科建设专题培训班”吸引了来自各省级教育行政部门、各相关行业协会及各高校的300余名专家学者。一个共识是，创新驱动发展已成为时代的最强音，智能成为经济发展的新引擎，教育已经成为这个时代最大的人才红利。　　专家呼吁将“智能科学与技术”设为一级学科　　“我们这个星球上要迎来机器人新人类，他们有智慧、有个性、有行为能力。”中国工程院院士、中国人工智能协

[机器人]

韩KAIST开发出AI脸部识别系统K-Eye及CNNP芯片

据韩媒Money Today报导，由韩国科学技术院(KAIST)电机暨电子工程系教授柳会峻带领的研究团队，开发出全球最省电、采深度学习的人工智能(AI)半导体芯片，将其命名为CNNP，并发表搭载CNNP芯片的脸部识别系统K-Eye系列。近期全球科技业者竞相发表类似Google AlphaGo的AI技术，但大部分多为软体，速度较慢，难在移动装置环境下运作。若欲以高速、低电力进行驱动，必须开发出AI半导体芯片。 KAIST开发出全球最省电、采深度学习的CNNP芯片。KAIST 柳会峻研究团队在2017年2月国际固态电路研讨会(ISSCC)会发表这项研发成果，由于是全球最低功耗CNN芯片，因此备受瞩目。研究团队表

[半导体设计/制造]

人工智能领域最重要的10大里程碑：AlphaGo征服世人

【腾讯科技编者按】业界媒体TechRadar发表文章，称人工智能（AI）是目前科技界最热门的流行语，经过几十年的研究和发展之后，科幻小说中的许多技术已经在这几年慢慢转化为科学现实。这篇文章总结了AI领域的10大里程碑。以下为原文内容： AI技术已经成为我们生活中非常重要的一部分：AI决定了我们的搜索结果，将我们的声音转化为计算机指令，甚至可以帮助我们对黄瓜进行分类（这件事后文中会提到）。在接下来的几年里，我们将用AI驾驶汽车，回应顾客的询问，以及处理其他无数事情。但是我们怎么走到这个阶段的？这种强大的新技术是怎么来的？下面就来看看AI技术发展的十大里程碑。笛卡尔的理念人工智能的概念并不是突然出现的 ——直到今天，人工智能

[家用电子]

热门资源推荐
热门放大器推荐

小广播