英伟达自研Arm服务器芯片，性能吊打竞争对手

最新更新时间：2022-04-11

阅读数：

来源：内容由半导体行业观察（ID：icbank）编译自tomshardware，谢谢。

Nvidia 在 GTC 上推出了其新的 144 核 Grace CPU Superchip，这是其第一款专为数据中心设计的仅 CPU 的 Arm 芯片。Nvidia 与 AMD 的 EPYC 共享了一个基准，声称领先 1.5 倍，但这并不是很有用，因为它是针对上一代模型的。然而，我们在 Nvidia 加速计算业务部门副总裁 Ian Buck 的 GTC 演示中发现了 Grace 与 Intel Ice Lake 的基准。该基准声称，在 HPC 中常用的天气研究和预报 (WRF) 模型中，Grace 比英特尔当前的 Ice Lake 快 2 倍，能效高 2.3 倍。

Nvidia 的第一个基准测试声称，Grace 在SPECrate_2017 基准测试中，比两个上一代 64 核 EPYC Rome 7742 处理器快 1.5 倍，并且它将在 2023 年初到货时提供当今服务器芯片两倍的能效。但是，这些基准与上一代芯片相比——明年 Grace 到货时，罗马芯片就已经老了，AMD 已经有了更快的 EPYC Milan 发货。

鉴于与罗马的比较，我们可以预期 Nvidia 的 Grace 在性能和每瓦性能方面与新的 Milan 不相上下。但是，即使是这种比较也并不重要。AMD 的 EPYC Genoa 将于 2023 年上市，而且速度会更快。

这使得 Nvidia 与英特尔当前的 Ice Lake 进行比较变得更有趣了。因此，即使英特尔将在 2023 年之前推出其 Sapphire Rapids，但至少在下面的比较中我们离我们更近了一代。（请注意，这是供应商提供的基准测试结果，基于 Grace CPU 的模拟，因此请对 Nvidia 的声明持保留态度。）

（图片来源：英伟达）

提醒一下，Nvidia 的 Grace CPU Superchip 是一款 Arm v9 Neoverse (N2 Perseus) 处理器，具有 144 个内核，分布在两个芯片上，与 Nvidia 新品牌的 NVLink-C2C 互连技术融合在一起，可提供 900 GB/s 的吞吐量和内存一致性。此外，该芯片采用 1TB LPDDR5x ECC 内存，可提供高达 1TB/s 的内存带宽，是支持 DDR5 内存的其他数据中心处理器的两倍。

毫无疑问，增强的内存吞吐量与上述天气研究和预报 (WRF) 模型中的 Grace CPU 超级芯片的优势相得益彰。Nvidia 表示，其对 144 核 Grace 芯片的模拟表明，在 WRF 模拟中，它将比两个 36 核 72 线程英特尔“Ice Lake”至强白金 8360Y 处理器快 2 倍，并提供 2.3 倍的功率效率。这意味着我们看到 144 个 Arm 线程（每个都在一个物理内核上），面对 144 个 x86 线程（每个物理内核两个线程）。

WRF 的各种排列是通常用于基准测试的实际工作负载，并且许多模块已被移植用于使用 CUDA 进行 GPU 加速。我们就这个特定的基准与 Nvidia 进行了跟进，该公司表示该模块尚未移植到 GPU，因此它以 CPU 为中心。此外，它对内存带宽非常敏感，这让 Grace 在性能和效率上都有优势。Nvidia 的估计是“基于标准 NCAR WRF，3.9.1.1 版移植到 Arm，用于 IB4 模型（伊比利亚半岛 4 公里区域预测）。”

Grace 巨大的内存吞吐量将在性能和能源效率方面带来红利，因为增加的吞吐量通过保持贪婪的核心获得数据来减少非活动周期的数量。与 Ice Lake 的 DDR4 相比，这些芯片还使用了低功耗的 LPDDR5X。

然而，与英特尔即将推出的 Sapphire Rapids 相比，Grace 可能没有那么大的优势——这些芯片支持 DDR5 内存，并且还具有HBM 内存的变体，可以帮助对抗 Grace 在一些内存带宽匮乏的应用中的优势。AMD 还拥有具有 3D 堆叠 L3 缓存 (3D V-Cache) 的Milan-X，这对一些工作负载有好处，我们预计该公司将为 EPYC Genoa 系列制造类似的 SKU。

Nvidia 在 GTC 和其新闻稿中使用的基准测试显示比 AMD 的上一代 EPYC Rome 有 1.5 倍的增益，而不是使用比英特尔当前一代 Ice Lake 更大的 2 倍增益。相反，它将英特尔的比较隐藏在 GTC 演示文稿中。鉴于 AMD 是数据中心的领导者，也许 Nvidia 认为即使击败其上一代芯片也比击败英特尔当前最好的芯片更令人印象深刻。

无论哪种情况，这并不意味着英伟达没有使用英特尔的芯片。例如，Nvidia 的 Jensen Huang在最近的一次圆桌会议上告诉我们，“如果不是我们即将推出的 Omniverse 计算机中的英特尔 CPU，我们将无法进行如此依赖于他们真正擅长的单线程性能的数字孪生模拟。”

事实上，那些非常英伟达的 OVX 服务器每台使用两个英特尔的 32 核 Ice Lake 8362 处理器，它们被选中显然是因为它们在单线程工作中比 AMD 的 EPYC 更灵活——至少对于这个特定的用例来说是这样。有趣的是，Nvidia 尚未分享任何有关 Grace 在单线程工作中的实力的预测，而是更愿意暂时炫耀其纯粹的线程分量。

随着一个新的非常严肃的竞争者进入数据中心 CPU 竞赛，未来肯定会有有趣的时刻，这一次采用专门的 Arm 设计，它与正在迅速成为数据中心最重要的数字运算器的东西紧密集成：GPU .

总体而言，Nvidia 声称 Grace CPU Superchip 将于 2023 年初出货，将成为市场上最快的处理器，适用于超大规模计算、数据分析和科学计算等广泛应用。无论 Nvidia 的 Grace CPU Superchip 在 2023 年相对于其他数据中心芯片的表现如何，未来几年肯定会有很多选择，特别是对于下面显示的已经在 Arm 上运行的无数 HPC 工作负载。鉴于最近数据中心中基于 Arm 的新型芯片的爆炸式增长，我们预计该列表将快速增长。

★ 点击文末【阅读原文】，可查看本篇原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3007内容，欢迎关注。

Icbank半导体行业观察

最新精华更多

英伟达自研Arm服务器芯片，性能吊打竞争对手

最新有关Icbank半导体行业观察的文章