全球最大芯片怎么玩?Hotchips精彩继续!
在昨天的报道 《芯片巨头,争眼Hotchips》 中,我们介绍了hotchips上的一些处理器巨头的介绍。进入到大会的第三天,这些领先的企业还在持续带来更多的展示。首先,最受关注的就是全球最大芯片打造者Cerebras带来了关于其集群的介绍。
在人工智能初创公司方面,Cerebras 多年来一直是我们进入下一阶段的领跑者。现在,他们似乎已经退出了一群将其巨型晶圆级引擎扩展到 AI 超级计算机规模的初创公司。在 Hot Chips 2023 上,该公司详细介绍了它计划用来让 NVIDIA 正在构建的产品相形见绌的新集群。
Cerebras 晶圆级集群的细节
Cerebras 在演讲开始时介绍了公司的最新情况,以及 AI/ML 模型正在变得越来越大(5 年内扩大了约 40,000 倍)。他们还讨论了 ML 加速的一些历史。
随着时间的推移,工艺技术取得了长足的进步。
诸如将计算从 FP32 更改为 bfloat16、INT8 或其他格式和技术等架构收益也带来了巨大收益。
尽管如此,什么模型实用不仅取决于在芯片级别获得收益的能力,而且还取决于在集群级别获得收益的能力。
当前横向扩展的一些挑战只是保持数据移动到较小的计算和内存节点的通信需求。
Cerebras 构建了一个巨大的芯片来获得数量级的改进,但它还需要扩展到集群,因为一个芯片是不够的。
传统的横向扩展面临着挑战,因为它试图将问题、数据和计算分散到如此多的设备上。
在 GPU 上,这意味着使用不同类型的并行性来扩展到更多的计算和内存设备。
Cerebras 正在寻求扩展集群级内存和集群级计算,以解耦计算和内存扩展,就像 GPU 上看到的那样。
Cerebras 在 WSE-2 基础上拥有 850,000 个核心。
Cerebras 将 WSE-2 放置在 CS2 中,然后将其连接到 MemoryX。然后它可以将数据传输到大芯片。
然后,它具有执行数据并行扩展的 SwarmX 互连。
Weight永远不会存储在晶圆上。它们只是流进来的。
SwarmX fabric可调节权重并减少返回时的梯度。
每个 MemoryX 单元有 12 个 MemoryX 节点。状态存储在 DRAM 和闪存中。高达 1TB 的 DRAM 和 500TB 的闪存。有趣的是,CPU 仅为 32 核 CPU。
最后,使用100GbE连接到集群。一个端口连接到 CS-2,另一个端口连接到其他 MemoryX 模块。
MemoryX 必须以深思熟虑的方式处理权重的分片才能使其发挥作用。对流进行排序有助于执行几乎免费的转置。
在MemoryX中,有一个高性能运行时来传输数据和执行计算。
SwarmX 结构使用 100GbE 和 RoCE RDMA 来提供连接并减少 CPU 上发生的广播。
每个广播缩减节点有 12 个节点,具有 6 个 100GbE 链路。其中五个用于 1:4 广播以及冗余链路。这意味着 150Tbps 的广播会减少带宽。
100GbE 很有趣,因为与 NVLink/NVSwitch 和 InfiniBand 相比,它现在是一种非常商品化的互连。
Cerebras 正在 CS-2/WSE 上进行这些操作,这有助于实现这一规模。
这就是 SwarmX 拓扑。
结构的灵活性可用于跨集群有效地配置工作,同时支持子集群分区。
Cerebras 正在使用 16x CS-2 在 Andromeda上快速训练大型模型。然后,Cerebras 凭借 Condor Galaxy-1 晶圆级集群变得更大。Cerebras 在目前顶级的 3B 模型上对 BTLM 进行了改造。
接下来,Cerebras 正在扩展到更大的集群。
谷歌疯狂的光学可重构人工智能网络
在 Hot Chips 2023 上,谷歌展示了其疯狂的光学可重构人工智能网络。该公司正在进行光路交换,以使其人工智能训练集群实现更好的性能、更低的功耗和更大的灵活性。更令人惊奇的是,他们已经生产这个产品很多年了。
按照谷歌所说,其主要目标是将 Google TPU 芯片捆绑在一起。
这是7nm 谷歌 TPUv4。TPU v4i 是推理版本,但这更多是 TPUv4 的重点讨论。
谷歌表示,与典型电源相比,它过度配置了电源,因此可以满足 5 毫秒的服务时间 SLA。因此芯片上的 TDP 要高得多,但这是为了允许突发满足 SLA 突发。
这是TPUv4架构图。谷歌构建这些 TPU 芯片不仅仅是为了成为单个加速器,而是为了横向扩展并作为大型基础设施的一部分运行。
这是 Google TPUv4 与 TPUv3 的统计数据,是我们见过的最清晰的表格之一。
Google 将峰值 FLOPS 提高了一倍多,但降低了 TPUv3 和 TPUv4 之间的功耗。
Google 在 TPUv4 中内置了 SparseCore 加速器。
这是 Google 的 TPUv4 SparseCore 性能。
该板本身有四个 TPUv4 芯片并且采用液冷。谷歌表示,他们必须重新设计数据中心和运营以改用液体冷却,但节省的电量是值得的。右侧的阀门控制流经液体冷却管的流量。谷歌表示,它就像一个风扇速度控制器,但用于液体。
谷歌还表示,它正在使用 PCIe Gen3 x16 回到主机,因为这是 2020 年的设计。
与许多数据中心一样,谷歌的电源是从机架顶部输入的,但它还有许多互连。在机架内,Google 可以使用电气 DAC,但在机架外,Google 需要使用光缆。
每个系统有 64 个机架和 4096 个互连芯片。从某种意义上说,NVIDIA 的 256 个节点的 AI 集群的 GPU 数量只有原来的一半。
同样在机架的末端,我们看到了一个 CDU 机架。每个机架都是一个 4x4x4 立方体(64 个节点),TPU 之间具有光路交换 (OCS)。在机架内,连接是 DAC。立方体的面都是光学的。
下面是 OCS 的介绍。使用 OCS 不使用电气开关,而是在芯片之间提供直接连接。谷歌拥有内部 2D MEMS 阵列、镜头、相机等。避免所有网络开销可以更有效地共享数据。顺便说一句,这在某些方面感觉类似于 DLP TVs。
谷歌表示,其super pod内拥有超过 16,000 个连接和足够距离的光纤,可以环绕罗德岛州。
由于点对点通信如此之多,因此需要大量的光纤束。
除此之外,每个池都可以连接到更大的池。
OCS 由于可重新配置,因此可以提高节点利用率。
然后,谷歌可以通过调整光路由来改变拓扑。
谷歌在这里展示了不同拓扑的好处。
这很重要,因为谷歌表示模型需求的变化可以驱动系统的变化。
这是 Google 在最多 3072 个芯片上以对数尺度进行线性加速的扩展。
Google 还将片上内存增加到 128MB,以保持本地数据访问。
以下是 Google 与 NVIDIA A100 在每瓦性能基础上的比较。
这是在两个 Pod 中对 6144 个 TPU 进行训练的 PaLM 模型。
英特尔展示采用硅光子技术的 8 核 528 线程处理器
英特尔在 Hot Chips 2023 上展示了一项很酷的技术,而不仅仅是服务器芯片。它具有直接网状到网状的光学织物。同样有趣的是 8 核处理器,每核 66 个线程。
这背后的关键动机是 DARPA HIVE 项目的超稀疏数据。
当英特尔分析 DARPA 正在研究的工作负载时,他们发现它们是大规模并行的。尽管如此,它们的缓存行利用率很差,并且诸如大而长的无序管道之类的东西没有得到很好的利用。
这是一个有趣的。Intel 有一个每核 66 线程的处理器,一个插槽中有 8 个核心(528 个线程?) 由于工作负载,缓存显然没有得到很好的利用。这是 RISC ISA,而不是 x86。
高速 I/O 芯片将芯片的电功能与光功能连接起来。
这是正在使用的 10 端口直通路由器。
这是放置路由器的片上网络。16 个路由器中有一半只是为了为高速 I/O 提供更多带宽。封装的 EMIB 用于物理连接层。
每个芯片都使用硅光子学来驱动其光网络。这样,即使芯片不在同一机箱中,内核之间的连接也可以直接在芯片之间进行,而无需添加交换机和网卡。
这些芯片采用 EMIB 封装为多芯片封装。硅光子引擎增加了从封装到光纤束的其他一些挑战。
这是光学性能。
在功耗方面,这是在 8 核 75W CPU 上完成的。这里一半以上的功率被硅光子学使用。
以下是模拟到测量的工作负载性能扩展。
这是实际的芯片照片,并确认这是在台积电 7nm 上完成的。
封装和测试板如下所示:
这是在 7 纳米工艺中完成的,实验室仍在进行相关工作。
有趣的是,英特尔没有使用它在 Innovation 2022 上展示的可插拔连接器。看起来这可能是在该项目准备就绪之前就已经构建的。这得到了 Ayar Labs 在光学方面的协助。
也许最重要的是每个核心 66 个线程!这是一个巨大的数字。我认为人们会喜欢这个数据。
Lightelligence Hummingbird 低延迟光学连接引擎
在 Hot Chips 2023 上,Lightelligence 展示了其 Hummingbird 低延迟光学连接引擎。
Lightelligence表示,人工智能计算需求远远超过晶体管的缩放。
Lightelligence 专注于增强计算中的光学性能。今天,该公司正在谈论光学 NOC。
该公司表示,创建特定领域的架构来解决特定的数字格式、数学和并行性是性能改进的领域之一。
提高性能的另一个领域是在封装中添加更多的硅。
使用电信号的互连被认为效率低下。
这里 Lightelligence 谈论的是片上光网络(oNOC)。这个想法是在封装上使用光而不是电信号来提高效率。
它还允许不同类型的拓扑,因为光波导可以跨越更长的距离。
随着小芯片之间距离的增加,它可以实现更好的缩放。这很重要,因为小芯片的制造成本较低,但它们需要在封装上连接。
Hummingbird 是使用 oNOC 的示例。它具有 FPGA、外部激光器和封装在卡上的第 3 方 SiP。oNOC 允许进行诸如全对全广播之类的事情。
Hummingbird 专注于使用光子集成电路或 PIC 以及电子硅芯片将光学连接置于封装上。
内插器为芯片提供电源。底部 PIC 是光学元件。EIC再次名列前茅。该 SiP 是 SIMD 架构,具有带有八核集群的定制 ISA。
最大的区别是U型结构的光纤广播网络。使用它,每个内核都可以更新所有其他内核,并且 PIC 中不会有任何波导交叉。
这是核心的微架构。这是一个 AI DSA 推理核心。每个其他核心都可以通过 oNOC 接收发送其数据,每个核心也可以通过 oNOC 量化和传输发送数据。
以下是Hummingbird的指标。
这是一个在 PCIe GPU 机箱中配备 Hummingbird 的系统。
以下是性能指标。
Lightelligence 表示,它可以缝合不同尺寸的芯片。它似乎专注于构建超越像 NVIDIA H100 这样的可弯曲有限芯片的东西。
再次给出解决方案:
利用3D封装将使这项技术变得更加有趣。当然,下一个问题是其他公司是否会寻求这种芯片间通信,或者其他类型的技术是否会取代。这是一项有趣的技术,但许多大型供应商也在关注光学技术。
SiFive P870 RISC-V 处理器亮相
SiFive 在过去几年中一直是 RISC-V 的主要参与者。在 Hot Chips 2023 上,该公司详细介绍了 SiFive P870 处理器。
新的RISC-V CPU有标准。这是 SiFive 消息传递的重要组成部分。
SiFive 于 2022 年在 P550 中推出了首款乱序芯片。该公司现在拥有 P650/P670 和 P450/P470。现在,有 P870 和 P870-A。这里的 A 代表汽车。
SiFive 现在正在制造更大、更复杂的芯片。不同之处在于该解决方案利用共享 L2 缓存。如今,许多 Arm CPU 都在为云工作负载提供专用的二级缓存。
这是pipeline。
这是芯片的微架构。这更多的是指令流程图。
这是从顶部开始的演练的开始。
这里 SiFive 正在处理融合函数,1120 的 ROB 被认为是一个极端情况。这基本上是从听起来的角度计算捆绑指令(也许这与其他架构中的 280 条指令相当)。
向量排序器被认为是 RISC-V 的一个独特功能。
此时请注意,这比 SiFive 的旧解决方案更复杂。
仍然会提供更多人们可以阅读的微架构细节。
以下是加载/存储的规格。
L2 缓存是非包容性的,但不是排他性的。
这是集群拓扑的样子。L1 到更大的 L2 具有 16 个周期的延迟。这是为集群中的核心之间的数据共享而设计的。这是一个具有 8 个 4 核集群的 32 核芯片示例。
这是一个消费级拓扑,其中有两个 P870 高性能核心、四个 P470、集群中更小、更高效的核心,然后是一个低功耗 E6 有序核心,可在低功耗下始终开启。
这是新的 SiFive P870-A 汽车安全功能幻灯片。这里更关注的是故障检测、可靠性和安全性。P870-A 在寄存器文件中具有奇偶校验等功能,并且缓存具有 ECC 功能,这可以作为其不同之处的一些示例。
SiFive 拥有多种不同类型的 IP。这是完整的列表。
我们将听到的下一代是 Napa 核心。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3508期内容,欢迎关注。
推荐阅读
半导体行业观察
『 半导体第一垂直媒体 』
实时 专业 原创 深度
识别二维码 ,回复下方关键词,阅读更多
晶圆|集成电路|设备 |汽车芯片|存储|台积电|AI|封装
回复
投稿
,看《如何成为“半导体行业观察”的一员 》
回复 搜索 ,还能轻松找到其他你感兴趣的文章!