谷歌用MEMS开关,推动数据中心革命!
来源:内容由半导体行业观察(ID:icbank)编译自semianalysis,谢谢。
网络是所有数据中心的关键部分,尤其是随着网络密集型大型语言模型的兴起。因此,它是谷歌基础设施优化工作的明确目标。去年,在 OFC 和 SIGCOMM 等会议上,谷歌披露了他们的定制网络堆栈 Jupiter,同时还定制了从内部交换机到定制的可重新配置软件等产品。
与亚马逊和微软等竞争对手实施的行业标准相比,这种定制网络堆栈使他们能够节省至少 30 亿美元。除了成本改进,谷歌还实现了更高的网络性能和更低的延迟!这个自定义网络堆栈在 5 年多前开始部署,现在已在 Google 的大部分数据中心实施。Google 的自定义网络是训练其最先进的大型语言模型(包括 PaLM)不可或缺的一部分。
在深入探讨他们的自定义网络堆栈如何工作之前,让我们快速讨论一下它的作用和行业影响。首先,谷歌声称他们的定制网络将吞吐量提高了 30%,用电量减少了 40%,资本支出减少了 30%,流量完成减少了 10%,并且整个网络的停机时间减少了 50 倍。
最重要的是,他们可以错开数据中心网络升级。Google 的定制交换机还使他们能够避免在其网络主干层购买 Broadcom 网络交换机。
传统网络使用“Clos”拓扑(也称为脊叶配置:spine and leaf configuration)将数据中心中的所有服务器和所述服务器的机架连接在一起。在主干和叶子架构中,您有一个主干、叶子和计算。计算是一个装有 CPU、GPU、FPGA、存储和/或 ASIC 的服务器机架。然后,该计算连接到叶子或架顶式交换机,然后通过各种聚合层连接到主干。
传统上,该网络的主干使用所谓的电子分组交换机 (EPS:Electronic Packet Switch)。这些是 Broadcom、Cisco、Marvell 和 Nvidia 是主要供应商的普通网络交换机。然而,这些 EPS 耗电量很大。此外,每 2 到 3 年,网络速度就会翻一番。这种翻倍改善了功耗的同时,也带来了升级现有spine EPS 的要求。因此,每一代 Broadcom Tomahawk 交换机都会带来巨大的资本支出浪潮。
谷歌启动了一个名为 Gemini 的项目,以移除其数据中心网络的这一主干层,从而使他们能够降低与这一层交换相关的电力和资本支出成本。此外,该项目并不止于spine。它将继续改进并有可能在网络的较低层被采用。
Apollo项目专注于取代传统的“Clos”架构,该架构使用带光路开关 (OCS:Optical Circuit Switch) 的 EPS。第一代光开关称为Palomar。这些 OCS 取代了旧“Clos”的spine。与过去在主干层中多次将信号从电信号转换为光信号再到电信号不一样,OCS 是一种完全光学的互连,它使用镜子来重定向入射光束,这些光束用数据从源端口编码到目标端口。
打个比方,OCS 就像一个铁路道岔。它们可以有多条路径,但火车一次只能穿过一条特定的轨道/路径。为了改变火车的行驶路径,您必须手动重定向轨道。
在 Google 的网络中,如果通过端口 7 连接的数据中心的一部分想要与通过端口 4 连接的数据中心的另一部分通信,但它被配置为端口 11,那么光开关必须重新配置这些镜像才能让端口 7 与端口 4 通信。请注意,对于传统 EPS,无需手动重新配置任何内容,因为所有端口始终通过电气开关连接。
谷歌在直接连接架构中使用这些光开关,通过接线板直接连接叶子。这不是数据包交换;就所有意图和目的而言,这是一种光学交叉连接。
再次使用火车类比,这是一个巨大的火车站,有多条进出轨道。任何进站的火车都可以换乘任何出站的火车,但需要在车站重新配置。
在典型的网络架构中;每个数据包都有一个数据包标头。该数据包标头被解码并确定电气开关将该数据包发送到哪里。Google 的 OCS 中没有数据包解码。数据包在到达 OCS 之前位于预先确定的路径上。如果您需要更改正在与之通话的端口,那么您需要描述数据包流的特征以及该流的去向。在火车进站之前,您需要知道火车要去哪里。
而通常,OCS 是一种“设置好后不用管”的解决方案,因为移动镜像以重新配置流经 OCS 的数据包的路由需要几秒钟的时间。与传统的 EPS 相比,那是永恒的。您需要在火车到达之前设置火车将遵循的轨道。
Google 的 OCS 并不是 EPS 的替代品,网络在设计时必须明确考虑 OCS 以考虑镜像重新配置时间。
与 Apollo 一起前进:数据速率不可知论、低延迟和节能已解锁
缺乏灵活性和不可插入的兼容性是很大的缺点,但 OCS 有许多优点。谷歌概述了三大优势:数据速率和波长不可知、低延迟和显着节能。
数据速率和波长不可知论之所以重要,主要有两个原因。第一个原因是您获得了与任何交换机和光学技术的互操作性,这意味着如果您需要将带有 100G 收发器的交换机与带有 800G 收发器的交换机连接,OCS 可以毫无问题地做到这一点,因为它只是重定向光它移动数据包。
EPS一旦设置了 OCS,您就可以将交换机和光纤升级到更快的几代,而无需更换网络的“主干”。OCS 的使用寿命比传统 EPS 长得多。
传统的 EPS 将光纤连接到交换机的背面,通过光电探测器和 TiA 转换为电信号,通过DSP 重新驱动和重新定时,通过 PCB 发送到标准交换机芯片,数据包在这里被解码,以及路径已确定。然后数据包被重新编码并再次通过整个路径发送出去。这些步骤中的每一个都会导致额外的延迟。
OCS 的低延迟来自于 OCS 不必解码数据包这一事实;他们所要做的就是将入射光从源端口反射到目标端口。
这带来了第三个也是最大的优势,即功率。传统 EPS 中的每个步骤也会消耗一点电力。
OCS 障碍:解决高昂的前期成本、插入损耗等问题
OCS 有五个主要缺点,谷歌声称已经解决了所有这些缺点。五个主要缺点是:高前期成本、插入损耗、重新配置时间和缺乏支持。
高昂的前期成本是谷歌可以在很长一段时间内贬值的东西。因为当谷歌转向使用 1.6T 和 3.2T 收发器的叶交换机时,OCS 可以处理任何带宽,所以不需要更换这些 OCS,从而抵消了前期成本。谷歌估计,由于能够通过多个升级周期重用 OCS,OCS 的总体资本支出约为标准 EPS 的 70%。
如果我们假设 Google 期望 OCS 用于 3 个升级周期,那么 OCS 的前期成本是 EPS 的 ~3.5 倍(ASP 增加每一代 EPS)。如果谷歌相信这些 OCS 可以持续 4 代,那么前期资本支出差异更像是 6 倍!
插入损耗是 OCS 的下一个主要缺点。插入损耗是指光信号切换其传输介质时损失的信号功率量。例如,从激光器到硅光子芯片或从光纤到光电探测器。它通常以分贝 (dB) 为单位测量,是信号强度降低的量度。插入损耗越高,信号功率损失越大。例如,如果一个设备造成 3 dB 的插入损耗,则输出信号功率将是输入信号功率的一半。
插入损耗越大,信号就越弱,这可能导致数据传输不可靠。插入损耗以分贝为单位,损耗分贝越少越好,而光纤的标准插入损耗约为 6dB,谷歌已将其降低到最坏情况.
他们认为,为最坏的流量模式构建网络是矫枉过正的,并且通过规划网络流量,他们可以摆脱镜像的长时间重新配置。
缺乏直接支持是谷歌通过重新设计其网络以支持 OCS 来解决的问题。谷歌在 Jupiter 上花费了“十年的发展和生产经验”,阿波罗计划是谷歌在降低这些大型网络系统的总体拥有成本方面向前迈出的重要一步。这是谷歌不会公开分享的秘密武器的一部分,尽管在解释完硬件后我们可以分享一些细节。
MEMS 镜面封装:揭开谷歌光学电路开关的核心
Apollo Project 最初为其 OCS 使用基于供应商的解决方案。华为还在网络中的不同用例中使用了同一家供应商。
谷歌认为难以大规模维持此解决方案的可靠性和质量,因此决定在内部开发 OCS 系统。
其内部开发的 OCS 称为 Palomar。
OCS 的核心是 Palomar MEMS 反射镜组件,它有 176 个可单独控制的微镜。然而,只有 136 个镜像被使用,因为 40 个镜像被禁用了。
不同镜子的工作方式是使用二向色分束器将入射的 1310nm 信号光(O 波段)与第二个 850nm 光合并,该分束器让 850nm 光通过但反射 1310nm 光。二向色分束器只是一个带有涂层的倾斜镜,允许特定波长的光通过它,同时反射其他波长的光。
对于 Palomar OCS,您要传输的光波长为 850nm,而您要反射的波长为 1310nm。由于无法反射或传输 100% 的光,您确实会因分裂造成的损失而损失一些光,但您可以在需要的地方获得超过 90% 的光。
从那里,合并的光使用 MEMS 阵列反射到第二个分色器,该分光器将 1310nm 反射回 MEMS 阵列,但让 850nm 光进入监控 MEMS 阵列对准的相机。MEMS 阵列的这种对齐很重要,因为如果阵列的对齐稍微偏离一点,就会导致数据传输中断。
这些 850nm 光中有 2 个是为了保持 MEMS 阵列对齐,因此 1310nm 光在第二次从 MEMS 阵列反射时仍与 850nm 光结合。然后,当组合光束到达最终的二向色分离器时,它会分离出 1310nm 并进入输出端口。
为了将 OCS 端口和光纤电缆的数量减半以降低系统的复杂性,Palomar 使用光环行器来建立双向链路。光环行器是一种 3 端口设备,其中端口 1 的输入指向端口 2,端口 2 的输入指向端口 3。这允许将标准双工收发器转换为双向收发器。
这增加了回波损耗和串扰。回波损耗是发生在光缆末端的信号损耗。从光纤到不同介质(如空气)的光折射率的变化会导致信号衰减,高光回波损耗会导致激光无法正确传输。
串扰是指两个通道之间存在干扰,这会导致信号衰减和噪声水平增加。因此,谷歌从使用仅限于 1530nm 至 1565nm 波长范围(C 波段)的掺铒光纤放大器,转向使用光学涂层和光学重新设计,以便能够使用 1310nm 波长范围( O 波段)。这种重新设计还降低了系统的回波损耗和串扰。
谷歌为 Apollo 采用了波分复用 (WDM) 光收发器。WDM 是一种利用不同波长的光将多个光信号传输到一根光纤中的技术。第一代 Apollo 以 40Gb/s 标准为基线。这是整个行业采用的标准 (CWDM4 MSA),因此光学器件是标准化的商品。该解决方案唯一独特的方面是基于 MEMS 的开关。
结论与未来
谷歌通过他们的 Apollo 项目开发了一种非阻塞 136x136 光路开关,它向前和向后兼容谷歌使用或将在其数据中心使用的任何带宽或波长。据谷歌称,这款开关仅使用 108 瓦的功耗。与功率范围为 3,000 瓦的标准 136 端口 EPS 交换机相比。
因此,尽管 OCS 存在缺点,但 Google 已经创建了一个解决方案,其优点远大于缺点。在过去的 5 年里,“制造和部署了数万个 136x136 端口 OCS(八个备用端口)。” 谷歌创建了一个非常适合他们的系统。
未来,谷歌正在寻找更大端口数的 OCS,以进一步扩展功能和更快的切换速度,从而允许在网络的较低层更广泛地采用 OCS。这种更广泛的采用将对超大规模网络交换机的领导者 Broadcom 产生极大的负面影响。此外,谷歌表示他们还将继续提高可靠性并降低插入/回波损耗。
谷歌还在研究基于压电的开关技术,以替代当前基于 MEMS 的系统,因为压电系统在插入和回波损耗方面比 MEMS 系统具有固有优势。切换速度也可以更快。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3345内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!