​AMD将用FPGA干什么?

发布者:as233632621最新更新时间:2022-02-16 来源: 半导体行业观察关键字:FPGA 手机看文章 扫描二维码
随时随地手机看文章
近日,AMD 已经完成了对 Xilinx 的收购,由于过去一年半时间里 AMD 的股价上涨,最终成本接近 490 亿美元,而不是最初在 2020 年 10 月宣布该交易时预计的 350 亿美元。


现在,随着 AMD 获得监管机构的批准并花光了所有“钱”——稀释后的市值与实际现金不同,但你可以用它买东西——很自然,收购完成后, CPU 和GPU 设计人员不仅可以使用作为 Xilinx 器件核心的 FPGA 可编程逻辑,还可以使用在所有 FPGA 混合中变得普遍的晶体管硬块,例如 DSP 引擎、AI 加速器、内存控制器、I /O 控制器和其他类型的互连 SerDes。

AMD 需要很长时间才能建立一支工程师团队,这些工程师团队拥有赛灵思在可编程逻辑方面以及在其航空航天、国防、电信/通信、工业和广播/媒体业务领域所获得的专业知识,并且结合了凭借 Vitis 软件堆栈,Xilinx 的价值超过了收购一家在其他领域拥有收入和利润流且与 AMD 核心业务几乎没有重叠的公司的价值,这立即转化为 AMD 首席执行官Lisa Su所看中的, 更为广泛的,估值为 1350 亿美元的潜在市场。

不断增加的 TAM 对于 AMD(实际上是任何半导体公司)实现增长至关重要,并将Xilinx 的收入和利润流(在过去 12 个月中分别为 36.8 亿美元和 9.29 亿美元)添加到AMD 的收入和利润流中,2021 年分别为 163.4 亿美元和 31.6 亿美元。

但真正的价值,以及为什么 Lisa Su 和公司花了这么多钱来收购 Xilinx。皆因它需要做很多事情来最大限度地提高投资并推动其收入远高于仅仅通过合而取得的收入。

AMD 以及数据中心的任何主要芯片公司都不清楚他们从第三方获得了多少 IP 块的许可。在我看来,这可能比我们许多人意识到的成本更高,并且假设赛灵思实际上创建了自己的内存控制器、I/O 控制器、网络控制器和更通用的 SerDes 以及片上互连,那么 AMD 可能随着时间的推移转移到赛灵思 IP 块,能够节省一些钱。如果赛灵思 IP 块比 AMD 替代品更好或完全从 AMD 堆栈中消失,那么这里有各种可能性来改进 AMD 在 CPU 和 GPU 插槽中的内容以及它如何从中创建自己的新 IP。

例如,想象一下,基于 Xilinx SerDes 的数据中心规模 Infinity Fabric 交换结构以及由 AMD 和 Xilinx 融合团队共同创建的数据包处理引擎?想象一下类似于IBM 为其 Power10 处理器创建的内存区域网络,但跨机架和机架以及 Epyc CPU 和 Instinct CPU 加速器的行和行运行。. . . 想象一下,根本不关心以太网或 InfiniBand,除了作为集群的入口点。. . . 这会有多酷?

看看 Versal 系列的“Everest”一代中的 Xilinx FPGA 混合器件:
图片

那些用于机器学习推理处理的 AI 矩阵引擎和用于各种信号处理的 DSP 引擎是过去在可编程逻辑中实现的硬块——赛灵思在其 Versal 系列中一直将其称为自适应引擎——但由于空间、热量和性能问题,将这些块实现为 ASIC 并使用芯片上的高速互连将所有这些块相互连接并连接到可编程逻辑要高效得多。

AMD 的工程师在考虑如何构建计算引擎、系统和集群时,可以使用这些硬块中的每一个,包括 Arm 内核。AMD 设计的每个计算设备,无论是单片芯片还是封装中的小芯片集合,都可以在 AMD 认为合适的时候添加一些可编程逻辑。

那么除了在很大程度上保持业务不变之外,AMD 将如何与 Xilinx 合作呢?它还没有说,除了说 AMD 在交易失败之前已经授权了一些 Xilinx IP,并且无论该 IP 是什么——不要假设它是可编程逻辑——都将在明年年底的某个时候出现在 AMD 芯片中。

让我们看看他们合并后的一些潜在可能性,如果您有自己的想法,请提出来。

首先,我们认为整个 CPU 和整个 FPGA 的单芯片混合实现是不太可能的,但有可能会发生共同封装的 CPU-FPGA 混合。

这是英特尔早在 2014 年就与 FPGA 制造商 Altera 合作的东西,这甚至发生在它收购该公司之前——在 2018 年,宣布将“Skylake”至强 SP 处理器与 Arria 10 FPGA 混合在一个封装中的产品。我们认为这些产品不会在数据中心起飞,原因与为什么我们在数据中心的单个封装中看不到 CPU-GPU 混合体的原因相同,除非是非常特殊的情况,例如带有集成显卡的 PC 芯片被重新用作媒体处理服务器引擎,就像 AMD 和英特尔过去在其嵌入式产品线中所做的那样。

在其 frankensocket CPU-GPU 复合体中,英特尔将 125 瓦的成熟 20 核 Xeon SP-6138P 与额定 70 瓦的成熟Arria 10 GX FPGA 1150放在同一封装中。它们通过 UltraPath 互连 (UPI) 链接进行连接,这些链接用于与 CPU 进行共享内存 NUMA 配置,这意味着英特尔将 UPI 控制器移植到 Arria 10 上。(这个 UPI 控制器似乎不太可能在可编程控制器中实现逻辑,但 UPI 协议可能是在硬编码 SerDes 之上实现的,该 SerDes 适合 UPI 的时序,可编程逻辑填补了空白。)Arria 10 GX 没有在 FPGA 复合体上激活 Arm 内核(他们可能一直在那里,英特尔从未明确表示过)。

这个 frankensocket 的 FPGA 部分的目标应用程序是在可编程逻辑上运行 Open vSwitch 虚拟切换,使其运行速度提高 3 倍以上,并允许 Xeon CPU 托管 2 倍的虚拟机,因为 Open vSwitch没有在至强核心的软件上运行。我们估计组合设备的成本为 6,500 美元,当时 Xeon 部分的成本约为 2,600 美元。据我们所知,这个想法并没有席卷市场,后续也转向卸载虚拟存储、虚拟网络和交换以及加密/解密到 DPU(一种美化的 SmartNIC,取决于你想要什么定义使用)。

AMD 十多年来一直在考虑这种混合 CPU-GPU 计算方法及其异构系统架构,甚至在一些服务器部件中实现了它们,并且显然已经为 PC 和大批量定制游戏机芯片做到了这一点。在一定程度上,Infinity Fabric 互连是 HSA 的一种实现。

AMD 可以将整个 CPU 和整个 FPGA 集成在一起——由用于 CPU 计算的 frankensocket、用于 FPGA 可编程逻辑的小芯片以及它们两者的共享内存和 I/O 集线器组成——这很有趣,因为它可以提供连贯的共享插槽内跨 CPU 和 FPGA 容量的内存。使用 Infinity Fabric 链接,它也可以跨socket完成。正如我们所建议的,使用 Infinity Fabric 交换,它可以跨机架甚至跨行完成。这是一个强大的想法。

其中任何一个问题都是锁定任何socket中的配置。CPU 与 FPGA 可编程逻辑的比例会因应用、行业和客户用例而异。而且,如果您将 GPU 加入其中,您就会有许多不同的变量可供选择,实际上,每个芯片都会及时成为特定客户的定制部件。你可以为超大规模和云建设者这样做,因为数量值得,但如果 AMD 想把它卖给其他服务提供商和大型企业,它必须选择一些 SKU,而且它所做的任何事情都可能不是最理想的。

Nvidia 并没有用到任何 FPGA ,除了可能用于模拟自己的芯片(如果它在其“Selene”超级计算机上进行所有模拟和验证,可能甚至没有),该公司的联合创始人兼首席执行官 Jensen Huang对此并不伪言。 但英特尔收购了 Altera 而现在 AMD 又收购了 Xilinx 的事实至少表明,FPGA 在现成 CPU 上运行的编程语言和用于实现某些功能或软件堆栈的定制 ASIC 之间的边界仍然具有吸引力。

我们一直认为,一个平衡的系统将包括所有三个计算引擎,例如现代交换机。您需要用于快速串行处理和大内存占用的 CPU,用于快速并行处理和高内存带宽的 GPU,以及用于加速硬编码算法的 FPGA,这些算法在 X86 或 Arm 处理器上的软件实现中可用,但在由于这些算法变化太大,或者因为您无法支付热量或成本溢价,因此无法保证定制 ASIC 的数量。

我们认为将 FPGA 可编程逻辑嵌入到每个 CPU 插槽甚至每个 GPU 插槽中作为这些设备的一种暂存器,这样它们就可以拥有散列算法、加密算法、安全协议或虚拟开关的元素,这在 FPGA 中绝对是一件有趣的事情(或部分完成),而不是在 CPU 或 GPU 芯片上的逻辑块中,在添加到 CPU 或 GPU 插槽的单独小芯片中,或在 CPU 上运行的更高级别的软件中。

多年来,IBM 已经在其 System z 和 Power 处理器中添加了此类暂存器(请注意,不是用 FPGA 逻辑实现的),允许它们实现新指令或创建复合指令,这些指令在芯片流片了。这不会是芯片/插座空间的很大一部分。

我们绝对认为很快就会有 Versal FPGA 混合使用 Xen X86 内核交付,我们认为 Vitis 堆栈将进行调整,以便能够将代码编译到这些内核以及 Versal 计算的其他元素复杂的。我们认为 AMD 不太可能将 X86 或 Arm 内核引入其 GPU,但我们确实认为该公司可以创建一系列混合了 FPGA 和 X86 内核的 SmartNIC 和 DPU——如果它的话,甚至可能是婴儿 GPU具有架构意义。AMD 是 SmartNIC 的新手,但 Xilinx 不是,尤其是在 2019 年 4 月收购 Solarflare 之后。

这让我们在这个探索中有了更多的想法,这是我们自混合旅程开始以来一直鼓励计算引擎制造商做的事情。似乎很清楚的是,我们将在插槽内或跨插槽拥有小芯片组件,并在它们之间进行某种互连。对于 AMD 和 Xilinx,它将是 Infinity Fabric,并且可能在其之上支持 CCIX 或 CXL 协议,如果 Infinity Fabric 确实是 PCI-Express 的超集,其中融入了 AMD HyperTransport 功能,这应该是可能的。想要将许多东西打包到混合计算引擎中并制作一个大socket有很好的延迟原因。但也许在后摩尔定律时代,要有最好的答案。

所以,我们希望看到 AMD 这样做。创建一个高性能的 Zen4 内核,去掉所有矢量引擎,并在芯片上放置更多内核或在芯片上放置更多更快的内核。我们选择后者是因为在这个 CPU 上,我们想要惊人的串行性能。我们想要这个东西上的 HBM3 内存,我们想要至少 256 GB 的容量,这应该是可能的。大量的 Infinity Fabric 链接从单个插槽中脱落。最高500瓦,我们不在乎。现在,在系统板左侧的旁边,我们想要一个杀手级“Aldebaran” Instinct GPU,而 MI200 的一半可能就足够了——Instinct MI200 在一个封装中具有两个逻辑 GPU– 或者可能需要配备四台毕宿五发动机的完整 MI300。这将取决于客户。在 GPU 周围也放置大量 HBM3 内存。在 CPU 的右侧,我们想要一个 Versal FPGA 混合,其中包含更多的 Infinity Fabric 链接,去掉了 Arm 内核,保留了 DSP 引擎和 AI 引擎,以及所有硬块互连的东西。这是一个集成的可编程逻辑引擎,在需要时可以像 DPU 一样工作。Infinity Fabric 通道可以从这里断开以创建集群,或者直接断开 GPU 和 CPU,但我们喜欢在 DPU 上实现 Infinity Fabric 交换机的想法。

现在,利用这些计算引擎模块,允许客户在系统板上、机架内和跨行配置他们需要的比率。也许有一个客户需要为每个 CPU 配备四个 GPU,为每个具有单个 Infinity Fabric 交换机的复杂系统配备两个 DPU。在另一种情况下,可能由于延迟原因,GPU 更靠近 DPU(想想现代超级计算机),而 CPU 挂在 GPU 的一侧。或者 CPU 和 GPU 都从 DPU 集线器发出。或者 CPU 处于环形拓扑结构中,而 GPU 处于机架内的胖树中。将其全部设为 Infinity Fabric,并使拓扑在 Infinity Fabric 交换机上可更改。(不同的工作负载需要不同的拓扑结构。)每个组件都经过高度调整、精简,完全没有冗余,硬件与软件绝对协同设计。

在AMD未来的系统中,除了集群中的头节点以外,没有 InfiniBand 或以太网,它们只是 Epyc CPU-only 服务器。

如果我们是 AMD,我们会这样做。


关键字:FPGA 引用地址:​AMD将用FPGA干什么?

上一篇:华尔街这样看英特尔收购高塔:会拖累利润率
下一篇:疫情升级,苏州工业园区多家电子厂员工确诊

推荐阅读最新更新时间:2024-11-07 17:56

基于FPGA设计航空电子系统
  基于现场可编程门阵列 (FPGA) 核心的实施体现了先进的现代航空电子设计方法。   这项技术具有多种优势,如废弃组件管理、降低设计风险、提高集成度、减小体积、降低功耗和提高故障平均间隔 时间(MTBF)等,吸引着用户将原来的系统转移到此项技术。MIL-STD-1553 的市场可能随着这种趋势而繁荣起来 ;事实上,某些客户已经觉得这项技术的实施有点姗姗来迟。   MIL-STD-1553 核心带来了多种好处,它代表着彻底告别了 ASIC 传统。FPGA 中加入一项知识产权核心,就获得了一种与众不同的特性,而成为一个非常专业的高级子系统。这为增强 MIL-STD-1553 的设计提供了千载难逢的机会。    系统设计面临的
[工业控制]
电子技术解密:简化FPGA电源设计方案
  FPGA即现场可编程门阵列,它是一种多电源需求的芯片,在 电子技术 设计中常见电子芯片,那么在对其供电的时候肯定对电源设计的要求也是严格的,多电源设计是复杂的,我们要FPGA高效运行需要简化电源设计,节约成本,下面即是具体的电源设计方法。   FPGA是一种多电源需求的芯片,主要有3种电源需求:   1.Vccint核心工作电压   一般电压都很低,目前常用的FPGA都在1.2V左右。为FPGA的内部各种逻辑供电,电流从几百毫安到几安不等,具体取决于内部逻辑的工作时钟速率以及所占用的逻辑资源。对于这个电源来说,负载时一个高度容性阻抗,对电源的瞬态响应要求很高,而且由于驱动电压低工作电流大,对PCB的布线电阻非常敏感,需要特
[电源管理]
电子技术解密:简化<font color='red'>FPGA</font>电源设计方案
基于FPGA的数字示波器图文显示系统的软硬件设计
应用FPGA设计功能电路时,可以让人们的思路从传统的以单片机或DSP芯片为核心的系统集成型转向单一专用芯片型设计。传统的示波器虽然功能齐全,但是体积大、重量重、成本高、等一系列问题使应用受到了限制。有鉴于此,便携式数字存储采集器就应运而生,它采用了LCD显示、高速A/D采集与转换、ASIC芯片等新技术,具有很强的实用性和巨大的市场潜力,也代表了当代电子测量仪器的一种发展趋势,即向功能多、体积小、重量轻、使用方便的掌上型仪器发展。   1 系统总体设计读写   根据设计要求:在示波器上显示2个以上字符或图案,如显示0-9十个数字及英文字符、图象等,结合示波器显示原理,设计电路如图1所示。将要显示的数字或符号进行取模,得到其二进制
[嵌入式]
基于<font color='red'>FPGA</font>的数字示波器图文显示系统的软硬件设计
市场将受益于采用低成本FPGA的MIPI DSI显示屏和应用处理器
在二十世纪九十年代,PC毫无疑问是最高性价比的平台,其他领域的工程师意识到如果在他们的非PC应用中采用PC元件,他们可获益于这些低成本和高可靠性的元件。众多嵌入式设计师发扬了这种做法,为终端消费者提供更大的价值。在过去的几年里,PC已经不再是可以利用的高性价比平台。现在,智能手机和平板电脑成为了市场主宰,而PC市场正在萎缩。正如先前的设计师采用低成本的PC元件,如今的工程师同样希望使用为智能手机和平板电脑开发的元器件获得同样良好的效果。 绝大多数的智能手机和平板电脑使用MIPI标准组织定义的总线和接口。例如,显示屏显示接口称为DSI(显示串行接口),图像传感接口称为CSI-2(摄像机串行接口)。MIPI标准组织定义应用处理器和
[嵌入式]
基于CYUSB3014 USB3.0总线开发技术
   1.引言   USB(Universal Serial Bus,通用串行总线)以其无需配置、即插即用等特性获得了广泛的应用。2004年提出的USB2.0标准,传输速度最大能够达到480Mbps。但在 USB3.0标准中,它的最大传输速度几乎是传统USB2.0传输速度的10倍,达到了5.0Gbps,被定义为“超高速U S B接口”。本文基于CYPRESS的FX3系列USB3.0芯片,对USB3.0总线进行研究开发。    2.USB3.0接口芯片概述   赛普拉斯的EZ-USB FX3是新一代的USB3.0外设控制器,具有高度集成的灵活特性,允许系统设计者将USB3.0添加至任何系统。本文采用的是FX3系列USB3
[嵌入式]
华为将继续在澳大利亚裁员:英特尔与AMD纷传已获得向华为供货许可证
据路透社报道,华为澳大利亚业务部门表示,将继续削减在该国的员工人数和投资金额。 2018年,澳大利亚以国家安全风险为由禁止华为为其5G移动网络供应设备。华为批评澳大利亚此举带有政治动机。 华为澳大利亚首席企业事务官Jeremy Mitchell在一封邮件声明中说:“简单来说,对华为的5G禁令使我们裁减了1000个高科技和高薪工作岗位。我们的员工人数已经从1200人减少到不足200人,到明年这个数字还会更少。” 据环球网报道,据传英特尔已获得向中国华为供货许可证,随后该消息获得英特尔方面证实。此外,有供应链公司人士于昨(21)日晚间透露,英特尔方面向该公司表示,已获得向华为供货许可,因此该供应链公司已在继续推进华为笔电专案。据悉,英
[机器人]
Molex 宣布收购 BittWare公司
( 新加坡 – 2018 年5月29日) 电子解决方案领域全球领先的制造商 Molex 宣布收购 BittWare, Inc.,后者是一家全球领先的计算系统的提供商,专业提供现场可编程门阵列 (FPGA),产品可部署在数据中心的计算应用以及网络数据包的处理应用中。 Molex 高级副总裁 Tim Ruff 表示:“在众多最优秀FPGA 计算平台开发商中,BittWare 引入的板件等级的计算技术、集成系统和软件上的专业技术具有极大的广度,给人留下深刻的印象。” Molex 旗下公司 Interconnect Systems International 的总裁 Mark Gilliam 表示:“此次收购扩展了 Mole
[嵌入式]
Molex 宣布收购 BittWare公司
对标英特尔/AMD!曝联发科首款AI PC芯片准备流片
业内人士手机晶片达人爆料,联发科与英伟达一起合作的AI PC 3nm CPU这个月准备流片,预计明年下半年量产,搭载NVIDIA GPU,目前计划采用这颗芯片的客户有联想、戴尔、惠普和华硕等等。 分析师指出,联发科与英伟达的合作属于优势互补,尤其是在GPU和 AI计算能力方面,双方合作可以让联发科利用英伟达在AI和图形处理领域的先进技术,加速其产品的市场推广和应用普及。 并且联发科联发科在成本控制方面表现出色,这使得其产品在价格敏感的市场中具有更高的竞争力,更有利于抢占英特尔和AMD等传统巨头的市场份额。 展望未来,PC市场正逐步迈向Arm与X86双强对峙的新时代,微软高层预测,到今年年底,基于Arm架构的笔记本出货量将达到100
[嵌入式]
对标英特尔/<font color='red'>AMD</font>!曝联发科首款AI PC芯片准备流片
小广播
最新半导体设计/制造文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 市场动态 半导体生产 材料技术 封装测试 工艺设备 光伏产业 平板显示 EDA与IP 电子制造 视频教程

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved