未来,不能只靠芯片了!
来源:内容由半导体行业观察(ID:icbank)编译自imec,谢谢。
为了支持未来如半自主、上下文感知、支持 AI 的数字双胞胎,现代计算等应用,系统需要在性能上实现超越传统摩尔定律扩展的数量级改进。
在本文中,imec 的 Arindam Mallik、Boris Leekens 和 Eric Mejdrich 就如何实现这一雄心勃勃的目标给出了他们的看法。在他们看来,系统级方法、软件到晶体管的协同设计优化循环、对新计算能力的并行探索以及多元化的人员和能力,对于实现单位总拥有成本所需的性能飞跃至关重要。
性能飞跃的必要性
在几分钟内从一滴血中分析整个基因组或蛋白质标记分析,同时将成本降低到几美分;在高度动态和详细的 AR/VR 环境中流畅地交互;依靠半自主、情境感知的 AI 个人助理来监控我们的人类数字双胞胎:通过混合高性能计算 (HPC) 和人工智能系统来改善我们生活的可能性似乎是无穷无尽的。
然而,它们至少在一个方面受到限制:当今计算系统的处理能力和不断增加的成本。挑战绝非微不足道,因为这些新应用需要在控制成本的同时,在性能和能源效率方面实现数量级的改进。
我们无法通过传统的扩展,用当前一代的高性能/AI 硬件构建如此强大的系统。我们无法通过简单地添加更多处理器内核和内存设备来实现我们的目标:系统占用空间、能耗和成本的激增不再合理。
但为什么我们不能像过去那样扩展今天的系统呢?基本障碍是什么?在考虑总拥有成本的同时,我们可以采取什么方法来实现计算能力和能源效率的非线性增益?
系统扩展墙的兴起
50 多年来,根据摩尔定律(晶体管数量在相同的硅面积上翻倍,成本相同,大约每两年一次)和登纳德定律(随着晶体管变小,功率密度保持不变)的缩放支持了逐步改进以一致的成本提高系统性能。但十多年来,很明显受这些定律启发的维度缩放不能再用于提供未来应用程序的系统缩放期望。
这源于我们称之为缩放墙的几个因素——在历史水平上继续尺寸、内存/带宽、功率/热和成本缩放的障碍。
虽然同一硅片面积上集成的晶体管数量大约每两年翻一番,但该行业在复杂的系统架构中面临着异常高的成本、速度和功耗障碍。例如,在传统的冯诺依曼计算架构中,片上高速缓存容量的增长跟不上逻辑的发展,以足够的速度将数据馈送到逻辑核心变得越来越具有挑战性。除了内存/带宽墙外,漏电问题还破坏了 Dennard 缩放比例,导致散热问题和频率停滞,而制造最新节点的成本却飙升。
在架构级别,将复杂的内存层次结构、多核架构和特定领域的计算加速器 (xPU) 放在单个片上系统上已成为克服这些扩展壁垒的一种方法。但即使在这个多核时代,随着高级节点晶体管的不断扩展,当今处理单元的性能、功耗、面积和成本 (PPAC) 扩展也开始达到饱和。
图1 – 经典冯诺依曼处理器中晶体管数量、内核数量、功耗、CPU 频率和片上缓存容量的演变
在日益昂贵的世界中解决“创新者的困境”
除了这些挑战之外,还有巨大的成本缩放墙,我们可以看到“更快、更便宜”的“快乐缩放时代”已经结束。
半导体界过去常常狭隘地考虑成本计算。对于每一代新技术,分析表明相对成本/Si mm 2会降低,正如摩尔定律所预测的那样。但由于半导体制造技术和系统架构日益复杂,这不再转化为总成本的降低。除了新技术节点中封装硅的直接成本上升外,设备维护和冷却以及系统生命周期内的功耗等因素也在推高总拥有成本。
因此,单位总拥有成本的性能正在下降,对于相同的物理占用空间,系统变得越来越昂贵。
所有这些因素都导致了所谓的创新者困境:所有公司最终都面临着与传统业务一起开发和投资颠覆性创新的挑战(即那些基于不改变市场价值主张的持续技术的创新)和将这些创新成功地推向市场。如今,考虑到每总拥有成本 (TCO) 的性能现实,该行业面临的挑战是继续推动我们在 AI 和 HPC 中看到的同样巨大的增长率。将这个指标提高几个数量级将是未来的主要驱动力。
跨系统堆栈的共同优化
我们坚信,只有利用从算法到核心设备组件的整个系统堆栈的创新,才能实现前所未有的计算收益。此外,这些创新应该从一开始就共同设计,以确保获得最佳的 TCO 收益。
这些原则指导 imec 的计算系统架构 (CSA) 活动。
从下到上
系统级思维涉及对自上而下系统架构方法的基本信念。传统上,许多发展都是由摩尔定律扩展的进步推动的:新的晶体管架构为新设备铺平了道路,然后,在系统堆栈的更高层,为性能更好的电路、存储器和处理器内核铺平了道路。然而,使用纯粹的自下而上的方法限制了在整个系统中利用协同设计的整体机会。
图 2 – 从传统的自下而上到自上而下的方法
系统级方法包含这样一个事实,即应用程序需求必须驱动解决方案。我们让目标设备在组件和系统级别推动创新,而不是解决现有硬件的问题。我们正在开发一种思维方式、框架和方法,以实现跨整个堆栈的连续应用程序到设备的协同设计。
有影响力的相关应用程序将推动系统开发,预测未来几年行业和社会的需求。
架构到技术的优化循环
开发未来计算系统架构的方法从了解目标应用程序的要求以及关键的底层工作负载和算法开始。
如果我们将全基因组的“快速”分析作为目标应用,合适的工作量可能是遗传缺陷的分类。接下来,我们通过设想目标应用程序的软件、计算系统和关键设备技术构建块的外观来考虑完整的系统堆栈:我们定义不同抽象层所需的创新,包括算法、架构建模、性能分析、实施。
然后,架构建模和分析会就系统级别的预期性能(根据 TCO)以及如何改变我们的“轨迹”以实现目标性能提供反馈。系统级的好处将是不同抽象层的各种交叉优化的结果。这些优化将相互加强,理想情况下会导致性能的非线性改进。这是从根本上迭代的协同设计循环。
来自模型的关键性能/TCO 指标指导我们进行下一步。这些步骤的范围从重构算法到评估不同的系统设计,甚至可能是原型制作:为可扩展、可靠且节能的架构开发概念证明,以提供下一代应用程序所需的高性能计算。
基本工具箱项目:模型、后摩尔技术、研究能力
这些挑战并非微不足道,需要一支具有不同能力的团队来应对。现有模型不够强大,无法从新的系统定义中建模和提取性能信息。因此,我们开发了新的缩放建模和仿真功能,旨在在准确性和速度方面超越当前模型。
这些模型本身结合了技术构建块的特征——将拦截系统扩展挑战的新技术能力,从封装到计算元素再到软件创新。为了验证我们模型的结果,我们希望在系统开发的所有级别构建关键技术构建块的原型。技术不仅包括硬件元素,还包括算法、中间件、编程模型和网络堆栈,一直到开发人员编写软件和用户与设备交互的层。
在基础技术方面,我们着眼于现有的基于硅的技术(例如先进的光学 I/O 和 3D 技术)并探索新兴的 AI 算法和后摩尔计算替代方案。其中包括量子计算、光学计算范式和超导数字计算——所有这些都有望在功率效率、计算密度和互连带宽方面实现前所未有的改进。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3224内容,欢迎关注。
推荐阅读
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
推荐帖子