英特尔的10nm之路:2010至2019年
来源:本文翻译自「anandtech」,谢谢。
英特尔的制造历史非常成功。垂直整合意味着它可以节约成本,但也可以根据自己的需要调整生产工艺,而不需要依赖外部公司进行调整。早在2005年65nm工艺之后,英特尔就采取了“Tick-Tock”战略,这意味着英特尔将在新一代产品上发布新的工艺技术或新的处理器微架构。这使英特尔既可以从新的微架构中获得更快的处理器设计的好处,也可以从更小的工艺节点中获得好处,从而允许更低的电压、更低的功耗和更小的晶体管来添加新功能。
Intel's Core Architecture Cadence | |||||
Core Generation | Microarchitecture | Process Node | Release Year | ||
2nd | Sandy Bridge | 32nm | 2011 | ||
3rd | Ivy Bridge | 22nm | 2012 | ||
4th | Haswell | 22nm | 2013 | ||
5th | Broadwell | 14nm | 2014 | ||
6th | Skylake | 14nm | 2015 | ||
7th | Kaby Lake | 14nm+ | 2016 | ||
8th | Kaby Lake RefreshCoffee LakeCannon Lake | 14nm+14nm++10nm | 201720172017* | ||
9th | Coffee Lake Refresh | 14nm++ | 2018 | ||
Unknown | Ice Lake (Consumer) | 10nm class | 2019 | ||
Cascade Lake (Server)Cooper Lake (Server)Ice Lake (Server) | 14nm class14nm class10nm class | 20192019?2020 | |||
* Single CPU For Revenue** Intel '14nm Class' is the new designation, moving away from '+' |
在此期间,英特尔举行了一年一度的英特尔开发者论坛会议,即IDF。IDF是英特尔展示其最新和最伟大的产品,以及谈论未来前景的一场精彩展出。它还允许记者和开发人员发现英特尔为加速计算机代码和项目而构建的有趣的技术优势和平台,并能够充分利用每一代产品的额外性能或额外能力,使产品平台达到顶峰,并讨论未来的产品线和功能。
如图所示,每个组合'Tick-Tock'被设计为两年左右。Tick是新的工艺节点,Tock是新的微架构。那个时代的著名评论之一是“真正的人并不tick tock,而是tock tock tock”(‘real men don’t tick tock, they tock tock tock’)。这意味着,从长远来看,微架构的改进比新工艺节点更重要。
值得注意的是,英特尔通常会把他们的开发和研究模型用于下一个十年的产品,提供可能导致下一个计算范式的可见性和实现。在这张2010年投资者大会上的幻灯片中,我们看到英特尔在2011年开发了22nm,预计2013年将达到“15nm”,2015年将达到“11nm”,2017年将达到“8nm”。这些名称不同于我们今天所称的14nm、10nm和7nm,这可能是由于“国际半导体技术路线图”(ITRS)报告最初将这些节点列为15、11和8。它很快就切换到了下面的幻灯片:
在这里,我们可以看到英特尔正在进行的一些工作:3D晶体管、计算光刻(computational lithography)、互连(interconnects)、III-V族半导体材料、含锗的高K金属栅极(High-K metal gates with Germanium)、密集SRAM、光学互连(Optical Interconnects)、材料合成和nm线。到2019年,这些项目中的全部、某些、或少数几个仍在发挥作用。
英特尔经常利用这些技术来衡量其在市场上与代工企业(如台积电、GlobalFoundries和三星)竞争时的行业实力。在这张2014年的幻灯片中,我们看到英特尔在硅—锗应变硅(Silicon-Germanium strained silicon)领域领先3.25年,在高K金属栅极技术(High-K metal gate technology)领域领先3.75年,在三栅晶体管(tri-gate transistors)领域领先3.5年,在向FinFET过渡方面也是如此。英特尔在22nm推出了FinFET,而业内其他公司则在16nm推出了FinFET。
值得注意的是,在2014年的图表中,英特尔将14nm列为2014年的技术,将10nm列为2016年的技术。
从2010年开始,英特尔为其微架构引入了Core品牌,这种架构在今天仍然很流行(尽管经过了许多代的改进)。在2012年左右,英特尔预计至少还会在未来数年里保持这种状态,从32nm迁移到22nm,然后再迁移到14nm和10nm。不幸的是,英特尔推迟了14nm的上市。
尽管最初是2013年的产品,但是14nm的良品率低于目标,与22nm相比,很明显,向下一代FinFET的跃迁越来越难以实现,密度的增加、有功功率的降低和“性能/瓦特”值的提高都随之变得越来越难。2013年11月的此时,英特尔预计14nm第一季度的良品率将追上22nm。然而,14nm并不只是推迟到2014年初而已。
2014年中期,英特尔公布了这一图表,图表显示,即使有预期的进展,14nm也无法在2015年达到22nm的良品率。然而,这里的关键是PRQ日期(生产发布资格日期),这意味着英特尔非常满意,产量足够高,芯片性能适合零售产品。英特尔在2014年8月深入研究了它的14nm技术,Ryan在这里写了一篇很棒的文章。其中的细节是关键,可以让我们真正看出为什么14nm比22nm更难。
14nm的首批产品是'Broadwell-Y'系列处理器的最小设计。由于新工艺的功耗降低,这些4.5W处理器被用于支持更轻薄的移动设备。最终,这些芯片更易于制造(良品率随着芯片尺寸的增大而降低),使英特尔能够开始销售处理器,尽管缺陷率高于预期。这些处理器于2014年9月/10月正式上市。
最终在2015年,我们从英特尔的14nm工艺中看到了更大的东西。2015年6月,我们看到了第一代14nm处理器的中端笔记本和笔记本处理器的发布,2015年6月推出了更高性能的Core i7处理器。英特尔确实在2015年6月推出了两款台式机处理器,作为Broadwell系列的一部分,即Corei7-5775R和Corei5-7675R,但它们并未广泛使用,寿命也很短。更加成功的第二代14nm处理器Skylake于2015年8月在台式机上推出,搭载了几个高端部件,随后在该年的第三季度/第四季度推出了剩余产品。
在业内人士看来,英特尔在Broadwell和其第一代14nm工艺上遇到如此大麻烦的主要原因之一是集成显卡。报告指出,英特尔公司14nm的高性能晶体管并不适合最新显卡库的高频设计,有一份报告称,英特尔已经承诺了一定的显卡性能水平,但未能实现,最终导致推出的产品的显卡性能低于预期。随着时间的推移,英特尔已经改进了其14nm工艺以恢复该频率(这需要几代产品),尽管这一问题也将在我们关于10nm工艺的讨论中。
这是英特尔2015年的官方路线图:
在这里,我们看到了2014年底推出的用于移动处理器的14nm Broadwell,以及Broadwell对传统台式机的完全拒绝,直到2015年第二季度与Skylake一起直接进入第二代14nm。现在我想让大家注意绿色的部分。根据英特尔的Tick Tock流程,第一代10nm工艺Cannon Lake将很快跟随Skylake,于2016年第二季度发布。
如果英特尔的目标是在2016年第二季度推出10nm工艺产品,那在当时似乎是非常合理的,因为在2015年初,英特尔在2月份的国际固态电路会议(ISSCC)上进行了一系列惯常的讨论和演示。作为这些演示的一部分,10nm是其中的关键部分,英特尔表示,虽然10nm的掩膜层数将超过14nm,但英特尔预计,10nm上市时不会出现14nm的延迟。我们当时特别报告说:
”我们被告知,英特尔已经了解到14nm开发复杂性的增加需要更多的内部测试阶段和掩模,这是延迟发布的主要原因,同时也需要足够的良品率来推动发布。因此,英特尔正在改进每个阶段的效率测试,并加快晶片及其测试协议的传输,以避免延迟。英特尔告诉我们,由于这些调整,他们的10nm试制线比14nm快50%。因此,虽然在10nm处增加的掩膜步骤最终会增加固定成本,但英特尔仍然表示,他们的方法可以降低每个晶体管的成本,而不需要全新的图案化工艺。
在这一点上,关键部分是英特尔已经确定了它的14nm在哪里出了问题,并准备好在其10nm的开发中消除这些瓶颈。英特尔表示,10nm工艺将伴随着创新,然而,但超过7nm将需要英特尔逐步推出的新材料和工艺。在ISSCC之后,英特尔于2015年中后期推出了14nm的Skylake。
英特尔在2016年3月的一份报告中显示,10nm Cannon Lake尚未准备就绪。英特尔在其年度10-K文件中发布了以下声明:
作为我们研发工作的一部分,我们计划为台式机、笔记本电脑(包括Ultrabook设备和二合一系统)和Xeon处理器定期引入一种新的英特尔Core微架构。我们希望能够延长我们的14nm和下一代10nm工艺技术的使用时间,进一步优化我们的产品和工艺技术,同时满足每年产品上市的节奏。
这意味着英特尔在为14nm延长产品周期。英特尔著名的Tick-Tock节奏曾为他们服务过好几个周期,现在Tick-Tock正被拆分为“流程架构优化”(Process Architecture Optimization)策略。在这个标题下,英特尔将在一个给定的工艺节点下发布三个版本的处理器:一个专注于迁移到新工艺,一个引入新的微架构,一个优化流程和架构。
对于路线图和产品线,这意味着第二代14nm的Skylake将过渡到第三代14nm的KabyLake。官方将这种工艺优化命名为“14nm+”,加号表明它有一点额外的东西。很明显,新工艺改善了晶体管通道的应变以及其他一些微小的改进,使英特尔能够在不增加电容的情况下从设计中多提取100-300 MHz。整体改善可增加12%的驱动电流,从而提高性能。
Kaby Lake于2016年8月正式推出,再次从4.5W部件开始,台式机处理器将于2017年1月推出。
2017年伊始,英特尔在CES上举办了一场关于VR的演讲。在快结束的时候,CEO展示了一台二合一笔记本电脑,他说是10nm工艺。这是我们见过的第一次10nm的展示。设备没有运行任何东西,只展示了几秒钟。
这是在演讲的前两分钟内发生的,前首席执行官Brian Krzanich明确表示英特尔将在今年年底前出货10nm。
不久之后,在2017年2月的英特尔投资者日,英特尔对来年的产品组合投下了一颗重磅炸弹。英特尔宣布,数据中心将首先迁移到新的工艺节点(后来澄清为10 nm+),并将在14nm处对其消费产品线进行另一次调整。在一代产品中,英特尔的“流程-架构-优化”得到了双倍的优化。
这将标志着英特尔的第四代14nm产品Coffee Lake于2017年5月正式推出。第四代14nm甚至被贴上了“14nm++”的工艺标签,排在Broadwell (14nm)、Skylake (14nm)和Kaby Lake (14nm+)之后。我们仍在等待第一代10nm的消息,Cannon Lake预计将首先在手机处理器上亮相。请记住,最初预测的10nm工艺是2015年,所以英特尔在这一点上晚了两年。
在2017年2月的投资者日之后,英特尔于2017年3月底举办了第一次英特尔制造日。英特尔详细介绍了其10nm计划,特别是将一些新技术设计集成到其10nm工艺中。当时的首席技术官Stacy Smith、Mark Bohr、Murthy Renduchintala博士、Ruth Brain和Kaizad Mistry做了报告,重点介绍了英特尔的最新技术和代工工艺。
Mark Bohr关于摩尔定律的演讲
我们将在下一页详细介绍10nm的具体细节,然而制造日受到了媒体和分析师的热烈欢迎。英特尔解释说,它专注于晶体管密度的改善,展示了鳍片间距、金属间距、单元高度和栅极间距的改进,以及单个虚拟栅极(single dummy gates)和有源栅极上接触(Contact Over Active Gate,COAG)等新技术。关键的一点是,英特尔的目标是采用10nm工艺,达到每平方毫米1亿个晶体管,这将使其能够保持领先其他代工厂产品3.5年的优势,英特尔预测他们自己的10nm产品将优于台积电/GF/三星的7nm。媒体中的一些人对这些数字感到震惊,而其他人则对此没什么印象,他们指出是英特尔的唠叨啰嗦才让这些数字有意义。
另一个值得注意的是,在对10nm制程保持沉默一段时间后,英特尔开始向市场开放。然而,公司很快又恢复了平静。
在制造日之后,我们看到了Coffee Lake的发布,但是关于10nm的下一次更新是在8月中旬,Intel宣布了第二代10nm的名字:Ice Lake。
Ice Lake处理器系列是第8代Intel®Core™处理器系列的后续产品。这些处理器采用了英特尔行业领先的10nm+工艺技术。
正如当时所提到的,宣布n+2处理器家族的名字似乎有点奇怪,尤其是考虑到第一代10nm处理器已经推迟了至少两次,而且还没有发布。后来事情变得明显了,2018年中期,第一代10nm产品Ice Lake命名被推出,用于英特尔Xeon服务器系列产品。
今年9月,英特尔在北京再次举办了“制造日”活动,再次讨论了其在工艺技术领域的领先地位和即将到来的10nm“革命”。除了在舞台上和活动的分组会议中展示的10nm晶圆外,此次活动没有任何新消息。
基于这个晶圆,我们估计2 + 2(带有GT2显卡驱动的双核)配置的芯片面积约为70.5 mm2。事实证明这是一个非常准确的估计。 尽管如此,模式已经确定:我们应该会看到2+2配置的10nm芯片作为第一个10nm芯片上市。在这一点上,我们仍然预计英特尔的Cannon Lake将是一个完整的产品系列的一部分。
9月之后,英特尔再次陷入了沉默。2017年剩下的日子来来往往,公司几乎没有透露多少信息。到了12月,除了在IEDM会议上更新了部分10nm工艺设计,英特尔的研发工作没有任何消息,英特尔似乎没有实现2017年推出10nm工艺的目标。1月初是一年一度的国际消费电子展(CES),英特尔在展会上做了主题演讲,所以届时我们可能会听到一些东西。
由前首席执行官Brian Krzanich主持的英特尔CES 2018主题演讲非常盛大。会上提到了最近刚刚宣布的Spectre和Meltdown安全问题,但这次活动的重点是英特尔的客户,以及华丽的无人机、3D视频、人工智能和LED。
演讲提到了英特尔在神经形态计算和量子计算方面的工作,并在舞台上展示了一个量子芯片。尽管这位首席执行官在2017年国际消费电子展(CES 2017)上宣布将在年底前出货,但他在2018年的整个主题演讲中都没有提到这一话题。有些事情正在酝酿中。我们和英特尔的发言人说了几句话,他们告诉我们第二天早上8点在英特尔的展台进行一次小型演讲。
在这个小型演讲中,客户端计算组的高级副总裁Gregory Bryant花了10分钟时间讨论了英特尔如何实现其为用户带来最佳计算体验的目标。老实说,这是一堆废话。然后,在10分钟演讲的最后一句话中,他讲到了10nm的最新消息,称公司已经在2017年出货以获取收入。然后演讲结束了,没有详细说明细节、范围、客户或任何东西。
高级副总裁Gregory Bryant简短地提到了10nm
我们都认为这有点奇怪。 我们知道Cannon Lake是一款消费类产品,所以这并不是英特尔在发布服务器处理器之前就将其交付给顶级客户的情况(这是一种常见的做法)。但英特尔在这一点上给我们的配置、性能、定价的细节非常少。对于一家为自己的工程技术实力感到自豪的公司来说,这是一份极其低调的声明。我们确实非常怀疑。
下一次提到Cannon Lake是在2018年2月,当时英特尔在官方文件中意外披露,它更新了两个Cannon Lake处理器的微代码。此更新旨在缓解某些Spectre和Meltdown漏洞,以某种方式确认该系列处理器的硬件设计已完成。
同样在2018年2月的ISSCC会议上,Intel再次展示了10nm。这次演讲的焦点再次集中在密度上,在这个例子中,SRAM单元展示了0.63x的微缩。
几个月后,也就是2018年5月,我们仍然没有收到英特尔的任何消息。英特尔要在2017年“出货”,但到2018年中期仍然没有产品,这让人更加怪异。直到我们看到联想(Lenovo)在中国销售的一款教育类笔记本电脑的广告,我们才相信它真的存在。
联想IdeaPad 330-15ICN包含i3-8121U,它仍然是迄今为止唯一一款“推出”的Cannon Lake处理器。 这台15.6英寸的机器体积庞大,配有一块小电池和一块13×7英寸的显示屏,是为教学设计的。通常情况下,这样的教学设备不会进入零售渠道,但是由于某种原因(因为是在中国),它是向公众开放的。
该设备的配置从4GB内存和HDD,到8GB内存和SSD/HDD。 它还带有独立显卡,而不是集成显卡,根据配置价格从445美元到580美元不等。我请了一些在中国有熟人的朋友帮忙,两个月后,我们的东西到了。这就是我们今天在这里回顾的东西。但这并不是英特尔10nm产品的结束。此时,英特尔仍然没有告诉我们任何有关Cannon Lake处理器内部的信息。
直到我们主动发布了这款笔记本电脑上市的消息,英特尔才开始谈论这款处理器。 它的ARK页面(英特尔的处理器在线数据库)现在已向公众开放,并显示该处理器于2018年第二季度正式推出。这是一款双核15W处理器,其集成显卡已禁用,始终频率低于Kaby Lake 15W处理器。人们提出了许多问题,比如新的10nm工艺的纸面效率要低于上一代处理器。英特尔仍然拒绝讨论硬件的具体变化,或预期的性能数据。
后来我们证实了显卡确实是融合在一起的。英特尔的官方说法是,这款处理器是针对特定的目标市场发布的,它满足了所要求的功能。即使到了2019年,这个市场到底是什么,在什么价位,仍然是个谜。然而,一些分析人士认为,这些显卡就像一个走出门的蠢货,因为它们的良品率在经济上是不可行的,而且这种芯片对于它最终进入的产品领域在商业上没有任何意义,它进入市场只是为了兑现对投资者的承诺。
从5月到8月,英特尔没有宣布任何与10nm相关的新处理器或设备。然而,Charlie在SemiAccurate上发表的消息显示,目前提出的英特尔10nm工艺存在问题。他报告说,英特尔的Cannon Lake 10nm CPU的良品率低于10%,远低于英特尔此前预期的60%。他指出,这个过程中有几个问题远远落后于计划和预期的性能:SAQP、COAG、Cobalt和Tuning——如果不解决这些问题,每个问题都可能成为一个潜在的阻碍(我们将在下一页讨论这些问题)。构建芯片是一种多变量策略,转动一个拨盘以在一个方向上获得更好的特性可能会导致设计的其他三个属性变得更糟,找到平衡是关键。使这一过程更加困难的是半导体工厂变得激进,并且同时实施了许多变化,这一直是英特尔发布的关于10nm消息的关键部分。
Charlie的报告显示,英特尔目前设计的10nm工艺遇到了很大的困难,这是没有达到生产目标的主要原因,也是为什么迄今为止唯一的10nm处理器是一个低时钟、无显卡版本的晦涩模糊的器件。
在该报告发布后的几天内,英特尔在圣克拉拉举行了一次数据中心峰会,并宣布将以Ice Lake Xeon Scalable(Ice Lake-SP)的形式将10nm技术引入企业市场。它将在14nm的Cascade Lake(2018年,实际上到了2019年才发布)和14nm的Cooper Lake(2019年)之后发布。
英特尔此时对10nm工艺的问题讳莫如深。尽管一再要求英特尔确认他们打算在Ice Lake-SP中使用的10nm版本与已经发布的Cannon Lake相同,但英特尔的代表拒绝透露任何细节。部分原因是因为Cannon Lake是一种消费产品,而Ice Lake-SP是一种企业产品,两者永远不会相遇。
不到两周后,英特尔又发布了一项10nm的声明:公司将以NUC的形式发布10nm的Cannon Lake CPU。这款名为Crimson Canyon的新产品,本质上是上文提到的联想Ideapad笔记本电脑,但采用了迷你PC的形式。
与笔记本电脑类似,它使用Corei3-8121U作为处理器,由于缺少集成显卡,它使用R20240 AMD移动芯片进行图形处理。与笔记本电脑不同的是,它有两个SO-DIMM插槽,系统附带用于NVMe存储的M.2插槽。这款电脑的散热性能优于笔记本电脑,因为它是一款拥有更大散热空间的迷你电脑。尽管该产品于2018年8月发布,但直到12月才真正上架销售。
8月底是一年一度的Hot Chips会议,这通常是芯片讨论的热点,英特尔在会上并没有展示任何关于10nm的新东西。重要的是要记住,到目前为止,英特尔还没有公开讨论Cannon Lake的微架构或改进。9月份很安静,10月份英特尔在纽约举行了秋季PC活动。
在秋季PC发布会上,英特尔发布了第9代Core处理器,代号为“Coffee Lake Refresh”,其中包括几周后上市的Core i9-9900K,Core i7-9700K和Core i5-9600K。这些不是10nm,而是另一代14nm产品。这是用于台式机的第五代14nm产品,它表明,在一个工艺中,英特尔已经能够提高频率和效率,并将产品扩展到8个核心,超频到5.0 GHz,但这仍然与10nm无关。今年晚些时候,我们得到了10nm的更多消息。
这里有一张表记录了英特尔的14nm工艺:
Intel's 14nm Family | |||||
Generation | Microarchitecture | Process Node | Release Year | ||
1st | Broadwell | 14nm | 2014 | ||
2nd | Skylake | 14nm | 2015 | ||
3rd | Kaby Lake | 14nm+ | 2016 | ||
4th | Coffee Lake | 14nm++ | 2017 | ||
5th | Coffee Lake Refresh | 14nm++ | 2018 |
在发布14nm的第五代产品后不久,一份报告称英特尔已知的10nm设计“已死”(找不到更合适的词语)。该报告列举了英特尔设计的一些新部件的核心问题,如COAG,这些部件没达到合适的良品率。再加上英特尔自己在制造日承认,即使有完美的良品率,他们也不会期望在第三代10nm之前达到最新版14nm的性能。英特尔立即(通过Twitter)反驳自己结束了10nm的工作,声称他们在10nm上取得了良好的进展,并且持续提高良品率。同样,英特尔拒绝说明未来的10nm制造设计是否与已经推出的10nm处理器相同。
今天有媒体报道称英特尔将终止10nm制程的研发,这是不真实的。我们在10nm方面取得了良好进展。良品率正在改善,与我们在上一次收益报告中分享的日程表一致。
——英特尔新闻(@intelnews)2018年10月22日
11月相对平静,12月初,我们终于看到第一款配备Core i3-8121U的英特尔NUC设备,售价为530美元,配有8GB的DDR4和1TB的机械硬盘。2018年12月12日,英特尔举办了架构日活动,开始揭开其10nm工艺计划的面纱,以及我们对2019年的预期。
Ice Lake-U (15W) Demo Chip
这包括对其第二代10nm产品Ice Lake的长期讨论,该产品将在2019年底以15W的形式出现在笔记本电脑上,以及接下来的两代内核。
Intel Core Microarchitecture Roadmap | |||
Core Name | Year | Process Node | Improvements |
Broadwell | 2014 | 14nm | First Gen 14nm |
Skylake | 2015 | 14 nm | Single Threaded PerformanceLower PowerOther Optimizations |
Kaby Lake | 2016 | 14 nm+ | Frequency |
Coffee Lake | 2017 | 14 nm++ | Frequency |
Coffee Refresh | 2018 | 14 nm++ | Frequency |
Sunny Cove(Ice Lake) | 2019 | 10 nm | Single Threaded PerformanceNew InstructionsImproved Scalability |
Willow Cove | 2020 ? | 10 nm ? | Cache RedesignNew Transistor OptimizationSecurity Features |
Golden Cove | 2021 ? | 7 / 10 nm ? | Single Threaded PerformanceAI PerformanceNetworking / 5G PerformanceSecurity Features |
值得注意的是,第一代Cannon Lake处理器内部有“Cannon Lake”内核,而第二代“IceLake”内核中将有“Sunny Cove”内核,这比Cannon Lake所基于的第n代Skylake内核在微架构上是更激进的变化。有关Sunny Cove的详细信息有限,除非可以更多地提到核心设计的某些方面。
除了Sunny Cove,英特尔还在一些细节上提到了它的Gen11显卡架构,该架构也将在10nm上首次亮相。英特尔的一位代表说,这是英特尔在10nm上的第一个显卡架构,这基本上证实了Cannon Lake显卡设计并没有起作用。
同样在10nm上,英特尔首次展示了一种名为Foveros的新封装技术。该技术允许英特尔将芯片裸片相互堆叠,并驱动TSV(通过硅通孔)将芯片连接到电源平面上。演示芯片现在称为Lakefield,在顶部芯片上是CPU和GPU内核,底部芯片上是IO。这里的想法是,它可以为需要的产品节省x-y维度。利用这项技术,英特尔展示了其首款混合x86解决方案,其中包括一个Sunny Cove核心和四个Atom核心,全部采用10nm技术。该芯片预计将于2019年底投产。
作为这次演讲的一部分,英特尔透露了一些它的生产命名方案。根据图表,英特尔正在研究10nm的几个版本,称为P1274,P1273,P1222,P1274.7和P1274.12。
这些是制造Ice Lake和Foveros的10nm产品线,10nm的未来版本(P1274.7,P1274.11),7nm的未来工艺节点(P1276,P1275),以超越7nm的工艺名称。根据Wikichip的说法,用于Cannon Lake的官方工艺名称为P1274,表明Ice Lake和Cannon Lake共享相同的工艺。然而,在这个时候,看起来英特尔正在放弃10nm及以上产品的“+”,它们都属于“10nm”类,所以无法确认Cannon Lake和Ice Lake是否有相同的设计布局规则。
架构日还展示了一款基于10nm芯片Ice Lake Xeon Scalable的服务器。据报道,这些产品只是几周之前才进入英特尔实验室,因此在调优方面相当粗糙。这是英特尔承诺的2020年企业级芯片。
正如你可能预料的那样,英特尔拒绝就此芯片的核心数量、预期功耗等发表评论。通常,英特尔的企业级芯片,即使是低核心数的型号,也在250mm2或更高的范围内,这与双核Cannon Lake设计的70.5mm2相比有了相当大的飞跃。
进入2019年,自从英特尔表示他们在2017年底交付10nm工艺以实现营收已经过去了整整一年。到目前为止,英特尔在2019年的CES展会上重申了架构日的声明,并推出了一款基于10nm工艺、针对5G和人工智能工作负载的新“Snow Ridge”处理器设计。英特尔还澄清说,预计到2019年底,人们将在笔记本电脑中看到10nm芯片。我们预计这意味着台式机处理器将在2020年与企业处理器一起推出。
这就是我们今天在英特尔10nm路线上的位置。
英特尔10nm Cannon Lake芯片设计
芯片测量
除了在2017年国际消费电子展(CES)上短暂展示了一款据说是搭载了早期Cannon Lake的笔记本电脑之外,人们第一次真正看到Cannon Lake芯片是在英特尔 2017年9月的中国版技术与制造日期间。英特尔展示了Cannon Lake 10nm芯片的完整的300mm晶圆,幸运的是,我们能够得到一些明确的芯片定义。
基于这片晶圆,我们估计该芯片的裸片面积约为70.5 mm2,当时我们假设这是一种带有“GT2”显卡的双核设计,即标准的显卡配置。联想Ideapad在中国上市后,TechInsights的专家们拿到了一个器件,于是开始着手分析。
照片来自Techinsights,尺寸由WikiChip测量
事实证明我们对于裸片区域的估计差的不多。系统中芯片的这张照片(右侧有IO裸片)给出的芯片面积为70.52mm2,完全在可接受的误差范围内。该芯片确实有两个Cannon Lake CPU内核,以及集成显卡上的40个Gen10执行单元,尽管显卡是禁用的。这符合2+2设计。
与英特尔以前的双核设计相比,这是英特尔迄今为止最小的双核设计。最接近的是Broadwell,面积为82mm2,但与Skylake相比,这款芯片的集成显卡比例更低。
最终的度量标准是:每平方毫米的晶体管数量
衡量半导体工艺好坏的标准之一是,在该工艺上制造的标准芯片中每平方毫米有多少个晶体管。处理器并不都是晶体管——还有SRAM单元,以及设计成在区域之间充当热缓冲以延长部件的寿命的“死区”(‘dead’ silicon)。晶体管的计数也有不同的方法,例如,2输入NAND逻辑单元比复杂的扫描触发器逻辑单元小得多。尽管如此,业内大多数人都将此指标作为讨论工艺的关键因素,达到某些里程碑通常是值得庆贺的。
回到英特尔2017年的技术和制造日,英特尔展示了这张幻灯片,显示了每平方毫米的晶体管数量(MTr/mm2,百万个晶体管/平方毫米)。这表明英特尔在其最好14nm节点上的37.5 MTr/mm2跃升至其10nm节点的100.8 MTr/mm2,大幅提升了2.7倍。
与此同时,英特尔建议业界使用一种新的方法来测量晶体管的数量,这种方法是基于现代微处理器中最常见的两种晶体管的尺寸。
根据这个标准,英特尔希望将每单位面积上的晶体管数量划分为NAND2单元,和扫描触发单元,并相应地将它们加权为60/40。这就是英特尔如何达到100.8 MTr/mm2这个数字的。
然而,在2018年IEDM会议上,英特尔展示了一些旧工艺的不同数据。他们还详细介绍了Cannon Lake的一些数字。
Intel's Process Node Density | |||||||||
90nm | 65nm | 45nm | 32nm | 22nm | 14nm | 14++ | 10nm | 7nm* | |
Year | 2004 | 2006 | 2008 | 2010 | 2012 | 2014 | 2018 | 2019 | 2023 |
DensityMTr/mm2 | 1.45 | 2.08 | 3.33 | 7.11 | 16.5 | 44.67 | 37.22 | 100.76 | 237.18 |
* Estimated |
(14nm++的密度小于14nm的原因是为了提高频率,英特尔放宽了一些设计规则,允许在设计中有更大的裕度。)
英特尔的新计数方法让旧工艺的数字提高了一些,但10nm保持不变。英特尔表示,这个数字是NAND2门的90.78 MTr/mm2和扫描触发器的115.74 MTr/mm2的组合。
还有更多
英特尔还在IEDM上透露,根据所需功能的不同,它在10nm处有三种类型的逻辑库。分别是短库(HD,高密度),中高库(HP,高性能)和高库(UHP,超高性能)。库越短,功率越低,密度越高,但峰值性能也越低。最终,芯片设计通常是库的混合——较短的库可以很好地用于成本敏感的应用,或者用于IO和非核心应用。较大的库,由于密度较低和具有较高的驱动电流,通常用于设计中最关键的路径。
因此,英特尔10nm上的三个库会得到三种不同的密度。实际上,只有高密度库才有100.78 MTr/mm2:
Intel 10nm Cell Libraries | ||||
Name | DensityMTr/mm2 | Fins | CellHeight | |
HD | High Density | 100.78 | 8 | 272 nm |
HP | High Performance | 80.61 | 10 | 340 nm |
UHP | Ultra High Performance | 67.18 | 12 | 408 nm |
这些单元大小不同的原因是由于每个单元中的鳍片数量,以此类推,每个晶体管的鳍片数量也是如此。鳍片的数量可以调节单元高度,额外的鳍片允许更大的驱动电流,以此获得更高的性能,但代价是功率和面积。
WikiChip的这张图表展示了它们之间在功率和性能方面的关系:
这为几乎所有与性能无关的HD单元、大多数与性能相关的HP单元,以及关键路径上的UHP单元提供了强有力的支持。最终,英特尔在芯片与芯片之间使用的密度将根据它们使用的单元和比例而变化。然而,在特定的芯片设计中(例如,中等核心数的Xeon),基于该设计的所有芯片都具有相同的单元布局。
鳍片的动力学
为了理解英特尔在10nm上所做的很多工作,我们需要讨论鳍片、栅极和单元的动力学,并定义一些与晶体管和FinFET相关的术语。我们从传统FinFET的示意图开始:
晶体管的源极—漏极由鳍片(灰色)提供,该鳍片穿过栅极(绿色),同时嵌入氧化物中。此处的关键指标是鳍片高度、鳍片宽度和栅极长度。这样做的目的是使每一个都尽可能小,但仍能按预期的速度和方式执行。在英特尔的22nm工艺中,英特尔使用了包含多个鳍片的“三栅”晶体管(‘tri-gate’ transistors)来增加总驱动电流,以获得更好的性能。
这就引入了一个新的度量,“鳍片间距”(fin pitch),即鳍片之间的距离。同样,如果一个鳍片通过多个栅极,栅极之间的距离称为“栅极间距”(gate pitch)。原始图片来自英特尔,我们进行了修改。
下图是现实中我们看到的图像,鳍片如图所示:
在这张图片中,英特尔展示了从22nm到14nm的改进,可以看到,鳍片高度更高,鳍片宽度更小,鳍片间距更短,更多的鳍片嵌入到栅极中。
鳍片与金属栅极接触越多,鳍片与鳍片间距越小,泄漏越小,性能越好。这既是增加驱动电流的问题,也是管理寄生电容和栅极电容的问题。
当谈到10nm时,英特尔在鳍片设计上非常积极。基本数字如下:
Comparing Intel 14nm to Intel 10nm | |||
14nm | 10nm | Change | |
Rated Density | 44.67 | 100.78 | 2.26 x |
Fin Pitch | 42 nm | 34 nm | 0.81 x |
Fin Width | 8 nm | 7 nm | 0.88 x |
Fin Height | 42 nm | 43-54 nm | 1.02-1.29 x |
Gate Length | 20 nm | 18 nm | 0.90 x |
Contact Gate Pitch | 70 nm | 54 nm | 0.77 x |
Minimum Gate Pitch | 52 nm | 36 nm | 0.69 x |
在2017年IEDM展会上,英特尔展示了从43nm至54nm(正式值为46nm)的鳍片高度,从42nm开始,鳍片与栅极之间的接触越来越多。鳍片高度可根据晶体管的需要进行调整。鳍片宽度从8nm向下移动到7nm,这意味着在这个过程中实际上有一些小于10nm的东西。为了避免寄生电容,鳍片间距需要很小,但要做到这一点,技术变得越来越具有挑战性——对于10nm工艺,英特尔要从42nm间距迁移到34nm间距,这就是引入“自对准四重图案成形技术”(SAQP,稍后会深入讨论)的能力所在。
我在这里引用来自WikiChip的David的话,他解释了这是如何做到的:
从两个牺牲层(sacrificial layer)开始,并以136nm间距对第一层进行图案化。然后沉积并蚀刻间隔物,然后去除第一牺牲层并蚀刻到第二牺牲层,得到68nm的间距。然后沉积和蚀刻第二间隔层,去除第二牺牲层,并在鳍片中蚀刻并移除第二间隔物,这将产生原始间距的四分之一(即,所需的34nm间距)。与自对准双图案化(SADP)相比,这只增加了四个额外的步骤(三个蚀刻、一个沉积步骤和没有额外的光刻步骤)。
在生产工艺中增加更多的步骤自然会造成生产时间的损失和潜在的良品率损失。
鳍片的最终结果如下图所示,展示了英特尔从第一代FinFET技术之后的改进:
看起来改进并不是很大,但这是推动新一代半导体性能所需的一部分。在这个尺度上,每1nm都很重要。鳍片现在更密集,并且与栅极有更多的接触面积。这有助于驱动电流,电容以及最终的密度。英特尔还通过添加共形钛层(conformal titanium layer)来改善源极和漏极扩散区域。鳍片和沟槽之间的接触区域(栅极下方的灰色)需要重点关注,其目的是最小化两者之间的接触电阻。对于10nm,英特尔将这种钨接触改为钴接触,根据材料的不同,接触线电阻降低了60%。
构建单元和管理单元大小
单元由固定数量的鳍片和不同数量的栅极组成。每个单元必须在顶部和底部连接接地和电源,在预定位置使其更容易进行布线和其他分析。单元几乎就像混合搭配——多个高度一致的单元按顺序排列,这取决于单元是用于覆盖逻辑单元、逻辑单元本身,还是用于电压稳定/隔离等。
这是一张英特尔22nm工艺的SEM图像,显示了具有六个鳍片和两个鳍片的单元,但栅极长度不同。
在每个单元内,都有有源鳍片传递电流,而无源鳍片作为间隔物。英特尔最高密度的单元HD总共有8个鳍片,但其中只有5个是有源鳍片。
图片来自WikiChip
这些单元用于需要密度的对成本敏感的应用,或用于IO等非高性能环境。该单元有8个鳍片,有两个有源“P”鳍片和两个有源“N”鳍片,还有一个可选的附加有源“N”鳍片,用于需要优先级的各种逻辑功能(例如NAND Over NOR)。
英特尔使用的其他单元尺寸,HP和UHP,分别有10个和12个鳍片。在每种情况下,都有一个额外的P鳍片和一个额外的N鳍片,这两个鳍片都有助于提供额外的驱动电流,以牺牲效率来提高峰值性能。单元的总高度是鳍片间距(鳍片之间的距离)乘以鳍片数量。
图片来自WikiChip
值得注意的是,图中浅色的鳍片通常出现在设计中,但作为设计的一部分,它们只是假鳍片。
在此上下文中测量密度的方法之一是将栅极间距(或者具体地说,Contact Poly Pitch)乘以鳍片间距(或者最小金属间距),这就是所谓的CPPxMMP度量。因为在此时,说“10nm”或“7nm”对工艺几乎没有影响,这个度量给出了工艺密度的精确概念。
Comparing Different Process NodesCPPxMMP | ||||||||
Intel | TSMC | Samsung | ||||||
CPP | MMP | CPP | MMP | CPP | MMP | |||
28 nm | - | - | 117 nm | 90 nm | - | - | ||
- | 10530 nm2 | - | ||||||
22 nm | 90 nm | 80 nm | - | - | - | - | ||
7200 nm2 | - | - | ||||||
16 / 14 nm | 70 nm | 52 nm | 90 nm | 64 nm | 78 nm | 64 nm | ||
3640 nm2 | 5760 nm2 | 4992 nm2 | ||||||
10 nm | 54 nm | 44 nm | 66 nm | 44 nm | 68 nm | 48 nm | ||
2376 nm2 | 2904 nm2 | 3264 nm2 | ||||||
7 nm | - | - | 54 nm | 40 nm | 56 nm | 40 nm | ||
- | 2160 nm2 | 2240 nm2 |
从这个指标来看,你会相信台积电的7nm和三星的7nm都比英特尔的10nm稍微密集一些。这就是英特尔想要改变我们定义密度的方法,使之成为不同尺寸单元的混合的原因之一。但是这个度量并不能准确地反映使用不同高度的不同单元库(因此每个单元具有不同数量的鳍片)。然而,单元大小并不是唯一的诀窍。
虚拟栅极
单元之间,通常会有一些用作间隔的虚拟栅极。在英特尔的14nm设计中,一个单元的两端都有一个虚拟栅极,这意味着在单元之间会有两个虚拟栅极。对于10nm工艺,两个相邻的单元现在可以共用一个虚拟栅极。
这主要是具有密度优势,英特尔声称在芯片上节省了20%的面积。根据英特尔在ISSCC上展示的图片,实际上并没有物理栅极,而是一条非常深的沟槽。
有源栅极上接触(COAG)
在晶体管内部,栅极接触是施加栅极电流以控制鳍片的源极和漏极之间的控制点。通常,栅极接触超出标准单元,如下图所示:
这为x/y维度增加了额外的空间,但有些不可避免。对于10nm,或者至少是目前Cannon Lake中的版本,英特尔正在实施一种称为“有源栅极上接触”(COAG)的方法,该方法将栅极接触放置在单元上。
这是一个复杂的变化——接触必须位于单元上方,但不会直接干扰其任何属性。它在制造过程中增加了几个步骤(一次蚀刻、一次沉积和一次抛光),但在整个芯片上提供了潜在的大约10%的面积微缩。
关于英特尔10nm工艺的报告之一是COAG是一种风险较高的实施方案,虽然英特尔已经实施了COAG,但它并不像预期的那样可靠,因为它依赖自对准扩散来形成紧密接触。根据我们的讨论,Cannon Lake的COAG设计似乎只是在低性能/低功率,或高性能/超高功率下有效,这是分布图谱线的两端,而不是中间。我们希望英特尔能详细说明他们是如何调整设计的,以及什么时候会讨论更新的10nm。
总体而言,通过CPPxMMP调整、虚拟栅极和COAG,英特尔声称在14nm实现了0.37倍的微缩。
应用功率传输:设计工作量加倍
在标准单元设计中,功率传输通常由自动化EDA工具管理。这通常比手工放置要快得多,从而缩短了上市时间。但是为了使密度改进起作用,英特尔必须与EDA工具供应商合作,以便在“block”级别和不同的单元对准方式下应用功率传输。这是一项提供了许多优化的行业工作。
标准芯片构建成一系列金属层,以帮助传输数据和功率。这一系列金属层被称为金属化堆叠,构成了芯片制造的“后道工艺”(back-end of line,BEOL)的一部分,并且可以独立于晶体管设计。
英特尔的10nm金属叠层为13层,一层超过14nm,两层超过22nm。英特尔对其金属堆叠的官方设计规则如下:
Intel's 10nm Metal Stack | |||
Layer | Metal | Pitch | Patterning |
Fin | 34 nm | Quad | |
Gate | Copper / Cobalt | 43-54 nm | Dual |
Metal 0 | Cobalt | 40 | Quad |
Metal 1 | Cobalt | 36 | Quad |
Metal 2, 3, 4 | Copper | 44 | Dual |
Metal 5 | Copper | 52 | Dual |
Metal 6 | Copper | 84 | Single |
Metal 7, 8 | Copper | 112 | Single |
Metal 8, 10 | Copper | 160 | Single |
Thick Metal 0 | Copper | 1080 | Single |
Thick Metal 1 | Copper | 11000 | Single |
钴是一种“无障碍”导体,这意味着与铜相比,它不需要在导线之间设置障碍层,而且它可以比铜微缩得更小,能提供更有益的特性。TechInsights还报告称,在其Cannon Lake处理器的下层检测到了钌,但英特尔在其披露的信息中并未提及。
在每一层上放置连线与构造鳍片和沟槽不同,这就是为什么在堆叠过程中间距会发生变化。然而,以正确的方式连接金属功率轨道(metal power rails)是设计中的重要要求。每个单元的功率端点(power stub)通常位于corner处,通过“金属1”层将单元连接到“金属2”层。因此,端点被认为是在“block级别”。英特尔已经改变了这一点,并将功率端点移动到“block级别”,方法是识别常见的单元组并将它们放置在最佳位置。
图片来自WikiChip
这不是一个微不足道的改变。目前这还不可能实现,直到英特尔用自动化EDA工具处理10nm才有可能实现。目前这可以手工完成,但这会增加芯片的设计时间。英特尔与EDA工具制造商合作的步骤是开发“block感知”自动化,这样就可以完全在工具内部实现。这也使得金属1层的密度更小,实际上有助于单元级别的密度。
需要注意的是,为了实现这一点,单元中的栅极间距和金属1层间距需要对准。如上表所示,栅极间距为54nm,而M1间距仅为36nm,这是不相等的。虽然它不是相等的,但它是一个3:2的整体比例。整个比率意味着,虽然有可能不对准,但这发生在block级别。EDA工具必须处理这一问题,通常是通过添加间隔来降低密度。为了解决这个问题,英特尔将其整个单元库复制为两种格式:具有未对准接触的单元和具有对准接触的单元。这意味着,如果EDA放置工具知道存在两个不同的版本,它可以根据位置使用所需的版本,最终节省密度,而不必使用间隙。对英特尔来说,“对准感知”是为每个单元创建两个版本的重要一步,同时也是实现这一功能的工具的重要一步。对准感知功能会对金属堆叠产生影响,英特尔表示,根据单元密度的不同,这可能会带来另外5-10%的密度提升。工作量加倍也算值得!
应该说明的是,英特尔称这是一个“已解决的问题”,我们期望英特尔将其用于未来所有间距动力学(pitch mechanics)适用的产品。
微缩连线
连线变得更小有一个重要的问题:电阻。电子通过的横截面积越小,意味着它们被限制在一个更小的空间中,从而导致电阻的增大,两者之间的关系成反比。
导线的电阻是电阻率(金属的函数)乘以长度除以横截面积。理想情况下,面积减小,使用电阻率较低的金属有很大帮助。否则,就需要额外的驱动电流,这会产生其他连锁效应,比如电迁移(electromigration)。
因此,此时英特尔正在从铜转移到钴,因为它在较低的金属层中的连线最薄。问题是,钴的电阻率实际上比铜的电阻率高,几乎是铜的四倍。铜得到认可的原因有两个:一是微缩,二是电迁移。
电迁移是指高速电子通过动量传递将金属原子从其所在的位置上撞出。这通常不是问题,但随着电流的增加,横截面积的减小,更多的电子出现,这就成为了问题。原子离得越远,连线的电阻就越大,直到完全断开为止。在金属晶粒边界处,平均自由程较长时,易发生电迁移。因电迁移而发生故障的电路是无法修复的。
人们在控制电迁移方面付出了很多努力,EDA工具被自动设计来减轻对电迁移的影响。这意味着要添加扩散阻挡层和衬垫层(barriers and liners),这就增加了整个布线尺寸。然而,这些衬垫层不像导线那样容易微缩。
又一张来自Wikichip的令人震惊的图片
当一根铜线被给定一定的宽度值时,其中一部分被扩散阻挡层和衬垫层所占据,这意味着铜的实际横截面要小得多,而且随着我们微缩,它会加倍减小。
这就是钴优于铜的地方(事实上还有一些别的优点)。虽然钴的电阻率是比铜高4倍,但钴的性质意味着扩散阻挡层只需要1nm,从而允许连线体积更大,变成块状。这使得钴可以微缩到更小的连线宽度。平均自由路径较短,从40nm降到10nm以下,这意味着电迁移不是问题。
显然,钴并不是万能的,当连线宽度足够宽时,传统的铜埋入法是一种行之有效的低电阻率方法(钴在面积上的增益并不能抵消电阻率大的缺点)。对于重要的层,特别是M0和M1,英特尔表示,钴使得层间电阻(via电阻)降低2倍,层内电迁移改善5-10倍。
Wikichip的David指出,在未来的节点发展中,随着越来越多的层越过钴—铜交叉点,我们将开始看到钴在堆叠中上移。或者,正如Techinsights所发现的那样,钌可能在某些层上为人所知。
把它们放在一起
回到开头,我们提到英特尔在其10nm工艺上的关键指标是满足每平方毫米1亿个晶体管。这对应于它的高密度单元库,而非超高性能单元库,但这仍然是一个令人印象深刻的成就。当达到这种缩微时,每个领域都需要改进:这里10%,那里15%,其他地方10%,一切都需要改进。在英特尔2017年的技术和制造日上,英特尔表示,对于45nm工艺的特定芯片设计,当时需要100平方毫米的芯片,而如今7.6平方毫米即可容纳。
值得注意的是这张幻灯片,其中讨论了英特尔计划中的10nm产品的电容和性能。
右图中,英特尔显示,路线中的每个10nm版本的动态电容都低于14nm,这是件好事。然而,就左图中的晶体管性能而言,10nm和10nm+的晶体管性能都比最新版本的14nm++低。
作为参考,Cannon Lake是英特尔称之为“10nm”工艺节点的产品。Ice Lake是2019年底(从现在开始的8-10个月)用于消费设备的产品,位于“10nm+”工艺节点上。这意味着2019年12月的产品在晶体管性能上仍将落后于2017年10月推出的产品。新芯片将带来一些好处,比如能耗和新的微架构,但值得注意的是,英特尔已经向媒体和投资者表明了这一点。
资料来源。值得一读
▌https://fuse.wikichip.org/news/525/iedm-2017-isscc-2018-intels-10nm-switching-to-cobalt-interconnects/
▌https://fuse.wikichip.org/news/2004/iedm-2018-intels-10nm-standard-cell-library-and-power-delivery/
▌https://fuse.wikichip.org/news/1371/a-look-at-intels-10nm-std-cell-as-techinsights-reports-on-the-i3-8121u-finds-ruthenium/
▌https://techinsights.com/technology-intelligence/overview/latest-reports/intel-10-nm-logic-process/
▌https://www.anandtech.com/show/8367/intels-14nm-technology-in-detail
今天是《半导体行业观察》为您分享的第1848期内容,欢迎关注。
推荐阅读
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
关于摩尔精英
摩尔精英是领先的芯片设计加速器,愿景“让中国没有难做的芯片”,业务包括“芯片设计服务、供应链管理、人才服务、企业服务”,客户覆盖1500家芯片公司和50万工程师。我们致力于提供ASIC设计和Turnkey解决方案,从Spec/FPGA/算法到芯片交付,包括:芯片架构规划、IP选型、前端设计、DFT、验证、物理设计、版图、流片、封装和测试服务等。 自2012年以来,我们的团队一直专注于积累技术能力,帮助客户实现最优芯片性能,并支持Turnkey、NRE、专业咨询和驻场等灵活服务模式。 摩尔精英目前全球员工230人,总部位于上海,在北京、深圳、合肥、重庆、苏州、广州、成都、西安、南京、厦门、新竹和硅谷等地有分支机构。
点击阅读原文,了解摩尔精英