首个台积电WoW 3D封装芯片量产,Graphcore Bow IPU问世

最新更新时间:2022-03-03来源: EEWORLD关键字:IPU  GPU  AI 手机看文章 扫描二维码
随时随地手机看文章

日前,IPU公司Graphcore(拟未)宣布推出其全新称为Bow的IPU,以及计算刀片:Bow-Machine和计算系统Bow Pod系列。相比较搭载第二代IPU——Colossus Mk2 GC200的M2000而言,Bow Pod系列可以实现总体40%的性能提升,以及每瓦性能16%的提升。


摩尔定律放缓,封装跟上


摩尔定律放缓已经成为了一个不争的事实。而其失效原因,归根结底是在于漏电与散热问题,因此业界纷纷提出各种解决方案,包括DSA架构、3D封装等,小心地避开晶体管物理陷阱。


实际上在Graphcore宣布推出Mk1时,就采用了多内核计算与细粒度存储SRAM紧耦合的架构,从而解决AI时代所面临的数据传输瓶颈。而这也收获了明显的成绩——其第二代IPU直接叫板英伟达的A100系列,并给出了在多个主流模型上的实际测试结果。


image.png

对比Mk1,Mk2的晶体管数量翻了一倍多,基本都增加到了片内SRAM上,从304MB增加到了将近900MB,使得其性能相比Mk1增加了8倍之多,工艺制程也从台积电的16nm升级至7nm。


如果说Mk1和Mk2是Graphcore通过创新DSA架构,实现了性能的飞跃。如今,为了进一步解决散热问题,其与台积电合作,通过WoW(Wafer on Wafer)3D封装方式,实现了性能及功耗比的进一步提升。


image.png

通过Graphcore Bow产品的宣传资料可以看出,多出来的将近6亿颗晶体管,一方面是增加了数据吞吐率,另外则是为了优化电源结构。


image.png

如图所示,底层结构依然为IPU的计算和存储单元,但是上层Wafer使用了Closely Coupled Power Delivery Die技术,使得供电网络可以以最短的路径为下层IPU供电,从而实现更小的损耗。


正如台积电在2021年财报中所述,公司的SoIC技术同时提供晶圆对晶圆(Wafer on Wafer,WoW)或是晶片对晶圆(Chip on Wafer,CoW)制程,能够同时堆叠同质或异质晶片,大幅提升系统效能,并且缩小产品晶片尺寸。在CoW制程研发持续进行的同时,台积电公司的WoW的技术,已经成功于2020年,在逻辑对记忆体以及逻辑对深沟槽电容(Deep Trench Capacitor,DTC)的垂直异质整合(Heterogeneous Integration)上,展现出优异的电性能。


Graphcore大中华区总裁兼全球首席营收官卢涛也表示,5nm与7nm相比,生产工艺所带来的收益并不像第一代的16nm与第二代的7nm那样,而是只有20%左右的提升,但我们可以通过诸如封装等创新,可以更加容易地获取同样收益。


image.png

而根据此前台积电所给出的路线图,2022年N7+DTC的推出日期,刚好与Graphcore的Bow产品相吻合。


值得注意的是,此次Bow的发布,不只是芯片,同时也包括了可立即发货且灵活配置的IPU系统,这也标志着Bow的成功量产。

image.png


软件进一步优化


除了硬件本身之外,Graphcore产品性能的提升,也得益于其整个软件栈的生态系统。Graphcore中国工程副总裁、AI算法科学家金琛表示,其中最核心的是Poplar SDK,包括驱动、图编译器PopART、上层backend等,此外还提供了各类AI软件框架,API等支持。而正是因为Bow与此前的产品在结构上没有任何更改,因此软件代码可实现100%兼容。


金琛同时介绍道,其中针对模型性能优化的工作,大部分由中国团队负责。而根据Graphcore给出的一组实测数据结果,也显示出在不同的模型下,性能均有所提升,这其中一部分原因是处理器性能提升,另外则是针对模型进行了许多优化。


image.png

得益于Bow系统软硬件的优化,其与英伟达的DGX-A100相比,性价比优势进一步突出,TCO(总体拥有成本)仅为英伟达的1/10。

image.png


AI芯片不能完全依赖DSA


如今,随着AI模型算法的迅速迭代,有些DSA架构的处理器,在模型更新后,就显得力不从心了。卢涛对此表示,早些年业界谈AI,必然离不开CNN,因此诞生出很多针对CNN计算优化的加速器,也采用了先进制程,并且提供数百pFLOPS算力,在CNN上确实能够达到A100级别的表现。但是,随着业界转向Transformer,其算力可能只能达到V100级别。


Graphcore的IPU推出之时,并没有针对某个模型进行架构优化,而是通过搭建底层计算图架构,从而支持广泛的模型。实际在2020年,Graphcore就捕捉到了Transformer的趋势,并开发了许多基于Transformer的视觉和语音模型。也正因此,在如今Transformer的应用场景中,Graphcore的IPU在训练上可以和英伟达打个平手,但是在推理上则具有明显的优势。


与中国客户的广泛合作


去年一年中,Graphcore与包括升哲科技、安捷中科、深势科技等公司围绕包括城市治理、气象以及分子动力学等领域开展合作。同时也与几家主流的互联网云厂商合作,包括金山云推出了基于Graphcore IPU平台的服务器产品——金山云IPU服务器,用于AI任务在云端的训练和推理,这也是中国首个大型公有云厂商对外公开推出自己的IPU云产品。此外,Graphcore也与神州数码签署了合作协议,通过各种灵活的方式,为客户提供IPU的相关产品。


image.png

目前,Graphcore的全球客户,涵盖国家实验室、医药健康、保险、云以及其他科学、金融等方面。其中,Pacific Northwest成为了首批Bow Pod用户,基于Transformer的模型以及图神经网络,进行计算化学和网络安全方面的应用。


超越人脑的古德计算机


除了Bow系列产品之外,卢涛还介绍了Graphcore正在开发的超级智能AI计算机Good Computer计划——古德计算机,预计2024年交付,用以纪念计算机科学先驱杰克·古德。其率先在其1965年的论文《关于第一台超级智能机器的推测》中描述了一种超越大脑能力的机器。


根据Graphcore的规划,古德计算机将包括8192个未来计划中的IPU,能够提供超过10 Exa-Flops的AI算力,实现4 PB的存储单元,可助力超过500万亿参数规模的人工智能模型的开发。预计价格在100万美元到1.5亿美元的规模。


卢涛表示,人类大脑中大概有860亿个神经元,100万亿个突触。目前最大的人工智能模型的参数跟真正的人的大脑比较起来,可能还有100倍左右的差距。而未来古德计算机的规划,就是要成为超越人脑的超级智能机器。


卢涛同时认为,该架构的整体思路依然会沿用如今的IPU体系,主要原因是Graphcore多年来针对其硬件和软件的积累,以及用户的使用习惯的延续。


目前Graphcore IPU中具有1472个tiles(处理器内核),也有高达900MB的SRAM处理器内存,运作机理和大脑的神经元类似,但这并不是类脑或存内计算架构。


实际上,就目前来看,无论是类脑,还是存内计算,都距离商业化较为久远,其中最主要原因依然是精度问题。


除此之外,金琛也补充道,想超越人脑,在模型方面,也需要支持稀疏化,通过低功耗执行大规模的模型,目前Graphcore在稀疏化方面也一直在进行一些尝试。2021年,Graphcore曾经发表过一篇研究论文,以IPU上的大型语言模型预训练为例,演示了如何有效地实施稀疏训练。


AI芯片的X×Y×Z矩阵


卢涛表示,如今的AI领域,面临着X×Y×Z的抉择关系,其中X代表应用,Y是框架,Z是处理器,如果大家都沿着不同应用,不同框架,不同处理器去做研发和优化,那么X×Y×Z的可能性会非常多。但随着业界逐渐有一套稳定的主赛道之后,对于芯片厂商会有很多好处,尽管赛道的人可能更多,但这条路会变得很宽,同时也不会出现跑偏的情况,这有助于厂商获得更广泛的开发者和市场。


显然,目前Graphcore所处赛道的正前方,一直都是英伟达。

关键字:IPU  GPU  AI 编辑:冀凯 引用地址:首个台积电WoW 3D封装芯片量产,Graphcore Bow IPU问世

上一篇:十个问题,带你了解瑞萨电子在AI/ML上的决心
下一篇:恩智浦谈边缘计算的三大发展趋势——多核、加速器与安全

推荐阅读

共创AI未来!英特尔以生态之力助力开发者释放创新潜能
共创AI未来!英特尔以生态之力助力开发者释放创新潜能2022年11月24日,北京——今天,以“智能算力,AI破局”为主题的2022英特尔AI开发者大会于线上圆满举办。在此次大会上,英特尔分享了对于“5G+AI+智能边缘”如何加速行业数字化发展的最新见解,并介绍了其如何携手广大AI领域技术伙伴与企业级AI开发者共建良性AI生态,通过把最新AI模型与商业转化紧密结合,促进高商业价值AI应用落地,让强大的AI破局千行百业,飞入寻常百姓家。英特尔(中国)有限公司副总裁兼软件生态部总经理李映博士表示:“如今,以无所不在的计算、可编程网络、云边基础架构、人工智能,以及传感和感知为代表的五大超级技术力量正在推动科技的创新与发展。其中,人工智能存在
发表于 2022-11-24
IAR Systems 与嘉楠科技达成合作,支持RISC-V内核高精度AI芯片
最新版IAR Embedded Workbench for RISC-V支持K510芯片,简化下一代图像处理器开发中国上海——2022年11月23日——嵌入式开发软件和服务的全球领导者 IAR Systems 与领先的端侧 AI 芯片研发供应商嘉楠科技 今天共同宣布,IAR Systems 最新推出的 Embedded Workbench for RISC-V 3.11.1版本已支持嘉楠勘智K510芯片,助力开发双核RISC-V 64位 AI 端侧推理芯片。IAR Embedded Workbench for RISC-V是一个完整的C/C++编译器和调试器工具链,将嵌入式开发者所需的一切都整合至同一个集成开发环境 (IDE)中,并
发表于 2022-11-23
IAR Systems 与嘉楠科技达成合作,支持RISC-V内核高精度<font color='red'>AI</font>芯片
拥抱数字孪生和人工智能,构筑可持续发展的未来
是德科技行业解决方案总监 Cheryl Ajluni可持续发展是当今每一个组织的首要任务。埃森哲数据显示,三分之一的欧洲大型企业已经做出承诺,要在 2050 年之前实现净零排放。然而埃森哲同样发现,这些企业必须在未来十年大幅加快进度,因为他们当中目前还未偏离这一目标的仅占 9%。通过发挥数字孪生和人工智能的综合潜力,企业可以实现净零排放,并且落实其他可持续性规划。这些技术还会帮助企业深入洞悉自身运营状况,随时掌握可持续性措施的成效,进而逐步实现气候目标。举个例子,数字孪生可用于测试各种场景,帮助企业制定减少能耗、降低排放的最佳策略。技术进步推动各行各业快速采用数字孪生数字孪生已经通过许多方式进入了我们的生活。它可以帮助医疗研究人员创
发表于 2022-11-21
拥抱数字孪生和<font color='red'>人工智能</font>,构筑可持续发展的未来
爱芯元智AX620A入选2022“中国芯”优秀产品名单,技术创新力再获认可
爱芯元智AX620A入选2022“中国芯”优秀产品名单,技术创新力再获认可中国 上海 2022年11月21日——人工智能视觉感知芯片研发及基础算力平台公司爱芯元智宣布,受邀出席于11月17日由工业和信息化部、安徽省人民政府共同主办的2022世界集成电路大会。作为大会最引人注目的高峰论坛之一,第十七届“中国芯”集成电路产业促进大会于17日下午公布2022“中国芯”优秀产品征集结果,爱芯元智边缘侧智能视觉芯片AX620A成功入选。“中国芯”集成电路产业促进大会是国内集成电路领域最具影响力和权威性的行业会议之一,其举办的“中国芯”优秀产品征集活动作为国内集成电路产品和技术发展的风向标和大检阅,旨在遴选出各细分领域创新性强、市场潜力大的芯片
发表于 2022-11-21
爱芯元智AX620A入选2022“中国芯”优秀产品名单,技术创新力再获认可
重新定义汽车软件开发的关键考虑因素
工程团队面临着寻找人工智能专业知识并在产品开发中充分利用它的挑战。
发表于 2022-11-18
重新定义汽车软件开发的关键考虑因素
大联大世平集团推出基于耐能Kneron产品的3D AI人脸识别门禁系统方案
大联大世平集团推出基于耐能Kneron产品的3D AI人脸识别门禁系统方案2022年11月16日,致力于亚太地区市场的领先半导体元器件分销商---大联大控股宣布,其旗下世平推出基于耐能(Kneron)KL520芯片的3D AI人脸识别门禁系统方案。图示1-大联大世平基于耐能Kneron产品的3D AI人脸识别门禁系统方案的展示板图在现代化经济建设和智能管理的驱动下,人工智能门禁系统作为安防基础核心迎来了前所未有的广阔前景。特别是在疫情这个特殊情境下,各种酒店、宾馆、写字楼、智能大厦、政府机关等单位,对于多功能智能门禁系统的需求更是日益攀高。在此趋势下,大联大世平基于Kneron KL520芯片推出了3D AI人脸识别门禁系统方案,可
发表于 2022-11-16
大联大世平集团推出基于耐能Kneron产品的3D <font color='red'>AI</font>人脸识别门禁系统方案
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2022 EEWORLD.com.cn, Inc. All rights reserved