带您了解超算黑马—日本Fugaku背后的故事

2020-07-03来源: 半导体行业观察关键字:Fugaku  超算

在6月22日,国际超算大会发布最新一期的全球超算TOP500榜单。其中,日本超算“富岳”(Fugaku)超越美国“顶峰”(Summit)登顶榜首。作为史上第一台基于ARM芯片的全球超算冠军,富岳虽然其性能达到上届冠军“顶峰”的2.8倍,但仍然属于十亿亿次级别超算。


 《日本经济新闻》认为,此次日本之所以能夺取第一,原因之一在于目前超算正迎来升级换代时期,日本比中美更早地投放新一代机型,但由于在资金实力上处于劣势,日本很难和中美展开同场竞技。 而在背后,则是富士通的48核ARM芯片A64FX。其实多年以来,富士康在这个领域都有深入的研究。在本文我们回顾一下,富士通的这颗芯片凭啥让富岳走向了世界之巅。 富士通A64FX采用台积电7nm FinFET工艺制造,集成87.86亿个晶体管,但只有596个信号针脚,内部集成52个核心,包括48个计算核心、4个辅助核心(都完全一致),基于ARMv8.2-A指令集,支持SVE 512位宽度SIMD,峰值性能2.7TFlops。 所有核心分为四组,每组13个,共享8MB二级缓存。


 互连总线采用6D/Torus Tofu,双链路、10个端口、带宽28Gbps。输入输出支持16条PCIe 3.0。外部搭配四组共32GB HBM2内存,峰值读写带宽1TB/s。 根据Technews的报道,整体来看,无论从哪个角度观察,这应该是目前最高阶的ARM 指令集相容处理器了。

 

 

其实Fujitsu 早在2018年夏天的处理器业界盛事IEEE HotChips 30,就公开A64FX的技术细节(其中部分内容更在4 月就先行披露),本质算是「电脑的语言」指令集架构从SPARC-v9 转换成ARM-v8.2-A 的SPARC64fx 处理器(因衍生于高阶伺服器专用的SPARC64,也继承了诸多类似特色,如大型主机等级的资料可用性),采用台积电7 纳米制程生产,主记忆体使用近来因高阶绘图芯片逐渐普及的HBM2,和运算核心由台积电的2.5D 封装CoWos 技术包成一颗,毋需外部的记忆体颗粒。

 

 

 

讲更精确点,Fujitsu A64FX 是「针对超级电脑量身订做的ARM 指令集系统单芯片」(System-on-Chip,SoC),其概念更可追溯于2004 年11月,一举赶下雄踞「世界最强超级电脑王座」超过两年半(2002 年3 月到2004 年11 月)地球模拟器(Earth Simulator)的IBM BlueGene/L,体积仅有容纳1,024 个运算节点和8TB 主记忆体的16座机柜,反观地球模拟器动用640 个运算节点,总共5,120 颗NEC SX-6 向量处理器和10TB 主记忆体,多达320 座运算机柜,彰显了追求建造速度的独到思维与异质功能融合的潜在威力。

 

 后来劳伦斯利佛摩国家实验室(Lawrence LivermoreNational Laboratory,LLNL)的BlueGene/L持续扩充到104 座机柜(478TeraFlops,峰值596TeraFlops),2008 年6月被同样出自IBM 的洛斯阿拉莫斯国家实验室( LosAlamos National Laboratory,LANL)的Roadrunner 超越,稳占Top500 首位长达3 年半之久。后者是人类史上第一台效能达1PetaFlops 的超级电脑。

 

那年刚好微处理器论坛(Microprocessor Forum)首次在台湾举办(新竹烟波大饭店),IBM 也在活动议程里,充分阐述BlueGene/L 的技术细节与设计理念,笔者有幸坐在台下躬逢其盛,富岳和Fujitsu A64FX 则让笔者回忆起历历在目的往事。

 

于「日用品」堆砌超级电脑以外的另类系统单芯片路线

 

「世界最快的超级电脑」不但是国家科技能力的重大象征,更是科技强权之间的国力较量,根据国家的Top500 进榜数与总效能「圆饼图」,比重与趋势或多或少反映了国家的影响力。前述的富岳超级电脑,相关费用总计1,300 亿日圆,其中1,100 亿日圆由日本纳税人买单,日本政府「宣扬国威」的强烈动机,不言可喻。

 

自从个人电脑与丛集运算环境(Cluster)普及后,超级电脑业界逐渐从特别客制化且量少价昂向量处理器、系统控制与记忆体芯片,朝向采用市售的「日用品」(Commodity)或系出同源的衍生产品(如nVidia 的高阶运算用GPU),除了降低购置与维护成本,亦可进一步提高超级电脑的可靠性与可用性。 也因此,Top500 清单早是满满一整排英特尔处理器与nVidia 加速卡(与少少的AMD 产品,以及根本没有未来的英特尔Xeon Phi),偶见IBM 的高阶Power处理器与Fujitsu 的SPARC64fx。 毕竟不计成本导入特制化零件与特殊半导体制程(甚至像Cray-3 和Fujitsu VPP500 还用到砷化镓这么独特的材料)的「高阶试作品」,自然远不如消费性市场随手可得的「成熟量产品」可靠。过于特殊的专属规格处理器,也限制了应用软件和开发平台的选择性,提高开发软件的时间与成本。反之,投奔「开放规格」,即可享受到更多样化的开源社群资源,并因更频繁的技术交流,而加速技术演进。 但超级电脑市场较量的重点,并不只限于帐面效能和耗电,「研发时程」和「建造速度」也同样举足轻重。这也是IBM BlueGene/L 在十多年前可在超级电脑领域独领风骚的秘密:延续现有Power处理器的研发成果,打造高度系统单芯片化的运算节点,实现更高的空间利用密度和更快的系统组装速度。


FujitsuA64FX 更承袭相同的思维,并藉由台积电被众多客户千锤百炼后的成熟制程、研发资源丰富的ARM 生态圈、拜显示芯片市场之所赐而便宜可靠的HBM 记忆体,青出于蓝胜于蓝,相隔近16 年,重现系统单芯片一次夺下Top500 榜首的荣景。

 

 

大处着眼,小处着手

 

相信熟悉超级电脑的读者或许会想起,当时那台IBM 与Livermore 实验室合作的BlueGene/L 测试机,并非彻底施工完毕的超级电脑(这让日本人颇不以为然),但在Livermore 国家实验室,确实有部分应用程式跑在上头,并打败了地球模拟器保持的纪录。问题来了,为何IBM 可以用这么快的速度(当时可是震惊世人),建好一台世上最快的超级电脑? 2004 年,BlueGene/L 可谓世界最大的嵌入式微处理器集合,揭示了「大处着眼,小处着手」观念,将系统单芯片的价值,从微型系统带到极大规模的超级电脑,技术核心为重新设计后的双核PowerPC 440,具低耗电量和低发热量等特点。利用诸多今日我们耳熟能详的系统单芯片特色的BlueGene/L,有以下特点: 超级省电:相同的运算量,这台BlueGene/L耗电量仅NEC地球模拟器的二十八分之一,自然也降低了发热量。 简单清楚的系统架构:BlueGene/L不再有一大堆纠缠如「新竹米粉」的五颜六色线路和多如牛毛的网络汇流排控制器,易于安装与维护。 快速完成产品设计:利用现有研发成果,透过系统单芯片整合额外功能,不必重新设计每个元件,可迅速兜成产品。即使这算是「专属规格芯片」,但意义却和过去不惜血本的烧钱做法截然不同。 BlueGene/L 的架构相当单纯: 每颗时钟700MHz 的处理器芯片,包含两个倍增浮点运算器的修改版PowerPC440 核心与时钟350MHz 的4MB L3 快取记忆体(可设定为系统记忆体)。


  

 

两颗处理器芯片组成一张运算卡(Compute Card),上面附有512MB 容量DDR 记忆体,耗电量只有20W。

 

16 片计算卡构成一片节点卡(Node Board),32 个处理器芯片(64 核心),提供180GigaFlops 理论计算能力,8GB 记忆体。

 

32 片节点卡装在同一台机箱,提供5.7TeraFlops 与256GB 记忆体。

 

整个系统最大组态为65,536 个节点卡(64 个机箱),当全部处理器都设定成计算模式时,有高达360TFlops 的峰值运算量(2004 年底那台是70.72TeraFlops)和16TB 记忆体。

 

 

所谓的超级电脑,就是指具巨大平行运算量的系统(有别于追求顶级可靠性和极致软件相容性的商用大型主机),大多数平行处理程式,都必须在执行每个小单元,参考之前的单元计算结果,或是传送结果到其他执行单元,带来巨大的资料传输量。超级电脑的开发者几乎都将一半精力耗费在资料传输网络的设计。 BlueGene/L 系统组成极端干净,处理器芯片内建5 种功能相异的网络控制器,让不同类型的工作分而治之,只需要板子上的连接点组成整个系统,你也看不到拉来拉去的排线和到处安插的汇流排网络控制器: 

 

  • 3D Torus网络:每颗芯片有6个方向传送资料到整个系统,具流量监控、计算最佳传送路径的功能。

  •  

  • Collective网络:用来管理控制。

  •  

  • 处理中断与系统问题的低延迟高速网络(Global Barriersand Interrupts)。

  •  

  • 用来进行一般I/O和档案存取的Gigabit乙太网络。

  •  

  • 用来控制开机与设定的控制网络(Control Network)。

  •  

  

 

为何IBM 要让BlueGene/L 同时用5 种网络架构?起因于IBM 并未为了这台「速食」超级电脑设计专用作业系统,直接修改Linux 来用,并BlueGene/L 是每颗运算节点(一颗处理器)都是独立电脑的「Multicomputer」型态,单靠3D Torus 网络不足以保证在最短时间内即时传送所有资料,特别是和计算无关的控制管理讯号,所以动用多种拓朴网络以保证面面俱到,是很正确的手段。 同场加映更夸张的设计:Sun 曾竞标美国国防部先进研究计划署(Defense Advance Research Projects Agency,DARPA)于2002 年初开始的HighProductivity Computing System,日后更名为PetaFLOPS 的超级电脑计划(略早于NEC 发表地球模拟器),提出惊世骇俗的「Hero」计划,引进「Proximity Communication」研究成果,透过芯片彼此相邻的「超高速无线传输」(别怀疑),一举解决频宽延迟的瓶颈和系统组装的麻烦。很可惜这案子由IBM 和Cray 击败Sun 共同得标,无缘让世人目睹这令人啧啧称奇的世界奇观。 

 

虽然超级电脑的可靠性要求不如商业大型主机严谨,但看在巨大资料传输量的份上,假若自己的家用个人电脑可能一年内因一次讯号错误当机,套在超级电脑就可能变成一小时一次了。 也因此,IBM 在BlueGene/L引入许多除错技术,由小到大,从芯片(所有记忆体皆受到ECC 保护以修正单位元错误)到系统(所有节点和网络都有自我错误监测,而最重要的3D Torus 网络则动用超过4 种数学除错方式以保障资料传输的正确性)。当然,低发热量的系统单芯片,也降低超级电脑因过热而不稳的可能性。

 

承继IBM BlueGene/L 精神的Fujitsu A64FX

 

这些年来,伺服器大厂纷纷放弃开发自家处理器,改投向「开放系统」的怀抱,但Fujitsu仍持之以恒研发高阶处理器,如GS 系列大型主机、Unix 伺服器的SPARC64、因2011 年「京」 (K-Computer)超级电脑专案诞生的SPARC64fx。

 

 

让SPARC64fx 转战ARM 指令集的A64FX,堪称三者集大成,也让ARM 指令集相容处理器,一举登天,拥有商用大型主机(Mainframe)的高可靠度、高阶伺服器的高效能,与超级电脑最需要的低能耗比,身为「后京」(Post-K)时代的日系超级电脑心脏,性能目标是达到2011 年「京」的100 倍。富岳抢下Top500 榜首就是成果,且计划进度还比表订的2021 年量产出货提前甚多。 A64FX 主要特性如下: 台积电7 纳米FinFET 制程,87.86 亿电晶体,台积电CoWos 2.5D 封装包4 颗8GB 容量HBM2 记忆体,兼顾缩减面积与提升记忆体频宽。

 

 

 

基本上是替换指令集的SPARC64 XIfx,从核心微架构到基础结构皆大同小异,但系统记忆体改用包在一起的32GB HBM2,却能大幅精简空间。

 

  

48 个计算核心和4 个处理I/O 作业的辅助核心,切成4 块CMG(Core MemoryGroup),每个CMG 有13 个核心(12 运算+1 辅助I/O)、8MB L2 快取记忆体、8MB HBM2 记忆体。CMG 规画也与SPARC64 XIfx 大同小异,仅核心数略有差异。

 

 

 

SIMD 浮点运算「顺势」使用ARM 官方制定的SVE(ScalableVector Extension)指令集,理论浮点运算性能达到2.7TeraFlops,是前代SPARC64 XIfx 的2.5 倍,资料格式也支援人工智慧需要的FP16 与INT16 /8。

 

 

ARM 的SVE 不仅「比英特尔AVX-512更富有向量电脑的传统风味」,也有个有趣的MOVPRFX 指令,用来弥补ARM 迈进64 位元后,为了提供32 个暂存器(需要5 位元指定一个暂存器,4 个就是20 位元)牺牲掉的FMA4 四运算元浮点乘积和(A×B+C=D)。一旦执行三运算元的FMA(A×B+C=C),会覆盖掉一个暂存器的原始内容。 MOVPRFX 指令可预先经由前置码(Prefix),「更名」运算目标暂存器,以保留其内容。而A64FX 的内部执行单元则会将接连的MOVPRFX 和FMA3 两个指令合而为一,变相实作FMA4,掩盖执行两个指令的额外延迟。

 

高可靠度则比照SPARC64fx 办理,大型主机等级的资料可用性,让整颗芯片大部分都受到ECC 单位元错误修正和Parity 纠错机制保护。

 

 

多处理器汇流排采用演进于「京」超级电脑的第三代「Tofu」(豆腐),6D Mesh/Torus 结构。

 

 

和BlueGene/L一样高度模组化设计,一个机柜框体(Rack)可置入384 颗A64FX,18432 个运算核心,单机柜理论效能超过1PetaFlops。

 

 

富岳由396 个机柜框体组成,152,064 颗A64FX,Top500 测定性能为415PetaFlops。

 

 

「热情拥抱现成资源」的弦外之音

 

Fujitsu 和理化学研究所在2019 年4 月15 日签订制造出货安装合约,11月富岳试作机拿下Green500 第一名,12 月2 日就开始出货6 个机柜框体,全数396 个在2020 年5 月13 日全部搬入理化学研究所,速度真的很快,当年IBM BlueGene/L 的「速食」风格,在Fujitsu A64FX 也一览无遗。 况且,Fujitsu 还享用那时IBM 还体验不到的「完整IP 授权、最佳化电子辅助设计工具与相关函式库、专业晶圆代工」三位一体的成熟产业生态体系,大量引用「现成资源」加速产品研发与验证,降低成本,不限硬件,一并拥抱蓬勃发展中的ARM 软件资源,在「沿用市售标准品」和「拼死硬干特规货」中取得平衡点。这是Fujitsu 在高效能运算处理器的「语言」,放弃SPARC 转向ARM 背后最重要的弦外之音。 最后,顺带一提,如果台积电继续维持制程优势,英特尔真的还有机会追上来吗(官方预定2021 年7 纳米、2023 年5 纳米、2025 年3 纳米、2027 年2 纳米、2029年1.4 纳米)?还是昔日傲视世界的半导体制造能力,将就此遭到毁灭性的打击?值得拭目以待。

 

 

 


关键字:Fugaku  超算 编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic502000.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:瑞萨电子超低功耗嵌入式控制器RE产品家族又添新武器
下一篇:Nordic低功耗蓝牙SoC无线跟踪器产品让你不在丢三落四

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

英伟达与大学携手合作,出资7000万美元打造全球最快AI
据外媒报道,英伟达与美国佛罗里达大学携手合作,它们准备在大学打造世界最快高等教育人工智能(AI)超级计算机。 英伟达定义了 GPU,是 GPU(图形处理器)的发明能计算的引领者。这极大地推动了 PC 游戏市场的发展,重新定义了现代计算机图形技术,并彻底改变了并行计算。公司的图形和通信处理器拥有广泛的市场,已被多种多样的计算平台采用,包括个人数字媒体 PC、商用 PC、专业工作站、数字内容创建系统、笔记本电脑、军用导航系统和视频游戏控制台等。英伟达全球雇员数量超过 4000 人。全球各地众多 OEM 厂商、显卡制造商、系统制造商、消费类电子产品公司都选择 英伟达的处理器作为其娱乐和商用解决方案的核心组件。在 PC 应用领域(
发表于 2020-07-23
英伟达与大学携手合作,出资7000万美元打造全球最快AI<font color='red'>超</font><font color='red'>算</font>
英伟达联手佛罗里达大学建造了AI
路透社报道,英伟达周二表示将与佛罗里达大学合作,打造全球最快的高等教育领域AI超算。这个7000万美元的项目包括英伟达提供的价值2500万美元的捐赠,包括硬件、软件和培训,另外4500万美元来自该大学及其校友Chris Malachowsky,他是英伟达的联合创始人。佛罗里达大学还将使用英伟达芯片增强其现有的超级计算机HiPerGator,并计划在2021年初使其投入使用。英伟达长期以来一直是为个人电脑提供图形芯片的供应商,但研究人员现在也在数据中心使用其芯片来加速人工智能计算工作,比如训练电脑识别图像。
发表于 2020-07-22
深度学习算法的引入,芯片成为汽车的核心元件
产业而言占比只有大约10%,但未来,伴随着新能源和自动驾驶市场的迸发,汽车将用到更多的芯片。预计到2020年,汽车半导体这一业务板块的利润增长率将是全球芯片市场的两倍。在汽车行业大步迈向智能化、自动驾驶、数字化与电气化的当下,随着深度学习算法的引入,数据的处理量正在不断增大。汽车对于芯片的要求也提到了从未有过的高度,届时,超算芯片将会成为汽车核心的元件之一。而目前,国内的自动驾驶芯片依然处于起步阶段,市场份额微乎其微。一方面,国内的芯片产业发展受到了产业链的压制,不论是设计还是制造这两大环节都被人才与技术所局限。另一方面,在芯片的销售端也遭到了行业龙头大佬的市场封锁。核心技术缺失是整个行业的现象核心技术的缺失,是我国汽车行业大的软肋
发表于 2020-07-14
深度学习算法的引入,<font color='red'>超</font><font color='red'>算</font>芯片成为汽车的核心元件
TOP500榜单:日本富岳成强势黑马,中国部署数量No.1
德国当地时间6月22日,全球高性能计算机榜单T0P500发布,日本“富岳”超算成为黑马,超越美国“顶峰”成为第一。TOP500中,中国客户部署了226台,占总体份额逾45%,超算部署数量继续位列全球第一。  “富岳”由富士通和日本理化学研究所共同开发,在富士通IT PRODUCTS进行制造。富士通专门为超算“富岳”开发出的A64FX处理器使用了ARM的ARMv8.2-A指令集,集成48+4个核心,配备32GB HBM 2内存,带宽1TB/s,浮点性能2.7TFLOPS,具有多功能,大规模并行和省电的优点。“富岳”也成为史上第一台成为TOP500冠军的基于ARM芯片的超算。 此外,“富岳”超算系统
发表于 2020-06-24
TOP500<font color='red'>超</font><font color='red'>算</font>榜单:日本富岳成强势黑马,中国部署数量No.1
每秒530千万亿次计算,日开发新欲挑战中美地位
日经亚洲评论消息,一个由政府支持的超级计算机项目有望在本月公布的国际计算机速度排名中超越美国和中国的竞争对手,为日本夺回第一的位置。Fugaku由富士通和日本理研研究所联合开发,理论上最高速度约为每秒530千万亿次。这相当于全世界70亿人每人每秒进行一次计算,连续进行两年多。这一速度是IBM峰会上每秒200千万亿次运算速度的两倍多。IBM在每年公布两次的世界计算机速度500强(Top500)排行榜上已经连续两年位居榜首。Fugaku代表了日本夺回超级计算机速度领先地位的最大希望。近年来,这已经成为中美之间的一场双向竞赛,并对经济和国家安全潜力产生了影响。观察人士表示,Fugaku有望在新榜单上名列前茅,甚至可能成为第一。8年半前,同
发表于 2020-06-16
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved