Facebook 未来机器学习平台

发布者:清新天空最新更新时间:2019-03-18 来源: 半导体行业观察翻译自「nextplatform」关键字:Facebook  机器学习 手机看文章 扫描二维码
随时随地手机看文章

粗看上去,世界上的超大规模用户和云构建商制造的东西通常看上去和感觉上去都像超级计算机,但如果你仔细观察,就常会看到一些相当大的差异。差异之一是,他们的机器并不是为了实现最高性能而不惜一切代价去设计,而是在性能和成本之间实现了最佳平衡。


简而言之,这就是为什么社交网络巨头Facebook(世界上最大的人工智能用户之一)大量订购英伟达的HGX-1和HGX-2系统用于机器学习训练,然后就到此为止了。(HGX-1和HGX-2系统是GPU加速器制造商英伟达的DGX系列的超大规模用户版本。)


这并不是巧合,为什么微软、谷歌、亚马逊网络服务、阿里巴巴、腾讯、百度,以及中国第四大巨头(中国移动或京东)同样设计自己的服务器,或是使用Facebook在2011年创建的开放计算项目(OCP)中的设计,或是在OCP启动六个月后由阿里巴巴、百度和腾讯发起了天蝎计划项目。在某些情况下,他们甚至设计自己的ASIC或在FPGA上运行专门用于机器学习的算法。 


公平地说,Facebook确实在2017年6月安装了英伟达DGX-1 CPU-GPU混合系统的半定制实现,该系统有124个节点,峰值双精度性能为4.9 petaflops,在HPC常用的Linpack并行Fortran基准测试中的评价为3.31petaflops。但这是个例外,不是常规。


但是,Facebook喜欢设计自己的硬件,然后将其开源,试图围绕这些设计构建一个生态系统,以降低工程和制造成本,并降低供应链风险,因为越来越多的公司进入了开放计算领域。这与微软几年前加入OCP并将一系列完全不同的开源基础设施设计(从服务器到存储到交换)抛入OCP生态系统的原因相同。这增加了创新,但也导致了供应链分叉。


在本周于圣何塞举行的OCP全球峰会上,Facebook展示了针对机器学习训练和基础设施的未来系统设计,让世界有机会看到针对现代数据中心的这两个日益重要的工作负载的成本优化设备的至少一个潜在的未来。这些设计非常有趣,表明Facebook热衷于创建能够容纳尽可能多的供应商的不同类型计算的系统,再次降低成本和供应链风险。


不是基本训练


第一台新机器代号为“Zion”,它的目标是Facebook上的机器学习训练工作负载。Zion系统由两个不同的子系统组成,就像英伟达的DGX-1和微软的HGX-1,也包括DGX-2和HGX-2,以及ODM和OEM厂商为客户制造的各种等价产品。 Zion系统是两年前Facebook在OCP峰会上与微软的HGX-1一起发布的“Big Basin”ceepie-geepie系统的继承者,这两个系统的设计都为OCP做出了贡献。Big Basin机器的主机支持多达8个英伟达的“Pascal”GP100或“Volta”GV100 GPU加速器,以及两个英特尔Xeon CPU。巧妙之处在于CPU计算和GPU计算是分开的,分别位于不同的主板和不同的机箱中,因此它们可以单独升级。具体取决于品牌和型号。


Big Basin是对其前身“Big Sur”的彻底改进,后者是一款密度较低的设计,基于单个主板,配备两个Xeon CPU和多达8个PCI-Express Nvidia Tesla加速器(M40或K80是最受欢迎的)。Big Sur于2015年12月曝光。Facebook在谈到设计时表示,开发工作已经基本完成,还没有投入生产,这意味着Zion机器还没有投入生产,但很快就会问世。(我们在2018年1月讨论了Facebook不断演变的AI工作负载,以及运行这些工作负载的机器。)Zion机器的变化显示了Facebook在混合CPU-GPU机器上的想法的变迁,这些想法是我们许多人都想不到的。


Zion机器的两个子系统被称为“Emerald Pools”和“Angels Landing”,分别指的是GPU和CPU子系统。尽管facebook多年来一直表示,其服务器设计的目的是允许选择处理器或加速器,但在这个例子中,facebook和微软合作提出了一种独特的封装和主板插接方法,称为OCP加速器模块(简称OAM),该方法允许使用具有不同插座和热量的加速器,可以选择250瓦至350瓦不等的风冷,未来则可以选择高达700瓦的水冷,但就硬件形式而言,所有这些都一致部署在这些加速系统中。


超大规模用户谷歌、阿里巴巴和腾讯将与Facebook和微软一起推广OAM封装,芯片制造商AMD、英特尔、Xilinx、Habana、高通和Graphcore也是如此。系统制造商IBM、联想、浪潮、广达电脑、企鹅计算、华为技术、WiWynn、Molex和BittWare也都支持OAM。毫无疑问,其它公司也将效仿它们的芯片和系统——惠普和戴尔显然是缺席的OEM,而富士康和Inventec则是缺席的主要ODM。


通过OAM,加速器被插入一个便携式插座,它的管脚在一侧,然后是一组标准的并行管脚,它在概念上类似于英伟达的SXM2插座,用于Pascal和Volta GPU上的NVLink,从模块上取下并插入主板上匹配的端口中。下图说明了它的原理: 



任何插入Emerald Pools机箱的特定加速器都会有散热器,散热器具有不同数量的鳍片和不同的材料,可用于冷却其下方的设备,但高度一致,因此无论哪种加速器插入插槽,散热器都能以一致的方式保持整个机箱中的气流不变。虽然Facebook没有这么说,但没有理由不能将多个不兼容的加速器插入Emerald Pools机箱,并使用该机箱中实现的PCI-Express交换结构相互连接并与主机CPU连接。下图是OAM的外观:



它看起来很像小型汽车电池,不是吗?


每个OAM的尺寸为102毫米×165毫米,足够容纳我们认为未来将会越来越大的多芯片模块。对于耗电量高达350瓦的设备,OAM可支持12伏特的输入;对于需要驱动高达700瓦的设备,OAM可支持48伏特的输入;风冷的散热能力预计将在450瓦左右。当前的OAM规范允许在加速器和主机之间提供一个或两个PCI-Express 3.0 x16插槽,而且很显然,更快的PCI-Express 4.0和5.0插槽已在规划图中。这样就剩下6到7个PCI-Express链路用于交叉耦合加速器。顺便说一句,这些链路可以分成两部分,以提供更多的互连链路,并可以增加或减少任意给定链路的通道数量。


下图是Emerald Pools机箱,里面插了8个加速器中的7个。



Emerald Pools底座后面有四个PCI-Express交换机,位于图片的右侧,每个交换机都插入对应的Angels Landing CPU机箱(即Zion系统的另一半)上的配套PCI-Express交换机。该系统的CPU部分没有在Facebook展位上展出,但Facebook技术项目经理、设计其AI系统的工程师之一Sam Naghshineh在一次演讲中展示了这台机器:



你可以看到,4个PCI-Express 3.0管线从加速器底座和CPU底座上出来,将它们连接在一起。关于Angels Landing有趣的一点不是它总共有4个服务器底座,每个都有一对Xeon SP处理器,这是超大规模数据中心的常规设计。巧妙之处在于,由于在系统的CPU端进行机器学习训练期间,对数据密集处理的需求不断增加,于是它使用处理器上的UltraPath Interconnect(UPI)链接将这4个双插槽机器捆绑在一起,以创建一个8插槽共享内存节点。按照Naghshineh的说法,从技术上讲,这称为扭曲超立方体拓扑:



这个大CPU节点设计为拥有2 TB的DRAM主内存,而无需使用大内存条或Optan3D XPoint主内存,而且重要的是,该节点可在系统的CPU端提供足够的内存带宽,从而无需使用HBM内存。(这并不是说英特尔或AMD CPU还拥有HBM内存,但某些场合它们确实拥有HBM内存,尤其是对于HPC和AI工作负载而言。)这8个插槽的DRAM内存带宽和容量一样重要。


如你所见,Angels Landing CPU机箱中的每个CPU都有自己的网络接口卡以及PCI-Express 3.0 x16插槽,用于将CPU连接到PCI-Express交换机结构,该交换机结构将加速器计算复合体连接在一起,并连接到CPU。这些加速器链接在上图中几乎完全连接的混合立方体网格中,但还可以支持其他拓扑,如下所示:



左图中,每个加速器有6个端口,8个加速器连接在一个混合立方体网格中。右图中,仍然有8个设备,但是每个设备都有一个额外的端口(总共7个),这些设备可以按照all-to-all的互连方式进行链接。显然还有其他选择,重点是不同的神经网络在不同的互连拓扑结构中效果更好,这将允许Facebook和其他公司改变互连的拓扑结构,以满足神经网络的需求。


推理的未来


Facebook毫不掩饰地表示,它希望拥有比目前市场上更高效的推理机,这是Facebook去年在一篇论文中讨论的一个话题。在本周的OCP全球峰会上,Facebook公司高层概述了机器学习推理硬件的未来。


Facebook技术和战略主管Vijay Rao提醒大家,早在1980年,英特尔就为8086系列处理器设计了8087数学协处理器,这些处理器如今是客户端的核心芯片和服务器上的Xeon芯片的前身。这些机器可以在2.4瓦的热度范围内实现50 kiloflops(32位单精度),达到相当惊人的每瓦20.8 kiloflops。Facebook的目标是使用像INT8这样的低精度数学运算,来达到接近每瓦5 teraflops,如果你看看英伟达的GV100,它可以达到每瓦特0.4 teraflops。


Rao在他的主题演讲中解释说:“我们一直在与许多合作伙伴密切合作,设计用于推理的ASIC。与传统CPU相比,在加速器中运行推理的吞吐量增加是值得的。在我们的情况下,应该是每瓦特10倍左右。”


Rao大致谈到了将M.2推理引擎组合到微服务器卡上,然后将它们插入到2015年创建的“Yosemite”服务器机箱中,Facebook设计该机箱是为了完成基本的基础设施工作。但当天晚些时候,Naghshineh实际展示了它的实现方法。以下是M.2推理引擎的“Kings Canyon”系列:



Facebook正试图鼓励推理芯片制造商支持两种不同的形式。一个是单个的宽M.2单元,最大支持12瓦,并带有一个PCI-Express x4接口,另一个具有两倍大的内存、20瓦的热度范围,一对PCI-Express x4端口,可以单独使用或捆绑使用。这些M.2推理卡中的多个被插入“Glacier Point”载卡中,该载卡插入真正的PCI-Express x16插槽,最多可以有4个载卡被插入Yosemite机箱,如下所示:



群集推理引擎的框图如下所示:



这样做的唯一原因与使用低核心计数、高频率、单插槽的微型服务器来运行电子设计自动化(EDA)工作负载相同,英特尔就是这样做的,尽管它想要向世界销售双插槽服务器。推理工作负载类似于Web服务和EDA验证:你可以将整个较小规模的工作分派到大量松散耦合(几乎没有耦合,完全不是真正耦合)计算单元中的一个,然后一次执行大量的这些任务,并同时完成大量工作。对一位数据的推断决不依赖于对无数其他工作的推断。机器学习训练则不同,它更像传统的HPC仿真和建模,在不同的程度和频率下,对一个计算元素进行的任何处理都依赖于其他计算元素的结果。


因此,我们所看到的用于机器学习训练和推理的截然不同的硬件设计都来自Facebook。我们可以肯定的是,Facebook希望能够采用它认为适合框架的任何类型的CPU和加速器进行训练,以及任何价格低廉的芯片推理引擎,在任意给定的时间内,它的性能都比CPU好10倍。今天在Facebook运行在X86服务器上的推理业务是英特尔的失败。或许也未必,没准Facebook会决定在今年晚些时候推出M.2 Nervana NNP推理引擎。我们将会看到推理是如何流过Kings Canyon的。


关键字:Facebook  机器学习 引用地址:Facebook 未来机器学习平台

上一篇:物联网时代,RISC-V架构引领新潮流
下一篇:意法半导体联手Actility展示Lora FOTA Demo

推荐阅读最新更新时间:2024-03-30 23:58

机器学习vs.人工智能:定义和重要性
机器学习,有时也称为计算智能,近年来已经突破了一些技术障碍,并在机器人、机器翻译、社交网络、电子商务,甚至医药和医疗保健等领域取得了重大进展。机器学习是人工智能的一个领域,其目标是开发学习计算技术以及构建能够自动获取知识的系统。 学习系统是一种计算机程序,它通过成功解决过去的问题积累的经验做出决策。尽管应用时间不长,但是有许多不同的学习算法,该领域是计算领域最热门的领域之一,并且定期发布一些新的技术和算法。 机器学习vs.人工智能 许多人认为机器学习和人工智能的含义是一样的,但这并不十分准确。人工智能有几种定义,这其中包含机器学习的广泛概念。一个被广泛接受的定义是,人工智能由依赖人类行为来解决问题的计算机制组成。换句话说,技术
[机器人]
Facebook隐私问题将刺激区块链广告技术普及
  近期, Facebook 与剑桥分析(Cambridge Analytica)的隐私泄露风波不禁让所有 Facebook 用户以及使用个人数据发布广告的各大互联网公司不寒而栗。下面就随网络通信小编一起来了解一下相关内容吧。   毕竟,广告收入是支撑这些企业的经济命脉,它们没有广告收入就无法生存和发展。 Facebook 和 Google 一直主导着数字广告市场。2017年,这两家公司的数字广告收入共计约1130亿美元,而紧随其后的四家竞争对手的2017年广告收入不足110亿美元。   在隐私泄露的严峻背景下,令人欣慰的一点是市场对更智能、更优化、更分散的数字广告业务模式敞开了大门。在这种模式中,用户不仅真正拥有自己的数据,
[网络通信]
Facebook未雨绸胶,必须切手机业
        去年社群网站Facebook(脸书)经由与宏达电 (2498)合作推出具有Facebook快捷键的手机后,今年4月脸书再并购摄影与滤镜用途程式商Instagram,并在美国推出了iPhone的Facebook Camera照片服务;此外亦变更为Timeline(时光动态)、适合索引的介面,显示Facebook在硬体终端产业企图心正在萌芽。     不过,不看好脸书推手机的投资者、产业分析师也不少,认为硬体的风险高于软体,评估未来IPO资金若用于硬体发展,长远来看,对脸书的利润帮助不大。     (上图为HTC曾推出的Salsa 手机,下侧有Facebook专属快捷键,是首款主打
[手机便携]
Facebook另一个惊人身份 人类最震惊的间谍机器
  你有没有想过?自己在Facebook中,辛苦维系关系、不断更新资料的行为,实际上,已经充当了美国国家安全局、FBI安放在全球范围内的间谍。这个在全球拥有超过5亿人数的巨大“社交机器”,无形中也扮演着另一个惊人的身份———史上最大间谍机器。而受益者,则无疑是美国政府!   实际上,iPhone手机中泄露行踪的“漏洞”并不算可怕,因为其无法记录你的真实身份和朋友关系。但这到Facebook上,就完全不同了。Facebook不仅可能记录你每次登录的所在地IP,更保存了你随时更新的各种真实身份信息,包括住址、相片,甚至提供你周围朋友的联系方式等隐私信息。这些丰富的信息,多得可怕,它能让一个陌生人,对你从一无所知到“了解全部”。   
[安防电子]
摩根士丹利独断专行导致Facebook股价破发
《纽约时报》周一撰文指出,投资银行摩根士丹利在Facebook首次公开招股进程中独揽大权,忽视市场需求和其它证券承销商的意见,最终导致Facebook股价在上市第二日便宣告破发。以下为文章内容摘要: 随着Facebook股价在上市后的第二日便宣告破发,交易员、银行家、投资人和分析师不禁要问,究竟是Facebook在首次公开招股的哪个环节出现了问题,导致这家多年来最受期待的科技公司首次公开招股(IPO)落得个如此下场。 市场中有人把问题归咎于担任Facebook首次公开招股主承销商的摩根士丹利,也有人把此归咎于纳斯达克证券市场,甚至还有人把此归咎于Facebook 公司本身。最终的结果,批评者认为Facebook首次公开招股的发
[网络通信]
Facebook股价走势中蕴含的重大启示
5月18日Facebook股票上市,首日收盘价为38.23美元,与发行价38美元基本相同。美国媒体中出现了“期待落空”的落魄声音,但此事所蕴含的重要启示却不容忽视。 移动业务能有收益吗?   Facebook新股发行当天因纳斯达克系统出现故障,上市后数小时内无法交易,这对Facebook来说不啻是霉运,这一点不可否认。   但是,谷歌2004年发行新股时,发行价为85美元,首日收盘价为100美元,股价上涨了两成左右。顺便一提,谷歌目前的股价超过了600美元。   那么,谷歌与Facebook的区别在哪里?在美国专家提出的诸多意见中,公认最有说服力的是,谷歌在新股发行阶段已经拥有以搜索服务开展广告业务的明确业务战略
[网络通信]
<font color='red'>Facebook</font>股价走势中蕴含的重大启示
谷歌大度称Facebook Home体现Android开放性
      【搜狐IT消息】4月5日消息,Facebook日前推出Android定制桌面应用“Facebook Home”(以下简称为“Home”)之后,几乎所有分析师都认为它会对谷歌自身利益造成负面影响,但是谷歌却表现得相当大度,回应称Home体现了Android平台的开放性和灵活性。   对于Home以及预装了该应用的HTC First手机,谷歌发言人作出的回应(由科技博客网站VentureBeat发布)言简意赅、落落大方:   “Android平台已经催生了数百种设备,而这款最新设备(指HTC First)体现了Android的开放性和灵活性——正因为如此,Android才会变得如此流行。此外,这也造福了那些想要通过Goo
[手机便携]
伟时电子:已经为Facebook旗下产品供应背光显示模组
11月24日,伟时电子回复投资者提问时指,目前,公司已为Facebook旗下产品供应背光显示模组;暂未与华为、苹果开展业务合作。公司将不断拓展客户群,巩固自身行业地位。 同时,针对Mini-Led产品和空中成像技术,伟时电子表示,公司一款Mini-Led产品已获得客户定点订单。根据汽车行业特点,实现量产需要一定周期;空中成像是一项尖端的全新技术,在车载领域的应用需要一定的时间;但在非车载领域已得到应用,如医疗设备、智能家居、公共显示等领域。 从业绩来看,2021年7-9月,伟时电子实现营业收入为2.86亿元,同比增长7.81%,归属于上市公司股东的净利润为152.66万元,同比下降91.95%;2021年前三季度,伟时电子
[手机便携]
伟时电子:已经为<font color='red'>Facebook</font>旗下产品供应背光显示模组
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
最新物联网文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved