超大规模的基础设施服务正在加快

发布者:EEWorld资讯最新更新时间:2020-05-25 来源: EEWORLD关键字:云服务  阿里云  AWS  微软 手机看文章 扫描二维码
随时随地手机看文章

翻译自——eetimes

 

大规模部署、管理和编排计算加速芯片并不容易。相反,云提供商的经济权衡更倾向于加速器产品提供的非性能方面,比如操作系统驱动程序。

 

 

Liftr Insights在过去一年中一直在跟踪四大基础设施即服务(IaaS)云提供商提供的实例类型和大小:阿里云、亚马逊云服务(AWS)、谷歌云平台(GCP)和微软Azure。

 

在2019年6月,我们将剩下的少数加速器实例类型包括在内,这些加速器实例类型可以与各种仅使用处理器的实例类型混合匹配。在对四大云服务进行了四分之三的详细的遥测之后,出现了三大趋势。

 

软件驱动程序影响处理器的选择

 

在最近的Linley会议上,Kevin Krewell在他的演讲中提到了编译器专业知识的重要性。然而,应用程序对加速器硬件的高效使用只是跨云地理管理和编排加速器芯片所需的整个软件解决方案的一部分。

 

数据中心日益膨胀,运营商正在寻找新方法来加速大量数据驱动的工作负载,从深度学习到自然语言处理。在我们即将到来的数据中心特别项目中,我们将深入研究加速AI模型训练和推断、数据分析和其他分布式应用的敏捷和超聚合数据中心架构。

 

在排名前四的云服务商中,所有的加速器芯片(无论类型或制造商)在过去的一年里都只连接到英特尔的Xeon处理器上,除了最近在微软Azure上安装了AMD的EPYC。Azure在今年2月率先打破了这一格局,首次生产部署了带有AMD EPYC v2 Rome处理器的AMD Radeon Instinct MI25 GPU。

 

超大规模的挑战是对对不同处理器模型的软件驱动程序支持,所述不同处理器模型运行不同的操作系统发行版本,且版本是针对每个加速器芯片的多个版本。

 

1.阿里云将其所有加速器与两款Xeon机型配对,即E5-2682 v4 (Broadwell)和白金8163 v5 (Skylake)。

 

阿里云平台的ecs服务器大多使用intel 至强处理器,而且大多是定制版,包括Platinum(铂金) 8163、Gold(金牌) 6150、Gold(金牌) 6149、E5-2682v4、E5-2680v3、E5-2667v4以及E3-1240v6等CPU。

 

阿里云正式发布云服务器ECS企业级产品家族,目前已推出面向173种企业应用场景的19款实例。该系列适合在复杂的企业计算环境下,满足对于高性能、高可靠的计算需求。同时阿里云也新发布了该系列产品中采用25G网络与Skylake处理器的全新一代实例,性能持续领先。

 

推出企业级产品家族面向高标准计算需求

 

这是阿里云首次将云服务器产品线细分出企业级产品家族,与入门级产品家族相比,这一新家族实例具备更强的计算性能与可靠性,适合于核心生产业务需求的计算。

 

“我们对于客户场景做了深入体察,基于客户需求而做了产品家族的再次解构与整合。”阿里云云服务器ECS负责人蒋林泉表示。从产品服务的角度而言,阿里云将为客户提供最为广谱的计算能力支持,场景区分之后方便客户选择适合的计算实例。

 

 

目前ECS企业级产品家族包含19款实例族,分为通用型(General Purpose Type)、计算性(Compute Type)、内存型(Memory Type)、高主频(High Frequency Compute Type)、本地SSD型(Local SSD Type)、大数据型(Big Data Network Enhancement Type)、GPU计算(GPU Compute Type)、FPGA计算(FPGA Compute Type)等类型,分别适用于包括AI、医疗、视频直播、金融、电商、IoT在内的173个应用场景。

 

2.AWS将其大多数加速器与Xeon型号的E5-2686 v4配对。也就是说,AWS没有指定大约40%的加速器配置使用的是哪个处理器。

 

 

图表 AWS实例规格统计

 

结合图表,AWS的金牌合作伙伴RightScale发布的,关于其代维的AWS云主机规格统计饼图,我们可以看到1核~2核规格的云主机是主流,占据了近70%的比例。按照常规AWS物理主机的2个Intel Xeon E5 12 core的配置来看,平均每个物理机上应该承载12个左右的云主机数量。而6万台的数据中心应该包含72万台云主机。按照每Availability Zone平均包含3个数据中心算,AWS在每个Region拥有可高质量互通的7.5个6万+的数据中心群,其中可部署45万+的物理机,承载540万+的云主机,这是个非常巨型的解决方案。

 

AWS数据中心间的网络设计实践

 

先从下图表看其Region间互联设计,其通过各个Region自有的BGP AS域构建了一个100Gb带宽的环球互联网络,以支撑其全球级服务管理面互通,和AWS BGP AS内的公网IP之间互通流量。相对于公共互联网,有低延时高可用的优势。但对于每个Region内近540万+云主机来说,每个云主机的平均带宽不到24bps。

 

 

3.Azure将其大多数加速器与两个Xeon模型配对,即E5-2690的v3 (Haswell)和v4 (Broadwell)代。

 

4.GCP允许将加速器芯片与广泛的基于Intel xeon的实例类型进行配对,但是我们相信在这种复杂性的背后是一组更简单的广泛部署的配置。

 

 

2020年3月,每个云中的加速实例类型的处理器共享

 

软件驱动会影响加速器的选择

 

虽然编译器和加速api必须是高性能,但是加速驱动程序必须是稳定可靠才行。超大规模的客户希望看到bug修复、防弹质量保证以及最重要的过程控制方面的快速转变。

 

在处理器市场中,可靠性、可用性和可服务性(RAS)一直是采用Arm处理器的最大障碍之一。加速器也不例外。确保驱动程序RAS处于超大规模是一个与设计性能编译器截然不同的技能集。它需要时间来发展技能和过程控制来展示一个稳定的行为的历史。

 

英伟达的86%的实例类型由前四个云服务商提供。这一份额与FPGA(英特尔和Xilinx)、GPU (AMD部分产品和最近的Radeon Instinct)以及云自身的内部设计(谷歌云张量处理单元[TPU]和AWS Inferentia)等高度分散的竞争领域形成了鲜明对比。

 

 

2020年3月,加速器在阿里云、AWS和Azure上共享实例类型

 

可用性,RAS影响软件开发工具

 

在这里,仅仅在加速器的开发工具后面使用性能编译器是不够的。我们假设每个加速器芯片开发团队都有机会接触到相当优秀的编译器开发人员和普通的开发人员工具设计人员。

 

开发工具必须能够被大量的潜在客户使用,并且必须按照开发人员所期望的那样工作。

 

Nvidia的CUDA为工具开发者提供了一个灵活的基础,使他们能够跨Nvidia的GPU产品线支持各种各样的开发工具。英伟达在加速器市场的份额在过去一年中略有增长,在前四大云计算中,基于加速器的整体部署增加了近70%。

 

Azure支持AMD的Radeon Instinct MI25在一个类型家族(NVas v4)中,但只在Windows上,类型家族的每个实例的部分GPU配置是典型的虚拟桌面环境。AMD已经展示了对实际企业桌面环境的强大支持,其先进的GPU虚拟化特性使其GPU在虚拟桌面方面具有竞争力。 

 

只有通过深度学习框架,才能使用内部设计的深度学习加速器。谷歌允许开发人员通过TensorFlow和PyTorch访问其云TPU。AWS允许开发人员通过自己的AWS神经元软件开发工具包(SDK)访问它的“下一层”芯片,AWS已经集成了TensorFlow、PyTorch和MXNet。

 

AWS在2019年12月开始生产,所以它的历史并不长。然而,自Liftr Insights于2019年6月开始跟踪谷歌的云TPU部署足迹以来,它一直没有改变。

 

FPGA的部署

 

云在FPGA策略上是分开的。

 

Azure提供了一个基于Intel Arria 10 FPGA实例类型(PB)。但是Azure只允许通过一组预先开发的深度学习推断模型来访问这一类型:ResNet 50、ResNet 152、DenseNet-121、VGG-16和SSD-VGG。Azure在2019年11月将其FPGA实例类型部署到生产中。

 

阿里云和AWS提供通用FPGA实例类型,并与第三方合作,在应用市场上提供FPGA开发工具和预先开发的应用程序。有两个挑战。首先,FPGA开发技能很少,不像GPU开发工具和深度学习建模框架。其次,FPGA市场应用程序必须比基于GPU的应用程序显示出明显的优势。

 

阿里云在2020年2月略微减少了英特尔Arria 10 FPGA的部署;自2019年3月开始追踪以来,它一直很稳定。在同一时期,阿里云几乎将其Xilinx Virtex UltraScale+ FPGA部署增加了一倍。AWS在10月份将其Xilinx Virtex UltraScale+ FPGA部署增加了约20%。请记住,这些更改只占全部加速器部署的很小一部分。

 

顺便提一下,Liftr Insights还没有在四大公共IaaS产品中记录更新的FPGA芯片,也没有记录基于其他深度学习加速器(如Graphcore Colossus)的预先声明的实例类型的部署。

 

未来会是什么样

 

全球顶级云提供商正在设计自己的内部深度学习加速器。我们相信像ONNX这样的独立于供应商的机器学习模型格式将成为促进训练和推理芯片设计的关键因素。

 

AWS和GCP已经将它们自己的设计部署为公共IaaS实例类型。

 

昆仑+含光800,解决中国缺芯之痛

 

阿里云在2019年9月首次尝试推出推断加速器——“含光800”,但还没有公开实例类型。阿里巴巴集团最近承诺在未来三年内投资2,800万美元用于半导体和操作系统的开发,并继续建设其数据中心基础设施。

 

 

含光800是一款AI芯片,偏重推理。据介绍,1颗含光800的算力相当于10颗GPU,目前基于含光800的AI云服务已在阿里云上线。

 

官方数据显示,含光800在芯片测试标准平台Resnet 50上的具体分数为:性能78563 IPS,是第二名(15012)5倍;能效比500 IPS/W,是第二名(150)3.3倍。

 

简单来说,含光800这样的AI芯片是要跟GPU加速的AI芯片竞争的,由于功能更加转移,所以能效会更高,性能更好。

 

2019年12月百度宣布其昆仑人工智能深度学习加速器将由三星制造。百度还与华为合作,以确保百度的paddle深度学习框架将运行在华为的麒麟(Kirin)服务器处理器上,想必也运行在华为的Ascend系列深度学习加速器上。

 

 

它之所以最引人注目,一个是这是李彦宏亲自发布的产品;第二个是2018年“中国芯”事件备受瞩目,芯片的发布自然让人关注。不过,百度芯片发布,却不是要蹭这个热点,从百度AI战略角度来看,芯片是其一定要补齐的一环,而且在做AI芯片上百度无疑是具备先天优势的。

 

百度昆仑抓住新算力需求

 

芯片产业的摩尔定律想必大家都不陌生,通俗版的解释是每18个月同等价格的芯片计算能力会翻倍。最近几年在PC和移动等个人芯片已满足大多数计算需求时,关于摩尔定律不再生效的论调也遍地都是。

 

实际上,传统计算硬件还在发展,只是速率慢了。随着大数据、人工智能的崛起,需要AI运算处理的数据,差不多每24个月就至少增长一倍,建构模型的复杂度是原来的五倍,与之相关,就需要计算能力强大十倍芯片能及时跟上,这一计算能力的提升,需要算法、软件和硬件工艺相互配合共同来完成。

 

为了应对量级增长的算力需求,百度发布了昆仑AI芯片,参数如下:14nm工艺;260Tops性能;512GB/s内存带宽;100+瓦特功耗。昆仑AI芯片具有高效、低成本和易用三大特征,其针对语音、NLP、图像等专门优化,同等性能下成本降低10倍,支持paddle等多个深度学习框架、编程灵活度高、灵活支持训练和预测。

 

在IaaS方面,在软件即服务的云中,Facebook正在与开放计算平台(OCP)加速器模块工作组(OAM)合作,开发标准化的培训和推理平台。

 

OAM培训平台被设计用来容纳大范围的高瓦数、商业深度学习加速器,使用一个可互换的模块,集成了加速器芯片和散热器,包括AMD、Intel/Habana Graphcore和Nvidia加速器。同样地,OAM推断平台被设计成在一个标准的M.2物理载体中容纳各种各样的小的低功率推断加速器。

 

Facebook已经设计了自己的Glow编译器,以优化在标准框架(如PyTorch)中开发的推断模型,使之适用于每个特定的基于m2的推断加速器。

 

开放式基础设施,如OCP的OAM,将使低层云能够更好地与AWS、Azure、GCP和阿里云等巨头正在激烈竞争。

 

延伸阅读——云服务将迎来最好时代

 

近几年来,全球各界积极推进数字化、智能化转型,越来越多企业开始部署物联网,并将应用部署在云端,推动云服务呈现高速增长态势。2018年全球云基础设施服务规模778亿美元,2019年同比增长37.6%至1071亿美元,预计到2024年将增长至2840亿美元,年复合增长率为24%,这一数据来自权威调研机构Canalys。

 

 

全球云市场亚马逊独领风骚

 

透过机构数据可以看出,全球云服务市场形成亚马逊与微软双雄格局,而中国云服务市场则形成阿里云与腾讯云两强争霸态势。需要指出的是,自亚马逊在2006年开创性推出AWS云服务后,如今云计算成为全球数字化重要基础设施,无处不在。“在2003年我们决定建立AWS时,没人会想到它会像现在这样迎来迅猛的发展势头,也根本不敢想象它最终会发展到如此可观的规模。”AWS首席执行官Andy Jassy(安迪)曾指出。

 

作为开创了云计算新时代的亚马逊来说,则受益这一波浪潮,使得AWS市场份额位居全球榜首。2019年来自AWS营收规模达到350亿美元(按照当前汇率换算约2495亿元人民币),同时也是亚马逊核心利润来源。

 

当然,微软积极迈向云方向转型,尽管与亚马逊还存在一定差距,但竞争实力不可小觑。得益于Azure高速增长,推动微软整体营收不断创出新高,一跃成为全球最具成长性科技巨头,市值高达1.39万亿美元(人民币9.9万亿元),坐上全球科技企业市值冠军宝座。

 

国内云服务市场形成BAT三强态势

 

值得一提的是,中国作为全球第二大云服务市场,保持高速增长态势。依据Canalys数据显示:2019年全年中国云服务市场规模107亿美元,相比上年增长63.7%。并表示2020年发展前景向好,主要是疫情结束后,将会有更多应用迁移至云端,而能做出迅速反应支持新老客户的云服务公司将会成为最大赢家。

 

 

国内云服务市场,继续以BAT占据主导市场地位,根据权威调研机构Canalys所发布的中国2019年第四季度中国基础云服务市场报告,排名前三的云服务厂商分别是阿里云、腾讯云和百度,他们占据国内超过七成公有云市场份额。

 


关键字:云服务  阿里云  AWS  微软 引用地址:超大规模的基础设施服务正在加快

上一篇:贸泽电子联手Molex推出定制电缆组装器
下一篇:最强算力融合最强区块链技术,英特尔加入蚂蚁区块链生态

推荐阅读最新更新时间:2024-10-16 21:16

宜鼎与微软合作,合力推出InnoAGE SSD
宜鼎日前于美国AIoT研讨会中集结微软、三星、美超威、立普思,与旗下子公司安提、安捷科、巽晨等,共建AIoT生态系与整合方案,并发布了全球独家内嵌微软Azure Sphere的InnoAGE SSD 宜鼎国际今年在美国Flash Memory Summit展览期间,联合国际大厂微软、三星、美超威、立普思以及旗下子公司安提、安捷科与巽晨科技,在美国加州举行了盛大的AIoT研讨会,携手强攻海外智慧物联市场,会中与微软共同推出年度新品InnoAGE SSD,历时一年共同研发,宜鼎于固态硬盘(SSD)中内嵌微软Azure Sphere,并成为全球第一个整合边缘运算与云端技术的AIoT领域专利产品,提供云到端垂直整合。 「宜鼎
[物联网]
宜鼎与<font color='red'>微软</font>合作,合力推出InnoAGE  SSD
苹果吆干货,Google 做广告,微软卖软件
        在最近《658 亿现金的投注》的文章评论中,有读者 keng 质疑说,苹果(Apple)与微软(Microsoft)在软件上面是全面竞争,从操作系统到办公软件,各种专业软件,唯一没有直接交火的是游戏软件,在电脑硬件上,苹果几乎是全面覆盖,从整机到配件,甚至已经与Intel 发生了潜在冲突,当然还有移动产品。 这个评论对,也有不对。对的地方是,单从涉及的业务而言,苹果确实蛮多的,包括 facetime 还在切入 Voip 通讯市场。但是,呈现一个公司样貌的,通常是其主营业务——高速公路边上的农家有时摆摊卖卖应季的特产或水果,但是我们不会把他们当成生意人。     此外还有一个题外的趣事,正如我们知道乔布斯是苹
[手机便携]
可穿戴设备或掀健康大数据及云服务浪潮
    院前应用较普遍,问诊及病历分享成在线主流模式,可穿戴设备或掀健康大数据及云服务浪潮,医药电商及移动医疗保险前景可期      1.在线问诊及移动诊寻服务      在线健康咨询是传统医疗服务的一种延伸,可有效解决患者看病无序现象。这一模式主要利用医生的空闲时间,解答患者的咨询。导诊服务则是将需要到医院就诊的患者导诊到相应的部门;而现在推广较为成熟的网上预约挂号,有效解决了患者挂号难、挂号时间长的处境。      春雨医生及好大夫是国内提供此类服务中较为成熟的两家。以春雨掌上医生为例,它主要两块核心业务是自查和问诊。在自查方面,用户可通过查找相关病症名称,得到检查及治疗方法,在问诊方面,用户在移动应用平台提出问题后,系统自动将
[医疗电子]
微软加入新一代DRAM团体HMCC的理由
    2012年5月8日,推进利用TSV(硅通孔)的三维层叠型新一代DRAM“Hybrid Memory Cube(HMC)”普及的Hybrid Memory Cube Consortium(HMCC)宣布,软件行业巨头美国微软已加盟该协会。   HMC是采用三维构造,在逻辑芯片上沿垂直方向叠加多个DRAM芯片,然后通过TSV连接布线的技术。HMC的最大特征是与既有的DRAM相比,性能可以得到极大的提升。提升的原因有二,一是芯片间的布线距离能够从半导体封装平摊在主板上的传统方法的“cm”单位大幅缩小到数十μm~1mm;二是一枚芯片上能够形成1000~数万个TSV,实现芯片间的多点连接。   微软之所以加入HMCC,是因为正在考虑
[手机便携]
微软“临时工”自曝Surface手机:革命性折叠屏
    按照微软CEO纳德拉的说法,微软的手机业务没有放弃,而他们正在开发的是一款革命性的产品。关于“革命性”的理解,普遍传言是基于ARM芯片运行exe程序,和桌面系统无异。   今晚,微软Azure官方推特的一张照片引发了注意,似乎是“临时工”自曝了微软的折叠屏手机,或者说Surface Phone的庐山真面目。不过,也有网友指出,看起来图中这款设备尺寸不小,或许是平板之类。 Surface Phone   关于折叠技术,三星和LG均完成了相关突破,而它也的确称得上是革命性的技术。   这样的Surface产品,有爱吗? 折叠屏技术
[手机便携]
陈金培:中国有能力做云计算的公司不超过三家
近两年,云计算的概念被炒得沸沸扬扬。在未来的互联网中,云计算将成为一种基础性的服务。作为云计算的全球标杆厂商,Google和亚马逊分别在技术和业务占据优势,它们也成为Netflix、Dropbox、Zynga等公司的幕后英雄。而当时对应国内几乎是蛮荒一片,始终不见服务落地。 相较于淘宝、支付宝这些人尽皆知的公司,同为阿里集团下的阿里云一直不为外界所熟谙。直到去年,这家略显神秘的公司才曝光其庞大布局——分布式计算系统、分布式数据库、手机操作系统以及地图、邮箱等互联网基础服务。而今年9月,关于阿里云OS问题与Google的口水战更是将这家成立刚两年的公司推到风口浪尖,一时间,甚嚣尘上、毁誉参半。 昨天,我们在杭州采访了阿里
[网络通信]
中国芯试图进入微软多媒体播放器Zune
8月16日上午消息,据国内音视频芯片厂商——福州瑞芯微电子有限公司(以下简称“瑞芯”)CEO励民透露,瑞芯与微软的战略合作将有望打开“中国芯”进入微软多媒体播放器Zune的大门。 昨日下午,瑞芯在深圳宣布与微软在MP3、MP4等便携式多媒体播放器领域展开战略合作。根据合作协议,瑞芯将首家采用微软音效技术PlayFx,旗下产品也将获Windows Vista认证。励民在会议后接受了新浪科技现场连线,探讨了瑞芯与微软Zune合作的可能性。 微软去年年底推出了多媒体 播放器 Zune,该产品至今未进入中国市场。据励民透露,此次合作为双方未来的深度合作打下了基础,瑞芯有可能成为微软音视频芯片的供应商,尽管目前签署的协议中尚未涉及相关合作
[焦点新闻]
诺基亚或将成为三星微软等收购目标
6月18日消息,据国外媒体报道,诺基亚股票不断下跌,跌幅创下十多年来最大幅度,苦苦挣扎中的诺基亚被视为收购目标,一些愿意押赌诺基亚未来智能手机还有发展前途的人可能成为潜在买家。 继媒体报道诺基亚手机第二季度营业亏损将加大,该公司将裁员一万人的消息后,诺基亚股价本周五暴跌18%。在市值蒸发约1000亿美元后,诺基亚净资产以38%的折扣进行交易,创下自1995年来最便宜记录。曾为欧洲最有价值的公司,但如今的诺基亚在不断亏损,该公司设法围绕微软Windowsphone软件重建智能手机。 旧金山投资公司FalconPointCapital指出,诺基亚当前的市净率在通信设备厂商中处于最低水平,该公司所持现金及短期投资总额已经
[手机便携]
小广播
最新物联网文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved