云计算的「反内卷」之刃,为什么会是CIPU?
编辑 | 王川
暗流涌动的云计算市场,正在酝酿一场“华山论剑”,这场对决的关键正是炙手可热的新型云数据中心专用处理器。
这场对决,气氛正在变得热烈,前有英伟达让DPU(Data Processing Unit)概念一炮而红,后有英特尔与谷歌合作,祭出IPU(Infrastructure Processing Unit)强势接招。
本周,阿里云带着新发布的CIPU(Cloud infrastructure Processing Units)处理器,以强者的姿态闯入了云计算3.0时代“华山论剑”的武林大会。
实际上,功能上看,CIPU、DPU、IPU、CIPU大抵相仿,都是为新型云数据中心设计的专用处理器。阿里云认为,未来CIPU将替代CPU成为云计算的管控和加速中心。
同一本武功秘籍,却生出了三套武功。这场“论剑”的输赢,绝不止在功夫上见高低。
云计算巨头们真正在争夺的,是下一代云计算标准的定义权,成为新时代的“武林盟主”。
阿里云的加入,让这场武林大会变得更加有趣。
毕竟,中国工程院院士、清华大学郑纬民教授对阿里云最新发布的CIPU也赞赏有佳,他认为,“CIPU完全打破上一代计算架构,是在基础技术上实现了世界领先的云数据中心专用处理器。”
CIPU,将如何打开云计算的新战场?
阿里云智能总裁张建锋发布CIPU
1
云计算正迈入3.0时代,
IPU/DPU/CIPU成新战场
CIPU、IPU、DPU对于大部分人而言是新概念,但对于全球领先的云服务提供商们,已然成为了必争之地。
因为,这一全新的处理器已经成为了大型云服务提供商们进入云计算3.0时代的关键。
阿里云智能总裁张建锋认为,过去十多年,云计算技术经历了两个发展阶段:第一阶段是分布式和虚拟化技术替代了大型机,满足了当时企业所需的算力规模;第二阶段出现了资源池化技术,以阿里巴巴为例,通过计算存储分离架构,将计算、存储、网络资源分别池化,突破了规模和稳定性的瓶颈,提供了超大规模的云计算服务。
“随着数据密集型计算场景的普及,用户对低时延、高带宽的需求也越来越高,传统以CPU为中心的计算体系架构无法适应这一趋势。为了解决这一问题,阿里云相关研发团队早在2015年就开始技术攻关,不断深入计算、网络、存储核心技术,深入垂直整合,才演进出以CIPU为中心的全新架构形态,云计算开始进入第三阶段。” 张建锋同时表示。
传统以CPU为中心的云计算架构中,CPU不仅需要承担计算任务,还要负责逻辑控制,随着数据密集型计算越来越多,这种架构会导致计算和网络传输的时延大,并且无法提供高带宽,研发全新的CIPU//IPU/DPU加速计算芯片,才能满足越来越多数据密集型计算需求成为了业界共识,这也成了云计算巨头们的新战场。
中科驭数CEO鄢贵海说:“DPU诞生的背景是带宽与计算性能的增速失调。CPU的性能从5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而网络带宽每年依旧还有35%左右的增长。处理性能和带宽增速的比例从原来的大概1:1,变成了现在的1:10左右。”
大禹智芯CEO李爽指出,“当有10倍以上的差距时,就需要思考新的架构。DPU实际上是架构转移。”
可以看到,无论是传统芯片巨头,还是云服务提供商,还有初创公司,都在近几年涌入了这一赛道。据雷峰网了解,全球头部的云服务提供商都在自研DPU。但阿里云自研的CIPU,优势突出。
2
CIPU有何独特之处?
与CPU和GPU这类通用计算芯片有着显著区别,DPU/IPU/CIPU是典型的应用驱动型芯片。既然是应用驱动型芯片,软硬件的融合以及对应用场景的理解就至关重要。
阿里云虚拟化技术负责人蒋林泉说,“CIPU是我们根据业务定义的芯片,向上接入飞天云操作系统,将全球数百万台服务器连成一台超级计算机,向下对数据中心的计算、存储、网络资源快速云化并进行硬件加速。我们自研的CIPU能够更精准解决云操作系统中管理、控制、调度,以及部分核心业务加速的问题。”
CIPU架构示意图
那CIPU是IPU和DPU的综合体吗?阿里云技术产品负责人蒋江伟认为,“这种说法对,也不对。如果单拿出一个IPU或者DPU,它没有类似飞天这样的操作系统,其实没那么大价值。CIPU天然需要跟云计算操作系统才能产生一个价值。”
多位业界人士也对雷峰网表示,DPU作为应用驱动的芯片,与云计算服务提供商基础架构的融合程度是DPU成功的关键。实际上,不同的云服务提供商底层软硬件架构不同,所以外部芯片设计公司设计的DPU/IPU很难与云服务提供商完美适配,像阿里云这样体量足够大的云服务提供商自研CIPU优势明显。
但相比同样是云服务提供商自研的芯片,比如AWS,阿里云的CIPU又有何独特之处?
蒋林泉认为:“我们都迈入了类似的新阶段,但在不同的市场里,我们看到的风景不太一样。首先,产品的性能上,CIPU无论是计算、网络、存储的性能都远超其它产品,这是因为国内客户对性能和性价比的追求非常极致,也与我们对垂直技术栈的深入有关。另一方面,我们与海外云服务提供商面向的客户也有明显不同,国外有很多成熟的企业用户,而国内有许多中小客户,他们更需要普惠的服务。”
当然,要证明CIPU在实际应用中带来的价值,数据是最为直观的体现。要知道,在拥有CIPU和飞天操作系统的新一代云计算架构体系下,阿里云的计算、网络、存储的性能实现了全面飞跃。
计算层面,CIPU能够快速接入不同类型资源的神龙计算平台,带来算力的“0”损耗,以及硬件级安全的加固隔离。
体现在不同的场景中,主流通用计算场景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大数据和AI 场景下,AI深度学习场景训练性能提升30%,Spark计算性能提升30%。
CIPU与网络的结合,基础带宽从100G升级至200G,网络时延从22us降低至16us,RDMA协议下更可低至5.5us。
特别值得一提的是,CIPU能够对高带宽物理网络进行硬件加速,通过建设大规模的eRDMA分布式高性能网络,让一般只有在超算里才能使用的“贵族化”技术RDMA在阿里云中普惠化。
CIPU与存储的结合,对存算分离架构的块存储接入进行硬件加速,云盘存储IOPS最高可达300万,长尾时延降低50%,全面超越市面上所有云产品,云端能提供比本地更安全可靠且高性能的存储能力。
CIPU带来的云计算核心三要素计算、存储、网络性能的全面提升,不仅会对云、对数据中心内部产生影响,也会改变传统计算机终端、以及软件应用分发的形态。同时也意味着,云计算正在进入下一个时代。
阿里云认为,新一代的云计算要从数据中心的内部做体系化创新,从以往的以CPU为中心的体系架构,进入以CIPU为中心的体系架构。
3
CIPU之争背后,是下一代云计算标准
的定义权争夺
云计算体系架构的变化,也将引发下一代云计算标准的定义权之争。过去的经验告诉我们,只有业界的佼佼者才能拥有定义标准的权利。
“今天我们可以清晰得看到,阿里云做到了软硬件完美结合,成为‘飞天+CIPU’支撑的云计算技术体系”,张建锋说,“阿里云核心技术一直走在世界前列,这个新型体系是技术长征路上的新的里程碑,这个新型的技术体系正在定义下一代云计算架构。”
阿里云有这样的底气,关键在于过去13年核心技术的自研,构建出了自研芯片、服务器、计算、存储、网络等软硬一体的新型计算体系架构。2003年图灵奖得主Alan Kay曾说过,只要你是真正认真对待软件的人,就应该自己做硬件,才能够获得差异化的体验。
操作系统和软件是离最终用户最近的产品,只有对它有深刻的认知,才能提供有差异化和有竞争力的产品。
阿里云正是选择了这样的自研之路,首先自研了中国唯一的云操作系统——飞天,将遍布全球的上百万台服务器连接成一台超级计算机,单集群可达10万台规模,千亿级文件数,EB级别存储空间。
有了云操作系统飞天,想要进一步提升就需要由上而下,从系统到软件再到硬件掌握核心技术。这又回到了计算、存储和网络三大要素。
在计算层,为了解决服务器长久以来的虚拟化性能损耗的问题,阿里云自主研发了神龙架构。在存储层,阿里自研的分布式存储系统盘古,采用了分布式系统先进的容错架构和柔性平台设计,大幅提高了存储系统的可靠性和安全性。网络层,阿里云自研的络神韵网络支撑起百万级的用户业务部署,让更多能够人体验到云计算带来的高效便捷服务。
阿里云还通过自研数据库PolarDB,进一步提升可用性、并发处理、弹性能力,能够高效应对“双11”般的流量洪峰。
在此基础上,阿里云去年发布了自研的磐久服务器和龙蜥操作系统,磐久服务器采用了最新型的模块化设计,带来了服务器交付效率提升50%。龙蜥操作系统性能大幅提升的同时,支持x86、ARM、龙芯(LoongArch)等多种芯片架构和计算场景,也让阿里云成为全球支持CPU种类最多的云厂商。
去年阿里云发布的倚天710 CPU,由于是针对云计算设计的产品,更是能够带来业界领先的极致性能。今年发布的CIPU,是阿里云自然而然的选择,更是认真对待软件走向硬件自研的正确路径。
过去多年的自研,已经让阿里云站在了云计算领域的山峰。最新发布的自研产品CIPU,让阿里云拥有了承接上层飞天操作系统和底层计算、网络、存储的最强连接,再一次打破数据中心瓶颈,带领数据中心从以CPU为中心转向以CIPU为中心,推动云计算向3.0时代迈进。
在云计算的新阶段,阿里云将拥有定义下一代云计算标准的实力,有机会站上全球云计算领域之巅。