燧原科技:不仅仅是一家芯片公司
在AI芯片领域,国内企业已经陆续实现从0到1,接下来从1到100,考验的是关键的落地厮杀环节。所以一款AI芯片能否做的出来似乎已经不足以博取众人的眼球了,因为AI场景的落地情况,才是直接关系着一家企业能否存活下去的必要因素。
AI场景落地是一场硬仗
数字经济下,算力已成为新的关键生产力,人工智能产业的蓬勃发展,促进了数据量爆发式增长和数据形态日益多样化,对于算力多样化的需求也不断演进,尤其是智能算力需求迅速增长,数据中心正在朝着异构计算的方向前进。在数据中心这个场景下,算力需求由2年翻一倍转变为3.4个月翻一倍,单一模型并行训练无法满足,需要结合流水、张量以及数据并行进一步加速。
燧原科技创始人、董事长、CEO赵立东表示,“高性能计算芯片是支撑人工智能算力最核心的技术,也是目前的短板。燧原科技选择了自己的发展战略,坚持原始创新而非简单仿制跟进的技术路线,建立长期核心竞争力”。作为数据中心基础设施提供商,燧原科技自研的GCU(General Compute Unit)创新架构,正是面向计算而生。
燧原科技创始人、董事长、CEO赵立东
基于GCU架构,燧原科技于2019年发布了第一代训练产品“云燧T10”,2020年发布第一代推理产品“云燧i10”,2021年发布了第二代训练产品“云燧T20/T21”和推理产品“云燧i20”,以及配套的“驭算”软件平台,燧原科技成为国内第一家云端训练和推理产品迭代到第二代的科技企业。目前,燧原科技的第一代和第二代“邃思”芯片均已实际应用于大规模AI集群工程中,支撑融媒体生成、城市智能感知等多样化场景。
但不得不说,AI场景的落地是一场硬仗。在实际落地的过程中,燧原科技发现,人工智能数据中心的软件运维纷繁复杂,不仅面临着方案选型难和厂商产品兼容的痛点,还存在部署交付周期长、沟通成本高、项目管理周期长的难题。
赵立东还指出,要算尽其用,真正实现价值的创造,以价值创造驱动算力中心建设,而非一堆板卡、算力的简单硬件堆砌。
因此,结合燧原科技云燧训练和推理产品在行业落地的实践经验,在2022年世界人工智能大会“算尽其用·定义AI算力中心新实践”云端算力产业应用论坛上,燧原科技正式发布云燧智算机(CloudBlazer POD)。燧原科技推出了针对大规模、集约化人工智能算力应用场景推出的高性能人工智能加速集群产品云燧智算机(CloudBlazer POD)。
两代芯片、多项实践的产物:云燧智算机
云燧智算机是燧原科技基于两代芯片研发与多个大规模人工智能算力中心工程实践,面向大规模、集约化、绿色低碳数据中心建设而推出的智算集群。
云燧智算机
云燧智算机采用一体化设计,集计算、存储、管理、软硬协同于一体,以全局优化为目标,做到了开箱即用,为用户实现AI算力中心从交付部署到后期上线及运维管理全生命周期中的优异总拥有成本(TCO)。
基于计算、存储、管理网络分离,全互联无阻塞的网络架构,结合高效的多级存储方式,云燧智算机实现了千卡级大规模集群高速互联。其计算节点内基于GCU-LARE2.0多芯互联技术提供近1TB/s的互联带宽,跨节点互联能力高达600Gb/s。
云燧智算机整体设计
在强大的“邃思”芯片与CPU的异构算力支撑下,云燧智算机能够提供卓越的AI性能。依托于“邃思”芯片核心能力,在典型配置下,云燧智算机每单元可达到8PFLOPS的TF32浮点算力,并且支持按需横向扩容,可支持数千卡规模集群,突破E级算力。
而且值得一提的是,现在双碳和绿色环保理念下,数据中心作为重要的对象有着明确的指标性要求。通过采用一体化冷板式液冷技术,云燧智算机可实现单节点8颗高性能人工智能芯片液冷散热,通过液冷板等高效热传导部件将被冷却对象的热量传递到自然冷媒中,采用先进流量控制系统,大幅提高流量变化范围、降低能耗,拥有架构简约、系统可靠、智能监控等特性,PUE可降至1.1及以下。
燧池软件平台,释放集群生产力价值
软硬件协同概念自1990年出现,在这个算力需求旺盛,系统构成复杂,XPU架构相互协作的数据中心领域,软件正变得更加重要起来。
燧原科技创始人兼COO张亚林讲到:“系统和软件是算力服务应用的关键,真正的用户界面是系统和软件。在系统方面,表现为模型巨量化、场景多样化、算力规模化、IDC集约化;在这样的背景下,软件就需要易用性、迁移性、泛化性、编程性。软件的作用是对上层用户屏蔽底层算力异构性、赋能用户高效开发与部署上线AI应用,真正释放集群作为生产力工具的价值。”
燧原科技创始人兼COO张亚林
燧原科技发布的燧池智算平台(CloudBlazer Station)是全栈式人工智能开发服务平台和通用的大规模算力管理平台,基于“燧池”智算平台,云燧智算机能够根据处理任务的特性将CPU、内存、存储、Al加速卡等硬件资源进行统一管理与调度。
燧池智算平台(CloudBlazer Station)
云燧智算机通过一站式预集成人工智能加速硬件、一体化开发与管理平台及配套人工智能应用软件与服务,可广泛应用于数字政府、科研院所、科创平台等企事业单位。
国内XPU异构生态联盟兴起
要解决数据中心和智算产业快速发展带来日益增长的多样化算力的需求,生态的搭建至关重要。在本论坛上,燧原科技、云豹智能、此芯科技、超摩科技、砺算科技、芯砺智能、篆芯半导体、奎芯科技、澎峰科技和贝式计算发起成立“数据中心XPU异构生态联盟”,共同打造智算中心异构融合算力底座,响应国家绿色集约双碳目标。
“数据中心XPU异构生态联盟”正式成立
具体来看各联盟成员的专职,此芯科技是Arm架构通用智能CPU企业,澎峰科技是异构计算软件栈开发公司,超摩科技专注于Chiplet架构的CPU,()云豹智能是DPU芯片厂商,()砺算科技是GPU厂商,奎芯科技是IP厂商,篆芯半导体是以太网交换机芯片公司,贝式计算主要为工科研究、工业计算提供开箱可用的异构计算系统,芯砺智能主要聚焦嵌入式高性能计算平台(eHPC)。XPU异构生态联盟将利用成员多样化的算力能力,进行资源整合、优势互补、统一编程,来构建完整的XPU生态链,共同打造领先的智算中心集群。
结语
从零开始,燧原科技在两年半完成了大芯片、软件全栈、系统集群从产品定义、设计验证、流片到产品的最终商业落地。本次一体化云燧智算机的发布,将进一步完善燧原科技人工智能产品线,深化赋能丰富的人工智能应用场景。据张亚林揭露的POD产品路线图,目前燧原科技已落地超千卡规模液冷AI集群的。此次发布了E级算力的云燧智算机,下一步,燧原科技将推出训推一体的10倍算力的泛AI智算中心系统升级产品。
至此,燧原科技已经逐步完善版图,不再仅仅是一家芯片企业,而是做到了板卡、服务器、集群全方位的产品布局。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3157期内容,欢迎关注。
推荐阅读
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!