燧原发布第二代训练芯片:从星火燎原到芯云长天

发布者:EEWorld资讯最新更新时间:2021-07-13 来源: EEWORLD关键字:燧原  训练  推理 手机看文章 扫描二维码
随时随地手机看文章

日前,燧原科技召开了第二次线下产品发布盛会,正式对外宣布推出第二代的训练芯片邃思2.0,以及训练加速卡云燧T20和训练OAM模组T21。相比第一次发布会星火燎原的主题,此次芯云长天的主题则更彰显了燧原的自信和决心。自信背后最重要的原因是公司成立仅三年间就推出了两款训练芯片和一款推理芯片,以及配套的开发软件、加速卡、超算集群等产品系列。


遂原科技CEO赵立东表示:“在AI算力爆炸的年代,每年算力增长超过10倍,但是目前在最高端的云端训练市场,生态被垄断,产品被垄断,而遂原希望打破这种垄断,构建没有依赖的自主生态系统。在这背后提供支撑的包括高性能芯片、加速卡、AI服务器、集群,以及配套的软件栈。”


image.png

遂原科技CEO赵立东(左)及燧原科技COO张亚林(右)


燧原三年结硕果


三年前,燧原成立之时,就已定下愿景和目标——成为云端AI和高端芯片双赛道领军企业,通过建立一支世界水平的本土化研发和工程化团队,实现国产自主创新的核心技术,开发为数据中心或者叫智能计算中心打造最优的云端AI产品,从而形成训练、推理完整闭环的解决方案。


赵立东介绍道,目前燧原已经有超过500位全职员工,其中90%是研发人员,70%以上都是硕士和博士以上的学位。至今燧原已获得52项专利,涵盖芯片架构、功能模块、封装、系统设计以及软件栈。


2019年12月,燧原就发布了第一代训练产品,并在2020年9月实现商业化落地。同年10月荣获了工业和信息化部电子信息研究院的中国芯年度重大创新奖,这也是奖项诞生15届以来首次授给AI芯片。2020年12月,燧原又发布了第一代推理产品云燧T10。


而今正式发布的第二代的训练芯片邃思2.0,以及第二代推理产品云燧T20和T21,标志着燧原在国内率先步进到第二代训练产品。


“燎原”计划交朋友


随着人工智能的落地,不光是对互联网企业有需求,而且会重塑传统行业,从金融安防、医疗、教育、智慧城市,人工智能的AI+落地越来越广泛,对算力的需求是整个人工智能发展的基础。随着摩尔定律的放缓,算力的发展也呈现出新样式,异构计算、Chiplet、先进封装等技术的出现都将加速算力的进步。但与此同时,算力将是全面的跨行业的竞争,它不是一个相对简单的产品竞争,是复杂的、生态的竞争。


“燧原的产品开发和业务落地离不开产业伙伴的合作,这些产业伙伴包括了主要的产业联盟,CPU和服务器厂家、科研院所、高校、杰出的软件公司,还有解决方案公司。在芯片开发、大规模集群互联、异构计算、绿色液冷散热、国产框架、软件栈、编译器、算子库、算法、大型训练模型的开发和应用等方面开展全方位的合作。”赵立东说道。


也正因此,赵立东在发布会现场宣布推出“燎原”计划,该计划包括三大特征:第一,是要做原始创新,从头打造基础,不会受制于人。第二,是构建标准化,同国内机构一起积极参与标准化的制定,以及搭建测试平台。第三,是以开放的姿态共建生态。生态内容涵盖了开发者生态、产业生态以及科研生态三方面。


赵立东表示,“燎原”计划除了在深度学习计算、通用人工智能领域之外,还会透过通用异构计算来涵盖科学计算和工程计算,支持视觉计算相关的视频编解码等等。


燧原新品解读


燧原科技COO张亚林详细解读了此次发布会的具体产品。


首先是绿色一体化超算智能集群2.0(CloudBlazer Matrix),是燧原同合作伙伴共同打造的全球领先的计算集群,包含8192张CloudBlazer训练卡,可达到1.3E Flops算力,而这是全世界第一次使用8000张卡实现超一亿算力的产品。能够引领中国的绿色数字化,液冷下PUE可以降到1.15,大力提升整个集群的能效比。每张训练卡单精度算力达160T,具有80%的集群线性度,最大互联带宽2.5P。对比1.0产品的性能:最多支持1280张卡,算力28P Flops,最大互连带宽0.25P。可以说“所有指标都有了飞速提升,这让燧原科技拥有了利用集群化、绿色化的方式助力中国新基建的资本。”张亚林说道。


CloudBlazer的核心是邃思 DTU 2.0,该芯片目前是中国最大尺寸的计算芯片,突破了封装的极限。在57.5毫米×57.5毫米的封装面积中,集成了10颗芯片,包括主芯片以及三星的HBM2E存储器。这个封装尺寸已经达到了封装合作伙伴的历史极限。


image.png

邃思 DTU 2.0


也正因为高度集成,邃思2.0的单精度算力 FP32 峰值算力达到了40T Flops,同时该产品支持单精度张量TF32的计算模式,算力达到了160T Flops。半精度BF16和P16的算力也为160T Flops,定点整数精度为320T Flops。“燧原是第一次在中国实现全算力产品,涵盖了FP32到TF32,BF16、FP16和INT8。”张亚林说道。


在数据引擎方面,燧原在芯片内部植入了完全可编程的数据流,进一步地提升了可编程性能上的优势,完全的指令驱动的传输和助力计算,保证了数据的吞吐量,同时以及不同模型下数据的效率,完全支撑标量、向量和张量的高效数据处理,以及多地址广播。


在存储方面,邃思2.0是中国首款采用HBM2E的产品,4颗HBM2E帮助邃思2.0实现单芯片64GB存储,最大存储带宽达到了1.8T,相比邃思1.0容量提升4倍,带宽提升3倍。


在互联方面,互联也被认为是数据中心多主机多卡集群训练的必要因素,燧原支持6个卡间互联端口,每一个端口双向500GB,是邃思1.0的1.5倍。


燧原科技也同步推出采用邃思2.0的加速卡,分别是云燧T21和T20。其中T21是标准化的OAM模组,适配液冷服务器。T20是全高全长的PCIE卡,由于功耗限制,因此T20的单精度算力降低到了134.4T Flops,单精度张量降低到33.6 TFlops,存储带宽从1.8T降至1.6T。


image.png

云燧T20

image.png

云燧T21


TopsRider2.0是燧原科技开发的软件平台,相比1.0进行了巨大的革新。首先,极大地优化了整个编程模型和算子接口,使得整个用户的接入更加有效。其次,提升了编译技术,在整个图编译跟算子自动化方面做了大量的努力和推进,使得整个燧原的软件栈在底层算子、框架上大幅度提高。第三,则是在互联上进行优化,支持6个卡间互联端口,以及最高扩展到8000张卡的集群。


燧原TopsRider2.0软件平台依据软硬件协同的架构设计,采用一体化的原创设计。算子完全实现自动化的调整,直接通过机器学习自动产生,能够支持更高效能的并行通信库,提供交钥匙整个系统解决方案。提供用户编程模型,可便捷定义算子,能够使能更多的用户算子开发。完善的工具和编译系统,给用户提供开箱即用的图形化的整合开发环境,并且支持AI模型调整、动态化和高性能运行。提供更加灵活和通用支持,支持全方案虚拟化和自动部署,支持四个用户并行切分算力,方便云服务商更快捷进行部署。


产品路线图公布


张亚林详细介绍了燧原直到2023年的产品路线图,准备用5年时间打造三代训练产品,T30和T31的预期性能将达到T10和T11的14倍。而同样针对推理端,也将在5年内推出三代产品,I20比I10提升4倍,I30则会比I20提升16倍。TopsRider软件平台也会随之升级到3.0,将围绕泛AI生态,包括科学计算、智能计算等方向发展,从而更好地打造异构计算的生态。


张亚林也提出了燧原的智能计算定律,相比较NVIDIA的黄氏定律每一代GPU能效提升两倍而言,燧原的定律更加激进,“燧原的每一代产品必须比前一代产品在平均的客户业务里面达到能效比三倍、性价比两倍的提升,并确保软件的兼容可靠。这是我们对自己算力普惠,对芯片,对助力实现客户价值,对不断挑战技术高峰的承诺。”张亚林介绍道。


张亚林总结道:“燧原将一如既往踏踏实实进行产品迭代,认认真真服务客户价值,随着中国整个新基建的浪潮,助力整个中国数字化的趋势。也希望大家继续支持我们的长期主义价值观。”

关键字:燧原  训练  推理 引用地址:燧原发布第二代训练芯片:从星火燎原到芯云长天

上一篇:索赔超64亿元 华为诉Verizon侵权案今在美开庭
下一篇:工信部联合十部门印发《5G 应用“扬帆”行动计划》

推荐阅读最新更新时间:2024-11-18 14:51

马斯克:特斯拉不再需要用激光雷达采集FSD训练数据
Luminar Technologies 近日在其致股东的信函中提到,电动汽车制造商特斯拉是其 2024 年第一季度最大的 LiDAR(激光雷达)产品客户,当季特斯拉贡献了 Luminar 超过 10% 的收入。但根据埃隆・马斯克最近的表态,Luminar 未来来自特斯拉的业务可能会减少。 这一消息让外界猜测特斯拉可能在自动驾驶领域转向使用激光雷达,似乎与马斯克此前将激光雷达方案称为“歧路”的言论相左。此前马斯克曾将激光雷达称为“愚蠢的差事”和“死胡同”。不过,长期关注特斯拉的人士指出,特斯拉一直使用激光雷达设备来验证测试车辆的视觉数据。因此,特斯拉从 Luminar 购买 LiDAR 设备也就不奇怪了。 针对特斯拉成为最大客户的
[汽车电子]
利用自身声音训练人工智能,脑机接口新技术让渐冻症患者重新“说话”
美国加州大学戴维斯分校健康中心开发出一款新型脑机接口(BCI),可将脑信号转化为语音,准确率高达97%,是目前同类系统中最高的。该团队在一名因肌萎缩侧索硬化症(ALS,俗称渐冻症)而语言能力严重受损的男子大脑中植入了传感器。启动该系统后,该男子在几分钟内就能说出自己想要说的话。相关研究15日发表在《新英格兰医学杂志》上。 这款脑机接口旨在帮助那些因神经系统疾病而无法说话的人恢复语言交流能力,它可解读用户说话时的脑信号,并将其转换成由计算机朗读的文本。 研究团队招募了一名45岁的ALS患者参加临床试验。该名患者的症状是手臂和腿部无力,言语也很难理解。 2023年7月,团队向该名患者植入了专用的BCI设备。4个微电极阵列放入左中央前回
[医疗电子]
自动驾驶芯片研究:除了堆算力,核心IP、软件栈、AI训练平台等愈发重要
L2.5、L2.9已经实现大规模量产上路,L3和限定场景的L4量产已成为主机厂下一阶段的重要目标。2022年3月,美国国家公路交通安全管理局(NHTSA)宣布了一项历史性决定——自动驾驶车厂不再需要为全自动驾驶汽车配备手动驾驶控制系统,未来美国有望出台更多自动驾驶领域的重要政策,引导L3/L4级自动驾驶上路。 在这一背景下,ADAS/AD自动驾驶芯片也迎来一波升级换代,众多芯片厂商都已推出或计划推出高算力芯片。2022年1月,Mobileye在CES上推出了EyeQ® Ultra™系统集成芯片, 采用5纳米制程,单芯片算力176 TOPS,虽不如英伟达、高通等竞争对手的算力规划,但其高性价比、高能效比依然可能得到主机厂商的青睐
[汽车电子]
自动驾驶芯片研究:除了堆算力,核心IP、软件栈、AI<font color='red'>训练</font>平台等愈发重要
小广播
热门活动
换一批
更多
最新网络通信文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved