专访壁仞科技高管:解构公司首颗7nm GPU
近日,国产高端GPU芯片企业壁仞科技在日前举办的产品发布会上对外披露了其旗下首款通用GPU芯片——BR100。
据壁仞科技创始人、董事长、CEO张文介绍,这颗使用7nm工艺打造的芯片创出全球算力纪录,峰值算力达到国际厂商在售旗舰产品3倍以上,创下国内互连带宽纪录,还是国内率先采用Chiplet技术、率先采用新一代主机接口PCIe 5.0、率先支持CXL互连协议的通用GPU芯片。
“BR100的正式发布,标志着全球通用GPU算力纪录第一次由一家中国企业创造,中国的通用GPU芯片正式迈入‘每秒千万亿次计算’新时代。”张文强调。
因为拥有实力雄厚的技术团队以及超强的资本号召力,壁仞科技自三年前成立伊始,就受到了行业高度关注。现在,在经过一千多个日夜之后,他们终于带来了其极具竞争力的产品。如上所述,壁仞科技还在这颗芯片上有了很多创新的设计。
为了帮助大家了解壁仞科技这颗芯片以及该团队设计产品的逻辑,半导体行业观察记者近日采访了壁仞科技多位高管,与大家一起解构壁仞科技首颗7nm GPU,并试图向大家揭露这家GPU新贵在未来产品规划上的想法。
用7nm叫板4nm的硬件底气
据壁仞科技方面介绍,在台积电 7nm 工艺上制造的BR100拥有1074mm2芯片面积,其集成的晶体管数量高达 770 亿。能取得这样的数据成绩,与公司以强大的原创架构结合在芯片设计上采用了 Chiplet与 2.5D CoWoS 先进封装技术,同时兼顾高良率与高性能有重要的关系。得益于这样的设计,BR100在性能上能够媲美英伟达于2022年发布的4nm芯片H100。在与后者2020年发布的7nm 芯片A100相比时,BR100能实现三倍的性能提升。
为了让大家对壁仞科技BR100设计上的优越性有更直观的了解,我们给大家提供一些数据参考。英伟达7nm A100的芯片面积为828mm2,晶体管数量为532亿;其4nm H100芯片的面积为814mm2,晶体管数量为800亿。
在问到如何在相对落后的工艺上获得比英伟达先进工艺芯片相当性能的时候,壁仞科技联合创始人、CTO 洪洲告诉记者:“完全自主的原创架构、先进的封装技术、超大的芯片规模和丰富的片上缓存让我们有了这样的底气”。
“在微架构上,我们以通用计算核的设计为中心,以强大的张量计算引擎来加速计算,采用自研的指令集更高效的实现各功能运行。自研的GPGPU架构及指令集搭配多级存储架构可实现大模型训练下的数据重用。而基于NoC的通讯架构,则可以实现数据多播功能,可以大大减少对片外带宽的需求,并大幅降低功耗。”洪洲指出。
据介绍,壁仞科技这个名为“壁立仞”的架构以数据流为中心,对数据流进行深度的优化,而通过六大技术特性,比较完整地解决了数据搬移的瓶颈和并行度不足的问题,使得BR100芯片在给定的工艺下实现了性能和能效的跨越式进步。
提到先进封装上的选择。洪洲表示,就芯片本身而言,采用Chiplet和2.5D CoWoS先进封装这类新技术的主要原因是希望实现系统级芯片的性能和成本关系,能够继续维持摩尔定律的“经济效益”:一方面,Chiplet可以提高大型芯片的良率,通过两片小型芯片“拼接”成一颗大芯片,可降低因良率所造成的损坏成本;另一方面,采用CoWoS可以提升互连密度,最大限度实现SoC、HBM、以及多个芯片之间的Die to Die的互连速度。
“通过采用Chiplet的方式还可丰富产品形态,例如壁仞科技此次发布的BR104为单die产品,而BR100则是采用了Chiplet技术的双die产品。一次流片,形成两款产品,各有优势与侧重点,覆盖更广泛的应用市场。”洪洲补充说。
除了在芯片的架构和设计上创新以外,壁仞科技在BR100的接口上也提供了丰富的支持。如支持 PCIe 5.0 接口技术与 CXL 通信协议,使其双向带宽 128 GB/s;原创 BLINK 高速 GPU 互连技术,单卡互连带宽达 512 GB/s,并支持单节点 8 卡全互连。
按照洪洲所说,CXL可解决CPU和GPU、GPU和GPU之间的内存资源使用问题,尤其对于计算服务器而言有限内存和大量计算设备之间存在着巨大的内存鸿沟,CXL是目前最有效的协议。至于PICe5.0,因为Intel、AMD等都将推出基于PICe5.0的服务器CPU芯片,Intel下一代Sapphire Rapids平台也将同时支持PCIe5.0和CXL,这也与壁仞科技的产品推出时间差不多。
“在多卡互连方面,通过采用名为BLINKTM 的高速SerDes技术,BR100能支持多个port,可实现8卡点对点互连,满足大规模AI训练多卡之间的数据交换的需求。”洪洲告诉记者。值得一提的是,其512 GB/s的速度更是创下了国内互连带宽的记录。
壁仞科技在BR100上集成了32个SPC,其中每个SPC有16个EU(Execution Unit:执行单元),每4个EU可配置成1个CU (Compute Unit:计算单元),每个SPC共4096个线程。其中,每个EU还有16个通用流式处理器,同时包含采用脉动3D GEMM架构的专用张量引擎T-Core。
整体而言,BR100拥有规模巨大的并行计算资源,包括8192个通用流式处理器、512组专用张量加速引擎,128K线程和256MB分布式共享L2级缓存等。值得一提的是,L2还可以支持多SPC间数据共享(8MB/SPC)和不同层次的近存储计算(Near Memory Computing),并可配置成大容量的scratchpad。
壁仞科技团队还充分预见到了客户的视频处理相关需求——单芯片的视频处理路数。因此他们在设计之初就在BR100里预埋了丰富的codec配置,其单芯片版本可支持32路编码和256路的解码,双芯片版本可支持64路编码和512路的解码(每路FHD@30fps),可大大降低视频处理的每路成本。
除了上述特性以外,BR100还有几个不能忽视的亮点:例如在内存系统方面,配备了64GB HBM2E 片外内存,带宽总计 1.64TB/s,并配备超 300MB 片上高速 SRAM;在多精度支持方面,除原生支持 FP32、BF16、FP16、INT8 等主流数据精度外,原创定义 TF32+数据精度,相较 TF32 提供更高数据精度与吞吐性能;在安全虚拟实例(SVI)方面,能支持最高 8 个独立实例,每个实例物理隔离并配备独立的硬件资源,可独立运行;在国密安全规范方面,专用硬件加解密 IP,支持 AES 等常用安全加密算法,符合国密 1 级安全规范;在OCP 规范硬件系统方面,符合 OAM1.1 规范的 OAM 模组,最高支持 550W TDP 风冷散热,并按照 OCP 规范在UBB 主板上实现 8 卡全互连。
正是因为这样的硬件配置,让壁仞科技BR100获得了如上图所示的优越性能,至于上文提到的BR 104也不落下风。公司基于这两款芯片分别推出了OAM模组壁砺TM100和PCIe板卡壁砺TM104,为计算市场提供更好的支持。
为了更好地服务客户,壁仞科技同时在软件和生态方面进行了大量的投入。
软件和生态,一个都不能丢
“我们希望将壁仞科技建设成为国内最头部的GPU厂商,在软件和硬件上做出特色、做出竞争力,被客户认可,能够持续自我造血,成为一家成功的芯片设计企业。”壁仞科技联合创始人、总裁徐凌杰在回应笔者提问的时候强调。
他同时指出:“从客户视角来看,大算力和通用性始终是数据中心加速计算场景的核心,需要不断优化软硬件的各种细节,才能获得最终的商业化优势,这是一项长期的工作,但具有非常重要的意义和价值,也是芯片企业成功的必由之路。”
从这个回答我们可以看到,软件在壁仞科技未来规划中的重要性。
其实这并不是壁仞科技一家面临的问题。可以肯定地说,无论是国内还是国外的GPU公司、AI芯片公司,他们如果想在AI云端市场取得突破,就必要跨过行业霸主英伟达在十多年前为他们设下的一个门槛——CUDA。
按照英伟达的介绍,CUDA 是 NVIDIA 发明的一种并行计算平台和编程模型。它通过利用图形处理器 (GPU) 的处理能力,可大幅提升计算性能。到目前为止,基于 CUDA 的 GPU 销量已达数以百万计,软件开发商、科学家以及研究人员正在各个领域中运用 CUDA,其中包括图像与视频处理、计算生物学和化学、流体力学模拟、CT 图像再现、地震分析以及光线追踪等等。
在GPGPU和AI芯片想入局的人工智能市场,这尤其严重。因为英伟达的先入为主,现在很多厂商都在CUDA基础上做了很多开发和部署。为了免除开发者的移植和开发困扰,“兼容CUDA”就成为了所有GPU新贵和AI芯片需要考虑的一个重要因素。壁仞科技也不例外。
之所以会发生这样的情况,按照洪洲的说法,其主要原因是NVIDIA CUDA生态非常深厚,现有开发者几乎都是CUDA的用户,因此,“兼容CUDA”就成为了短期内能够复用现有生态的一种手段。
“但由于CUDA的闭源特性,以及快速的更新,后来者很难通过指令翻译等方式完美兼容,即使部分兼容也会有较大的性能损失,导致在性价比上持续落后NVIDIA。另一方面,CUDA毕竟是NVIDIA的专属软件栈,包含了许多NVIDIA GPU硬件的专有特性,这部分在其他厂商的芯片上并不能得到体现。”洪洲表示。为此壁仞科技认为,为了充分掌握核心软件技术,并完美适配自己的硬件,公司需要设计研发一套自主原创的编程模型和软件栈平台。
这正是他们打造BIRENSUPA(BIREN Scalable Unified Parallel Architecture)平台的原因。据介绍,该平台是一个异构计算平台,支持在壁仞科技的硬件设备上开发深度学习和通用计算应用。其核心则是SUPA编程模型和工具链。
相关资料显示,BIRENSUPA平台完整软件栈包括固件、驱动程序、编译器、工具、编程模型、库、机器学习框架和端到端应用SDK。在深度学习框架方面,则兼容了TensorFlow、PyTorch、飞桨等主流框架。该平台还支持壁仞科技自研高性能推理引擎并适配第三方推理引擎,让客户可以把现有GPU代码平滑迁移。
洪洲指出,相比CUDA,BIRENSUPA的编程范式、语言风格都非常类似,同时也支持壁仞科技硬件独有的特性;在完善的文档支持下,用户迁移成本非常低。而展望未来,壁仞科技还将在BIRENSUPA的核心层基础上继续扩展,以支持更多的端到端业务场景。
在搭建软件开发平台的同时,对多精度的支持以及和更多模型的支持,也是壁仞科技为解决客户困难,从而对产品软件和生态建设的重要投入。如上文谈到的“原创定义 TF32+数据精度”就是其中一个代表。
据洪洲介绍,TF32+是由壁仞科技定义的一种数据精度,和NVIDIA首推的TF32类似,这也是为满足AI运算精度要求而推出的。相比传统的FP32,TF32和TF32+大幅提升计算吞吐率。与TF32相比,TF32+更是可以在满足相同数据表示范围的前提下,增加了5位尾数(mantissa),从而实现比TF32更高的精度和性能,适用于大量的乘加计算,是单精度矩阵计算的绝佳替代品。
“Transformer在如今的深度学习领域占据着不可或缺的地位,它被广泛应用于自然语言处理、图像处理等领域,有着极大的影响力。壁仞科技同样非常重视Transformer模型,将它列为首批支持的模型之一。”洪洲说。
为了更多地推动公司的GPU产品落地,壁仞科技也正在与合作伙伴携手,推动公司产品与服务器的适配。徐凌杰在产品发布会上也指出,公司已与互联网、云计算、金融、通信、数据中心等行业的头部客户签订了战略合作协议。在某些重点客户上,公司更是已经启动了产品适配和引入测试。
与此同时,壁仞科技还携手浪潮发布了为数据中心云端训练打造的“海玄”OAM服务器及集群方案。据介绍,这是创出全球算力纪录的OAM服务器,能够做到8PFLOPS的浮点算力,支持PCI e 5.0主机和CXL互连协议,具备1.8TB/s对分互连带宽、512 GB HBM2E内存和最大功耗7KW等特性。
基于这样强劲的性能,壁仞科技面向市场打造了一整套具有高性能、高性价比的集群式算力基础设施解决方案。与国际厂商数据中心方案相比,该数据中心集群方案仅用1/3的服务器数量就实现了更高的浮点算力、更低的峰值能耗以及占地空间,能将所需的标准煤发电量降低64%,使其具备了高能效利用率、实用性、经济性和环境协调性等特征。
与此同时,壁仞科技还宣布了与平安科技、中国移动和万国数据等在壁仞科技芯片提供的算力上建立合作。
除了与产业合作,和学研结合也是壁仞科技推进公司产品发展的一大筹码。壁仞科技方面也强调,公司一直秉持科教兴国的理念,相信产业、学校、科研机构等相互配合,发挥各自优势,势必形成强大的研究、开发、生产一体化的系统并在合作中发挥出1+1>2的综合优势。通过与清华大学、复旦大学、上海交通大学、浙江大学等多所国内顶尖高校成立联合实验室、研究专项计划、联合创新中心、开发科技课程等形式,壁仞科技希望在芯片架构创新、技术探索、应用合作等领域形成紧密的产学研合作。
“百年基业长青”
在发布会上,张文透露了公司发展的目标——百年基业长青。从相关披露我们也看到,壁仞科技的产品触角已经从GPGPU,伸向了图形GPU。
诚然,在当前全球地缘政治的格局影响下,在国内芯片现状的需求下,打造一个“百年长青”的本土GPU企业是有其必要性,也是有其必然性的。但正如很多分析人士所说的一样,这对一个芯片创业公司来说,并不是一件容易的事。而壁仞科技的上述投入和动作,正是驱动公司往这个目标前进的最强动力。
壁仞科技联席CEO李新荣进一步指出“在壁仞科技之前,有许多AI芯片、GPU芯片公司在不断追随NVIDIA产品的脚步,所对标的产品始终落人一步。但自壁仞科技以后,我们所设计研发的产品将对标NVIDIA当代,甚至是其下一代产品,真正实现与国际主流产品的正面竞争。”
李新荣在接受采访时还告诉笔者,除了持续发力公司的GPU外,公司还看到了3U联合成为了当前数据中心云计算产业发展的趋势,因此壁仞科技在该领域方向也进行了技术布局与积累,扩充数据中心技术生态,目的是为了与国际厂商在数据中心全场景下进行全面的对标,并在关键技术下同步建立技术壁垒,为建设高效能的新型数据中心积累经验,布局CPU和DPU可以在服务器主机侧和网络端掌握核心能力,强化壁仞科技GPU在数据中心端到端的技术能力。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3128内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!