微软自研芯片,背后有何逻辑?

发布者:EEWorld资讯最新更新时间:2023-11-16 来源: EEWORLD作者: 王兆楠、付斌关键字:CPU  GPU  AI 手机看文章 扫描二维码
随时随地手机看文章

国产百模大战风头正劲,全世界算力都处于紧缺状态,作为AI算力主要动能的GPU企业,成了大模型之战中第一批“喝汤”的企业,CPU也乘势而起。可以说,布局AI多年,CPU、GPU现在终于能够“躺着把钱赚了”。 


所有人都想从AI芯片市场中分羹,微软也有着这样的野心。昨日,酝酿数年,继谷歌、亚马逊之后,微软自己的人工智能(AI)芯片终于来了。那么,它能威胁到“红绿蓝”三厂(英特尔、英伟达、AMD)的地位吗?



王兆楠、付斌丨作者

电子工程世界(ID:EEworldbbs)丨出品


微软,奔向AI芯片和CPU 


首先,我们先看看微软发布了什么产品。 


微软自研芯片分为两款,一款是专门用于云端训练和推理的AI芯片(ASIC)Microsoft Azure Maia 100,另一款是由微软设计的首款CPU(中央处理器)Microsoft Azure Cobalt 100。两者都将优先用于支持微软自己的云服务。


除了芯片,在当天的Microsoft Ignite全球技术大会上,微软还发布了Microsoft 365 Copilot新增功能、Security Copilot演示、Azure最新功能展示等一系列内容。但最引人关注的还是微软的首款AI芯片Maia 100,这将为其Azure云数据中心提供动力,并为其各项人工智能服务奠定基础。


省流总结就是——一个是AI加速器(ASIC),一个CPU。


image.png


接着,我们再来看看,微软的两款芯片的技术细节。


Maia 100是微软为微软云中大语言模型训练和推理而设计的首款AI芯片,采用台积电5nm工艺,晶体管数量达到1050亿个,因此,当涉及到晶体管或时钟速度时,它并不属于轻量级。同时,针对AI和生成式AI进行了优化,支持微软首次实现的低于8位数据类型(MX数据类型)。


微软的发言人是这样介绍这款芯片的:


● 负责Azure芯片部门的副总裁Rani Borkar称,Maia 100已经在Bing和Office人工智能产品上测试了这款芯片,ChatGPT开发商OpenAI也在进行相关测试。微软也正在使用Maia 100加速器构建机架,明年将被允许通过 Azure 云为外部工作负载提供支持。


● 微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)表示,“我们的目标是确保我们和我们的合作伙伴能够为客户带来最终的效率、性能和规模。Maia 100旨在运行大语言模型、帮助AI系统更快地处理大量数据,将首先为微软自己的AI应用程序提供支持,之后再向合作伙伴和客户开放。”


● 微软云和人工智能部门执行副总裁Scott Guthrie表示:“我们认为,Maia 100为我们提供了一种方式,可以为客户提供更快、成本更低、质量更高的解决方案。”


总结起来就是,专门为AI设计出一款成本更低廉、能耗比的芯片。


image.png

微软董事长兼CEO萨提亚·纳德拉(Satya Nadella)图源:直播截图


Cobalt 100是基于Arm架构的云原生芯片,针对通用工作负载的性能、功率和成本效益进行了优化。它拥有128个核心,被称为“所有云计算供应商中速度最快的CPU”,已经在微软的部分业务中得到了应用并将于明年上市。


这款芯片表现如何?微软称,初步测试表明,Cobalt 100性能比现有商用Arm服务器的数据中心性能提高40%。


目前,微软还没有披露Cobalt 100的详细信息,但有传言表示,Cobalt 100是基于 Arm “Genesis”Neoverse CSS N2 IP设计的。


资料显示,Neoverse CSS N2可从每个芯片24、32和64核心拓展,并具连接DDR5、LPDDR5、PCIe、CXL和其他类型IP的接口。晶粒面积分别是53平方毫米(24核心)、61平方毫米(32核心)、198平方毫米(64核心)。


选用Arm技术是微软可持续发展目标的一个关键因素,其目标是优化整个数据中心的“每瓦性能”,这本质上意味着为每单位消耗的能量获得更多的计算能力。


长期以来,微软一直希望在其机群中拥有X86架构的替代品,早在2017年,微软就曾就表示,其目标是让Arm服务器占其服务器计算能力的50%。


几年前,微软是Cavium/Marvell及其“Vulcan”ThunderX2 Arm服务器CPU的早期客户,当Marvell在2020年底或2021年初决定封存ThunderX3时,微软是有望成为“Triton”ThunderX3后续CPU的大买家。


2022年,微软接受了Ampere Computing的Altra系列Arm CPU ,并开始将其大量的放入其服务器群中,但一直以来都有传言微软称正在开发自己的Arm服务器CPU。

互联网巨头,都爱芯片 


到了2023年,互联网巨头造芯片好像不是什么新鲜事儿了,说白了,无论是CPU,还是AI芯片,如果供应全部来源外部,甚至只能从一两家公司获得产品,会是非常可怕的一件事。而Maia 100和Cobalt 100意图也非常明显,便是直面当今世界“红绿蓝”三厂的统治力,面对顶级AI芯片供应不足的挑战,面对x86架构统治云服务的挑战。


值得一提的是,在微软之前,已经拥有谷歌和亚马逊两个先例。那么这两位现在日子过得怎么样?


首先,来看看谷歌。


谷歌从2016年起开始推出自研AI张量处理单元(TPU),到今年9月已经发展到第五代——Cloud TPU v5e,其专为提供大中型训练与推理所需的成本效益和性能而设计。TPU v5e Pods能够平衡性能、灵活性和效率,允许多达256个芯片互连,聚合带宽超过400Tb/s和100petaOps的INT8性能,使对应的平台能够灵活支持一系列推理和训练要求。

目前,谷歌正在大规模使用TPU芯片来支持旗下应用产品,比如聊天机器人巴德以及谷歌云平台。当前,谷歌高达90%以上的人工智能训练工作都在使用这些芯片,TPU芯片体系支撑了包括搜索引擎在内的谷歌主要业务。


谷歌云平台首席执行官Thomas Kurian表示,最新款的TPU芯片正在成为谷歌云的最大卖点之一。除了Anthropic,其他在人工智能领域备受瞩目的初创公司,如Hugging Face和AssemblyAI也在大规模使用谷歌TPU芯片。


从技术层面上来看,与英伟达A100/H100等通用型GPU相比,谷歌TPU设计初衷正是专注于深度学习领域,尤其是全面加速神经网络训练和推理效率。英伟达的A100和H100,它们属于广义上的通用型GPU,而不仅仅局限于深度学习和人工智能领域。这些GPU具有通用计算能力,适用于多种计算工作负载,包括但不限于:高性能计算(HPC)、深度学习以及大规模数据分析。


与英伟达通用型GPU相比,谷歌TPU采用低精度计算,在几乎不影响深度学习处理效果的前提下大幅降低了功耗、加快运算速度,尤其对于中型LLM设计者来说完全够用,因此他们可能不需要依赖高性能的英伟达A100/H100。同时,TPU使用了脉动阵列等设计来优化矩阵乘法与卷积运算。谷歌TPU追求专注于AI训练和推理,因此精简化部分设计架构,这也是TPU功耗、内存带宽和FLOPS都明显低于英伟达H100的部分原因。


其次,再来看看亚马逊。 


而亚马逊云科技(AWS)在2020年宣布推出用于训练AI模型的自研芯片Trainium。


此前,亚马逊推出的第一款机器学习芯片叫Amazon Inferentia,顾名思义,是做推理的,实际应用中推理的工作负载量是非常大的,Amazon Inferentia芯片的性能和吞吐量都能满足实际要求,而且,Inf1实例的成本比基于GPU的方案要低很多。


虽然推理的负载多,但一般企业也经常遇到训练任务,机器学习的训练环节经常需要用到昂贵的GPU,所以训练的成本通常会很高。为了降低成本,亚马逊推出了Amazon Trainium芯片,据说采用该芯片的Trn1实例(或者说集群)可以提供云端速度最快,成本最低的训练服务。


Trn1实例,有13.1TB/s的最大内存带宽,3.4 PFLOPS的算力,FP32的TFlops高达840,时钟频率为4GHz,含有550亿个晶体管。


据亚马逊提供的信息显示,在训练深度学习模型时,采用Amazon Trainium芯片的Trn1实例的成本,要比采用英伟达A100的P4d实例最多低出40%,而且速度最多能快50%。

AWS自研的Trainium芯片正逐渐在AI大模型训练领域获得一席之地,在内部外部都有几百个客户,有隐隐超越谷歌 TPU成为第二大玩家的趋势。


最近得益于全球GPU产能短缺,亚马逊吸纳了几个极重要的外部客户,公司CEO称Annapurna labs可能是未来几年AWS的number one team,目标是让未来的AI算力市场不被英伟达一家独大,其团队目前还在大力扩招。


最后,国内也曾掀起过一场跨界造芯的风潮。


● 百度从2018年百度率先发布昆仑1芯片开始不断发布自研芯片;

● 阿里、腾讯等老牌互联网大厂相继进军芯片领域;

● 阿里成立芯片公司平头哥半导体,目前已发布多款产品;

● 腾讯采用“投资+自研”的形式入局半导体;

● 快手在2022年8月推出首款自研云端智能视频处理SoC芯片SL200;

● 小米在2023年推出ISP芯片澎湃C1和充电芯片澎湃P1;

● vivo公布自研ISP芯片V1/V2;

● OPPO推出首款自研影像专用NPU芯片马里亚纳X,马里亚纳MariSilicon Y。


微软们,能竞争过英伟达吗?


互联网大厂为什么这么钟爱芯片,为什么都要掌握自研?EEworld认为,主要有以下几个原因: 


1. 谁都不希望被一两家供应商所束缚,其实看全世界所有的巨头都在走多供应链的路线,被一两家公司套牢了,就意味着别人可以随意调价,产能不足时,也只能干着急。一方面,英伟达芯片很贵,也受制于台积电CoWoS产能时常短缺,进一步加剧价格波动。 

2. 这些巨头都拥有自己的AI模型和云服务,一个云服务器中存在多种芯片(CPU+GPU+DPU/SmartNIC+各种定制芯片),相互协同工作效率才会更高,自己针对自己的产品做定制芯片,一定能发挥更好的协同效应,效率更高。

3. 现在所有巨头都不会只做单一业务,而是根据自己的业务全流程进行全线布局,这在全世界都非常常见。比如光伏领域硅料巨头会跨界做组件,芯片领域模拟巨头会针对自己产品做数字芯片。对科技巨头来说,布局芯片本身就是自身流程的一环,只是芯片比较难做,所以更引起大家关注。

4. 此次主角微软,也并非第一次跨界造芯,早在此前,微软就曾布局过ToF芯片,2020年,微软又和ADI就3D ToF开发与量产展开合作。只不过,3D ToF芯片不像AI芯片和CPU这般引起人们注意。


EEWorld认为,互联网巨头做芯片与“红蓝绿”厂并不冲突,这些巨头该怎么赚钱,还是会赚钱,自研芯片也会为自己开辟新的道路,具体原因如下: 


1. 从AI芯片上来看,科技巨头的芯片一定是先满足自己的需求,才会向外发展。英伟达的GPU芯片属于比较通用的器件,灵活度更高,但整体较贵,所以微软、谷歌和一众国产厂商选择了定制芯片(ASIC),比较类似英特尔Gaudi的做法。

定制芯片的成本主要集中在前期,后期无论是能效比,还是成本都更优,但只是针对一些特定场景,这样来看,这种AI芯片面向的市场更专了,和手握CUDA的英伟达不是非常冲突。用人话解释,就是收窄自己,另辟蹊径。真的能赶超英伟达吗,市场数据会给出答案。 

2. 从通用芯片上来看,采用的是Arm架构。Arm架构有哪些芯片?苹果的M系列、各种车载芯片,说白了,这应该是看Arm架构本身的潜力。Arm架构的确能在当今世界上与各种芯片掰手腕,但英伟达其实也在做Arm芯片,所以从这方面来看,通用市场未来会形成一定竞争格局。但x86赢得市场的主要关键点在于生态,进一步来看Arm架构的表现,最终取决于Arm在数据中心领域的生态。当然这又会牵扯出来x86授权、多核设计的问题,非常复杂。

3. 云数据中心可不只是一种芯片,就算做了自己的芯片,也是需要垒砌CPU+GPU+DPU的,所以他们与“红绿蓝”三大厂的生意,还会继续。

4. 芯片不是一家两家人所做的,而是一个产业链条,就算是自研芯片,最终可能还会有其它交叉领域有所合作。

当然,从微软发布自研芯片中,我们依然可以看到,越是这样的大企业,相比其它企业,发布自己的自研芯片越晚。酝酿如此之久,其间考虑更多产品上市问题、实用性问题等。这是否意味着之前早早发布产品的公司,是否有些操之过急?答案我们无从得知,但市场数据,最终会说明一切。


参考文献

[1]MICROSOFT HOLDS CHIP MAKERS’ FEET TO THE FIRE WITH HOMEGROWN CPU AND AI CHIPS https://www.nextplatform.com/2023/11/15/microsoft-holds-chip-makers-feet-to-the-fire-with-homegrown-cpu-and-ai-chips/

[2] 谷歌(GOOGL.US)版图渗入AI芯片领域! “OpenAI劲敌”官宣使用谷歌最新TPU https://news.10jqka.com.cn/20231109/c652033284.shtml

[3] 赶超谷歌TPU?传亚马逊自研AI训练芯片已收获重量级客户.https://www.ijiwei.com/n/876338


关键字:CPU  GPU  AI 引用地址:微软自研芯片,背后有何逻辑?

上一篇:我国科学家研制出首个全模拟光电智能计算芯片
下一篇:“爱芯元速”——爱芯元智正式推出车载品牌

推荐阅读最新更新时间:2024-11-10 10:24

新能源汽车结合人工智能或成未来趋势
近日,记者从中国汽车工业协会获悉,今年1~8月,国内 新能源汽车 产销分别为60.7万辆和60.1万辆,同期分别增长75.4%和88%,保持着稳步增长态势。但不少业内人士认为,新能源汽车已走过培育期,企业间的差距将进一步拉大,缺乏竞争力的企业将被边缘化,并购、重组的势力将会增加。 在此基础上,不少 新能源汽车 企业将目光瞄向了“人工智能”。9月20日,比亚迪上市了智能美学中级轿车秦Pro,引入了AI智能平台,打造智能新能源汽车。此外,还有不少汽车企业迈入汽车智能化变革,布局其中。有业内人士认为,新能源汽车竞争的焦点开始转向电动汽车的网联化和智能化。 
[汽车电子]
人工智能接管城市监管 面部识别让犯罪分子无处影遁
当人工智能接管城市监管,面部识别让犯罪分子无处影遁,人工智能的实际应用已经远远超过了我们人类的预想,在贴近人们的吃、穿、住、行等方面,人工智能已经渐渐变得我们都离不开了,而面部识别和人工智能的发展和应用是未来发展的大潮流之一,但是应用前这些技术还需要进一步的成熟,这样才能保证好技术不会产生坏影响。   现在在全球任何一个大城市,监控摄像机都是随处可见的。以北京这个特别的地方为例,至少有三个政府部门的监控摄像机在持续工作。最常见的治安监控,就是街头巷尾像路灯一样的小型摄像机。这种摄像机带云台,可以旋转,一般由警察部门负责,作用是监控日常治安。红路灯上方安装的枪形摄像机,主要负责拍摄车辆和行人违章,高速公路、快速路上依
[安防电子]
连线:人工智能的未来在于神经形态芯片,将取代CPU
  《连线》杂志近日撰文指出,神经形态芯片(neuromorphics)被设计专门用于模仿人类大脑,他们可能很快取代 CPU 。下面就随网络通信小编一起来了解一下相关内容吧。   类似于苹果Siri这样的 人工智能 服务,都需要把用户问题传输到遥远的数据中心,然后通过数据中心的运算再传回答复。此类 人工智能 服务需要依托云计算,是因为目前的电子设备还没有足够的计算力,来运行机器学习所需的超强处理算法。   目前绝大多数智能手机中配置的 CPU ,都无法单独支持在设备中运行像Siri这样的系统能够。不过理论神经科学家、加拿大 人工智能 初创公司Applied Brain Research联席首席执行官克里斯·艾利斯密斯(Chris
[网络通信]
三星 Exynos 2200 现身 Geekbench:Xclipse 920 GPU 跑分解密
据外媒 Tom‘s Hardware 的消息,一款搭载三星 Exynos 2200 的设备现身 Geekbench,Xclipse 920 GPU 跑分曝光。   如上图所示,这款三星设备代号为 S908B,据说是三星 Galaxy S22 Ultra,搭载的处理器为 Exynos 2200,核显为 Xclipse 920。Geekbench 识别这款 GPU 为 3 个计算单元,这意味着它可能拥有 384 个流处理器。另外,555MHz 的频率似乎为识别错误。   在 Geekbench OpenCL 跑分中,Xclipse 920 得分 9143 分。下方是 Tom‘s Hardware 测得的骁龙 888 和苹果 A15
[手机便携]
三星 Exynos 2200 现身 Geekbench:Xclipse 920 <font color='red'>GPU</font> 跑分解密
与恩智浦副总裁探讨边缘人工智能的种种
一些预测表明,到2025年,所有边缘设备中的90%将使用某种形式的机器学习或人工智能技术。 启用这种边缘智能有哪些问题?如何实现?恩智浦半导体高级副总裁兼边缘处理业务总经理Ron Martino日前在接受embedded-computing采访时,解读了这些关于边缘智能的话题。 恩智浦半导体高级副总裁兼边缘处理业务总经理Ron Martino 定义边缘计算 从本质上讲,边缘计算是一种更有效地处理用户侧信息的功能。我们可以为数据带来更快的见解,您可以介绍下恩智浦如何定义并解决边缘计算的么? Martino:简单地说,边缘计算是分布式的本地计算和感知能力。它有效地解释,分析传感器数据并对其起作用,以执行一组有意义
[嵌入式]
与恩智浦副总裁探讨边缘<font color='red'>人工智能</font>的种种
人工智能产业大火,产业标准化之路必不可少
人工智能 产业的发展沸沸扬扬,相关标准的制定也显得尤为迫切。   1月18日,国家标准化管理委员会正式成立国家人工智能标准化总体组、专家咨询组。总体组组长为中国电子技术标准化研究院院长赵波,副组长人选涉及阿里云、科大讯飞、中国科学院、北京大学、北京航空航天大学、机械工业仪器仪表综合技术经济研究所相关高管、专家。中国工程院院士潘云鹤担任专家咨询组组长。   据了解,国家AI标准化总体组在人工智能标准化中承担统筹协调、规划布局的角色,负责开展人工智能国际国内标准化工作,包括拟定我国人工智能标准化规划、体系和政策、协调相关国家标准技术内容和技术归口、建立AI基础功行标准与行业应用标准的传导机制等。专家咨询组则由国内人工智能领域知名专家学
[嵌入式]
Imagination Codescape调试器现可支持MIPS CPU系统开发
Imagination Technologies 宣布,该公司广受欢迎的 Codescape 调试器已在其最新版本中增加对全系列 MIPS CPU 的支持,并提供新的 Linux 和 RTOS 感知(awareness)特性,能为基于Imagination MIPS 与 Ensigma 处理器的 SoC 提供异构调试功能。通过 Codescape 8.0,Imagination 的客户与开发人员将能拥有完整的、通过市场验证的、强大调试解决方案。 Codescape 已广被 Imagination 和其授权客户用来为 Imagination 的一系列可编程 IP 进行快速、简易的调试工作,支持 MIPS CPU 和 Ensigm
[单片机]
PCIe 5.0外接供电高达600W,将用于下一代GPU
在上周,有消息指英伟达明年初推出的GeForce RTX 3090 Ti将采用GA102-350核心,拥有完整的规格,也就是10752个流处理器,配备24GB的GDDR6X显存,速率达到了更高的21 Gbps,采用新款2GB模块替代现有的1GB模块。更让人印象深刻的是高达450W,为此很可能会采用新的16Pin外接电源接口,取代之前的12Pin接口。 近日,Igor'sLAB得到了新款供电接口的设计信息,确认将会有新标准,可能会适用于2022年所有新显卡。 这款16Pin外接电源接口共有16个通道,包括12个用于供电和4个用于通信,不过这并不是Micro-Fit Molex的标准,而且全新的设计,名为PCI-SIG
[家用电子]
PCIe 5.0外接供电高达600W,将用于下一代<font color='red'>GPU</font>
小广播
最新半导体设计/制造文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 市场动态 半导体生产 材料技术 封装测试 工艺设备 光伏产业 平板显示 EDA与IP 电子制造 视频教程

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved