7nm工艺+542亿个晶体管,Nvidia安培GPU拉高AI芯片门槛

发布者:紫菜包饭最新更新时间:2020-05-19 来源: 半导体行业观察关键字:Nvidia  安培GPU 手机看文章 扫描二维码
随时随地手机看文章

在近日的GTC上,Nvidia发布了最新的安培架构,以及基于安培架构的A100 GPU。A100 GPU使用台积电7nm工艺实现,包含了542亿个晶体管,据官方消息可以实现比起上一代V100高7倍的性能。除了算力提升之外,Nvidia还加入了GPU虚拟多实例(multi-Instance GPU,MIG)特性,可以让一块GPU虚拟化称为7个独立的GPU。

 

 

与安培架构同时公布的还有Nvidia DGX A100超级计算机,该超算平台包含了8块A100 GPU,峰值算力可达10 PetaOPS。

 

在发布会上,Nvidia对于算力做了非常多的渲染。然而,在我们看来,Nvidia在算力之外的特性扩展将成为更重要的门槛,中国半导体业界想要研发自主的GPU也需要考虑这些算力之外的重要特性。

 

计算架构:改良式更新,前进步伐与预期相符

 

Nvidia A100 GPU相比于前一代V100 GPU,其算力提升主要来源于以下几方面:

 

加入稀疏运算支持。这可能是A100 GPU运算架构上最大的革新了。具体来说,A100支持2:4的结构化稀疏,即在使用稀疏计算时,在矩阵中每四个元素就必须有两个或以上是0。通过稀疏运算,可以把性能提升两倍。事实上,深度学习中使用稀疏运算的概念从提出至今已经有差不多5年了,到了今天Nvidia终于把这个概念落地到了产品中,而且使用的是的2:4结构化稀疏,其两倍的加速可以说是比较保守的(与此相对,2018年寒武纪的AI加速器IP中就支持四倍稀疏加速)。

 

 

引入TF32数制。这主要针对训练计算。回顾人工智能训练计算的历程,最早普遍使用的是32位浮点数数制(FP32)。为了加速训练计算,从几年前开始Nvidia开始支持16位的FP16数制,该数制的优点是速度较快,但是动态范围方面在一些应用中存在一些问题。在A100中,Nvidia为了解决FP16的问题,引入了TF32数制。TF32事实上不是32位数制,而是19位数制,其动态范围(exponent)与FP32相同都是8位,但其精度(mantissa)与FP16相同都是10位,相当于是FP32和FP16的融合。相比FP32,TF32可以实现8倍的吞吐量提升。

 

 

更强更多的流处理器(SM)。在A100中,每个流处理器的张量矩阵计算能力是V100的2倍,而在GPU中流处理器的数量相比V100则增加了30%。

 

更大的片上存储和更快的内存接口。A100的设计中,每个流处理器的L1缓存容量从V100的128KB增加到了192KB,L2 缓存则增加到了40MB,相比前一代增加了6.7倍。内存接口方面,A100的HBM2就恶口总贷款高达1555GB/s,相比前一代增加了1.7X。

 

总体来说,在计算架构方面,除了支持稀疏计算和引入TF32之外,其他的提升都属于可预计的常规提升,而稀疏计算和TF32在人工智能计算中也并非新概念。我们认为,这一代Nvidia A100的算力性能提升属于渐进式改良,而非革命式提升。

 

GPU虚拟实例和互联:进一步加高竞争壁垒

 

我们认为,A100除了算力之外,其更重要的竞争壁垒提升来源于针对数据中心的GPU虚拟实例支持和互联方案。

 

在安培架构中,一个重要的新特性就是GPU虚拟实例MIG。随着云端数据中心GPU部署比例的提升,如何实现GPU虚拟化是一个重要任务,而这一点如果解决不好将会降低总体GPU利用率。目前,在云服务中,用户申请的CPU和内存实例大多数情况下都是虚拟化的,当你申请到n个CPU核的时候,并不是说你包下了这块CPU芯片,而是很有可能在同一块CPU芯片上不同的核会分配给不同用户,而用户并不用去担心说他的CPU核都位于哪一块芯片上,主要用就行了。粗略地说,这就是CPU虚拟化。GPU之前也有虚拟化,即同一个GPU可以给不同的程序同时使用,但是其内存访问模型并不如CPU虚拟化那么完善,因此在多用户的情况下,通常不会采用多个用户同时共享一块GPU的方法,而是把一块GPU分配给一个用户。这样就带来了效率问题,例如用户A只需要用到一块GPU中一半的计算资源,而用户B的计算需要用到1.5块GPU,那么使用传统粗颗粒度解决方案就会造成用户A和B都占用了一块GPU,那么用户A事实上是浪费了GPU资源,而用户B的计算资源需求则没有很好地得到满足。随着GPU应用到越来越多的场景中,不同场景算法对于GPU的利用率和需求都有不同,这样的话沿用之前的粗颗粒度方案一定会造成总体数据中心GPU利用率的问题。

 

 

为了解决这个问题,MIG应运而生。A100中的MIG支持把同一块GPU划分成7个独立实例,每个实例之间的内存空间访问互不干扰,这样就可以实现细颗粒度的GPU计算资源分配,从而在计算需求非常异质化的云计算场景增加资源利用效率。诚然,目前MIG中支持的7个GPU虚拟实例划分或许还不算特别细颗粒度,但是却可以看作是走向虚拟化的重要里程碑。

 

除了MIG之外,A100还在多芯片互联上做了改善。首先,A100上包含了第三代NVLINK,主要用于同主机上GPU之间的互相通信,通信带宽相比V100增加了一倍到600GB/s。在GPU和CPU通信上,A100支持PCIe Gen4,相比上一代PCIe Gen3带宽也增加了一倍。此外,A100的互联还与Mellanox的解决方案做了深度集成,可以很好地支持基于以太网和InfiniBand的RDMA。

 

 

端AI芯片进入门槛大大提升

 

我们认为,Nvidia A100的发布再次拉开了与其他在人工智能云端领域芯片竞争对手的差距。

 

从算力上来看,Nvidia A100在BERT benchmark上的性能是T4的11倍,而初创公司中最成功的Habana(现已被Intel高价收购)在去年推出的新款Goya芯片在同一benchmark上的性能仅仅是T4的两倍左右,因此A100一举又占据了算力的高地。我们认为,Nvidia在算力提升上面的主要优势在于其系统工程能力较强。我们之前分析过,Nvidia在A100中使用的计算单元架构创新实际上并不新鲜,在人工智能硬件领域已经存在了多年,而且之前也有不少初创公司尝试过类似的实现。然而,当芯片的规模上升了之后,其设计流程就不仅仅是逻辑设计问题,还需要考虑良率、散热等多方面因素,而这些看似底层的因素其实在最顶层的架构设计过程中就要考虑到——换句话说,虽然其他人也能想到要用这些架构创新,但是因为各种问题就是没有办法实现A100这样能量产的巨型芯片,这其实也是Nvidia多年积累的一个壁垒。

 

事实上,我们认为算力只是Nvidia A100硬件竞争壁垒的一小部分,其更重要的壁垒还来自于互联、虚拟化等特性。互联和虚拟化特性都是云端数据中心场景中需要的重要需求,而这些需求的实现需要扎扎实实,一步一步的设计和积累。如果说之前Nvidia还没有引入虚拟化特性,云端AI加速芯片还是算力的比拼因此初创企业还有弯道超车机会的话,那么在A100之后我们认为其他和Nvidia针对相同市场的云端AI加速芯片初创公司已经失去了这个机会,而必须要一步一步把虚拟化、RDMA等分布式计算必须的特性老老实实地实现在自己的芯片上,才有资格去和Nvidia去正面交锋。对于云端计算市场,其他芯片厂商另外一种可能的策略就是针对Nvidia还无法顾及且GPU的SIMT架构无法很好覆盖的领域,例如FinTech的一些计算等等。我们预计在未来的几年内或许会出现更多这样的初创公司。

 

对于GPU国产化的启示:算力并非一切,对于分布式计算和虚拟化的支持也很重要

 

这次Nvidia发布的A100 GPU对于用于云端数据中心的GPU国产化也有重要启示,即算力并非一切,对于分布式计算的支持和多用户虚拟化的支持可能更加重要。

 

在目前的云端高性能计算中,一大部分的任务会使用分布式计算。在分布式计算中,单卡GPU的算力只是基础,除了算力之外的IO也会成为决定性能的重要因素。这里的IO包括单机多卡之间的通信,GPU和CPU之间的通信,以及多台主机之间的通信等。在Nvidia的技术栈中,单机多卡通信有NvLink,多机通信有来自于新近收购的Mellanox的RDMA和Smart NIC技术,可以说在IO领域Nvidia也是做到了全球最领先,这样才保证了云端GPU方案独步天下。

 

与分布式计算息息相关的则是虚拟化支持。如前所述,GPU虚拟化将能带来云计算领域的GPU资源利用率大幅提升。然而,除了利用率提升之外,虚拟化的访问模型还为分布式计算的软件栈提供了一个干净的接口,这样分布式系统的工程师可以不用关心GPU底层的实现细节,凭借虚拟化的概念就可以构建灵活的多用户使用模型和界面,从而在系统层面上为高效分布式系统提供了有力的支持和赋能。我们认为,目前GPU虚拟化还处于早期阶段,未来我们将会看到Nvidia以及其他的欧美厂商在这个方向的投入。

 

对于国产GPU来说,我们一直在强调要构建一个好的生态,才能让国产GPU真正具有竞争力。这样的生态首先包括一个可扩展性良好的架构——这就指向了IO这样的数据通信互联的支持;此外还需要有一个较友好容易上手的开发环境,能允许开发者在硬件基础上开发各种支持多用户的云端应用,虚拟化就是对多用户支持的核心组件。我们认为,一个算力强大,但是对于分布式计算和虚拟化支持有限的GPU,对于国产生态而言还不如一个虽然算力较弱(例如只有Nvidia一半甚至三分之一),但是在分布式和多用户场景有合理完整支持的GPU。而这两者恰恰需要一步一步扎实的积累,不能指望弯道超车。

 

关键字:Nvidia  安培GPU 引用地址:7nm工艺+542亿个晶体管,Nvidia安培GPU拉高AI芯片门槛

上一篇:打造中高端5G智能手机标杆,MediaTek 天玑 820问市
下一篇:台积电断供,华为“天罡”芯片遇到危机?

推荐阅读最新更新时间:2024-11-13 11:20

全球AI芯片战局诡谲,英特尔、AMD围攻NVIDIA
全球掀起人工智能(AI)应用热潮,2017年包括Google、苹果(Apple)、微软(Microsoft)及英特尔(Intel)等纷透过收购AI新创业者,全力布局AI应用市场,而近期PC业界热门的议题莫过于厮杀多年的英特尔与超微(AMD),出乎预期地宣布将进行平台合作,加上前超微绘图技术事业操盘手Raja Koduri跳槽至英特尔,业者认为英特尔、超微近来动作连连,并非仅是为巩固电竞PC市场,而是企图全面提升AI战力,力阻NVIDIA在AI领域持续坐大。   业界传闻多时的英特尔与NVIDIA终止GPU授权,将另与超微合作的三角关系,近期终于正式揭晓,英特尔不仅牵手超微,给予授权金,且双方合作关系较预期更为紧密,业界解读此次英特
[半导体设计/制造]
研华推出支持双NVIDIA GPU的高性能边缘AI系统AIR-500D
研华推出支持双NVIDIA GPU的高性能边缘AI系统AIR-500D 近期,全球物联网方案提供厂商研华科技隆重发布了一款支持双NVIDIA RTX GPU的全新高性能AI系统—AIR-500D。该解决方案预装Intel Xeon D-1700处理器和2个支持双高性能GPU卡的PCIe x16插槽,提供服务器级别的极致性能。AIR-500D在应用于AI推理和训练应用时,能够处理大型数据集和计算密集型工作负载。此外,它还支持宽温工作温度(-10 ~ 50 °C),并具有适合工业环境的1200W电源。AIR-500D利用板载BMC和研华的DeviceOn软件来实现广泛的边缘AI解决方案:包括AOI缺陷检测、机器视觉、医疗成像和智
[工业控制]
研华推出支持双<font color='red'>NVIDIA</font> <font color='red'>GPU</font>的高性能边缘AI系统AIR-500D
NVIDIA AI Enterprise套件让各行各业释放AI潜能
NVIDIA于今日发布NVIDIA® AI Enterprise软件套件。该软件套件包括经NVIDIA全面优化、认证和支持的企业级AI工具和框架,专用于同样在今日发布的VMware vSphere 7 Update 2。 NVIDIA与VMware通过业内首创的合作开发了AI就绪型企业级平台,双方使用NVIDIA AI Enterprise在VMware vSphere上实现了AI工作负载的虚拟化。该平台为企业提供开发各种AI解决方案所需的软件,例如医疗健康领域的高级诊断、制造业的智能工厂、金融服务领域的欺诈检测等。 如今,通过NVIDIA AI Enterprise软件套件,来自数十万家使用vSphere实现计算虚拟化的
[嵌入式]
<font color='red'>NVIDIA</font> AI Enterprise套件让各行各业释放AI潜能
英伟达在无人驾驶领域扩大领先优势 合作伙伴名单越来越长
BI中文站 7月18日报道 英伟达多年来一直致力让半自动驾驶汽车真正上路的研究,而该公司刚刚公布了自己的最新成果,那就是在最新一代2018款奥迪A8上,首次展示了自己全球领先的自动驾驶技术。 奥迪表示,旗下最新的这款豪华驾车已经实现了3级自动驾驶功能,在特定的条件下,驾驶员可以将双手脱离方向盘。不过驾驶员依然需要随时关注自己的驾驶环境,并且保持注意力集中,在必要的时候随时收回对汽车的控制权。 最近一两年,几乎每个汽车厂商都开始研发自家的自动驾驶技术,但是目前并没有一个统一的标准。因此虽然特斯拉Model S的仅能实现2级自动驾驶,但是这次奥迪A8上使用的技术也并没有领先太多。 但是为什么对于英伟达来说,这依然是个好
[半导体设计/制造]
NVIDIA将发布加速计算、生成式AI以及机器人领域的最新突破性成果
NVIDIA 宣布将于 3 月 18 日至 21 日在圣何塞会议举办 GTC 2024 大会。 预计将有超 30 万人亲临现场或线上注册参会。 NVIDIA 创始人兼首席执行官将于太平洋时间 3 月 18 日(星期一)下午 1 点,即北京时间 3 月 19 日(星期二)凌晨 4 点在圣何塞会议中心发表主题演讲。 届时将进行现场直播,演讲结束后还将提供回放。该主题演讲无需注册即可在线观看。 自黄仁勋在 2014 年 GTC 主题演讲中首次强调以来,NVIDIA 一直身处 变革的最前沿。NVIDIA 的平台在众多领域的 AI 应用中发挥了至关重要的作用,包括大语言模型、生物学、安全、数据中心和、对话式 AI、网
[机器人]
英伟达“绑架”中国自动驾驶
留给中国车芯的时间不多了。 “ 汽车厂商真正采取行动的没有,只会光叫唤。” 2022中国电动汽车百人会论坛上,全国政协经济委员会副主任、前工信部部长苗圩,在谈及芯片供应问题时,言辞激烈。 不仅直言中国汽车行业缺芯少魂,更是对国内车企把车规级芯片、操作系统等卡脖子技术扔给一级配套商的“不作为”,表达了不满。 平心而论,像特斯拉那样,为了自动驾驶自研FSD芯片的车企并不多。然而能够让苗主任说出“光叫唤”这样的虎狼之词,可见汽车圈在半导体芯片供应短缺问题的处理方式上,属实存在一些不足之处。 就现在的情况来看,中国的新能源汽车行业,也许说得上走在了时代的前列。 可距离真正的“弯道超车”,依旧存在许多关键环节并未打通
[汽车电子]
<font color='red'>英伟达</font>“绑架”中国自动驾驶
年交易额110亿美元!英伟达瞄准汽车芯片业务增长
据美国《华尔街日报》网站报道,芯片制造商英伟达预测,今年晚些时候其汽车业务销售额将出现拐点,表明对提高汽车自动化程度的蓬勃需求将超过全球芯片短缺和供应链中断带来的近期挑战。 这家美国市值最大的芯片公司的首席财务官科莱特·克雷斯在投资者会议上说,该公司与汽车业客户达成的交易在一年内增加了超过三分之一,达到110亿美元,涉及的业务将分摊记录在未来6年里。 据报道,其汽车部门在最近一个财季的销售额为1.25亿美元。 英伟达是一家领先的图形芯片制造商,供应汽车信息娱乐系统运行硬件。该公司现在正日益押注用于复杂的驾驶辅助系统的软件和芯片。
[汽车电子]
AI 巨头 Nvidia 英伟达在汽车领域做什么?
在 AI 方面大杀四方的 英伟达 , 汽车行业 的我们也是常常听到其各种 智能驾驶 芯片 ,同时我们也看到英伟达财报当中单独拎出一个汽车行业的板块,但是在英伟达收入占比却很少而最近两年还呈现下降的趋势。 那么 AI 巨头 Nvidia 在汽车领域做什么?汽车行业在其占比到底多少? 所以,本文将探讨 Nvidia 在汽车行业中的一些战略和产品布局。 智能域控中的 SoC 芯片平台 Drive 是 Nvidia 用于开发智能驾驶的计算平台。Nvidia Drive 于 2015 年 CES 上首次亮相,并经过多代技术迭代。 第一代 Drive CX 和 Drive PX:基于 Maxwell 微架构,专注于 智能座
[汽车电子]
AI 巨头 <font color='red'>Nvidia</font> <font color='red'>英伟达</font>在汽车领域做什么?
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved