英伟达全新GPU A100问市，Ampere架构赋予惊人性能-电子工程世界

在今年五月，英伟达发布了基于全新Ampere架构打造的GPU A100。

See the source image

据该公司CEO黄仁勋介绍，A100 采用台积电当时最先进的7 纳米工艺打造，拥有 540 亿个晶体管，面积高达 826mm2，GPU 的最大功率也达到了 400W。又因为同时搭载了三星 HBM2 显存、第三代 Tensor Core和带宽高达600GB/s 的新版 NVLink，英伟达的A100在多个应用领域也展现出强悍的性能。

从英伟达提供的数据可以看到，如果用 PyTorch 框架跑 AI 模型，相比上一代 V100 芯片，A100 在 BERT 模型的训练上性能提升 6 倍，BERT 推断时性能提升 7 倍。而根据MLPerf组织在十月底发布的最新推理基准测试（Benchmark）MLPerf Inference v0.7结果，英伟达A100 Tensor Core GPU在云端推理的基准测试性能是最先进英特尔CPU的237倍。

但英伟达不止步于此。在昨日，他们发布了面向AI超级计算的全球最强GPU——A100 80GB；与此同时，他们还带来了一体式AI数据中心NVIDIA DGX Station A100以及NVIDIA Mellanox 400G InfiniBand产品。

全球最强的AI超算GPU

据英伟达方面介绍，公司全新的 A100 80GB GPU的最大特点在于采用了HBM2E内存技术，能将A100 40GB GPU的高带宽内存增加一倍至80GB，这样的设计也让英伟达成为业内首个实现了2TB/s以上的内存带宽的企业。

“若想获得HPC和AI的最新研究成果，则需要构建最大的模型，而这需要比以往更大的内存容量和更高的带宽。A100 80GB GPU所提供的内存是六个月前推出的前代产品的两倍，突破了每秒2TB的限制，使研究人员可以应对全球科学及大数据方面最严峻的挑战。”NVIDIA应用深度学习研究副总裁Bryan Catanzaro表示。

此外，第三代Tensor Core核心、MIG技术、结构化稀疏以及第三代NVLink和NVSwitch，也是全新GPU能够获得市场认可的保证。

从英伟达提供的资料我们可以看到，该公司的第三代Tensor Core核心通过全新TF32，能将上一代Volta架构的AI吞吐量提高多达20倍；通过FP64，新核心更是能将HPC性能提高多达2.5倍；而通过 INT8，新核心也可以将AI推理性能提高多达20倍，并且支持BF16数据格式。

MIG技术则能将单个独立实例的内存增加一倍，并可最多提供七个MIG，让每个实例具备10GB内存。英伟达方面表示，该技术是一种安全的硬件隔离方法，在处理各类较小的工作负载时，可实现GPU最佳利用率。例如在如RNN-T等自动语言识别模型的AI推理上，单个A100 80GB MIG实例可处理更大规模的批量数据，将生产中的推理吞吐量提高1.25倍。

至于结构化稀疏，则可以将推理稀疏模型的速度提高2倍；包括第三代NVLink和NVSwitch在内的新一代互连技术，则可使GPU之间的带宽增加至原来的两倍，将数据密集型工作负载的GPU数据传输速度提高至每秒600 gigabytes。

除了性能提升以外，基于A100 40GB的多样化功能设计的A100 80GB GPU也成为需要大量数据存储空间的各类应用的理想选择。

以DLRM等推荐系统模型为例，他们为AI训练提供了涵盖数十亿用户和产品信息的海量表单。但A100 80GB可实现高达3倍加速，使企业可以重新快速训练这些模型，从而提供更加精确的推荐；在TB级零售大数据分析基准上，A100 80GB将其性能提高了2倍，使其成为可对最大规模数据集进行快速分析的理想平台；对于科学应用，A100 80GB可为天气预报和量子化学等领域提供巨大的加速。

“作为NVIDIA HGX AI超级计算平台的关键组件，A100 80GB还可训练如GPT-2这样的、具有更多参数的最大模型。”英伟达方面强调。

下一代400G InfiniBand

在发布A100 80GB的同时，英伟达还带了下一代的400G InfiniBand产品。在讲述英伟达的新品之前，我们有必要先了解一下什么是InfiniBand。

所谓InfiniBand，是一种网络通信协议，它提供了一种基于交换的架构，由处理器节点之间、处理器节点和输入/输出节点(如磁盘或存储)之间的点对点双向串行链路构成。每个链路都有一个连接到链路两端的设备，这样在每个链路两端控制传输(发送和接收)的特性就被很好地定义和控制。而早前被英伟达收购的Mellanox则是这个领域的专家。

资料显示，Mellanox为服务器，存储和超融合基础设施提供包括以太网交换机，芯片和InfiniBand智能互连解决方案在内的大量的数据中心产品，其中，更以InfiniBand互连，是这些产品中重中之重。

据英伟达介绍，公司推出的第七代Mellanox InfiniBand NDR 400Gb/s上带来了更低的延迟，与上一代产品相比，新的产品更是实现了数据吞吐量的翻倍。又因为英伟达为这个新品带来了网络计算引擎，这就让其能够获得额外的加速。

英伟达进一步指出，作为一个面向AI超级计算的业界最强大的网络解决方案，Mellanox NDR 400G InfiniBand交换机，可提供3倍的端口密度和32倍的AI加速能力。此外，它还将框式交换机系统的聚合双向吞吐量提高了5倍，达到1.64 petabits/s，从而使用户能够以更少的交换机，运行更大的工作负载。

“基于Mellanox InfiniBand架构的边缘交换机的双向总吞吐量可达51.2Tb/s，实现了具有里程碑意义的每秒超过665亿数据包的处理能力。”英伟达方面强调。而通过提供全球唯一的完全硬件卸载和网络计算平台，NVIDIA Mellanox 400G InfiniBand实现了大幅的性能飞跃，可加快相关研究工作的进展。

“我们的AI客户的最重要的工作就是处理日益复杂的应用程序，这需要更快速、更智能、更具扩展性的网络。NVIDIA Mellanox 400G InfiniBand的海量吞吐量和智能加速引擎使HPC、AI和超大规模云基础设施能够以更低的成本和复杂性，实现无与伦比的性能。” NVIDIA网络高级副总裁Gilad Shainer表示。

从他们提供的数据我们可以看到，包括Atos、戴尔科技、富士通、浪潮、联想和SuperMicro等公司在内的全球领先的基础设施制造商，计划将Mellanox 400G InfiniBand解决方案集成到他们的企业级产品中去。此外，包括DDN、IBM Storage以及其它存储厂商在内的领先的存储基础设施合作伙伴也将支持NDR。

全球唯一的千兆级工作组服务器

为了应对不同开发者对AI系统的需求，在推出芯片和连接解决方案的同时，英伟达在2017年还推出一体式的AI数据中心NVIDIA DGX Station。作为世界上首款面向 AI 开发前沿的个人超级计算机，开发者只需要对其执行简单的设置，就可以用Caffe、TensorFlow等去做深度学习训练、高精度图像渲染和科学计算等传统HPC应用，避免了装驱动和配置环境等麻烦，这很适合高校、研究所、以及IT力量相对薄弱的企业。

昨日，英伟达今日发布了全球唯一的千兆级工作组服务器NVIDIA DGX StationA100 。作为开创性的第二代人工智能系统，DGX Station A100加速满足位于全球各地的公司办公室、研究机构、实验室或家庭办公室中办公的团队对于机器学习和数据科学工作负载的强烈需求。而为了支持诸如BERT Large推理等复杂的对话式AI模型，DGX Station A100比上一代DGX Station提速4倍以上。对于BERT Large AI训练，其性能更是提高近3倍。

从性能来看，英伟达方面表示，DGX Station A100的AI性能可达2.5 petaflops，是唯一一台配备四个通过NVIDIA NVLink完全互连的全新NVIDIA A100 Tensor Core GPU的工作组服务器，可提供高达320GB的GPU内存，能够助力企业级数据科学和AI领域以最速度取得突破。

作为唯一支持NVIDIA多实例GPU（MIG）技术的工作组服务器，单一的DGX Station A100最多可提供28个独立GPU实例以运行并行任务，并可在不影响系统性能的前提下支持多用户。

为了支持更大规模的数据中心工作负载，DGX A100系统还将配备全新NVIDIA A100 80GB GPU使每个DGX A100系统的GPU内存容量增加一倍（最高可达640GB），从而确保AI团队能够使用更大规模的数据集和模型来提高准确性。

“全新DGX A100 640GB系统也将集成到企业版NVIDIA DGX SuperPODTM 解决方案，使机构能基于以20 个DGX A100系统为单位的一站式AI超级计算机，实现大规模AI模型的构建、训练和部署。”英伟达方面强调。

该公司副总裁兼 DGX系统总经理Charlie Boyle则表示：“DGX Station A100将AI从数据中心引入可以在任何地方接入的服务器级系统。数据科学和AI研究团队可以使用与NVIDIA DGX A100系统相同的软件堆栈加速他们的工作，使其能够轻松地从开发走向部署。”

从英伟达提供的资料我们可以看到，配备A100 80GB GPU的NVIDIA DGX SuperPOD系统将率先安装于英国的Cambridge-1超级计算机，以加速推进医疗保健领域研究，以及佛罗里达大学的全新HiPerGator AI超级计算机，该超级计算机将赋力这一“阳光之州”开展AI赋能的科学发现。

在今年发布的第二季财报上，英伟达数据中心业务首超游戏，成为公司营收最大的业务板块。从营收增长上看，与去年同期相比，英伟达数据中心业务业务大幅增长167%，由此可以看到英伟达在这个市场影响力的提升以及公司对这个市场的信心。

考虑到公司深厚的技术积累和过去几年收购所做的“查漏补缺”，英伟达必将成为Intel在数据中心的最强劲挑战者。

关键字：英伟达 Ampere 引用地址：英伟达全新GPU A100问市，Ampere架构赋予惊人性能

上一篇：重庆邮电大学成功研发第三代半导体氮化镓功率芯片
下一篇：Imagination解读芯片IP市场：车载+数据中心是风口

推荐阅读最新更新时间：2024-11-17 02:37

Nvidia已获台积电HMG工艺28纳米样品

近日有国外IT专业网站报道称其已经获悉图形芯片巨头Nvidia公司已经获得了新一代采用28纳米制造工艺的图形核心芯片样本，不过目前关于此事外界获悉的信息仍然相当有限，即便如此这一消息也已经足够令人震憾了。据透露，Nvidia目前获得的可能是下一代的入门级图形芯片，不过目前关于这一点暂时还没有获得确切的消息。当然，可以肯定的是这颗芯片样本采用了台积电TSMC公司的28纳米High Metal gate制造工艺。据外界消息透露，这款图形芯片的研发代号为GF1x9，不过目前这一点也没有获得真正的确认，未来一段时间或许会有更多消息曝出。不过Nvidia的28纳米图形芯片目前仍然处于早期测试样品阶段，实

[半导体设计/制造]

<font color='red'>Nvidia</font>已获台积电HMG工艺28纳米样品

NVIDIA Hopper 全面投产

全球领先的计算机制造商戴尔科技、慧与、联想、超微以及云服务提供商 AWS、谷歌云、Microsoft Azure、Oracle Cloud Infrastructure 正在打造基于H100 的产品，并将于下月开始供货美国加利福尼亚州圣克拉拉市 — GTC — 太平洋时间 2022 年 9 月 20 日 — NVIDIA 于今日宣布 NVIDIA H100 Tensor Core GPU 全面投产，NVIDIA 全球技术合作伙伴计划于 10 月推出首批基于开创性 NVIDIA Hopper™ 架构的产品和服务。 H100 于 2022 年 4 月发布，由 800 亿个晶体管组成，并采用了众多开创性的技术，包括强

[网络通信]

<font color='red'>NVIDIA</font> Hopper 全面投产

英伟达推出自动驾驶汽车系统芯片NVIDIA DRIVE Atlan

4月12日，NVIDIA推出面向自动驾驶汽车的新一代AI处理器NVIDIA DRIVE Atlan，目标是供应给4级和5级自动驾驶汽车以及下一代高度辅助驾驶汽车。该系统芯片是NVIDIA自动驾驶汽车集中式计算路线图中的最新功能。它将AI和软件与最新的计算、网络和安全技术相融合，实现前所未有的性能与安全。 DRIVE Atlan将包含NVIDIA新一代GPU架构、全新Arm CPU核以及深度学习和计算机视觉加速器，可实现每秒超过1000万亿次（TOPS）运算次数。这一类似数据中心级的性能将为汽车制造商提供充足的计算能力，帮助其制造出具备丰富可编程性，并可通过OTA进行永久升级的软件定义汽车。 DRIVE Atlan是一

[汽车电子]

<font color='red'>英伟达</font>推出自动驾驶汽车系统芯片<font color='red'>NVIDIA</font> DRIVE Atlan

比特大陆强势来袭，AMD和英伟达背靠大树好乘凉

摘要中国公司比特大陆控制了50%的比特币哈希率。它经营着AntPool和BTC.com这两个比特币最大的矿池。比特大陆在采矿业的主导地位削弱了比特币的去中心化设计。我没有证据，但我认为比特大陆可以影响比特币的交易价值。目前只使用GPU加密货币的区块链开发者不会让比特大陆在比特币后的比特币中占据主导地位，比如以太坊或门罗。门罗和以太坊的开发人员已经宣布，他们将使定期更新算法或硬分叉，以使比特大陆 ASIC挖掘硬件成为过去式。因此，我们可以预计 AMD 和英伟达将继续从以GPU为中心的加密矿商那里获得强力支持。由于以太坊矿商对分立GPU(图形处理单元)的巨大需求，高级微设备(AMD)和英伟达(N

[嵌入式]

NVIDIA工程师确认：理论上RTX 20/30显卡一样能用DLSS 3 但性能不佳

近日，NVIDIA正式推出RTX 40系显卡，一并登场的还有全新的DLSS 3超采样技术。根据NVIDIA官网的介绍，DLSS 3仅支持最新的RTX 40系显卡，令人遗憾。不过，根据目前NVIDIA应用深度学习研究副总裁Bryan Catanzaro的说法，其实RTX 20和30系显卡也并不是不能使用DLSS 3。 Bryan指出，DLSS 3的实现依赖于光流加速器，但实际上，在RTX 20/30系显卡的Ampere架构中，并不是没有光流加速器，只是性能不够强大而已。因此，理论上，只要愿意投入额外的研究与工程，DLSS 3也能够在RTX 20/30系的老显卡上运行，但表现可能会很差，还不如现在的DLSS 2。那

[家用电子]

<font color='red'>NVIDIA</font>工程师确认：理论上RTX 20/30显卡一样能用DLSS 3 但性能不佳

苹果M1 Max芯片跑分揭秘：比肩英伟达RTX 3080移动版

10月19日，苹果正式发布了新款MacBook Pro，其搭载了M1 Pro和M1 Max芯片，而M1 Max的GFXBench 5跑分现已经曝光。根据苹果官方宣传，M1 Max采用10核中央处理器，另外配备多达32核的图形处理器，图像处理速度相比 M1提升最高可达4倍。内部共计集成570 亿个晶体管，比M1 Pro多出 70%，比M1多达3.5倍，堪称苹果迄今打造的最大芯片。不仅如此，它的图形处理器在达到与RTX 3080（100W）笔记本电脑的相近水平性能时，功耗少40%，在达到RTX 3080（160W）笔记本电脑内的同等性能水平时，功耗则要少100 W。此外，M1 Max芯片结构采用更高带宽，内存带宽是M1 Pro

[手机便携]

苹果M1 Max芯片跑分揭秘：比肩<font color='red'>英伟达</font>RTX 3080移动版

NVIDIA Hopper 首次亮相 MLPerf，在 AI 推理基准测试中一骑绝尘

NVIDIA Hopper 首次亮相 MLPerf，在 AI 推理基准测试中一骑绝尘在行业标准 AI 推理测试中，NVIDIA H100 GPU 创造多项世界纪录、A100 GPU 在主流性能方面展现领先优势、Jetson AGX Orin 在边缘计算方面处于领先地位。在 MLPerf 行业标准 AI 基准测试中首次亮相的 NVIDIA H100 Tensor Core GPU在所有工作负载推理中均创造了世界纪录，其性能比上一代 GPU 高出 4.5 倍。这些测试结果表明，对于那些需要在高级 AI 模型上获得最高性能的用户来说，Hopper 是最优选择。此外，NVIDIA A100 Tensor C

[机器人]

<font color='red'>NVIDIA</font> Hopper 首次亮相 MLPerf，在 AI 推理基准测试中一骑绝尘

特斯拉推出搭载NVIDIA A100 GPU顶尖自动驾驶汽车训练超级计算机

为了应对这项有史以来最大的计算挑战之一，特斯拉需要配备前所未有的算力。在本周的CVPR（国际计算机视觉与模式识别会议）上，汽车制造商特斯拉的AI高级总监Andrej Karpathy公布了公司内部用于训练Autopilot与自动驾驶深度神经网络的超级计算机。这个集群使用了720个节点的8个NVIDIA A100 Tensor Core GPU（共5760个GPU），实现了1.8 exaflops级别的超强性能。 Karpathy表示：“这是一台性能卓越的超级计算机，以FLOPS计，它大概可以在全球超级计算机中排到第5位”。通过将汽车行业前所未有的算力水平作为其研发周期的核心，特斯拉让其自动驾驶汽车工程师能够

[汽车电子]

特斯拉推出搭载<font color='red'>NVIDIA</font> A100 GPU顶尖自动驾驶汽车训练超级计算机

热门资源推荐
热门放大器推荐

小广播