商业计算、可选研究、以及 4K 多屏游戏等需求,不断推升着对现代 GPU 的性能需求。根据一份近期的研究报告,Nvidia 认为正在迅速接近当前 GPU 架构模型的极限,因此需要寻找新的方法去攻坚。当前这个想法仍处于模拟阶段,但文中提到的“多芯片模块 GPU”(MCM-GPU)的概念,有望最终将多颗 GPU 模块整合到一处。下面就随嵌入式小编一起来了解一下相关内容吧。
Nvidia探索将多GPU封装到一块:轻松打破旧架构极限
在意识到 Nvidia 将很快难以通过当前架构榨取 GPU 性能之后,亚利桑那州立大学、英伟达、德州大学奥斯汀分校、以及巴塞罗那超算中心携手展开了研究。
此前,厂商还可以通过在每次制程迭代时堆积更多的流处理器来提升 GPU 性能。但遗憾的是,在单一模块中塞入更多晶体管的方法,已经变得越来越困难。
以 Nvidia V100 GPU 为例,其已经需要代工厂商(台积电)将制程推到 12nm 的极限。此外,制造规模越来越大的模块,其成本和相关问题也不可忽视(比如因制造错误遇到的数量减少)。
虽然 Nvidia 可以通过将多颗 GPU 装在一块 PCB 上的方式来提升显卡性能(比如 Tesla K10 和 K80),但当前仍有一些未能解决的问题 —— 比如跨多 GPU 的任务分配就需要编程来提升硬件效率。
Nvidia探索将多GPU封装到一块:轻松打破旧架构极限
于是研究人员们另辟蹊径,决定在封装技术上寻找新方法,让 Nvidia 可以将多个 GPU 模块(GPMs)封装到一块。这些 GPMs 比当代 GPU 要小一些,制造起来也更容易和便宜。
尽管人们对其性能仍有疑问,但研究人员声称近期基板技术的发展(PDF)已经能够帮助其部署一种快速、强健的模块通信互联架构。从理论上来讲,其带宽可达数 TB/s 。
在 Nvidia 内部 GPU 模拟中,研究团队将 MCM-GPU 堆到了 256 组 SMs,而 Pascal 架构仅为 56 组 SMs 。然后团队基于当前架构进行了预测,结果显示 MCM-GPU 可提速 45.5% 。
此外,在同一板子上进行的多 GPU 性能对比表明,MCM-GPU 有 26.8% 的领先优势。最后,有消息称 AMD 公司也有类似的点子(基于 Navi GPU)。
以上是关于嵌入式中-Nvidia探索将多GPU封装到一块:轻松打破旧架构极限的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。
关键字:Nvidia GPU
引用地址:
Nvidia探索将多GPU封装到一块:轻松打破旧架构极限
推荐阅读最新更新时间:2024-05-03 01:18
英伟达用70多亿美元接近收购服务器芯片制造商Mellanox
凤凰网科技讯 北京时间3月11日消息,知情人士周日称,芯片制造商英伟达公司接近以70多亿美元现金收购以色列服务器芯片制造商Mellanox Technologies。 这将是英伟达公司历史上规模最大的一笔收购交易,将提振英伟达的服务器芯片制造业务,从而减少对视频游戏行业的依赖。 知情人士称,英伟达在竞购Mellanox过程中的出价超出英特尔公司,最快将在周一宣布这笔交易。英特尔、Mellanox尚未置评。英伟达不予置评。财经新闻网站Calcalist在周日稍早时候报道称,英伟达对Mellanox的出价超过了英特尔。 Mellanox的芯片驱动着连接高速网络的服务器,该公司的总部位于以色列,并在美国设立了办事处。截至上周
[手机便携]
NVIDIA公布全新VCA认证合作伙伴计划
美国加利福尼亚州圣何塞 - GPU技术大会 – 太平洋时间2017年5月8日- NVIDIA公司 (纳斯达克代码:NVDA)今日宣布推出全新NVIDIA VCA认证合作伙伴计划,助力企业更加轻松地部署经NVIDIA认证的视觉计算设备(VCA)解决方案。 NVIDIA VCA认证解决方案能够加速工作流程,助力艺术家通过使用NVIDIA Mental Ray、NVIDIA Iray和Chaos V-Ray RT等GPU加速渲染器对模型进行实时探索、操作和确认。该平台支持可扩展型、交互式渲染,全部可在数据中心设备中便利地完成。 从好莱坞大片《奇幻森林》中计算机生成的场景,盛世长城广告公司 的交互式客户回访3D渲染以及时尚设计师
[半导体设计/制造]
NVIDIA Isaac SDK 将为机器人提供加速助力 作为开发者工具箱问世
机器人开发者正在夜以继日地打造未来的自主机器。 NVIDIA Isaac SDK 将为其提供加速助力。该 SDK 旨在加速创新和部署,不久将作为一款免费的机器人开发者箱问世。 NVIDIA 创始人兼首席执行官在 技术大会的演讲台上宣布了这一消息。 机器人打造工程是一个难题。由于缺乏统一且易于使用的软硬件平台,实现机器人智能的进程一直停滞不前。直到近日,大规模开发机器人仍需通过自定义编程来模拟机器人的运转过程。 Isaac SDK 机器人开发者工具箱使这种情况得到了改善,会在四月全面推出。 借助该工具箱,开发者将能够使用 Isaac 应用程序、GEM(机器人功能)、Robot Engine(机器人引擎)和 Si
[机器人]
AMD 28nm:GPU芯片花落台积电 APU两家分享
据台湾媒体报道,AMD已经利用台积电28nmHKMG工艺完成了下代显卡“南方群岛”的流片工作(此前有消息称二月份就已搞定),将在今年年底投入批量生产并正式发布。AMD高管昨日也重申,下代显卡会在年内推出。 这样一来,台积电就确保了将继续独家为AMD代工GPU芯片,但是在APU融合处理器上,有人来抢饭碗了。 台积电正在为AMD生产第一代低功耗版APU,包括OntarioC系列、ZacateE系列、DesnaZ系列以及嵌入式G系列。按照规划,AMD将于2012年上半年发布下一代产品,包括Krishna、Wichita两款型号。它们最初曝光的时候有消息说还是会交给台积电独家代工,但事实上AMD为28nmAPU同时选择了台积
[嵌入式]
黑鲨手机或支持GPU参数调节
11月7日消息,黑鲨产品总监余鑫近日放出了《黑鲨产品经理在线》栏目的总结,解答了用户关心的游戏配置、操控中心、游戏宏的使用体验等等问题,我们一起来看看。 Q:压感力度太轻/太重 A:压感的力度受传感器本身参数、布局、算法的限制,当前范围已经是我们测试下来的最优区间,有的玩家希望轻一些、有的希望重一些,但是我们在权衡利弊之后暂时还是维持现状,如果你有非常具体的游戏场景来描述为什么你想更轻一些/重一些,我们也愿意聆听和搜集,便于我们之后的设计。 Q:电池温度超过44度会强制关闭黑鲨时刻 A:黑鲨时刻需要后台录屏,在屏幕分辨率越来越大、帧率越来越高的当下,始终录屏是非常大的性能开销,而这最直观的体现就是温度升高,导致游戏本身卡顿。所
[手机便携]
英伟达:“挖矿”让我们赚了钱
终于, 英伟达 首次承认“挖矿”业务让公司赚了不少钱,并且,第四季度带来的收入高于第三季度。更重要的是,无论是深度学习、虚拟现实还是加密货币,都代表着 GPU 计算的时代正在到来,这是一股超强的趋势。下面就随嵌入式小编一起来了解一下相关内容吧。 承认了! 英伟达 :“挖矿”让我们赚了钱 上周, 英伟达 公布了2018财年第四季度财报,截至1月31日,营收为29.1亿美元,非GAAP收入为每股1.72美元,超出预期——分析师此前预期每股盈利1.16美元,营收26.8亿美元。 公司2018财年全年收入也创了记录:97.1亿美元,这一数字较上一财年的69.1亿美元增长41%。 “我们再次实现了一个创纪录的季
[嵌入式]
英伟达正考虑将部分AI GPU外包给三星生产
由于台积电的产能供应日益紧张,英伟达正考虑将部分人工智能(AI)GPU外包给三星电子生产。据悉,聊天机器人ChatGPT等生成式AI的大火,拉升了对英伟达H100、A100、H800和A800等高性能GPU的需求,这使得该公司在全球AI GPU市场拿下达90%的市占率。 投行摩根大通认为,凭借GPU和网络产品等硬件产品,英伟达今年将在人工智能产品市场中占据高达60%的份额。 目前,英伟达备受投资者青睐,被认为是满足AI计算能力需求的关键供应商,其高端处理器已被用于训练和运行各种聊天机器人。 今年5月底,英伟达CEO黄仁勋表示,该公司的供应链将力求多元化,目前最高端的H100 GPU除台积电外,也将交由三星、英特尔代工。 然而,韩媒
[半导体设计/制造]
SK 海力士开始量产 HBM3E 内存,本月下旬起向英伟达供货
3 月 19 日消息,英伟达今日发布了地表最强的 AI 加速卡--Blackwell GB200,采用台积电 4NP 工艺制程,配备 192 HBM3E 内存,共有 2080 亿个晶体管,推理大语言模型性能比 H100 提升 30 倍,成本和能耗降低 96%。 SK 海力士今日发布新闻稿宣布其最新的超高性能 AI 内存产品 HBM3E 已开始量产,并将从本月下旬起向客户供货,距离去年 8 月宣布开发仅隔了 7 个月。 据介绍,SK 海力士是首家实现量产 HBM3E 供应商,HBM3E 每秒可处理 1.18TB 数据,相当于在 1 秒内可处理 230 部全高清(FHD)级电影。 由于 AI 对内存的运行速度要求极高,HBM3E 相比
[半导体设计/制造]