NVIDIA发布包含数十种新的、更新的加速计算库

发布者:EE小广播最新更新时间:2021-11-15 来源: EEWORLD关键字:NVIDIA  软件开发  工具包  量子计算 手机看文章 扫描二维码
随时随地手机看文章

用于加速PyData生态系统量子计算、到户交付和超级计算的65个软件开发工具包,为150多种产品带来了性能提升。


 image.png


NVIDIA发布了65个全新及更新的软件开发工具包,包括库、代码样本和指南,为正在推动广泛计算挑战前沿的数据科学家、研究者、学生和开发者带来更好的特性和功能,这些新推出及更新的加速计算库再次体现了NVIDIA在软件方面的投入,及其对AI行业的承诺。


NVIDIA创始人兼首席执行官黄仁勋在其GTC主题演讲中发布了这些新增内容,其中包括用于加速量子计算、到户交付算法和图形神经网络挖掘的新一代SDK。


NVIDIA产品目录中有150多个加速计算工具包,NVIDIA开发者计划中的近300万名成员使用这些工具包,这个数字在过去五年增长了6倍。CUDA(并行计算平台和编程模型)仅在去年就被下载了700万次,自发布以来的下载次数已达到3000万次。


拓展新市场


新发布的SDK有:


NVIDIA ReOpt:用于实时物流,引入了先进的大规模并行算法,可以优化车辆路线、仓库选择和车队组合。其动态改道功能可以减少旅行时间、节省燃料成本并最大限度地减少闲置时间,这将为物流和供应链行业节省数十亿美元。


cuNumeric:用于阵列计算,实现NumPy应用编程接口,可以自动扩展到多GPU和多节点系统,而不需要修改代码。这将给使用Python的2000万名数据科学家、研究者和科学家带来重要的价值。该工具包现已在GitHub和Conda上提供,可以扩展到数千个GPU,为PyData和NumPy生态系统创造加速计算。


cuQuantum:用于量子计算,大大加快了模拟大型量子电路的速度,使量子研究者能够研究更广泛的算法和应用空间。开发者可以模拟分子的近期变异量子算法和能够识别容错的纠错算法等领域,也可以加速Atos、谷歌和IBM的流行量子模拟器


CUDA-X加速 DGL容器:用于图形神经网络,为从事具有大型图形的GNN的开发者和数据科学家提供了一种快速建立工作环境的方法。该容器使得在结合DGL和Pytorch的集成GPU加速GNN 环境中的工作变得很容易。凭借GPU加速GNN,我们可以挖掘图形中的洞察,即使是有接近一万亿条边的全球最大图形也不例外。例如Pinterest使用具有数十亿个节点和边缘的图形神经网络来了解其具有超过3000亿个Pin的生态系统。该网络基于GPU和各种经过优化的库,可用于模型的训练和推理。


Amazon Web Services机器学习总监Alex Smola表示:“我们团队十分高兴能与NVIDIA合作,通过用于图形构建的RAPIDS cuDF、用于图形采样的RAPIDS cuGraph和GNN的自定义计算内核来加速DGL。而开源的DGL也能通过亚马逊NeptuneML以托管式服务的形式提供。”


经过更新的SDK加速应用开发


众多最受欢迎的NVIDIA SDK都增强了功能并进行了升级,包括Clara、DLSS、RTX、Nsight和Isaac工具包。


其他经过更新的SDK包括:


RAPIDS 21.10:用于数据科学,提供时间序列数据处理这项新功能并对现有算法进行多项加速。适用于 Apache Spark 3.0 的 RAPIDS 加速器允许企业在不更改代码的情况下加速其在 NVIDIA GPU 上的分析操作。今年以来,NVIDIA最受欢迎的SDK之一——RAPIDS的下载量增长了400%。


Deepstream 6.0:用于智能视频分析的Deepstream 6.0引入了新的图形合成器界面,使具有最低编码能力的用户也能使用计算机视觉,还引入了可视化拖放界面,可实现简单、直观的AI产品开发流程。


Triton 2.15、TensorRT 8.2和cuDNN 8.4:用于深度神经网络,为大型语言模型提供新的优化,并且为梯度增强决策树和随机森林提供推理加速。


DOCA 1.2:用于数据中心网络,提供一个零信任的安全框架,该框架通过硬件和软件认证、线路速率数据加密、分布式防火墙和智能遥测来扩展威胁保护。


Merlin 0.8:用于推荐系统,具有预测用户下一步行动的新功能,只需很少的用户数据,甚至无需用户数据,并且支持大于GPU内存的模型。


适用于SDK的新培训课程


根据IDC预计,全球全职开发者的短缺数量预计将从2021年的140万增加到2025年的400万。该分析公司认为,创建提供教育和赋能的基础设施是弥补这一短缺的长期解决方案。


NVIDIA深度学习培训中心的两门新课程支持并加速开发者对SDK的学习和使用,为该学院的40多门课程目录增添新的内容。


“用于DPU的DOCA介绍”是一门自学课程。该课程向开发者、研究者和学生介绍

NVIDIA DOCA的基本概念。NVIDIA DOCA是一个用于在NVIDIA BlueField DPUs上实现加速数据中心计算的平台。


将于本月晚些时候推出的“构建实时视频AI应用”课程将介绍如何使用NVIDIA 

DeepStream智能视频分析工具和NVIDIA TAO工具套件将原始视频数据转化为基于实时深度学习的洞察,从而实现用于构建高性能流媒体管道的硬件加速组件。


配合新SDK的NVIDIA 深度学习培训中心课程包括:


由教师授课的“加速数据科学基础”和自学课程“加速端到端数据科学工作流”使用NVIDIA RAPIDS加速数据科学库来应用各种GPU加速机器学习算法,包括XGBoost、cuGRAPH的单源最短路径以及cuML的 KNN、DBSCAN和逻辑回归,以便执行大规模的数据分析。


“构建智能推荐系统”涵盖NVIDIA Merlin和其他用于构建高效推荐系统的基本工具和技术以及如何部署用于实时推荐的GPU加速解决方案。


关于NVIDIA


NVIDIA在1999年发明的GPU激发了PC游戏市场的增长,重新定义了现代计算机显卡、高性能计算和人工智能。公司在加速计算和人工智能领域的创新研究成果正在改变交通运输、医疗、制造等万亿美元级行业,并推动许多其他行业的发展。


关键字:NVIDIA  软件开发  工具包  量子计算 引用地址:NVIDIA发布包含数十种新的、更新的加速计算库

上一篇:NVIDIA cuQuantum SDK 创造量子计算模拟世界纪录
下一篇:MediaTek 部署人工智能前沿技术 六篇论文入选 AI NeurIPS会议

推荐阅读最新更新时间:2024-11-17 17:32

Imagination打破SoC嵌入式软件开发的价格障碍
2017年4月24日 —— Imagination Technologies宣布,适用于该公司 M-class 与 I-class CPU IP 内核的强大开发环境,包括先进的 PowerVR 图形界面(GUI)与 Eclipse 整合开发环境(IDE),以及低成本的 Bus Blaster JTAG 探针 —— 这些专业级的工具全部都将以前所未有的价格供应。 为了应对日趋复杂的设计所需的大量软件,SoC 设计人员需要高品质的开发环境。此外,芯片供应商也面临了越来越大的压力,要为客户提供完整的开发解决方案 —— 通常是数百位的使用者 —— 为其特定的芯片创建最佳的软件。因此,低成本的开发环境是不可或缺的因素。 Imagin
[嵌入式]
NVIDIA发布通用场景描述(OpenUSD)的重大成果
新服务将加速基于通用场景描述的工作流以及数字孪生和的开发。 NVIDIA 于今日发布通用场景描述(OpenUSD)的重大成果。这将扩大这一通用 3D 数据交换框架在机器人、工业设计和工程领域的应用,提高开发者为 新一轮发展构建虚拟世界的能力。 通过基于OpenUSD的全新生成式 AI,以及在NVIDIA Omniverse平台构建的 NVIDIA 加速的开发框架,越来越多的行业现在能够开发出用于可视化工业设计和工程项目的应用,以及用于构建新一代物理 AI 和机器人的环境的应用。 新推出的内容包括适用于 AI 模型的 NVIDIA NIM 微服务,这些微服务可生成回答用户查询的 OpenUSD 语言、生成
[机器人]
国际首个核磁共振量子计算云平台上线了
10月11日,量子计算云平台“中国版”正式启动,清华大学、阿里巴巴-中科大、本源量子-中科大在同一天发布了量子云平台。 量子信息革命正加速到来,2016年,IBM就向公众开放了基于云的量子计算平台,用户登录后能使用一台5量子比特的量子计算机进行算法或实验模拟;今年3月,IBM又宣布计划建立业界首个商用通用量子计算平台IBM Q。 在量子计算领域,国内外的竞争十分激烈,就在10月10日,英特尔通过其官网宣布,公司生产出一种包含17个超导量子位的全新芯片,标志着量子计算正从学术实验室进入半导体产业,向实用领域迈进。 与IBM不同,清华大学课题组的量子计算云平台是基于核磁共振量子计算机,不同的量子计算机物理体系有什么优缺点?
[半导体设计/制造]
外媒:多家科技巨头反对英伟达收购ARM,英特尔、高通等
据fudzilla报道,多名消息人士透露,硅谷多家科技企业反对英伟达收购ARM的交易。除ARM和英伟达外,多家科技公司表示这笔交易对行业不利。 fudzilla指出,鉴于传统形式上完成一宗重大合并案需耗时18至24个月的时间,未来中国和欧盟的监管机构可能会强烈反对这桩交易。 报道称,包括英特尔、高通、特斯拉以及其他几家芯片市场的主要厂商正讨论采取协调行动,并向美国和世界各国当局表达他们的担忧。苹果也参与了谈判,但苹果可能会退出该“联盟”,因为它可能会与ARM-Nvidia单独达成协议。 目前的中美关系、华为问题以及美国与欧盟之间的关系都给这笔交易平添了几分不确定性。更重要的是,ARM的授权商不希望像英伟达这样的芯片公司占据主导地
[手机便携]
Maxim推出用于NVIDIA GPU的单相Quick-PWM控制器
  日前,Maxim推出用于为NVIDIA GPU供电的单相降压控制器MAX17409。器件的有源电压定位功能可根据负载电流动态降低输出电压,从而有效降低功耗以及对输出电容的要求。在MAX17409的输出端通过电流检测电阻或电感的直流电阻检测负载电流,最大程度地降低了噪声敏感度。MAX17409非常适合用于NVIDIA GPU内核电源、笔记本/台式机/服务器、或用作通用电压定位降压转换器。   器件的开关频率可以在200kHz至600kHz范围内调节,允许设计人员优化效率或元件成本/尺寸。器件还具有过压、欠压和过热故障保护电路。MAX17409提供节省空间的4mm x 4mm、28引脚TQFN封装,背部带有裸焊盘。器件工作
[电源管理]
Nvidia已获台积电HMG工艺28纳米样品
近日有国外IT专业网站报道称其已经获悉图形芯片巨头Nvidia公司已经获得了新一代采用28纳米制造工艺的图形核心芯片样本,不过目前关于此事外界获悉的信息仍然相当有限,即便如此这一消息也已经足够令人震憾了。 据透露,Nvidia目前获得的可能是下一代的入门级图形芯片,不过目前关于这一点暂时还没有获得确切的消息。当然,可以肯定的是这颗芯片样本采用了台积电TSMC公司的28纳米High Metal gate制造工艺。据外界消息透露,这款图形芯片的研发代号为GF1x9,不过目前这一点也没有获得真正的确认,未来一段时间或许会有更多消息曝出。 不过Nvidia的28纳米图形芯片目前仍然处于早期测试样品阶段,实
[半导体设计/制造]
<font color='red'>Nvidia</font>已获台积电HMG工艺28纳米样品
自动驾驶技术“挂倒档”?英伟达和英特尔要换个套路玩
从上周的 CES 来看,汽车行业又有了新常态,那就是原本信心满满要直冲 Level 5 的自动驾驶技术供应商都“挂了倒档”,回到老路口又往 ADAS(Level 2)的方向驶去。 作为自动驾驶行业两个举足轻重的角色,本届展会英伟达和英特尔/Mobileye 就释放出了明确的信号:“一万年太久,我们要只争朝夕”。 也就是说,两家公司相信,与其坐等全自动驾驶到来,还不如赶紧行动起来普及现有技术,能救一条性命是一条呢。从展会上亮相的产品我们也能看出,双巨头正在将手上的自动驾驶技术下放给 ADAS 系统。 这一行业新趋势将开辟一条新的战线,技术供应商和汽车制造商未来在 Level 2+ 领域必然会有持续的鏖战。 CES 上的英伟达展台
[汽车电子]
自动驾驶技术“挂倒档”?<font color='red'>英伟达</font>和英特尔要换个套路玩
NVIDIA工程师确认:理论上RTX 20/30显卡一样能用DLSS 3 但性能不佳
近日,NVIDIA正式推出RTX 40系显卡,一并登场的还有全新的DLSS 3超采样技术。根据NVIDIA官网的介绍,DLSS 3仅支持最新的RTX 40系显卡,令人遗憾。不过,根据目前NVIDIA应用深度学习研究副总裁Bryan Catanzaro的说法,其实RTX 20和30系显卡也并不是不能使用DLSS 3。 Bryan指出,DLSS 3的实现依赖于光流加速器,但实际上,在RTX 20/30系显卡的Ampere架构中,并不是没有光流加速器,只是性能不够强大而已。 因此,理论上,只要愿意投入额外的研究与工程,DLSS 3也能够在RTX 20/30系的老显卡上运行,但表现可能会很差,还不如现在的DLSS 2。 那
[家用电子]
<font color='red'>NVIDIA</font>工程师确认:理论上RTX 20/30显卡一样能用DLSS 3 但性能不佳
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved