AI芯片届巨震,英伟达arm联手打造数十亿AI芯片

发布者:LogicLeaper最新更新时间:2018-03-28 来源: 智东西关键字:AI  arm  英伟达 手机看文章 扫描二维码
随时随地手机看文章

作者:Lina

智东西3月27日美国圣何塞报道,今天早上,英伟达GTC 2018年度大会的最重磅环节——创始人&CEO黄仁勋主题演讲——正式开始。智东西在圣何塞McEnery会议中心现场第一排来报道~

每年的GTC大会上,这位被粉丝们爱称为“老黄”的黑色皮衣爱好者CEO都会带来一场重磅主题演讲,通常来说不仅会发布新型GPU与超算电脑,还会宣布一些AI/VR/自动驾驶等领域重磅合作。

不过,今年的GTC 2018比较神奇,最为重磅的消息选择了在提前秘密发布,而不是在GTC Keynote现场——英伟达重磅宣布,将联合芯片巨头ARM打造IOT设备的AI芯片专用IP,这款机器学习IP集成到Arm的Project Trillium平台上,以实现机器学习,其技术源于英伟达Xavier芯片以及去年开源的DLA深度学习加速器项目。

ARM是全球智能设备第一大主流芯片架构提供商,全球超过90%的智能设备采用了ARM的芯片架构,包括手机、平板、手表、电视、无人机等等。本次ARM牵手英伟达推出专用的IOT设备人工智能IP,将会有助于人工智能在终端设备广泛铺开,使得上亿、甚至数十亿台IOT设备都能够用上低功耗、低成本的AI芯片,使物联网芯片公司能够轻松地将AI集成到它们的设计中,并帮助它们将智能且价格实惠的产品带给全球数十亿的消费者。

NVIDIA副总裁兼自主机器事业部总经理Deepu Talla表示:“推理将成为每个物联网设备的核心能力。我们将与ARM一同推进这一趋势的发展,帮助数百家芯片公司轻松采用深度学习技术。”

此外,在今天的GTC 2018上,黄仁勋还宣布了英伟达的以下进展:

1、推出光线追踪RTX技术(ray-tracing),能够提供电影级画质的实时渲染,渲染出逼真的反射、折射和阴影画面。这一技术由英伟达在前不久的GDC全球游戏开发者大会上展示过;

2、推出第一款采用Volta架构的Quadro GV100 GPU,由两个GV100连接而成;

3、推出了第一款专用于医疗图像处理的超级电脑Clara;

4、新版Tesla V100内存升为32G,可与旧版无缝换插,支持更多人工智能的工作负载;

5、推出DGX-2超级电脑,采用了最新的NVSwitch链接,最多可同时连接16块Tesla V100 GPU,其速度可以达到DGX-1的10倍,算下来可以每秒下载14000 部电影,售价39.9万美元;

6、推出新版机器学习应用平台TensorRT 4,支持INT8与FP16精度,并与谷歌合作,将其整合进AI开源框架谷歌TensorFlow 1.7中;

7、宣布打造下一代名为DRIVE Orin的自动驾驶芯片,但除了名字外没有透露更多信息;

8、正式推出3D仿真自动驾驶测试平台DRIVE Constellation,这一测试平台英伟达在CES上展示过,能够帮助自动驾驶系统提升“姿势水平”;

9、推出ISAAC机器人仿真训练平台SDK,将训练机器人的技术开放出去;

值得一提的是,智东西去年5月时也对GTC 2017进行了一线深入报道,在去年的CEO主题演讲开场前,英伟达的股价一路飙升至121美元,总市值达到了714亿美元。而在今年开场前一晚,英伟达的股价已经冲到了244美元,总市值超过1479亿美元。在这10个月内,英伟达的股价与市值再次翻倍。

光线追踪(ray-tracing)技术开场

今天一大早,智东西来到了GTC大会现场,准备参加每年GTC的最重磅环节——CEO黄仁勋主题演讲。此时是早上8点,离9点开场还有整整一小时前,但是入口处已经排起了巨长的队伍。

今天,老黄依旧是万年不变的一身黑皮衣+黑裤子开场。

他开场介绍的第一个项目就是英伟达在前不久GDC上发布的NVIDIA RTX光线追踪技术(ray-tracing),这项技术是英伟达耗时10年打造的,能够提供电影级画质的实时渲染,渲染出逼真的反射、折射和阴影画面,几乎与真实世界的照片或视频很难区分开来。现场展示的视频片段就是用光线追踪技术实时渲染的,而且并不需要一个超级强大的超算电脑,只需要一台DGX-Station。

在真实世界中,我们看到的3D物体被光源照亮,且光子可以在到达观看者的眼睛以前从一个物体反弹到另一个物体。光线追踪技术则是反过来,通过从我们的眼睛(观景式照相机)反向追踪光线捕捉这些效果,通过追踪2D视表面上每个像素的光线的路径,并应用到场景的3D模型中。

可想而知,这种技术的计算量非常大,一般渲染复杂的特殊效果可能需要花上几天甚至几周的时间,所以此前该项技术一直仅限于高成本的电影制作中。

不过,目前,随着GPU性能日益强悍,能够支持光线追踪的电脑也越来越多,通过Volta架构的GPU配合英伟达的RTX技术,产品设计师、游戏设计师、建筑师们能够在几秒内即可生成逼真的产品模型。

此外,英伟达还宣布GameWorks SDK 将添加一个光线追踪降噪模块。更新版 GameWorks SDK 即将推出,其中包含光线追踪区域阴影和光线追踪光泽反射。

新版Quadro GV100,首次采用Volta架构

与此同时,英伟达还在现场推出了Quadro GV100 GPU,同时也是同系列产品中第一个采用Volta架构的,因此能够搭载RTX技术的。

Quadro GV100由两个GV100连接而成,一共拥有10240个CUDA核,可达236 TFLOPS Tensor Cores。与此同时,老黄又玩起了“买GPU省钱”的梗——“你买的GPU越多,就越省钱(The more you buy, the more you save.)”,这一个梗再次贯穿了全场。

推出医疗专用超级电脑Clara,日常diss摩尔定律

接着,话锋一转,老黄开始谈起了计算力,我们也进入了GTC的必备环节——diss摩尔定律。

在将近10年的GTC上,每年老黄都会提到同一主题——摩尔定律。在过去30年里,我们受益于摩尔定律,芯片所提供的计算能力每年都高速增长。然而在最近的几年里,摩尔定律开始失灵,芯片发展的速度已经跟不上我们需要的计算力增长速度。

因此,我们需要新定律。

而随着数据量与计算量爆发式地增长,人工智能、GPU、CUDA正在以一种极快的速度崛起,以GPU驱动的人工智能计算已经随处可见,并且渗入到各行各业当中去,教育、娱乐、工业、制造……这也引出了我们下一个话题——医疗。

老黄在现场推出了第一款专用于医疗图像处理的超级电脑Clara,它能够支持CUDA、CUDNN、TensorRT、OGL、以及刚刚提到的RTX技术。

在现场,老黄展示了一个医疗图像实时处理的影像片段。这个段影像是用十几年的超声波老设备拍摄而成,本来只能看到2D的黑白图像。然而当数据传进Clara后,配合人工智能软件,可以在2D图像中分析出3D的腔膛形状(图中红色部分)。因此,医院可以在现有医疗设备上直接接入这台电脑。

目前,英伟达正在和众多医疗厂商合作,除了GE通用电气、三星电子等大厂外,还有像图玛深维、推想科技等AI医疗创业公司。

新品升级:新版Tesla V100、DGX-2超级电脑、TensorRT 4

在去年的GTC 2017上,老黄发布了一款名为Tesla V100的新版GPU,使用Volta架构,采用的是台积电的12nm Finfet工艺,具有5120个CUDA处理内核,16GB内存,能够为训练、推理应用提供120 tensor TFLOPS算力。

今天,老黄宣布,新版Tesla V100将内存升级一倍,达到32GB。

由于这几年间,CNN、RNN、GANs、Deep Q-Learning等算法不断变得复杂,更是对深度学习计算硬件提出了新挑战。因此,新版Tesla V100拥有更大的内存,使得它能够运行更大、更复杂的神经网络,在某些HPC应用上能够提供高于之前16GB版本50%的性能。微软已经宣布采用了新版Tesla V100,能够更快速地训练更加强大的深度神经网络。

此外,英伟达本次还推出的NVSwitch高速互联技术。此前英伟达曾经推出NVLink,支持最多8块GPU高速互联;如今NVSwitch技术可将这个数字翻上一倍,支持最多16块GPU同时互联。每一个GPU都能和另一个GPU进行超低延迟的通讯。

在去年GTC上,英伟达推出了搭载8块Tesla V100的超级电脑DGX-1,今天在GTC 2018现场老黄宣布,推出能够搭载16块新版Tesla V100的超级电脑DGX-2,比DGX-1还要快10倍。

DGX-2能够进行2 PFLOPS的计算,算下来可以每秒下载14000部电影,拥有512GB HBM2,功耗为10kw,350lbs,能够支持更大数据集、更复杂神经网络的计算。售价399000美元,今年Q3上市。

它其中搭载着被老黄称为“世界上最大的GPU”,共有81920个CUDA核,可达2000 TFLOPS Tensor Cores,拥有512GB HBM2。

此外,去年的GTC上,英伟达推出了“英伟达GPU云(NVIDIA GPU Cloud)”,但它不是一个云计算“云”,而是一个能让人轻易地从零开始搭建一个深度学习的项目。今天老黄宣布,AWS、阿里云、DGX、GCP、Oracle Cloud上都开始支持英伟达GPU云了。

而且,从CNN到LSTM再到GANs,现在的深度学习神经网络框架正变得越来越复杂、越来越多样、而且在日新月异地变化着,训练环节变得复杂了,应用(Inference)环节自然也变得非常复杂。

因此,老黄还在现场推出了最新版本的TensorRT——TensorRT 4,这是一款可编程应用平台(Programmable Inference Platform),当你将一个神经网络训练好了之后,可以通过TensorRT可编程平台,简便快捷地将这个训练好了的神经网络部署(Deploy)到英伟达的GPU上。

新版TensorRT 4能够支持INT8和FP16精度运算,能够将数据中心的功耗降低70%。而且,英伟达还与谷歌进行了深度合作,将TensorRT整合进如今最广泛应用的AI开源框架谷歌TensorFlow 1.7中。而且现在还能够加速图像、视频、语言、NLP等AI应用。

同时,老黄还在现场宣布,KUBERNETES现在能够支持GPU了。KUBERNETES能够在主机集群之间提供一个能够自动化部署、可拓展、应用容器可运营的平台,通常结合docker容器工具工作,并且整合多个运行着docker容器的主机集群,不仅能够提供更大的计算力,还能够有更大的容错空间。

打造下一代DRIVE Orin自动驾驶芯片

老黄在现场还展示了英伟达感知基础(Perception Infrastructure)项目,这是一个大型的深度学习模型,能够收集并分析不同传感器(如摄像机、雷达等等)得出的距离、天气、雷达感知、高精地图等等不同数据。

在接下来2-3年间,英伟达还将技术研发这一技术,直到最后能够搭载在所有新车上。老黄说,这是我们至今遇到的最为复杂的问题之一。

在现场,老黄还展示了英伟达DRIVE的研发路径,它们都基于同一框架、满足ADSL-D的安全标准、并且性能/功耗比非常高:从DRIVE PX Parker、到DRIVE PX 2、再到DRIVE Xavier、再到DRIVE Pegasus……

老黄说,虽然DRIVE Pegasus已经非常强大了,但是,英伟达还会打造下一代名为DRIVE Orin的芯片,不过现场没有透露更多信息。

推出自动驾驶仿真测试平台DRIVE Constellation

在今年1月的CES上,老黄曾经展示了一个全新的3D自动驾驶仿真测试平台。而今天,老黄正式推出了这款名为DRIVE SIM and Constellation的3D自动驾驶仿真测试平台。

这款平台包括两个部分,先是在云端模拟照片级真实的图像,生成传感器数据(包括摄像头、雷达等)第二部分则包括将这些数据传到英伟达DRIVE Pegasus中,并运行全套自动驾驶软件,以帮助训练该自动驾驶系统提升“姿势水平”。

在实际演示中,英伟达的新仿真平台显得十分强大,不仅有传统一点的实时车导线规划、其他车辆识别,而且对环境的还原相当真实,复杂的光线条件也能够被模拟。测试人员还能够在平台内操纵、变化车辆传感器的探测范围。

另外,这个平台还支持开发人员在虚拟环境中“人为驾驶”一辆车作出各种危险动作来考验测试车,来考验测试车的算法。

会上,老黄还宣布,目前英伟达自动驾驶合作伙伴的数量已经达到了370家,其中包括整车厂、一级供应商、以及200+家创企。

与自动驾驶仿真测试平台相似的,英伟达还在去年推出了专用于机器人的仿真测试平台——ISAAC机器人训练模拟世界。你可以用这个虚拟世界来训练机器人前进、后退、转弯、躲避行人等。

今天,老黄宣布将ISAAC平台的技术开放出去,推出ISAAC SDK。

此外,英伟达此前还推出过一款VR多人交互平台Holodeck。在今天的GTC 2018上,英伟达还展示了一个非常有趣、也非常’黑科技“的DEMO:在Holodeck虚拟世界里远程控制现实世界里的汽车。(看过《黑豹》的同学大概可以理解一下)

上文提到,今年的GTC 2018比较神奇,最为重磅的消息选择了在提前秘密发布,而不是在GTC Keynote现场——英伟达重磅宣布,将联合芯片巨头ARM打造AI芯片专用IP,这款IP属于ARM几年2月公布的Trillium项目的一部分,其技术源于英伟达Xavier芯片以及去年开源的DLA深度学习加速器项目。

英伟达本次宣布同AEM合作,将在数十亿物联网设备上实现深度学习。NVIDIA深度学习加速器IP将集成到Arm的Project Trillium平台中,以便于构建深度学习IoT芯片。

去年,英伟达也正式免费开源了完整版DLA(Deep Learning Accelerator,深度学习加速器),让厂商可以免费下载使用,打造属于自己的低功耗AI芯片(比如IoT芯片)。

今年2月,芯片巨头ARM公布了其人工智能项目Trillium,同时推出两款专用IP,分别为物体检测OD处理器和机器学习ML处理器。

ARM是全球智能设备第一大主流芯片架构提供商,全球超过90%的智能设备采用了ARM的芯片架构,包括手机、平板、手表、电视、无人机等等。而英伟达,作为全球AI浪潮的引领者,能够为人工智能提供强大的计算力,二者一拍即合。

本次ARM牵手英伟达推出专用的IOT设备人工智能IP,将会有助于人工智能在终端设备广泛铺开,使得上亿、甚至数十亿台IOT设备都能够用上低功耗、低成本的AI芯片,使物联网芯片公司能够轻松地将AI集成到它们的设计中,并帮助它们将智能且价格实惠的产品带给全球数十亿的消费者。

NVIDIA副总裁兼自主机器事业部总经理Deepu Talla表示:“推理将成为每个物联网设备的核心能力。我们将与ARM一同推进这一趋势的发展,帮助数百家芯片公司轻松采用深度学习技术。”

结语:更多精彩敬请期待

今年,共有超过8000人来到了GTC 2018现场,150个展位。值得一提的是,英伟达也在推动女性在科技行业中的力量,今年女性占据了GTC 2018总开发者的8%,总参会者的10%,以及11%的演讲者。

每年的GTC上,除了英伟达的各类主业务负责人的交流沟通会议、来自大大小小各类开发者或技术大牛的主题演讲外、还有150家英伟达的合作企业布设展位,以供开发者与媒体参观交流。在接下来的3天里,智东西将继续在圣何塞McEnery会议中心现场为你发来报道,还包括与英伟达CEO黄仁勋及各位高管的交流采访,敬请期待~


关键字:AI  arm  英伟达 引用地址:AI芯片届巨震,英伟达arm联手打造数十亿AI芯片

上一篇:闪迪发布新一代的400GB UHS-I microSD存储卡
下一篇:加大OLED面板供应 LG电子抢占OLED电视市场份额

推荐阅读最新更新时间:2024-05-03 02:39

AI算法加码纯视觉方案,自动驾驶会否迎来新转折?
作为全球资本市场的风口,自动驾驶从来都不曾离开舞台的中央。 自动驾驶主要包括感知、决策和执行三个环节。其中,周边态势的感知,作为自动驾驶控制系统的输入,重要性不言而喻。更早以及更加精准的信息输入,将帮助自动驾驶控制器尽快做出一个准确的决策,调整车辆姿态来实现自动驾驶功能。 但在汽车自动驾驶领域,周边态势感知的技术路线选择之争从来就没有停歇过。以特斯拉为最知名的代表是纯视觉方案的坚定拥护者,至于国内很多企业则是视觉加雷达融合方案的拥趸。在线控底盘方案已经非常成熟且自动驾驶软件平台日趋完善的大背景下,对于周边态势的感知正在成为自动驾驶领域中的一个受到越来越多关注的分支。 得到全球公认的NuScenes数据集 NuSce
[汽车电子]
<font color='red'>AI</font>算法加码纯视觉方案,自动驾驶会否迎来新转折?
利用机器人收割技术提高室内农场产量 Root AI获230万美元融资
在不久的将来,出现在美国各地杂货店货架上的蔬菜都将由机器人采摘。工厂车间的自动化革命将逐步进入美国的农业,而第一站则很可能是现在风靡美国的室内农场。 在这场机器人革命中,引领这一潮流的将是一些像Root AI这样的公司,这家年轻的初创企业刚刚获得230万美元融资,该笔资金用于将其第一批机器人收割和农场优化技术推向市场。 Root AI专注于目前世界上已有的230万平方英尺的室内农场,并希望能够随着在室内种植农作物的农场数量的增加而扩大这一规模。一些诸如Agrilyst之类的分析公司预测,该公司计划将其室内农场的规模扩大至2200万平方英尺左右(大部分农场将设在美国)。 虽然这仅相当于505英亩的土地(只是目前在美国种植的9亿英亩农
[机器人]
I2C总线实现TMS320VC5509A引导装载设计
1 引言 DSP芯片的Bootloader程序用于上电时将用户程序从外部非易失性、慢速存储器或外部控制器中装载到片内高速RAM中,保证用户程序在DSP内部高速运行,TI公司的C55x系列DSP芯片提供多种装载模式,主要包括HPI引导装载、串行E2ROM引导装载、并行引导装载、串行口引导装载、I2C总线E2ROM引导装载等,通常使用的是并行引导装载模式,该方式引导速度快实现简单,但是体积和功耗也较大,随着串行接口存储设备容量的提高,串行引导方式体积小、功耗低的优势便显现出来了,所以使用ARM的串行接口对DSP进行引导装载,不仅能省去存储芯片,而且利用ARM的ISP功能,可以根据需要改变用户程序,有利于系统的维护和升级。 本文以TM
[应用]
机器学习大行其道 Google、英特尔相继推出AI芯片
  Google、英特尔(Intel)、 NVIDIA 针对人工智能应用推出的最新芯片,都号称能提供极高的运算速度及准确度。除此之外,有鉴于一般客户很难快速掌握市面上各种不同的软硬件选项,ARM、超微(AMD)、亚马逊(Amazon)、Facebook的新产品于是以此为诉求,希望能使模组与各个芯片的结合达到最佳化。下面就随网络通信小编一起来了解一下相关内容吧。   根据TheRegister报导,GooglePixel2搭载的协同处理器PixelVisualCore,是Google第一款智能手机芯片,并且是专为执行Pixel2的影像处理 机器学习 软件所设计。PixelVisualCore拥有8个影像处理撷取引擎(IPU),每个
[网络通信]
深入理解ARM体系架构(S3C6410)---rtc实例
实时时钟(RTC)的主要功能是在系统掉电的情况下,利用后备电源使时钟继续运行,从而不会丢失时间信息。s3c6410内部集成了RTC模块,其内部的寄存器BCDSEC,BCDMIN,BCDHOUR,BCDDAY,BCDDATE,BCDMON和BCDYEAR分别存储了当前的秒,分,小时,星期,日,月和年,表示时间的数值都是BCD码。 S2C6410中的闰年问题: 闰年产生器基于BCDDAY,BCDMOD,BCDYEAR从而能决定每月最后的日期是28,29,30,还是31。一个8位的计数器只能表示2个BCD数据,因此不能判断 00 结尾的年份是不是闰年。例如它不能判断1900和2000是不是闰年。为了解决这个问题,S3C6410中有一
[单片机]
深入理解<font color='red'>ARM</font>体系架构(S3C6410)---rtc实例
在塑料上造芯片,每片不到1美分
想象一下,你周围的物体到处充满了智能,一条绷带、一个香蕉皮、一个瓶子等都具有智能。目前来看,这种场景只能出现在科幻电影里。你可能会奇怪,科技飞速发展的今天,为何这一切还没有实现,这是因为人类还没有制造出价格便宜的处理器。全球物联网设备的数量每年以数十亿的速度增长。看起来这是一个巨大的数字,但实际上这个领域的潜力要大得多,而且相当昂贵的硅芯片正在阻碍它。解决方案可能是引入便宜很多倍的塑料芯片。 之前有研究机构进行了各种尝试,例如 2021 年 Arm 重磅推出 PlasticArm M0 新型塑料芯片原型,可以直接在纸张、塑料或织物上打印电路,该芯片没有采用硅作为基底,而是采用塑料处理器核心,这是 Arm 研究了近十年的项目,但
[半导体设计/制造]
在塑料上造芯片,每片不到1美分
ARM藐视Intel手机处理器 两大阵营决战在即
    据外电报道,ARMCEO沃伦·伊斯特(WarrenEast)周三表示,Intel近日在移动世界大会(以下简称“MWC”)上展示的智能手机处理器远落后于ARM的产品。     伊斯特称,虽然从技术的角度讲,Intel的智能手机解决方案好于以往,但IntelCEO欧德宁(PaulOtellini)周一在MWC上展示的设备相当于一代或两代前的ARM解决方案。         尽管如此,伊斯特表示,对于Intel的来袭仍将严阵以待。他说:“因为我们在经营这项业务,而英特尔是全球最大的半导体公司,拥有大量的资源,先进的制造技术,优质的x86处理器,因此我们需要有所顾虑。”         Intel发言人乔恩·卡维尔(JonCarvi
[手机便携]
AI如何推动机器人创新?听听ABB怎么说!
随着人工智能技术发展, 工业机器人 正加速向自主、智能、协作的方向演进。作为全球工业 机器人 领域的先锋者,ABB看准趋势,大胆创新,在多个维度深度布局。 ABB机器人的故事始于1974年,50年后的2024年,ABB的机器人产品组合比以往任何时候都更强大。50周年之际,ABB更是发出强烈信号:人工智能正深度融入机器人,而ABB也将以更强的胆识和气魄推动这一进程,建立新的技术壁垒,进一步牢固品牌。 ABB机器人总裁Marc Segura表示: “未来一年,人们将越来越关注人工智能的关键作用,从移动机器人和 协作机器人 ,到在新领域实现新的机器人应用,以及为人们创造新的学习和发展机会,这些人工智能的新前沿正在重新定义工业机器人的未来
[机器人]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved