datasheet

四倍GPU处理能力 Gaudi™人工智能训练处理器问市

2019-06-19来源: EEWORLD关键字:Gaudi  Habana  Labs

行业领先的人工智能处理器开发商Habana Labs宣布推出Habana Gaudi™人工智能训练处理器,基于Gaudi的训练系统实现了比拥有相同数量的GPU系统高四倍的处理能力。

 

image.png


Gaudi™处理器的创新架构可实现训练系统性能的近线性扩展,即使是在较小Batch Size的情况下,也能保持高计算力。因此,基于Gaudi™处理器的训练性能可实现从单一设备扩展至由数百个处理器搭建的大型系统的线性扩展。

 

除了领先的性能,Gaudi™处理器还为人工智能训练带来了另一项“行业第一”。该人工智能处理器片上集成了 RDMA over Converged Ethernet (RoCE v2) 功能,从而让人工智能系统能够使用标准以太网扩展至任何规模。凭借Gaudi™处理器,Habana Labs的客户亦可利用标准以太网交换进行人工智能训练系统的纵向扩展和横向扩展。同时,以太网交换机已被数据中心应用于计算系统和存储系统的扩展中,在速度和端口数方面可提供几乎无限的可扩展性。另外,与Habana的标准设计相比,基于GPU的系统依赖于专有的系统接口,对系统设计人员来说,这从本质上限制了可扩展性和选择性。

 

image.png


Linley集团首席分析师Linley Gwennap评论说:“Habana Labs推出新产品,其产品组合迅速地从推理处理器扩展到训练处理器,涵盖了神经网络的所有功能。在众多的人工智能训练加速器产品中,Gaudi™处理器能够提供强大的性能,达到行业领先的能效水平。作为首款集成100G以太网链路并支持RoCE的人工智能处理器,Gaudi™为使用行业标准组件构建而成的大型加速器集群提供了强大的支持。”

 

image.png


Gaudi™人工智能训练处理器配备32GB HBM-2内存,目前提供两种规格:


  1.   HL-200 - PCIe卡,设有8个100Gb以太网端口;

  2.   HL-205 - 基于OCP-OAM标准的子卡,设有10个100Gb以太网端口或20个50Gb以太网端口。

 

另外,Habana推出了一款名为HLS-1的8-Gaudi系统,配备了8个HL-205子卡、PCIe外部主机连接器和24个用于连接现有以太网交换机的100Gbps以太网端口,让客户能够通过在19英寸标准机柜中部署多个HLS-1系统实现性能扩展。

 

Gaudi™处理器是Habana Labs继去年推出Goya™人工智能推理处理器后的第二款人工智能专用处理器。Goya™处理器自2018年第四季度开始发货,并向业界展示了领先的推理性能,可实现业界最高的吞吐量、功效比(图片/每秒瓦)以及实时。



image.png



Habana Labs首席执行官David Dahan 表示:“人工智能模型训练所需的计算能力每年呈指数增长。因此,提高生产率和可扩展性,解决数据中心和云计算对计算能力的迫切需求成为至关重要的任务。凭借Gaudi™处理器的创新架构,Habana Labs带来了业界最高的性能,同时集成了标准以太网,进而实现无限可扩展性。Gaudi™处理器将打破人工智能训练处理器领域的现状。”

 

Facebook技术和战略总监Vijay Rao表示:“Facebook正在寻找开放的平台以进行行业创新融合。我们很高兴看到Habana Labs的Goya™人工智能推理处理器为Glow机器学习编译器实现后端开源,并且Gaudi™人工智能训练处理器采用OCP加速器模块 (OAM) 规范。”

 

Gaudi™是一款完全可编程且可定制的处理器,搭载第二代Tensor处理核 (TPC™) 并集成开发工具、库和编译器,共同提供全面而灵活的解决方案。此外,Habana Labs的SynapseAI™软件栈包含一个丰富的内核库和开放工具链,以供客户添加专有内核。


关键字:Gaudi  Habana  Labs

编辑:muyan 引用地址:http://news.eeworld.com.cn/IoT/ic465148.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:通过优化视频丰富在线和应用程序内用户体验
下一篇:One API提供统一编程模型,简化跨不同计算架构应用程序开发

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

重装上阵!Habana携2款深度学习芯片叫板英伟达

神经网络和人工智能是目前最炙手可热的科技,它们应用广泛,在各种你喜欢或者不喜欢的社交平台上助力识别图像,在智能音箱上语音识别,在智能手机里担任数字语音助理,神经网络比人类有更好的识别模式能力。不久,它们会很快应用到注入安全摄像头这样的嵌入式设备中,带来更多意想不到的体验。 近日,人工智能处理器开发商Habana Labs在京召开发布会为我们隆重介绍了最新研制的两款AI芯片及解决方案,分别用于推理和训练,适合数据中心、自动驾驶等应用,竞争目标直指用于AI领域最高性能的CPU和英伟达GPU。 Goya—三倍性能,架构创新 Goya产品是一款基于PCIE的产品,主要是用于传统服务器,主要是未来插在服务器
发表于 2019-06-25
重装上阵!Habana携2款深度学习芯片叫板英伟达

Habana Labs最强AI处理器PK英伟达

Habana Labs推出了Gaudi HL-2000,这是一款定制的AI处理器,该公司声称,Gaudi HL-2000能够在训练神经网络方面超越英伟达最优秀、最亮眼的GPU。随着新芯片的发布,这家位于特拉维夫的初创公司推出了一系列基于Gaudi的PCIe卡,以及一个八处理器服务器,可用作构建超大型训练集群的基础。Gaudi代表着Habana进军AI市场的第二次尝试。2018年第四季度,该公司开始向客户出货Goya推理卡。正如我们当时报告的那样,与英伟达的V100 GPU相比,HL-1000驱动的Goya在ResNet-50上进行推理时,提供了超过4倍的吞吐量,2倍的能源效率,以及一半的延迟。据Habana首席商务官
发表于 2019-06-18
Habana Labs最强AI处理器PK英伟达

Habana Labs推出生产就绪型Goya HL-1000处理器

退出隐身模式,Habana Labs推出生产就绪型Goya HL-1000处理器 以色列特拉维夫和加州圣何塞2018年9月17日电-- Habana Labs, Ltd. (www.habana.ai) 今天宣布,该公司正式退出隐身模式,将面向精选客户推出首个人工智能 (AI) 处理器样品。基于其 Goya HL-1000 处理器的 PCIe 卡可基于 ResNet-50 推理基准实现每秒15000张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦。与如今数据中心部署的一般解决方案相比,Habana Labs 人工智能处理器的性能要高出一到三个数量级。 旨在处理各种人工智能推理工作负载,如图像识别、神经机器翻译、情感分析、推荐
发表于 2018-09-28

Habana Labs宣布推出全球性能最高的人工智能推理处理器

退出隐身模式,Habana Labs推出生产就绪型Goya™ HL-1000处理器Habana Labs, Ltd. (www.habana.ai) 17日宣布,该公司正式退出隐身模式,将面向精选客户推出首个人工智能 (AI) 处理器样品。基于其 Goya HL-1000 处理器的 PCIe 卡可基于 ResNet-50 推理基准实现每秒15000张图片的吞吐量,延迟时间为1.3毫秒,功耗仅为100瓦。与如今数据中心部署的一般解决方案相比,Habana Labs 人工智能处理器的性能要高出一到三个数量级。旨在处理各种人工智能推理工作负载,如图像识别、神经机器翻译、情感分析、推荐系统以及许多其它应用,Habana Lab
发表于 2018-09-18

Z-Wave联盟推出新一代认证标准,提升安全性和便利性

都在幕后进行,大大缩短并简化了终端产品设置过程。随着越来越多使用Z-Wave 700平台的设备发布,SmartStart将成为所有Z-Wave智能家居的无处不在的功能。基于Z-Wave 700的设备认证的其他更新包括通过每个产品上的LED灯识别设备的要求,以便用户确认在集线器的应用程序中设置了正确的设备。由Silicon Labs和Z-Wave联盟及其三方测试机构提供支持,这些认证更新将使Z-Wave成为智能家居互操作性的领导者。建立在Z-Wave 700平台上的新集线器/网关设备将需要支持所有设备类别,甚至包括了传感器。此次更新的Z-Wave Plus v2认证也为网络安全和Z-Wave网络的安全性提供了支撑。 2017年4月
发表于 2019-07-12

简化高速网络时钟设计 新型Si539x抖动清除器问市

Silicon Labs (亦称“芯科科技”)日前扩展了Si539x抖动衰减器系列产品,其新器件型号具有完全集成的参考时钟、增强了系统可靠性和性能,同时简化了高速网络设计中的PCB布局布线。新型Si539x抖动衰减器设计旨在满足100/200/400/600/800G设计中苛刻的参考时钟要求,为最先进的以太网交换机SoC、PHY、FPGA和ASIC中56G PAM-4 SerDes所需的严格抖动要求提供超过40%的余量,同时也为新兴的112G SerDes设计提供符合未来需求的解决方案。 Silicon Labs时钟产品总经理James Wilson表示: “网络设备供应商正在竞相开发能够处理5G无线流量的更高速、更高
发表于 2019-06-20
简化高速网络时钟设计 新型Si539x抖动清除器问市

小广播

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved