Icbank半导体行业观察

文章数:11177 被阅读:33712804

账号入驻

从阿里巴巴AI芯片拿下世界第一谈起

2019-11-08
    阅读数:

来源:内容翻译自「THE NEXTPLATFORM」,作者:Nicole Hemsoth,谢谢。



北京时间11月7日,MLPerf基准联盟公布首轮AI推理基准测试结果:阿里巴巴平头哥的AI芯片含光800,在Resnet50基准测试中,获得单芯片第一。

数据中心推理世界现在正处于紧要关头,虽然市场还没有决定谁是赢家,但最终会有一些新的指标来帮助决策。然而,解释这些是一个挑战,考虑到结果的广度,我们仍然需要做一些工作来对真实的性能概况和比较做出有意义的理解。

目前有100多家公司在制造人工智能推理设备,虽然那些拥有数据中心芯片的公司并不代表绝大多数,但在市场像训练一样灵活地削减选项之前,服务器推理领域存在足够的竞争,足以让这个领域在一段时间内变得有趣起来。在许多情况下,训练市场最先选择的是Nvidia GPU作为加速器和CPU,然后在较小的工厂进行全面生产。ASICs还有发展空间,但到目前为止,它们在训练部署中所占的份额还远远不够,这是一种慷慨的做法。

然而,就市场而言,推理是另一种动物。由于工作负载和设备都可以无限扩展,因此机会是巨大的。这可能使数据中心的基准测试推断设备看起来是一个更简洁的任务,但是随着今天MLperf推断结果的引入,情况就不一样了。几个月前,我们与MLperf推断工作背后的一位领导David Kanter讨论过,将具有截然不同的体系结构的系统进行比较以实现截然不同的部署(在同一平面上的服务器中,该设备具有旨在在摄像头或无人机内部进行推断的设备),这很困难。

最新发布的MLperf推理基准测试是代表30多家公司和组织以及200多名工程师和实践者的努力成果。该团队的第一次征集来自14家公司和44个系统的600多个测量数据。然而,由于这些度量标准的性质来自如此多的度量点,所以对于每个提交的公司来说,找到至少一个他们可以展示优势的领域并不困难。这意味着要注意,那些关于X公司如何在基于MLperf的人工智能推理中击败竞争对手的令人震惊的标题并不像人们想象的那么干净。在很多意义上,每个人都是这个基准的赢家,这就是事情变得有点危险的地方。

在所有提交的数据中心推论中,只有四个商用处理器的结果。这包括谷歌的TPUv3, Nvidia的图灵架构,Habana的Goya芯片,以及Intel的Xeon P9282。

话虽如此,这是一个勇敢的努力,只是需要一些额外的努力。例如,将结果简化为每个加速器的数量是正确的第一步,因为不同的系统类型使得很难评估明显的赢家或输家。即使在那时,许多公司仍然有一些基准领域没有完成或者没有发布(就像MLPerf训练基准一样)。对于任何试图在MLperf的基础上对这些架构进行真正的比较的人来说,清楚地了解功耗和相关成本也是不可能的。可以从结果中挑选,并构建图表和艺术来显示其中的一些内容,所有的供应商都做了有利于其体系结构的工作。在硬件基准测试领域,这并不是什么新鲜事,但是在这样一个架构多样性和工作负载/形式因素差异如此之大的领域,拥有这些信息似乎比以往任何时候都更加重要。

为了说明外形尺寸和应用领域的巨大差异,基准测试有五个组成部分:使用MobileNet-v1(精度较低)和ResNet-50 v1.5(精度较高)进行图像分类;使用低分辨率和高分辨率变体进行目标检测(使用MobileNet-v1然后使用ResNet-34的单发检测器),最后使用GNMT(在这种情况下将英语翻译为德语的递归神经网络)。

还有四种不同的情况。还有一个更简单的脱机场景(例如,图像存储在本地,在照片标记期间您可以多快地运行推断)。还有一个服务器场景,在这个场景中,其中的请求伴随着突发和暂停,所以想象一下用户搜索internet或通过这些突发活动获得推荐。这是测量在什么延迟阈值下实现了多少吞吐量。当然,后者比处理静态数据要复杂得多。在脱机和服务器中,这里还有两个部分,分别是单流和多流(与具有许多输入流的自动驾驶有关)场景。简而言之,脱机需要静态批处理,而在服务器中,您必须在延迟受限的批处理中工作,这取决于请求如何传入的流量模式。对于我们在TNP这里关注的数据中心推断工作,我们将更多地关注后者。

让我们来看看一些供应商是如何展示他们的结果的,首先是Nvidia,我们认为它将结果分解为每个加速器的数据是正确的。

NextPlatform平台的Michael Feldman与Habana谈论了他们的成果。Feldman解释说,正如Feldman解释的那样:

仅以图像检测类别为例,它包含八个不同的基准测试,包括两个选定模型(MobileNet-v1和ResNet-50 1.5)的四个场景(单流、多流、服务器和离线)。对象检测类别也是如此。由于提交者并没有在各自的平台上运行所有不同的迭代,所以结果在竞争的硬件上并不一致。例如,比较NVIDIA的T4 GPU、谷歌的Cloud TPU和Habana Lab的Goya芯片的性能是很有启发意义的——这是目前可用的三种更高调的推断平台,我们已经在这里为下一个平台投入了大量的精力。对于图像检测,三个处理器仅在离线场景中与ResNet-50模型对齐。

MLPerf-ResNet50-results

下面是这些结果的总结(使用尽可能少的处理器的系统):

  • 阿里云T4:5540个样本/秒

  • 谷歌云TPU = 32,716个样本/秒

  • Habana Goya = 14,151个样品/秒。


不幸的是,脱机场景可能是这四种场景中最没用的,因为它忽略了延迟(实质上是查询的响应时间)。在大多数推理情况下,延迟是一个关键因素。但是值得注意的是,即使在延迟必须落在一定范围内的其他场景中,一些系统也会比其他系统提供更好的延迟,这可能会在实践中产生很大的差异。这里的细节也很重要。

另一个潜在的混乱来源是应用到基准测试的硬件数量。在上述结果中,TPU系统由4个芯片组成,而T4和Goya结果是基于单个处理器。从某种意义上说,使用多少芯片,是否属于多芯片封装,作为板上的多个处理器存在或分布在多节点系统上并不重要。真正的标准应该是运行基准测试所使用的电量,因为这要考虑到所使用的所有处理器和加速器,以及内存子系统和网络。

除了用于比较“封闭”部门中不同平台的标准推断基准之外,MLPerf还提供了一个“开放”部门,在这个部门中,组织可以提交没有标准MLPerf标准的其他模型或硬件/软件配置的结果。事实上,大多数最初提交的推理(确切地说是429个)都属于这一类。

一个例子是Habana实验室提交的一组结果,使用他们的Goya芯片运行公认的自然语言处理模型BERT(来自transformer的双向编码器表示)。它以每秒语句的吞吐量和延迟的形式显示了与T4 GPU相比的性能结果。由于BERT越来越受欢迎的NLP,它很可能在未来成为一个封闭的部门基准。

MLPerf-Habana-Goya-Bert-results

这是结果报告的一个例子,该报告显示了优势,但只占工作负载的一小部分。

Nvidia在共享结果方面做了更彻底的工作,并且增加了在每台设备级别上分解结果的好处,而不是按系统分组,这使得目前的结果难以观察。他们只使用商业上可用的和与数据中心场景相关的设备,而其他一些提交是基于预览或研发的,或者专注于edge或移动应用程序(他们确实有我们现在只专注于数据中心的结果)。

Nvidia 结果

在没有深入研究刚刚发布的数据(现在我们已经有了)下,Nvidia的表现似乎是稳定的。

就英特尔而言,他们公布了以下精选数据:

  • 使用OpenVINO工具包时,在SSD-MobileNet v1上的SSD-MobileNet v1上,在脱机方案中为9,468图像/秒,在服务器方案中为5,262图像/秒,这是所有提交中单流测量中最低的延迟;
  • 对于MobileNet v1上的ImageNet图像分类,在脱机方案中为29,203图像/秒,在服务器方案中为27,245图像/秒;使用PyTorch时,对于ResNet-50 v1.5上的ImageNet图像分类,在脱机方案中为5,966图像/秒,在服务器方案中为4,851图像/秒。

当然,如果没有代表这些公司对结果进行某种标准化的处理,就很难确定数据中心中最相关的内容。

如果没有权力或定价基准,我们可能会在某种程度上了解性能情况,但真正的决策因素需要更多的探索。

我们想要强调的是,这对于变化极大的(从工作负载/设备/系统)MLperf工作组来说是一个非常好的第一次尝试。我们希望随着时间的推移,它将自动排序,特别是当由勤奋的志愿者组成的工作组完善基准以及如何报告基准时。

刚刚发布的一篇论文详细介绍了基准测试以及构建包含如此多的硬件和应用程序多样性的度量标准所面临的挑战。

点击文末阅读原文,可查看英文原文!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第2122期内容,欢迎关注。

推荐阅读

半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

AI|晶圆|英特尔|5G|华为集成电路印度半导体|AirPods Pro



回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!

点击阅读原文,可查看英文原文!

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: TI培训

北京市海淀区知春路23号集成电路设计园量子银座1305 电话:(010)82350740 邮编:100191

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2018 EEWORLD.com.cn, Inc. All rights reserved