AI边缘推理与数据中心的差别在哪儿

2020-07-28来源: EEWORLD关键字:AI边缘推理  数据中心

翻译自——EEtimes

 

虽然推理加速器最初用于数据中心,但它们已经迅速发展到应用程序的边缘推理,如自动驾驶和医学成像。通过这种转变,客户发现,同样的加速器,在数据中心处理图像很顺利,但移到边缘推断方面却显得糟糕。其实原因很简单:一个处理数据池,而另一个处理的是数据流。

 

当你在batch = 1时进行批处理时,池子里待处理的batch就会很多。在数据中心,客户通常是数据的处理池,比如被标记的照片。其目标是用最少的资源和功耗以及最佳的延迟来处理尽可能多的照片。

 

另一方面,边缘推断应用程序需要处理数据流。我们通常的相机每秒拍摄30帧,每帧通常是200万像素。通常情况下,每幅图像需要33毫秒,每秒大约30帧。当你有一个图像从一个流进来,它如何被处理取决于它需要做什么。

 

Object detection and recognition  

例如,使用推理进行零售分析的商店可能会计算给定时间排队的人数。在这个例子中,他们真的不需要几个小时甚至几天的结果。然而,如果你驾驶一辆使用自动驾驶功能的汽车,你只有毫秒来处理图像,否则你可能会撞到人。虽然在这两个例子中,相机每3毫秒生成1帧图像,但使用的推理加速器非常不同。

 

让我们看看数据流发生了什么。

 

首先,您需要清理图像以去除诸如光线条纹之类的东西,然后应用推理。当推理完成后,您需要采取一个行动,根据你正在处理的活动,所有这些都需要在特定的时间内发生。如果你不需要几个小时的结果,你可以对图像进行批处理。在这种情况下,延迟就无关紧要了。重要的是用最少的成本和能量处理最多的图像。

 

最常犯的一个错误就是在选择边缘推断解决方案时没有考虑延迟和流媒体吞吐量。比方说,你有一台每秒能处理30帧的推理加速器,另一台每秒能处理15帧。 

 

大多数人自然而然地认为每秒30帧的解决方案更好——其实你错了。

 

每秒30帧的加速器可能会获得比较可观的吞吐量,原因是它有三个引擎,每个引擎都有不同的延迟。最典型的是英伟达Xavier推理加速器。Xavier的深度学习引擎处理图像大约需要300毫秒,GPU大约需要90毫秒。如果客户有两个深度学习引擎+GPU都在运行,他们可能会在数据池中获得显著的吞吐量。

 

 

但是,如果它需要从数据流一次处理一个图像,它就不能有效地使用深度学习引擎,吞吐量会显著下降。在这种情况下,你需要观察哪个执行单元的延迟最短,即GPU的延迟为90毫秒。分割成1000毫秒就是每秒的帧数,这意味着这个吞吐量实际上只有每秒10帧(而不是宣传的每秒30帧)。

 

x Logix购买了一台Xavier AGX,并将其配置为NX模式(该软件测量芯片的功率,当功率超过15W时,会调低芯片的时钟,以防止芯片过热)。

 

然后,我们通过Nvidia Xavier NX软件流运行三个模型(YOLOv3加上我们客户的两个模型),并在芯片上运行,测量每张图像的延迟。我们还通过自己的InferX X1性能评估器运行了相同的模型。

 

显然,Nvidia不能为我们自己客户的机型发布基准测试,但YOLOv3的数据是在Xavier AGX上发布的,而不是在NX上发布的——而且他们发布的数据是使用GPU和两个DL加速器的综合吞吐量。对于Batch= 1,GPU有可接受的延迟。

 

不同的领域对应不同的处理器

 

关注自动驾驶和航空航天等应用程序的客户要处理数据流,所以可能只关心流吞吐量。即使它们是空闲的,它们也不能利用运行较慢的执行单元,因为它们需要在下一个图像可用之前处理第一个图像。在这些应用程序中,要跟上图像流是至关重要的,因为如果不这样做,就需要存储越来越多的数据。如果应用程序是自动驾驶,这将延长延迟时间,并可能导致严重后果。

 

总之,如果你正在研究推理加速器,请明白它们是为什么而优化的。

 

今年推出的大多数推断加速器都是为ResNet-50进行优化设计的,本人认为是一个糟糕基准测试,因为它使用了小图像,比如224×224。

 

近距离观察YOLOv3

 

对于像自动驾驶这样的应用程序,一般是需要处理200万像素的1440×1440级别的图像。对于这些应用程序,YOLOv3是一个更好的基准测试。

 

我们也开始看到与ResNet-50和YOLOv3有着截然不同的新模型。在生物医学工程或医学成像等市场,他们处理不同类型的传感器,而非行人目标的检测和识别,他们以一种非常不同的方式使用神经网络。在YOLOv3上运行良好的加速器可能在这些模型上运行得更好。

 

简单介绍一下YOLOv3,它是YOLO (You Only Look Once)系列目标检测算法中的第三版,相比之前的算法,尤其是针对小目标,精度有显著提升。下面我们就来看看在算法中究竟有哪些提升。

 

YOLOv3算法

 

 

首先如上图所示,在训练过程中对于每幅输入图像,YOLOv3会预测三个不同大小的3D tensor,对应着三个不同的scale。设计这三个scale的目的就是为了能够检测出不同大小的物体。在这里我们以13x13的tensor为例做一个简单讲解。对于这个scale,原始输入图像会被分成分割成13x13的grid cell,每个grid cell对应着3D tensor中的1x1x255这样一个长条形voxel。255这个数字来源于(3x(4+1+80)),其中的数字代表bounding box的坐标,物体识别度(objectness score),以及相对应的每个class的confidence,具体释义见上图。

 

其次,如果训练集中某一个ground truth对应的bounding box中心恰好落在了输入图像的某一个grid cell中(如图中的红色grid cell),那么这个grid cell就负责预测此物体的bounding box,于是这个grid cell所对应的objectness score就被赋予1,其余的grid cell则为0。此外,每个grid cell还被赋予3个不同大小的prior box。在学习过程中,这个grid cell会逐渐学会如何选择哪个大小的prior box,以及对这个prior box进行微调(即offset/coordinate)。但是grid cell是如何知道该选取哪个prior box呢?在这里作者定义了一个规则,即只选取与ground truth bounding box的IOU重合度最高的哪个prior box。

 

上面说了有三个预设的不同大小的prior box,但是这三个大小是怎么计算得来的呢?作者首先在训练前,提前将COCO数据集中的所有bbox使用K-means clustering分成9个类别,每3个类别对应一个scale,这样总共3个scale。这种关于box大小的先验信息极大地帮助网络准确的预测每个Box的offset/coordinate,因为从直观上,大小合适的box将会使网络更快速精准地学习。

 


关键字:AI边缘推理  数据中心 编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic504601.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:祸不单行,英特尔首席工程师离职 ,技术部门一分为五
下一篇:全新Zen 3架构,让AMD二季度营收火箭式蹿升

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

Microchip推出用于AI边缘推理的PolarFire FPGA开发套件
Microchip旨在通过名为VectorBlox Accelerator软件开发套件(SDK)产品,帮助开发人员使用其PolarFire FPGA创建用于边缘的基于覆盖的神经网络应用程序,而无需学习FPGA工具流程。该公司表示:“ FPGA是边缘AI应用的理想之选,例如在功耗受限的计算环境中进行推理,因为与CPU或GPU相比,FPGA可以执行更高的Gop/s并具有更高的电源效率,但它们需要专门的硬件设计技能。VectorBlox Accelerator SDK旨在使开发人员无需事先具备FPGA设计经验即可使用C / C ++对神经网络进行编程。”该工具套件可在Windows和Linux操作系统上运行
发表于 2020-05-20
模拟内存计算如何解决边缘AI推理的功耗挑战
对这一挑战。 该公司的模拟闪存解决方案基于其Superflash技术并针对神经网络进行了优化以执行矢量矩阵乘法(VMM),通过模拟内存计算方法改善了VMM的系统架构实现,增强了边缘的AI推理。 由于当前的神经网络模型可能需要50M或更多的突触(权重)进行处理,因此为片外DRAM提供足够的带宽变得具有挑战性,从而造成神经网络计算的瓶颈和整体计算能力的提高。相比之下,memBrain解决方案将突触权重存储在片上浮动门中,从而显着改善系统延迟。与传统的基于数字DSP和SRAM / DRAM的方法相比,它可以降低10到20倍的功耗并降低整体BOM。 “ 随着汽车,工业和消费者市场的技术提供商继续为神经网络
发表于 2020-03-06
模拟内存计算如何解决<font color='red'>边缘</font><font color='red'>AI</font><font color='red'>推理</font>的功耗挑战
技术文章—400G数据中心光纤收发器选择
随着带宽、容量和较低延迟的需求不断增长,推动了向更快网络速度的迁移。因此每一年,对于大规模云数据中心的适应和生存能力都是一场考验。在过去几年中,数据中心的链路速度从25G/100G增加到了100G/400G。每次实现更进一步的带宽飞跃之后,都会出现短暂的停顿,随后数据中心负责人就需要为下一次飞跃做准备。当前,数据中心正致力于跃升至400G。对于数据中心经理而言,关键的考量之一就是何种光通讯技术最合适。 图片来源:NextPlatform 2018 400GE光纤收发器 随着光器件制造商都试图在数据中心领域占据领先地位,成本和性能将推动400G光通讯市场的发展。2017年,CFP8成为用于核心
发表于 2020-08-06
技术文章—400G<font color='red'>数据中心</font>光纤收发器选择
数据中心和5G基础设施量身定做,联发科MT3729问市
7月30日消息, MediaTek发布其800GbE(双端口400GbE)MACsec retimer PHY收发器MT3729产品系列,此系列产品的解决方案主要面向数据中心和5G基础设施应用所需的高速和超低功耗数据传输以及严格的安全性需求。MT3729系列是基于MediaTek的56G PAM4 SerDes技术的标准产品 (ASSP), 赋能一级网络设备和服务提供商为网络基础设施实现安全、可靠和高速的数据传输。 据行业报告预估,数据中心对400GbE以上的网络需求将在2020年底出现强劲增长,并在2024年达到行业出货量的25% 以上。MT3729产品系列非常适用于线卡或交换机结构
发表于 2020-07-30
如何让云数据中心更有效率?IP的“组合拳”是关键
All in Cloud已然势不可挡。 凭借云计算的弹性扩容、按需使用、按量付费等优势,云数据中心正在蚕食传统数据中心的领地。据 Cisco 全球云指数测算,“到 2021年,94%的工作负载和计算实例都将在云数据中心进行处理”。 相应的,为提升云数据中心的效率和性能,正激发计算、存储和网络架构的演变,如AI加速器、软件定义网络 (SDN)、通信网络处理器和固态硬盘 (SSD) 存储都已蔚然兴起,推动着下一代SoC 的“革新”,特别是底层IP的“焕新”。                    
发表于 2020-07-15
如何让云<font color='red'>数据中心</font>更有效率?IP的“组合拳”是关键
数据中心SoC革新IP怎样成全的?
All in Cloud已然势不可挡。凭借云计算的弹性扩容、按需使用、按量付费等优势,云数据中心正在蚕食传统数据中心的领地。据 Cisco 全球云指数测算,“到 2021年,94%的工作负载和计算实例都将在云数据中心进行处理”。相应的,为提升云数据中心的效率和性能,正激发计算、存储和网络架构的演变,如AI加速器、软件定义网络 (SDN)、通信网络处理器和固态硬盘 (SSD) 存储都已蔚然兴起,推动着下一代SoC 的“革新”,特别是底层IP的“焕新”。SoC融合计算、存储、网络“新趋势”在数据洪流之下,融合基础架构 (CI) 或超融合基础架构 (HCI) 系统通过将计算、存储和网络三大核心整合到同一套解决方案当中,得以在云数据中心
发表于 2020-07-15
云<font color='red'>数据中心</font>SoC革新IP怎样成全的?
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved