神经网络加速器大战开打-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

随着许多嵌入式系开始变得“智能”且“自主”，以人工智能(AI)神经网路为导向的嵌入式系统市场即将起飞，神经网路加速器大战一触发…

嵌入式神经网路加速器市场持续升温，从智能音箱、无人机到智能灯泡等越来越多的系统准备在本地执行神经网路，以取代传送至云端进行运算的途径。

Movidius副总裁兼总经理Remi El-Ouazzane日前在接受《EE Times》访问时，将这个成长中的趋势定义为“让事情变得更智慧与自主的一场竞赛”。

英特尔旗下子公司Movidius在上周推出了一款采用USB外形的独立式人工智能(AI)加速器。El-Ouazzane说，这款名为Movidius神经运算棒(Neural Compute Stick)的AI加速器设计，可轻松简单地插入Raspberry Pi或X86 PC，让大学研究人员、独立软件开发人员与程式增补人员易于为嵌入式系统进行编译、调整以及加速深度学习应用。

Movidius在去年秋天被英特尔收购后，如今已成为英特尔新技术部门的一部份。Movidius之前曾经开发出业界首款视觉处理器——Myriad 2 VPU。如今，El-Ouazzane表示，推出这款运算棒的最终目标在于让Movidius VPU成为可在边缘执行神经网路的“参考架构”。

尽管目标远大，但业界分析师随即指出，Movidius Myriad 2 VPU当然不是嵌入式系统中可在边缘执行神经网路的唯一选择。

催生新产品类别：神经加速器

Tirias Research首席分析师Jim McGregor表示：“从技术上来看，您可以使用任何具有处理元件的开发板，并用于执行一种模型。例如机器学习(Machine learning)/AI模型已经执行于各种广泛的处理器和SoC了，特别是针对移动领域。”

高通(Qualcomm)以Snapdragon系列实现的影像辨识可说是最佳的例子。高通从Snapdragon 820开始采用自家开发的模型，McGregor说：“Snapdragon基本上就是推理引擎”。

具有平行处理元件(如GPU、DSP和FPGA)的处理解决方案非常适于作为推理引擎。McGregor解释说，许多正在开发中的定制化芯片解决方案都采用可内建于SoC的DSP或FPGA。

Linley Gwennap首席分析师Linley Gwennap对此表示赞同。他在最近出刊的《微处理器报告》(Microprocessor Report)中写道：高通、苹果(Apple)和英特尔(Movidius)都在“打造一种新的产品类别：神经加速器。”

Gwennap解释说，对于这些以客户端为基础的加速器需求来自于要求极低延迟的自动驾驶车。Gwennap在该报告的评论中指出，在本地进行处理的新技术将会开始“渗透至一些较低成本的应用”。他预测，“在消费装置中，小型的神经加速器可能是SoC中的一个重要区块，就像是绘图核心或影像处理器一样。几家智慧财产权(IP)供应商开始提供这一类加速器，期望尽可能地降低额外的硬件成本。”

Gwennap在《EE Times》的访谈中指出，Movidius Neural Compute Stick对于开发人员几乎没有什么不同。“对于开发人员来说，这并没什么不起。典型的PC就能产生至少100GFLOPS，特别是如果它还内建绘图卡，直接在PC上进行开发会更好。对于需要较低功率处理器的嵌入式系统，高通Snapdragon 835提供超过250GOPS的效能，对于大多数的推理应用来说都够了。”

不过，Movidius的El-Ouazzane并不赞同这样的看法。

首先，Movidius Neural Compute Stick利用USB让神经网络更易于存取，有利于制造商或程式增补人员用于开发深度神经网路原型或进行调整。

其次是电源效率的问题。El-Ouazzane指出，Movidius的解决方案可让神经网络在边缘运算时旳功耗小于2瓦(W)。

然后，还有成本的考量。El-Ouazzane说：“我认为这是一个杀手级因素。Movidius Neural Compute Stick要价79美元，可望让神经网络的发展变得『超级普遍』。”

他预期开发人员能使用Movidius的神经运算平台(Neural Compute Platform)应用程式介面(API)，“将经过训练的Caffe、前馈卷积神经网络(CNN)输入工具套件中，并进行配置，然后编译成一种可用于嵌入式部署的调整版本。”

以AI为导向的嵌入式应用？

随着许多嵌入式系开始变得“智慧”且“自主”，El-Ouazzane预计以AI为导向的嵌入式系统即将爆发。

但是，不久的将来即将出现什么样的AI装置？

McGregor预测，“我认为在2025年以前，每个人所接触的每一款新系统/平台都将具有某种程度的AI元素，它可能内建于装置本身，或存在于网络、云端，或是分散在其间。”

他补充说：“它可能就像是使用者介面或应用一样简单，或者是像虚拟助理或自主控制般复杂的某种装。目前已经有许多应用已经导入了AI，包括虚拟助理、搜寻引擎、财务建模、与文章写作.....等等。”

他说：“而在装置上，AI将因各种不同的原因而持续成长，特别是数据的安全、即时互动/处理以及频宽限制等。然而，在装置上进行训练才是真正的挑战，最终可能需要新的处理模型。”

英特尔想掌握一切…

当然，Movidus现在是英特尔的子公司，但其目标并不仅限于有更多嵌入式系统在边缘执行神经网络。El-Ouazzane将其产品发布架构在英特尔端对端AI产品组合的更大脉络之下。

他指出，英特尔拥有广泛的AI产品组合，并为其提供一整套完整的开发工具和资源。

“无论是在英特尔Nervana云端上训练AI神经网络、最佳化新兴的工作负载(如AI、、VR和AR)，以及使用英特尔Xeon Scalable处理器实现自动驾驶，或是以Movidius视觉处理器技术将AI导入边缘，”英特尔宣称该公司已为下一代AI驱动的产品和服务提供了全面的AI产品组合、工具、训练和部署选择。

然而，Movidus是否真的能在即将变得无所不在的AI嵌入式系统中成为其关键参考架构，目前还不而知。

Tirias Research的McGregor尽管认同Neural Compute Stick是“一款可在新设计中快速评估AI模型训练效能的有利工具，”但他仍指出，“设计人员仍然必须在最后的系统设计阶段执行类测试，特别是如果他们并未使用Moviduis的芯片和/或Caffe架构。”

The Linley Group的Gwennap还认为，Movidius无法达到其目标——实现在边缘运算神经网络的嵌入式系统设计。

区隔推理引擎与训练

Gwennap指出，“值得注意的是，新的AI时代并不会有『参考架构』。诸如TensorFlow和Caffe等架构将会把软体(神经网络)和硬件分开来。”他补充说：“映射到Myriad VPU的网路可以轻易地映射到Snapdragon或其他处理器上。因此，AI处理器将在性能和效率的基础上进行竞争，而不是锁定于指令集。”

同样地，他也不认同“同样的工具适用于训练和推理”的论点。Gwennap说：“一旦网络开始接受训练，就可以轻松地部署在支持主流架构的任何平台上。而且，主流的架构都是开放源码，以避免单一家厂商锁定。”

El-Ouazzane看好AI处理器抽取底层硬件的能力，它让设计者可将推论与练训分离开来。但他重申先前的观点，从长远来看，能够使用相同的工具进行神经网络的训练和部署，才有助于系统设计人员。

他以Movidius的开发蓝图为例表示，未来三年，深度学习的效能预计将会增加50倍。“为了在不增加功耗的情况下实现这一目标，我们可以在训练方面设计许多架构技巧。”El-Ouazzane补充说：“当你在斟酌这些技巧时，让学习和推理方面置于同一平台是至关重要的。”

关键字：加速器编辑：王磊引用地址：神经网络加速器大战开打

上一篇：高通开发者网络开始提供骁龙神经处理引擎
下一篇：紫光国芯800亿元定增计划或调整

推荐阅读最新更新时间：2023-10-12 23:49

国微集团EDA硬件仿真加速器将发布

2020年EDA行业领军企业国微集团大动作频频，继自动化布局布线工具之后，又一款重量级产品已经蓄势待发--硬件仿真加速器即将震撼发布。这款硬件仿真加速器最大特点在于可显著提升芯片或系统级设计的验证效率，帮助芯片研发企业在保证产品质量和性能的基础上缩短研发周期，对整个行业的发展具有重要意义。它的研发成功，标志着国产化硬件仿真加速技术又将迈向一个新的里程碑。随着芯片设计规模不断增加、工艺复杂度逐年提高，传统仿真工具在时间上、可容纳设计上以及验证完整性上都难以满足业内需求。EDA硬件仿真加速器在此时应运而生，将硬件加速技术和电路仿真技术融合在一个平台内，同时具备创新的软件自动化流程，可支持用户在更短的平台建立时间内，更高效地

[手机便携]

国微集团EDA硬件仿真<font color='red'>加速器</font>将发布

英特尔携手微软打造全新I/O虚拟化架构,提升加速器和I/O设备的可扩展性

英特尔携手微软打造全新I/O虚拟化架构，大幅提升加速器和I/O设备的可扩展性 Ronak Singhal 英特尔资深院士英特尔至强路线图与技术领导力部门首席架构师近日，英特尔携手微软为开放计算项目（OCP）提供了可扩展I/O虚拟化（SIOV）架构，使设备和平台制造商能够使用云服务器中的PCIe和Compute Express Link设备的超大规模虚拟化的行业标准规范。采用SIOV架构后，数据中心运营商不仅能够让客户降低使用高性能加速器和其他关键I/O设备的成本，亦能够减轻此前的标准为I/O设备制造商带来的成本和编程负担。新的SIOV架构是一种现代化的硬件和软件架构，不仅可以实现I/O设备高效的大规模虚拟

[网络通信]

英特尔携手微软打造全新I/O虚拟化架构,提升<font color='red'>加速器</font>和I/O设备的可扩展性

Deep Vision选择SiFive的RISC-V IP开发下一代推理加速器

日前，Deep Vision选择SiFive的Intelligence X280 处理器IP，为市场提供更大的灵活性和 AI 推理预处理。 RISC-V 计算的创始者和领导者SiFive日前宣布，Deep Vision 将把 SiFive RISC-V 处理器 IP 集成到其下一代推理加速器中，以实现更多边缘设备中的计算机视觉和语音识别。具体而言，Deep Vision 将授权 SiFive Intelligence™ X280 和 SiFive Essential™ S7 处理器 IP，以增强其产品的灵活性和功能性，从而更好地支持客户为智能城市、智能零售、汽车和工业等市场构建应用。 SemiCo Research估计AI

[嵌入式]

中国IC设计业还需要怎样的加速器？

　　2017年度大中华IC领袖峰会上，由电子工程专辑主分析师张迎辉主持的圆桌论坛，就现在中国半导体产业是否投资过热、新创业 IC设计公司如何获得市场的认可、中国公司如何避免内部的价格、小米做芯片是否说明IDM模式会成为趋势等热门话题……下面就随嵌入式小编一起来了解一下相关内容吧。　　2017年度大中华IC领袖峰会上，由电子工程专辑主分析师张迎辉主持的圆桌论坛，就现在中国半导体产业是否投资过热、新创业 IC设计公司如何获得市场的认可、中国公司如何避免内部的价格、小米做芯片是否说明IDM模式会成为趋势等热门话题，邀请芯原董事长兼总裁戴伟民、新思科技亚太区副总裁林荣坚、华虹宏力执行副总裁范恒、Kilopass公司CEO

[工业控制]

瑞萨电子发布内置视觉AI加速器的RZ/V系列器件

瑞萨电子发布内置视觉AI加速器的RZ/V系列器件，实现精确图像识别与多摄像头图像支持全新RZ/V2MA MPU具有用于图像处理的OpenCV加速器，并提供基于TVM的深度学习编译器 2022 年 9 月 29 日，中国北京讯 - 全球半导体解决方案供应商瑞萨电子今日宣布，推出一款能够处理多个摄像头图像数据的全新RZ/V2MA器件，进一步扩充其RZ/V系列微处理器（MPU）产品线，并为视觉AI应用带来新水平的高精度图像识别能力。该新器件集成了两个64位Arm® Cortex®-A53内核，能够以1GHz的最高工作频率提供高计算性能；具备专有的低功耗DRP-AI（动态可重构处理器）加速器，可以以1 TOPS/W

[传感器]

瑞萨电子发布内置视觉AI<font color='red'>加速器</font>的RZ/V系列器件

伍兹霍尔海洋研究所与ADI宣布成立海洋与气候创新加速器

开创性的联盟重点关注海洋在应对气候变化中的关键作用，提高对海洋与气候相互作用的认知并开发相应的新型解决方案中国，北京（ 2021年4月21日）——伍兹霍尔海洋研究所(WHOI)与Analog Devices, Inc. 共同宣布成立海洋与气候创新加速器(OCIA)。ADI 公司承诺在三年内向该联盟提供 300 万美元的资金支持，致力于提高对海洋在应对气候变化方面关键作用的认知，以及持续开发面向海洋与气候相互作用的新型解决方案。图片来源：伍兹霍尔海洋研究所 ADI公司CEO Vincent Roche 表示：“碳排放是全球范围内应对气候变化的核心。海洋是我们抵御全球变暖最重要的防护机制之一——然而，其继续发挥这一

[工业控制]

伍兹霍尔海洋研究所与ADI宣布成立海洋与气候创新<font color='red'>加速器</font>

IBM用加速器等新技术为服务器提速

　　一位IBM官员本星期称，IBM将投入更多的精力制造把CPU与专用加速器结合在一起的计算机，以实现其服务器的多元化和满足具体工作负荷的要求。　　IBM系统和技术事业部首席技术官Jai Menon在采访中说，基于通用处理器设计的服务器对于某些应用程序也许是好的，但是，IBM希望增加自己生产的协处理器和专用电路以加快执行某些任务的速度。　　IBM将继续提供配置x86处理器的商品化服务器。但是，IBM还将越来越多地提供为医疗、云计算和交易处理等具体应用优化的服务器配置和设备。　　Menon说，一个规格不能适合所有的需求。x86服务器不能满足一切需求。Power服务器也不能满足一切需求。　　IBM已经采取

[网络通信]

基于TI OMAP3530的移动视频解决方案

　　TI推出的新一代移动应用处理器——OMAP3530，是专门为智能手机、GPS系统和笔记本电脑等低功耗便携式应用而设计。OMAP3530在单一的芯片上集成了ARM® Cortex™-A8内核、TMS320C64x+™ DSP内核、图形引擎、视频加速器以及丰富的多媒体外设，其中Cortex-A8内核拥有超过当今300MHz ARM9器件4倍的处理性能。OMAP3530可广泛用于流媒体、2D/3D游戏、视频会议、高清静态图象、3G多媒体手机、高性能PDA等项目的评估与应用。　　合众达（SEED）作为TI国内最大的第三方和代理商，致力于在多媒体应用领域为用户提供多种TI平台解决方案，包括开发工具、参考设计、TI全系

[单片机]