Arm的NPU究竟有何等高深之处

2020-02-07来源: 半导体行业观察关键字:NPU  Arm
领先的移动SoC设计人员多年来一直在其SoC中集成专用NPU。去年底,Arm也带来了Ethos NPU系列。此举是Arm拓展AI市场的最新举措。该公司在新的Ethos NPU系列下推出了三个初始IPEthos-N37,Ethos-N57和Ethos-N77。这三个初始IP旨在覆盖相当多的设备。顾名思义,每个功能都比前一个功能越来越强大。



三个NPU使用相同的微体系结构构建,但配置稍有不同,您将在稍后看到。下面的Arm可视化图描绘了NPU正在工作的各种市场和约束。

在低端是Ethos-N37,其目标是工作负载最轻的设备,其峰值计算性能高达大约1 TOPS,而需要很少的DRAM带宽(约为3 GB / s或更低);

Ethos-N57涵盖了更复杂的设备,例如大多数智能家居设备以及一些主流智能手机SoC。N57设计为具有更高的内存带宽,并可以提供大约2 TOPS的性能;

最后是Ethos-N77。这是系列中最强的产品,目标是性能高达4 TOPS的市场,并且具有约5 TOPS / W的较高功率效率。N77专为高级和中端AR / VR设备而设计,尽管它具有性能增强功能,但您仍需要更强大的功能。为了获得更高的性能,需要更高的内存带宽(内存带宽需要高达8 GB / s甚至更高)。

值得指出的是,这三个IP之间有很多重叠。N57可以覆盖N37范围的上部以及N77范围的下半部分。与N77相同。这为SoC设计人员提供了一些摆动空间,使其可以进行自己的设计。值得指出的是,这三个IP之间有很多重叠。N57可以覆盖N37范围的上部以及N77范围的下半部分。与N77相同。这为SoC设计人员提供了一些空间,使其可以进行自己的设计。


Ethos系列的核心是Arm的ML处理器(MLP)。MLP是一种干净的(clean-sheet ),底层(ground-up)的微体系结构,用于加速机器学习,重点是CNN和RNN。MLP实际上使用了相当简单的设计,这正是我们期望将出售给设计人员的IP中所期望的。MLP的主要组件是控制单元,DMA,广播网络和计算引擎。您可能已经猜到了,主要动作发生在计算引擎中。四个计算引擎的每个群集都分组为一个“四元组”。控制单元协调整个计算引擎以及DMA引擎的整个神经网络执行,该DMA引擎了解神经网络映射并可以确保数据在需要时到达。


我们可以以多种配置来实现MLP。两个主要控制是每个计算引擎中的SRAM库大小和计算引擎的数量。对于他们当前的设计,MLP可以具有从 从单个四核中的单个计算引擎到带有十六个计算引擎的四个四核等多个选择。在每个计算引擎中,您都有一块SRAM,用于存储输入和输出特征图以及权重。可以从64 KiB一直配置到256 KiB。无论配置如何,控制单元和DMA始终相同。


Ethos-N77本质上是完整的MLP配置。它具有四个quads 和16个计算引擎,并具有两种可能的SRAM配置–:64 KiB或256 KiB。同样,Ethos-N53包含四个quads ,总共八个计算引擎。N53每个CE带有固定的64 KiB SRAM存储区。Ethos-N37是性能最低的SKU,只有一个quad,总共只能容纳四个具有固定的128 KiB容量SRAM库的计算引擎。


计算引擎中的两个有趣的组件是MAC计算引擎(MCE)和可编程层引擎(PLE)。MCE包含高效的固定功能MAC单元,而PLE包含灵活的可编程矢量引擎。流程相对简单。输入activation tensor 和权重一起传递到MCE。计算之后,将结果传递到PLE进行后处理和可能需要的其他各种操作。没有复杂的控制,因为其中很多控制权交给了编译器,该编译器执行静态调度,对SRAM库进行预分区并压缩功能图和权重。

在MCE内则是一组八个MAC单元。每个MAC单元为16位宽。换句话说,每个MAC单元每个周期可以执行16个8位点积运算(dot product operations )。总体而言,每个计算引擎有256个OP /峰值性能周期。顺便说一下,这里的操作都是8位宽的,累加了32b。MLP确实支持16位操作,但着将使您的吞吐量减少4倍(即,每个周期64个OP)。下表列出了每个Ethos SKU的最高理论性能。当然,实际的工作负载性能将取决于这些MAC的利用率。需要指出的是,所有三个SKU都可以达到相同的1 GHz最大频率。


虽然N77的最高TOPS为4.1 TOPS,但实际的SoC并不需要达到该性能水平。相反,可以将MLP的多个实例集成到SoC中,以进一步提高性能。因此,例如,至少在理论上支持使用CCN-500互连最多扩展到八个MLP,而使用更新的CMN-600网格互连最多扩展到100个MLP。

除了MCE,计算引擎内的其他主要组件是可编程层引擎(PLE)。PLE实际上比MCE更强大,并且因为它是可编程的而具有更大的灵活性,尽管它在处理数百万次重复的MAC操作时在原始的功率效率竞争中有所损失。PLE是成熟的Cortex-M处理器,在其中还包含了向量和NN扩展。那意味着Ethos-N77在内部合并了16种Cortex-M向量处理器。

它采用专用的16通道矢量引擎协处理器模型进行设计。PLE主要设计用于MCE后处理,实现一些不太常见的功能。但是由于这本身就是一个功能强大的矢量引擎,因此在有或没有MCE的帮助下,它实际上都可以直接对SRAM数据进行操作。PLE的可编程性使Arm软件团队能够快速适应新的AI模型和功能。编译器工具链还提供了我们期望现代NPU能做的许多其他优化。由于编译器会提前对SRAM进行分区,因此它会执行激活和权重压缩,这有助于在整个设计中稍微减少带宽。此外,还有针对稀疏性的轻量优化。数据路径将选通为零,从而节省了一点功耗。


关键字:NPU  Arm 编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic487450.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:英特尔DG1独显跑分,AMD R7 望尘莫及
下一篇:2020嵌入式处理器:用模拟计算回到未来

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

NXP推出集成NPU的i.MX 8M Plus
NXP日前推出i.MX 8M Plus应用处理器,这是首个集成专用神经处理单元(NPU)的i.MX系列产品,可在工业和物联网(IoT)边缘进行高级机器学习推理,该产品也扩展了其EdgeVerse产品组合。i.MX 8M Plus的NPU提供2.3 TOPS的算力,内部包括最高2GHz的四核Arm Cortex-A53内核,以及800MHz Cortex-M7实时处理器,此外还包括 800 MHz音频DSP用于语音和自然语言处理,双摄像头图像信号处理器(ISP)和3D GPU。通过将Cortex-A53内核和NPU结合使用,边缘设备将能够通过学习和推断输入而在本地进行决策,而无需人工干预。i.MX 8M Plus使得各种应用成为可能
发表于 2020-01-08
瑞芯微3TPOS算力NPU性能解析
       本土消费电子领先IC设计公司瑞芯微首次参加2019年9月16日在上海举行的第七届上海FD-SOI论坛并发声谈FD-SOI工艺优势,瑞芯微电子高级副总裁陈锋发表了《AIOT时代的挑战》主题演讲,并分享了瑞芯微RK1808凭借FD-SOI工艺获得的突出性能优势。       在CES 2019消费电子展上,瑞芯微Rockchip正式发布了全新的AIoT芯片解决方案“RK1808”,它集成了高能效的NPU神经网络处理单元,瑞芯微RK1808 AIoT芯片采用22nm
发表于 2019-09-17
瑞芯微3TPOS算力NPU性能解析
OPPO的乔家栋:Reno2视频能稳定 NPU是关键
Reno2仅仅推出这一种配置的主要原因。对于为什么没有使用行业里最为火热的6400万像素摄像头,乔家栋解释道,IMX586是目前行业里吃得比较透的一颗CMOS,强大的防抖功能的加持,首先就要保证画质能达到最好,所以没有更换6400万的CMOS。同时,高通骁龙730G处理器的一个比较大的优势就是更好的NPU计算能力,这个NPU可以提供非常强大的AI降噪能力,配合HDR技术,实现超级夜景模式性能上的优化,OPPO Reno2超级防抖技术也是主要基于硬件平台和算法上的优化,来实现最终的效果。关于发布会最后的一个彩蛋,OPPO Reno Ace的更新方向也得到了很多关注。首先是屏幕,Reno2在屏幕上的最大升级就是局部亮度能够突破700nit
发表于 2019-09-17
瑞芯微CES2019发布AIoT芯片RK1808,内置高能效NPU
集微网消息 CES2019消费电子展,瑞芯微Rockchip向全球发布旗下内置高能效NPU的AIoT芯片解决方案——RK1808。硬件规格上,Rockchip RK1808 AIoT芯片CPU采用双核Cortex-A35架构,NPU峰值算力高达3.0TOPs,VPU支持1080P视频编解码,支持麦克风阵列并具有硬件VAD功能,支持摄像头视频信号输入并具有内置ISP。AI人工智能技术与IoT物联网在实际应用中落地融合的“AIoT”是物联网发展的必然趋势,也是各大传统行业智能化升级的绝佳通道。Rockchip RK1808芯片独特架构所包含的功能模块及各类接口,四大优势特性将高效赋能AIoT生态链及开发者对技术与场景匹配的
发表于 2019-01-08
瑞芯微CES2019发布AIoT芯片RK1808,内置高能效NPU
华为麒麟980双核NPU谜底揭开:还是来自寒武纪科技
        华为麒麟970通过集成NPU神经网络单元,开启了手机AI时代,不过这个NPU并非华为自研,而是来自AI独角兽寒武纪科技的A1处理器IP。  今年,寒武纪科技发布了最新的AI 1M处理器IP,华为则带来了麒麟980,首次集成双核NPU,而且二者都是7nm制造工艺,让人不由得联想麒麟980依然采纳了寒武纪科技IP,但双方都从未披露相关信息。  10月10日的全联接2018大会上,华为首次公开AI战略,并推出了全栈全场景AI解决方案和算力强大的两款AI芯片昇腾910、昇腾310,前者更是在某些方面超过了Google、NVIDIA。  难道,麒麟980 NPU是华为自研的?  近日,寒武纪科技官方网站发布一篇题为《寒武纪
发表于 2018-11-12
海思ARM平台交叉编译zeroMQ
在使用海思的项目中要使用到ZeroMQ这个消息队列框架,之前在PC端使用感觉不错。所以通过要通过交叉编译,将其移植到ARM平台。移植方法,可以参考 https://blog.csdn.net/sishuihuahua/article/details/77203094  以下是我使用海思交叉编译工具的方法:一、配置编译器./configure --host=arm-himix100-linux --prefix=/opt/hisi-linux/zeromq-4.1.6/arm-zeromq  --without-libsodiumarm-himix100-linux   --host
发表于 2020-02-08
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved