多级存储器与模拟内存内计算的融合,将AI边缘难题一网打尽

发布者:EEWorld资讯最新更新时间:2020-07-13 来源: EEWORLD关键字:AI边缘  多级存储器 手机看文章 扫描二维码
随时随地手机看文章

机器学习深度学习已成为我们生活中不可或缺的部分。利用自然语言处理(NLP)、图像分类和物体检测实现的人工智能(AI)应用已深度嵌入到我们使用的众多设备中。大多数AI应用通过云引擎即可出色地满足其用途,例如在Gmail中回复电子邮件时可以获得词汇预测。

 

虽然我们可以享受到这些AI应用带来的益处,但这种方法导致隐私、功耗、延时和成本等诸多因素面临挑战。如果有一个能够在数据来源处执行部分或全部计算(推断)的本地处理引擎,那么这些问题即可迎刃而解。传统数字神经网络的存储器功耗存在瓶颈,难以实现这一目标。为了解决这一问题,可以将多级存储器与模拟内存内计算方法结合使用,使处理引擎满足更低的毫瓦级(mW)到微瓦级(μW)功率要求,从而在网络边缘执行AI推断。

 

通过云引擎提供服务AI应用面临的挑战

 

如果通过云引擎为AI应用提供服务,用户必须将一些数据以主动或被动方式上传到云,计算引擎在云中处理数据并提供预测,然后将预测结果发送给下游用户使用。下面概述了这一过程面临的挑战:

 

图1:从边缘到云的数据传输

 

1.        隐私问题:对于始终在线始终感知的设备,个人数据和/或机密信息在上传期间或在数据中心的保存期限内存在遭受滥用的风险。

2.        不必要的功耗:如果每个数据位都传输到云,则硬件、无线电、传输装置以及云中不必要的计算都会消耗电能。

3.        小批量推断的延时:如果数据来源于边缘,有时至少需要一秒才能收到云系统的响应。当延时超过100毫秒时,人们便有明显感知,造成反响不佳的用户体验。

4.        数据经济需要创造价值:传感器随处可见,价格低廉;但它们会产生大量数据。将每个数据位都上传到云进行处理并不划算。

 

要使用本地处理引擎解决这些挑战,必须首先针对目标用例利用指定数据集对执行推断运算的神经网络进行训练。这通常需要高性能计算(和存储器)资源以及浮点算数运算。因此,机器学习解决方案的训练部分仍需在公共或私有云(或本地GPU、CPU和FPGA Farm)上实现,同时结合数据集来生成最佳神经网络模型。神经网络模型的推断运算不需要反向传播,因此在该模型准备就绪之后,可利用小型计算引擎针对本地硬件进行深度优化。推断引擎通常需要大量乘-累加(MAC)引擎,随后是激活层(例如修正线性单元(ReLU)、Sigmoid函数或双曲正切函数,具体取决于神经网络模型复杂度)以及各层之间的池化层。

 

大多数神经网络模型需要大量MAC运算。例如,即使是相对较小的“1.0 MobileNet-224”模型,也有420万个参数(权重),执行一次推断需要多达5.69亿次的MAC运算。此类模型中的大多数都由MAC运算主导,因此这里的重点是机器学习计算的运算部分,同时还要寻找机会来创建更好的解决方案。下面的图2展示了一个简单的完全连接型两层网络。输入神经元(数据)通过第一层权重处理。第一层的输出神经元通过第二层权重处理,并提供预测(例如,模型能否在指定图像中找到猫脸)。这些神经网络模型使用“点积”运算计算每层中的每个神经元,如下面的公式所示:

Y_i=∑_i▒〖W_i X_i 〗(为简单起见,公式中省略了“偏差”项)。

 

 

 

图2:完全连接的两层神经网络

 

在数字神经网络中,权重和输入数据存储在DRAM/SRAM中。权重和输入数据需要移至某个MAC引擎旁以进行推断。根据下图,采用这种方法后,大部分功耗都来源于获取模型参数以及将数据输入到实际发生MAC运算的ALU。从能量角度来看,使用数字逻辑门的典型MAC运算消耗约250 fJ的能量,但在数据传输期间消耗的能量超过计算本身两个数量级,达到50皮焦(pJ)到100 pJ的范围。公平地说,很多设计技巧可以最大程度减少存储器到ALU的数据传输,但整个数字方案仍受冯·诺依曼架构的限制。这就意味着,有大量的机会可以减少功率浪费。如果执行MAC运算的能耗可以从约100 pJ减少到若干分之几pJ,将会怎样呢?

 

 消除存储器瓶颈 同时降低功耗

 

如果存储器本身可用来消除之前的存储器瓶颈,则在边缘执行推断相关的运算就成为可行方案。使用内存内计算方法可以最大程度地减少必须移动的数据量。这反过来也会消除数据传输期间浪费的能源。闪存单元运行时产生的有功功率消耗较低,在待机模式下几乎不消耗能量,因此可以进一步降低能耗。

 

 

 

图3:机器学习计算中的存储器瓶颈

 

来源:Y.-H. Chen、J. Emer和V. Sze于2016国际计算机体系结构研讨会发表的“Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks”。

  

该方法的一个示例是Microchip子公司Silicon Storage Technology(SST)的memBrain™技术。该解决方案依托于SST的SuperFlash®存储器技术,这项技术已成为适用于单片机和智能卡应用的多级存储器的公认标准。这种解决方案内置一个内存内计算架构,允许在存储权重的位置完成计算。权重没有数据移动,只有输入数据需要从输入传感器(例如摄像头和麦克风)移动到存储器阵列中,因此消除了MAC计算中的存储器瓶颈。

 

这种存储器概念基于两大基本原理:(a)晶体管的模拟电流响应基于其阈值电压(Vt)和输入数据,(b)基尔霍夫电流定律,即在某个点交汇的多个导体网络中,电流的代数和为零。了解这种多级存储器架构中的基本非易失性存储器(NVM)位单元也十分重要。下图(图4)是两个ESF3(第3代嵌入式SuperFlash)位单元,带有共用的擦除门(EG)和源线(SL)。每个位单元有五个终端:控制门(CG)、工作线(WL)、擦除门(EG)、源线(SL)和位线(BL)。通过向EG施加高电压执行位单元的擦除操作。通过向WL、CG、BL和SL施加高/低电压偏置信号执行编程操作。通过向WL、CG、BL和SL施加低电压偏置信号执行读操作。

 

 

图4:SuperFlash ESF3单元

 

利用这种存储器架构,用户可以通过微调编程操作,以不同Vt电压对存储器位单元进行编程。存储器技术利用智能算法调整存储器单元的浮栅(FG)电压,以从输入电压获得特定的电流响应。根据最终应用的要求,可以在线性区域或阈下区域对单元进行编程。

 

图5说明了在存储器单元中存储多个电压的功能。例如,我们要在一个存储器单元中存储一个2位整数值。对于这种情况,我们需要使用4个2位整数值(00、01、10、11)中的一个对存储器阵列中的每个单元进行编程,此时,我们需要使用四个具有足够间隔的可能Vt值之一对每个单元进行编程。下面的四条IV曲线分别对应于四种可能的状态,单元的电流响应取决于向CG施加的电压。

 

 

 

图5:ESF3单元中的编程Vt电压

 

受训模型的权重通过编程设定为存储器单元的浮栅Vt。因此,受训模型每一层(例如完全连接的层)的所有权重都可以在类似矩阵的存储器阵列上编程,如图6所示。对于推断运算,数字输入(例如来自数字麦克风)首先利用数模转换器(DAC)转换为模拟信号,然后应用到存储器阵列。随后该阵列对指定输入向量并行执行数千次MAC运算,产生的输出随即进入相应神经元的激活阶段,随后利用模数转换器(ADC)将输出转换回数字信号。然后,这些数字信号在进入下一层之前进行池化处理。

 

 

 

图6:用于推断的权重矩阵存储器阵列

 

这类多级存储器架构模块化程度非常高,而且十分灵活。许多存储器片可以结合到一起,形成一个混合了权重矩阵和神经元的大型模型,如图7所示。在本例中,MxN片配置通过各片间的模拟和数字接口连接到一起。

 

 

图7:memBrain™的模块化结构

 

截至目前,我们主要讨论了该架构的芯片实施方案。提供软件开发套件(SDK)可帮助开发解决方案。除了芯片外,SDK还有助于推断引擎的开发。SDK流程与训练框架无关。用户可以在提供的所有框架(例如TensorFlow、PyTorch或其他框架)中根据需要使用浮点计算创建神经网络模型。创建模型后,SDK可帮助量化受训神经网络模型,并将其映射到存储器阵列。在该阵列中,可以利用来自传感器或计算机的输入向量执行向量矩阵乘法。

 

 

图8:memBrain™ SDK流程

 

 

 多级存储器方法结合内存内计算功能的优点包括:

 

1.        超低功耗:专为低功耗应用设计的技术。功耗方面的第一个优点是,这种解决方案采用内存内计算,因此在计算期间,从SRAM/DRAM传输数据和权重不会浪费能量。功耗方面的第二个优点是,闪存单元在阈下模式下以极低的电流运行,因此有功功率消耗非常低。第三个优点是待机模式下几乎没有能耗,原因是非易失性存储器单元不需要任何电力即可保存始终开启设备的数据。这种方法也非常适合对权重和输入数据的稀疏性加以利用。如果输入数据或权重为零,则存储器位单元不会激活。

2.        减小封装尺寸:该技术采用分离栅(1.5T)单元架构,而数字实施方案中的SRAM单元基于6T架构。此外,与6T SRAM单元相比,这种单元是小得多。另外,一个单元即可存储完整的4位整数值,而不是像SRAM单元那样需要4*6 = 24个晶体管才能实现此目的,从本质上减少了片上占用空间。

3.        降低开发成本:由于存储器性能瓶颈和冯·诺依曼架构的限制,很多专用设备(例如Nvidia的Jetsen或Google的TPU)趋向于通过缩小几何结构提高每瓦性能,但这种方法解决边缘计算难题的成本却很高。采用将模拟内存内计算与多级存储器相结合的方法,可以在闪存单元中完成片上计算,这样便可使用更大的几何尺寸,同时降低掩膜成本和缩短开发周期。

 

边缘计算应用的前景十分广阔。然而,需要首先解决功耗和成本方面的挑战,边缘计算才能得到发展。使用能够在闪存单元中执行片上计算的存储器方法可以消除主要障碍。这种方法利用经过生产验证的公认标准类型多级存储器技术解决方案,而这种方案已针对机器学习应用进行过优化。



关键字:AI边缘  多级存储器 引用地址:多级存储器与模拟内存内计算的融合,将AI边缘难题一网打尽

上一篇:Graphcore发布IPU开发者云,致力解决世界上最棘手的AI问题
下一篇:安森美智能感知技术如何在工业人工智能应用里的挑战

推荐阅读最新更新时间:2024-11-02 19:06

英特尔推出边缘人工智能生态智库 推动IoT生态系统合作共赢
2019英特尔人工智能与物联网生态合作伙伴峰会在厦门成功举办。在此次峰会上,英特尔全面展示了其在人工智能和物联网领域的强大技术实力,不但推出了最新版本的Intel® Distribution of OpenVINO™ 工具包(2019 R3)(以下简称OpenVINO™ R3),还正式推出了边缘人工智能生态智库,积极推动物联网生态系统的发展进化。与此同时,英特尔还邀请了包括硬件厂商、软件厂商、系统集成商和云服务商等在内的众多行业专家和业界精英齐聚一堂,共同展示人工智能和物联网领域的前沿技术及开发平台,分享最新的解决方案及成功实践案例,以携手 实现物联网生态系统的合作共赢 。 英特尔推出边缘人工智能生态智库 Op
[物联网]
英特尔推出<font color='red'>边缘</font><font color='red'>人工智能</font>生态智库 推动IoT生态系统合作共赢
AI赋能边缘 能解决视频监控什么问题?
边缘计算是指计算靠近物或数据源头的网络边缘,以安防摄像头为例,前端摄像头具备计算和储存的功能,而云端只做基于大数据的宏观预测,这样的好处是实时响应,并减少了网络带宽的压力。根据IDC的预测,到2020年,物联网会有500亿感知设备,50%的计算会在边缘设备上,云边结合是未来普遍的模式。    在今年安博会期间,包括海康威视、大华股份、科达、英特尔等都有提到边缘计算的应用并推出了相关产品和方案展示,在讲述边缘计算应用趋势的过程中,大家都有引用一组IDC的调研数据:到2020年全球会有超过500亿的智能设备,超过2121个传感器。到2018年将会有50%的物联网的网络会面临带宽的问题,40%的物联网数据需要在边缘进行存
[安防电子]
意法半导体发布安全软件,保护STM32边缘AI设备连接AWS IoT Core的安全
新开发者软件为STM32H5设计,利用ST的Secure Manager安全软件,简化物联网设备与AWS平台的安全连接 2023年10月10日, 中国--服务多重电子应用领域、全球排名前列的半导体公司意法半导体(STMicroelectronics,简称ST;)日前在STM32Cube开发工具包内新增一款软件,以简化高性能物联网(IoT)设备与AWS云的连接。 意法半导体发布了X-CUBE-AWS-H5扩展包,让物联网设备能够无缝、安全地接入AWS云。在这个软件扩展包中有一套为专门终端设备STM32H5系列高性能微控制器设计的软件库和应用代码示例。 该解决方案基于FreeRTOS开源实时操作系统和意法半导体的Se
[嵌入式]
意法半导体发布安全软件,保护STM32<font color='red'>边缘</font><font color='red'>AI</font>设备连接AWS IoT Core的安全
研华推出EPC-B3000系列嵌入式工控机,搭载先进X86架构CPU,助力边缘人工智能应用升级
研 华推出 EPC-B3000 系列嵌入式工控机,搭载先进 X86 架构 CPU ,助力边缘人工智能应用升级 全球嵌入式计算方案供应厂商研华科技隆重推出高性能嵌入式工控机EPC-B3000系列。该系列包括搭载了AMD Ryzen AM4 5000处理器的EPC-B3522和搭载第12代Intel Core处理器的EPC-B3588,可支持NVIDIA Quadro GPU和扩展3 张全高PCIe卡。 EPC-B3000系列符合EMC和安全法规,可在中国、北美和欧洲实现自动化解决方案的无缝本地化。EPC-B3588还特别利用DDR5和PCIe Gen5技术为高要求的人工智能应用提供动力。它采用360 x 3
[工业控制]
研华推出EPC-B3000系列嵌入式工控机,搭载先进X86架构CPU,助力<font color='red'>边缘</font><font color='red'>人工智能</font>应用升级
寒武纪发布边缘AI芯片思元220及M.2加速卡
11月14日,寒武纪在第21届高交会正式发布边缘AI系列产品思元220(MLU220)芯片及M.2加速卡产品。思元220标志寒武纪在云、边、端实现了全方位、立体式的覆盖。 寒武纪曾于今年6月发布中文品牌“思元”及第二代云端芯片思元270,并于去年正式推出云端AI芯片品牌“MLU”(Machine Learning Unit)及第一代云端芯片思元100。此次推出思元220是寒武纪在边缘智能计算领域产品的代表,将进一步丰富和完善寒武纪端云一体产品体系,继续为客户提供性能卓越、高度优化的人工智能算力支撑。   图:思元220芯片 作为寒武纪边缘计算产品的重磅成果,最新发布的思元220芯片采用了寒武纪在处理器架构领域的一系
[嵌入式]
寒武纪发布<font color='red'>边缘</font><font color='red'>AI</font>芯片思元220及M.2加速卡
网络边缘充满无限可能-低功耗FPGA和AI解决方案集合助力AI智能玩具发展
网络边缘充满无限可能-低功耗FPGA和AI解决方案集合助力AI智能玩具发展 根据市场研究公司Transparency Market Research的报告,截至2026年,全球智能玩具市场规模预计将增长到近700亿美元。智能玩具形态多样,如电子宠物、机器人、智能火车套件等。听到玩具一词,你可能立刻想到儿童玩具,但有些玩具是专门针对成年人开发的。当前的高级玩具市场包含的产品用途广泛,包括提供陪伴、提高认知能力以及促进交流等。 智能玩具为人们提供了一种技术增强环境,便于交互完成各种任务,不断顺应用户的行为模式。这些玩具的传感器通常嵌入了图像识别芯片,利用人工智能来识别各种图像。为了提供优质全面的用户服务,这些AI解决方案需要低
[嵌入式]
网络<font color='red'>边缘</font>充满无限可能-低功耗FPGA和<font color='red'>AI</font>解决方案集合助力<font color='red'>AI</font>智能玩具发展
Lattice sensAI解决方案持续引领网络边缘超低功耗AI的开发
莱迪思半导体公司,低功耗可编程器件的领先供应商,宣布其屡获殊荣的Lattice sensAITM解决方案性能进一步提升、应用参考设计进一步优化。Lattice sensAI可以帮助OEM厂商为下一代毫瓦级智能设备赋予AI和ML功能。此次性能提升包括支持更为轻量化/高效的神经网络模型、支持更深度的量化从而在视觉应用中使用更复杂的模型处理更高分辨率或更高帧率的图像,实现更高性能的网络边缘AI。更新的参考设计可以让Lattice sensAI的客户快速轻松地创建常见的AI应用,包括全新增强版的关键词检测和人脸识别。 垂直市场营销经理Hussein Osman表示:“MCU在提供网络边缘AI应用所需的性能的同时,很难满足严格的功耗限制
[嵌入式]
从WINSYSTEMS看AI边缘计算如何从Demo变成商机
你能相信我们已经进入COVID-19大流行六个多月了吗?许多“专家”认为现在已经结束了。不幸的是,似乎没有人确切地知道未来会怎样,我们也不知道这些事件会产生什么样的长期影响。 像许多技术公司一样,WINSYSTEMS经常在展会上安排新产品发布,希望在客户和潜在客户面前展示产品。每年2月底在德国纽伦堡都会举行的Embedded World展会,汇集了数以万计的嵌入式开发人员、系统设计师、OEM等,在现场寻找产品、技术和解决方案。 由于COVID-19病毒刚刚开始对全球产生影响,我们在决定是否参加今年的嵌入式世界大会上举步维艰。最后,我们决定参加,从效果来看,选择是正确的。在展会上,我们介绍了我们的ITX-P-C444 Pic
[嵌入式]
从WINSYSTEMS看<font color='red'>AI</font><font color='red'>边缘</font>计算如何从Demo变成商机
小广播
最新物联网文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved