神经网络芯片能耗高,电阻性RAM来帮忙

发布者:梦幻之光最新更新时间:2021-01-15 来源: 半导体行业观察关键字:神经网络芯片  Illusion 手机看文章 扫描二维码
随时随地手机看文章

一款理想的神经网络芯片是什么样的?按照工程师的说法,最重要的是在芯片本身上拥有大量的存储空间。这是因为数据传输(从主内存到处理器芯片)通常消耗最多的能量,并且会产生大部分的系统滞后,即使与AI计算本身相比也是如此。 

 

有鉴于此,Cerebras Systems通过制造一台几乎完全由一个包含18 GB内存的大型芯片组成的计算机,解决了这些问题(统称为内存墙)。

 

但是法国,硅谷和新加坡的研究人员提出了另一种方法。 

                                              image.png

 

一家称为Illusion的公司使用在硅逻辑之上构建的3D堆栈中使用由电阻性RAM存储器构建的处理器来执行相关操作,因此花费很少的精力或时间来获取数据。

 

仅凭其本身,还不够,因为神经网络的规模越来越大,无法容纳在一个芯片中。因此,该方案还需要多个此类混合处理器以及一种算法,该算法既可以智能地对处理器之间的网络进行分割,还可以知道何时在闲置时迅速关闭处理器。

 

在测试中,八芯片版本的Illusion的能耗和延迟约为“理想”处理器的3-4%,该处理器在一块芯片上具有所有需要的内存和处理能力。

 

该研究团队(其中包括来自法国CEA-Leti研究实验室,Facebook,新加坡南洋理工大学,圣何塞州立大学和斯坦福大学的贡献)受到了神经网络规模不断扩大这一事实的推动。

 

负责这项研究的斯坦福大学电气工程和计算机科学教授Subhasish Mitra说:“从某种意义上讲,这种理想的芯片永远无法使用,因为它是一个不断发展的目标。” 他说:“神经网络变得越来越快,其速度超过了摩尔定律。”

 

因此,他们设法设计一种系统,使它实际上是由多个混合处理器组成,它也会产生一个带有大量片上存储器的单个处理器的错觉(illusion),因此他们将其命名为为项目名)。这样,Illusin就可以轻松扩展以适应不断增长的神经网络。

 

Mishra解释说,这样的系统需要做到三件事:

 

首先是芯片上的大量内存,可以快速访问而几乎不消耗能量。这就是集成3D的RRAM发挥功效的地方。他们选择了RRAM,“因为它是密集的,3D集成的,并且可以在掉电状态下快速访问,并且因为它在断电时不会丢失数据, ” 斯坦福大学电气工程学教授,该项目的合作者Philip Wong说。

 

但是RRAM确实有一个缺点。像Flash存储器一样,它被覆盖过多次后就会损耗。在Flash中,软件会跟踪每个存储单元块发生了多少次覆盖,并试图保持该数量,即使在芯片中的所有单元中也是如此。斯坦福大学理论计算机科学家 Mary Wootters 领导团队为RRAM发明了类似的东西。结果称为Distributed Endurer,这增加了确保写入时的磨损甚至跨越多个芯片的负担。

 

即使使用Endurer混合RRAM和处理器芯片,但强大的神经网络(例如当今使用的自然语言处理器)仍然太大,让我们无法将其容纳在一个芯片中。然而使用多个混合芯片意味着在它们之间传递消息,消耗能量并浪费时间。

 

Illusion团队的解决方案是其技术的第二部分,其解决方案是以使消息传递最小化的方式来切割神经网络。神经网络本质上是一组计算发生的节点以及连接它们的边。每个网络将具有某些节点或节点的整个层,它们具有大量的连接。

 

但是网络中也将存在阻塞点,即在节点之间必须传递少量消息的地方。在这些阻塞点上划分大型神经网络,并将每个部分映射到单独的芯片上,可确保从一个芯片到另一个芯片的数据传输量最少。Mitra说,Illusion映射算法“自动识别切割神经网络的理想位置,以最小化这些消息。”

 

但是像这样切割的东西有其自身的后果。

 

不可避免地,一种芯片会先于另一种芯片来完成其业务,这会拖延系统并浪费功耗。其他尝试运行超大型神经网络的多芯片系统,则以使所有芯片持续忙碌的方式来划分网络,但这是以在它们之间传输更多数据为代价的。

 

在第三项创新中,Illusion团队决定设计混合处理器及其控制算法,以便可以快速关闭和打开芯片。因此,当芯片等待工作时,它不会消耗任何功耗。

 

Mishra说,CEA-Leti的3D RRAM技术是制造3D SoC的关键,该SoC可以在几个时钟周期内完全关闭并重新启动而不会丢失数据。

 

该团队构建了八芯片版本的Illusion,并在三个深度神经网络上进行了测试。这些网络远不及当前正在计算机系统运行的网络的规模,因为每个Illusion原型仅为神经网络数据保留了4 KB的RRAM。他们测试过的“理想芯片”实际上是一个模仿了完整神经网络执行的illusion 芯片。

 

8片幻觉系统能够在理想芯片能耗的3.5%和2.5%的执行时间内运行神经网络。Mitra指出,该系统可以很好地扩展。有4 GB RRAM的64芯片illusion 方案的仿真也接近理想。

 

“我们已经展开了新的更强大的原型设计”,斯坦福大学的研究生Robert Radway说。他们也将其发表在本周的自然电子上。与原型相比,下一代芯片将具有更大数量级的内存和计算能力。虽然第一代经过了推理的测试,但下一代将用于训练它们,这是一项艰巨的任务。

 

“总的来说,我们认为illusion 对未来技术具有深远的影响,” Radway说。“它为技术创新开辟了广阔的设计空间,并为未来的系统创造了新的扩展途径。”

关键字:神经网络芯片  Illusion 引用地址:神经网络芯片能耗高,电阻性RAM来帮忙

上一篇:离线语音可能是未来智能家居的发展方向
下一篇:视觉芯片,Radar/LiDAR芯片都有哪些玩家?

推荐阅读最新更新时间:2024-11-07 02:07

三大派系决战AI芯片之巅:英特尔押宝神经网络处理器
  5月23日,在有着103年历史的旧金山艺术宫中,英特尔的新晋科技大会——人工智能开发者大会(简称“AIDC”)如期而至。这一次,英特尔聚焦于拓宽人工智能生态。   在罗马式建筑和科技感的AI场景间之间,英特尔的AI掌舵者Naveen Rao侃侃而谈英特尔的人工智能软硬件组合,而最重磅的信息莫过于Nervana神经网络芯片的发布预告,按照规划,英特尔最新的AI芯片Nervana NNP L-1000,将在2019年正式推向市场,这也是英特尔第一个商用神经网络处理器产品。   两年前,Naveen Rao还是深度学习初创公司Nervana Systems的首席执行官兼联合创始人。在公司被英特尔收购后,Nervana成为了英特尔人工
[嵌入式]
Arteris IP和Synopsys促进神经网络和异构多核系统级芯片的优化
  经过硅验证的商用系统级芯片(SoC)互连IP的创新供应商 Arteris  IP今天宣布,将Ncore Cache Coherent IP与 Synopsys 的Platform Architect MCO仿真和分析环境整合到一起,提高了神经网络和自动驾驶系统级芯片(SoC)设计人员在配置、仿真和分析下一代多核架构的系统级性能及功耗方面的能力。下面就随嵌入式小编一起来了解一下相关内容吧。   对于具有人工智能(AI)和自动驾驶系统功能的芯片,这一整合尤为重要,因为这些芯片通常需要使用复杂的缓存、互连和存储器架构把多个异构处理组件连接起来, 没有快速精确和内部可视性的仿真,所有这些组件都难以分析、优化和调整。由于Ncore IP
[嵌入式]
MIT推出新型神经网络芯片,功耗降低95%
据外媒报道,近日麻省理工学院(MIT)的工程师研发出了一种新型神经网络芯片,可实现神经网络信息传输功耗降低95%。这将使电池驱动的移动设备可以最低的功耗运行神经网络程序。 据悉,MIT工程师研发出的这款神经网络芯片,可大幅降低芯片内存和处理器之间来回传输数据的需求实现功耗降低95%。MIT工程师设计的芯片将应用于电池驱动的移动设备,诸如智能 手机 实现数字助理、实时翻译等 人工智能 服务,其需要借助云端传输数据所消耗的巨大能耗问题。 一般来讲,神经网络由成千上万个层层互联的人工神经元组成,单个神经元接收来自下一层神经元的输入,一旦这个组合输入超出训练期间设定的阈值,其就会输出到上层的多个神经元上。这意味着,单个神经元
[嵌入式]
MIT推出新型<font color='red'>神经网络</font><font color='red'>芯片</font>,功耗降低95%
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved