清华大学研制高能效通用神经网络处理器芯片STICKER-T

发布者:心连心意最新更新时间:2019-03-03 来源: 机器之心2关键字:清华大学  芯片  卷积神经网络 手机看文章 扫描二维码
随时随地手机看文章

2 月 20 日,来自清华大学线路所的刘勇攀副教授团队在美国旧金山举办的第 66 届国际固态电路会议(简称 ISSCC 2019)发表了基于循环矩阵压缩方法的通用神经网络加速器芯片 STICKER-T。该芯片在算法,架构和电路三方面进行了联合优化,在变换域进行神经网络加速,并使用可转置存储器复用数据,使得芯片的能效和面积相较于之前的研究都有显著的提升。

随着 AI 技术的不断发展,单一的网络结构已经很难满足不同领域的任务需求。常见的应用诸如图像识别或机器翻译分别需要卷积神经网络或循环神经网络的支持。而不同网络意味不同的计算模式,在带宽和计算资源上也会有各自的限制。因此,通用加速器的核心挑战是如何联合优化各种网络下的芯片能效。

不同架构的通用加速器比较

在以 STICKER 和 Thinker 为代表的先前设计中,研究者通常采用的解决方案是为卷积和全连接操作分别设计专用的加速核,或者将卷积重构为矩阵乘法。其中异构多核的设计虽然能够分别将卷积和全连接优化至最佳的能效,但是芯片整体却需要承担额外的面积开销,并且多核的利用率受工作量比例的限制很难达到 100%,带来不可避免的浪费。而重构卷积的思路则意味着能效的下降和编译器与控制逻辑的复杂性。另一方面以 TPU 为代表的工业届芯片虽然有着更强的通用性和灵活性,却在芯片能效上受到限制。

循环矩阵压缩方法(CirCNN)原理图

该团队针对以上问题,采用了基于循环矩阵的神经网络压缩技术,从算法和硬件联合优化的角度提出全新的通用加速器设计。算法上,使用 CirCNN 方法训练出的神经网络,无论是全连接还是卷积的权重矩阵都可以划分成多个子块,每个子块的内部都是循环矩阵,将矩阵向量乘转换为循环卷积。进而可以使用 fft+频域点乘+ifft 的方法对卷积操作进行加速。

基于转置 SRAM(TRAM)的数据复用方法

转置 SRAM(TRAM) 结构图

硬件上,为了满足 fft 的高效计算并尽可能的减少面积开销,采用了全局并行位串行的 fft 设计。同时为了提升频域点乘的数据复用性,芯片使用了转置 SRAM(TRAM)存储 fft 的计算结果,如此按行存储的来自不同批次的频谱可以按列方向取出同一个频点的值,和相同的权重相乘时大大提升了数据的复用率,减少了对带宽的需求。

芯片照片

综上,高效的算法和高性能的架构与电路实现,使得 STICKER-T 相比于之前的芯片在能效和面积两个方面都有着显著的提升,该芯片的峰值能效 140TOPS/W 为之前工作的 2.7 倍,而 7.5mm^2 的面积仅为前者的 60%。此外,Sticker-T 的通用架构可以同时高效支持包括 CNN,RNN 和 FC 在内的主流网络结构,满足了不同应用场景的需求。

基于在人工智能芯片领域的丰富科研成果,刘勇攀副教授创办了以人工智能芯片和工业智能算法为核心技术的湃方科技,旨在赋能工业领域人工智能的更大发展。

性能对比


关键字:清华大学  芯片  卷积神经网络 引用地址:清华大学研制高能效通用神经网络处理器芯片STICKER-T

上一篇:走进10nm时代!2019年英特尔芯片技术与产品展望
下一篇:英特尔CPU再曝高危漏洞:可泄露私密数据 暂无法修复

推荐阅读最新更新时间:2024-03-16 11:32

中国进口芯片总值超石油 技术资本薄弱 掐住手机厂喉咙
    香港文汇网消息,曾经有这麽一个段子:苹果一「饥渴」,其他手机品牌就要挨饿,说的是由于高端晶片供应有限,在晶片厂商选择客户时,国产手机厂商只能「稍待片刻」枯等。如今,虽然苹果已走下神坛,但背后折射出的畸形的商业生态状况并没有得到多少改善,「一芯难求」的局面仍然困扰着渴望走高端路线的终端手机厂商。 据《第一财经日报》报导,「2012年中国进口的积体电路晶片是1920亿美元,这一数位超过了进口石油的1200亿美元。」iSuppli半导体首席分析师顾文军表示,高端晶片最为紧缺,其开发过程需要雄厚的研发基础、资本投资以及多年积累,而中国厂商在这几方面都还比较薄弱。 在国务院发展研究中心发布的《二十国集团国家创新竞争力黄皮书》中指出,
[手机便携]
华为FreeBuds 4i拆解表现优秀,IC为国产芯片
今天拆款无线耳机,华为FreeBuds 4i。支持主动降噪,使用BES2500Z蓝牙音频SoC,支持蓝牙5.2技术。55mAh耳机电池+215mAh充电盒电池,可持续待机10小时,售价499。听上去好像,哎,还不错哟! 产品好不好,小编带你看看拆解就知道! 耳机拆解 耳机这类小规格产品,通常四周都使用胶固定,内部又多有灌胶,拆解都是简单直接的暴力拆解,组成部分也非常简单,通常主要是扬声器,FPC软板、电池以及主板。 FreeBuds 4i也一样的,在打开外壳时需要注意的是充电触点是直接与主板焊接固定的,撬开后就可以直接取下主板。 内部器件与主板的连接由背面的两个BTB接口连接,对应的FPC通过黑色
[嵌入式]
华为FreeBuds 4i拆解表现优秀,IC为国产<font color='red'>芯片</font>,
浅析AI芯片性能乱象 AI芯片=DSP+DSP+……+DSP?
  所谓人工智能,根据1956年达特茅斯会议的定义,就是“让机器行为看起来就像是人所表现出来的智能行为一样”。不过虽然这句话理解起来很简单,想真正实现却非常困难。在人工智能的发展过程中,逐渐划分出两个发展阶段:强人工智能和弱人工智能。   强人工智能是属于人类级别的人工智能,机器拥有思维和意识,可以实现自我推理和自主决策。弱人工智能则是指机器擅长于处理单一方面的问题,但并没有真正的思维和意识。由于弱人工智能发展程度并没有达到模拟人脑思维的程度,所以弱人工智能仍然属于“工具”的范畴,与传统的“产品”在本质上并无区别。   目前整个业界所研发的全部人工智能产品,甚至是Alpha Go,都仅限于弱人工智能这个阶段,许多打着
[嵌入式]
浅析AI<font color='red'>芯片</font>性能乱象 AI<font color='red'>芯片</font>=DSP+DSP+……+DSP?
日本地震导致LG家电芯片短缺 上调产品价格
  北京时间4月20日早间消息,LG电子周二表示,受日本地震和海啸影响,该公司的家用电器部门已遭遇芯片供应短缺的问题,该公司将寻找可替代的芯片供应商。   LG家电部门总裁李永夏(Lee Young-ha,音)表示:“我们家电中的半导体元件有70%至80%来自日本厂商,不过我们将推动供应商的多样化。”他同时表示,未来2至3个月,日本从震灾中的恢复将有助于全球芯片供应链的正常化。李永夏表示,LG电子将从海力士半导体采购更多的芯片。   LG电子此前有一半的芯片供应来自东芝。东芝周一表示,该公司位于日本北部广岛市的一家工厂已经部分恢复生产。不过李永夏表示:“即使日本的局势有所改善,我们仍将推动供应链的多样化。”   日本地震发生
[家用电子]
一种彩色LED显示屏16位恒流驱动芯片设计
  直视型发光二极管(led)技术是当今实现户外数字标识系统所采用的主流技术,但这项技术的发展也为测量和评估对比度带来了很多有趣的挑战。当人们在为某一特定用途在多种显示技术或多个显示屏厂商中选择适宜器件的时候,与其它几项重要的显示器参数一样,对比度也是一个关键的考虑因素。   大多数显示行业的人士都认同,最终用户中很少有人能真正了解图像的亮度、色域广度及保真度对显示器的对比度有何种影响,然而以电视作主要消费品的液晶显示(LCD)消费制造商之间,在对比度方面的激烈竞争却丝毫没有减缓。随着与测试变量多变性相关联的测试方法的不同,制造商公布的对比度指标几乎可出现任意数值,然而,对比度实际可变化的空间却是有限的。当前,动态对比度技术指标
[电源管理]
一种彩色LED显示屏16位恒流驱动<font color='red'>芯片</font>设计
在移动芯片血拼中崛起的“袖珍企业”
芯片业,不会结成类似Wintel的联盟 由于芯片企业在硬件性能方面并不存在过于明显的优势,差异性并不是很多,因此,发掘应用潜力,建立更为广泛的同盟军,就成为新兴芯片势力的共识。这种情况下,与硬件关联度较小的Android操作系统就成了兵家必争之地。 “我们会不断地鼓励我们的客户用Androidon MIPS开发应用。现在,我们已经能够支持成百上千种应用。”MIPS科技亚太区副总裁 M arkPittman表示。与此同时,用Android与ARM处理器打造的手机正在稳步占领市场。 不过,正如英特尔(博客)所言,ARM公司的竞争力在于其精心营造的生态系统。“我们不希望形成和从前的Wintel类似的联盟,我
[半导体设计/制造]
展讯推出三卡三待手机芯片有望下半年量产
  近日记者从国内手机芯片厂商展讯通信了解到,展讯在全球首家推出了单芯片三卡三待方案,相应的终端产品有望今年下半年量产。   展讯此次推出的单芯片三卡三待技术将给发展中国家手机市场带来一次新的震动。展讯高级产品销售总监陈杰峰表示,在不同运营商优惠资费层出不穷的情况下,多卡多待能让消费者享受更多的优惠,商务、外出人员需要多卡多待来满足差旅需求,尤其是对多家运营商共存的市场来说更具有实用意义。   记者了解到,目前不少国内手机厂商已经瞄准印度、中东、非洲等地需求,计划在年内推出三卡三待手机。不过,对国内市场来说,由于国内运营商一共只有3家,市场需求有限,所以三卡三待手机不会成为市场热点。
[手机便携]
算力时代,英伟达是如何垄断自动驾驶芯片的?
在当前这场以 大模型 为基础的 AI 战局里,参赛者众多。海外有OpenAI、微软、谷歌,国内百度、阿里、 华为 、商汤等大厂也纷纷加入。而藏在战局里的GPU巨头英伟达,则掌握着“算力”命门,成为了这场“战争”中的最大受益者。在当前,几乎所有AI企业都在求购相关的GPU。甚至企业所拥有的A100、H100数量,已经成为了行业判断企业大模型能力的重要指标之一。同样,在 自动驾驶 行业,在车载高端 芯片 市场,全球最大的智能计算平台公司,也是高端自动驾驶芯片供应商的英伟达基本也是一枝独秀。那掌握了自动驾驶目前命脉的英伟达是如何形成这种统治力的?后续是否会因此卡主自动驾驶发展的脖子呢? 英伟达进军自动驾驶之路 时间拉回到2015
[汽车电子]
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
最新安防电子文章
换一换 更多 相关热搜器件
随便看看

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 视频监控 智能卡 防盗报警 智能管理 处理器 传感器 其他技术 综合资讯 安防论坛

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved