如何设计一款适用于终端的AI芯片-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

2017年，人工智能最火的风口一定是AI芯片。AI芯片的出现，与深度学习技术的成熟及应用密不可分。深度学习的过程可以简化理解为利用大量标注的数据进行训练，训练出一个行之有效的模型，再将这一模型运用于新数据的推断。

这个耳熟能详的爆款算法是建立在多层大规模神经网络之上的，后者本质上是包含了矩阵乘积和卷积操作的大运算量函数。往往需要先定义一个包含回归问题的方差、分类时的交叉熵的代价函数，再数据分批传递进网络，根据参数求导出代价函数值，从而更新整个网络模型。这通常意味着至少几百万次的相乘处理，计算量巨大。通俗来说，包含了数百万次A*B+C的计算，算力消耗巨大。

为解决这一问题，AI芯片应运而生。2017年开始，围绕AI芯片，半导体行业，战事升级，赛场上新老玩家暗潮涌动，连横合众，大有“AI芯片太多，设备都不够用了”之势。

时间进入2018年，备受关注的大小公司都将正式推出自研AI芯片。这些芯片也都被业界寄予厚望，是否能解决或者部分解决终端计算难题?什么样的芯片才能够真正适应终端智能的需求?

这些都是我们十分好奇且关注的问题。于是也与一些创业者进行了交流。本文即是其中的一篇，来自于与探境科技CEO鲁勇的访谈。目前探境科技正研发适用于终端的AI芯片，在创业前鲁勇曾在芯片厂商Marvell任高管，从事过存储芯片的相关工作，而存储正是计算之外所有芯片另一核心。基于过往的经历、经验与观察，鲁勇认为，做适用于终端的AI芯片，除了要在计算方面提升，存储优化同样至关重要。

一

AI算法在芯片实现时遇到的核心问题不是计算资源而是存储问题，强如GPU提供众多的计算资源，而实际计算能力与计算资源大为降低。

概括来说，存储问题分为两个部分，一个是带宽问题，一个是功耗问题，这两个问题的解决其实也是耦合在一起的。

具体来说，深度学习算法使用大量存储资源，即包括静态模型参数，也包括网络层之间的动态数据。对于静态模型参数权重，动辄几十兆上百兆样本数量，无法在片上SRAM保存，因此需要存入外部DRAM。DRAM与AI计算芯片间带宽有限，如果芯片上计算资源很大，但受存储带宽的瓶颈限制，实际计算力大为下降。

打比方来说，负责存储的DRAM和与负责计算的芯片就像是位于河两岸的仓库，整个运算的过程可以类比从存储的仓库搬取数据、搬运过桥，将数据搬入计算的单元进行处理，并高速循环往复。而当前的AI芯片技术重点提升将数据搬入计算单元后的处理速度，但因为搬出数据、过桥的过程基本未发送变化，因此整体的效率提升还相对有限。

与之对应的方法即是克服存储带宽的手段：一是减少数据量，降低所需数据带宽，就是说想办法只要从仓库搬出少量数据，就可以达到同样的效果;二是更科学的调度数据使用，提升调度的效率。

(1)减少数据容量

如果数据量降低了，这将总体上减少对DRAM的访问，在DRAM物理带宽保持不变的前提下，降低了DRAM的依赖性，提高了整体性能，同时减少DRAM访问也将大幅减少系统功耗开销。因此首先需要解决的问题是减少静态参数权重的大小。通常的解决办法包括参数定点化，将每个32bit浮点数减少为16bit以下的定点数，至少能降低50%甚至75%的存储容量，也同样幅度的降低了存储带宽的需求。实践证明16bit定点化可以采用线性量化的方式，而16bit以下定点化根据模型的不同，有些需要采用非线性量化才可以达到维持模型性能的目的。

目前主要有模型剪枝、设计适于终端设备的简化网络两种实现方式。模型剪枝作为进一步降低模型容量和存储带宽的方式，是基于神经网络模型存在大量冗余信息的基础，而另一种从源头开始重新设计适于终端设备的简化网络的方式也在逐渐兴起，从同样规模的网络性能来看，新设计的网络可能比旧网络通过剪枝再训练的方式更为简单快捷，性能也更好。

(2)更科学的调度数据使用

深度学习的计算大量使用乘累加，即完成AXB+C的工作，这种乘累加单元(MAC)每次运算需要三个输入，完成一个输出。参与运算的数据包括事先准备好的权重参数和网络层产生的中间数据。每个乘累加完成后的输出通常也会作为下一次运算的输入，因此如何调度这些数据成为关键。

功耗角度来说，从DRAM获取数据所消耗的功耗最大，从SRAM中获取数据其次，从本地寄存器中获取数据消耗功耗最低，但从成本角度考虑刚好相反，因此这三个不同层次的存储器的使用非常关键，我们希望尽可能减少DRAM的访问，最理想的结果是仅从DRAM中读取一次事先存好的模型参数，而不依赖DRAM做任何其他工作。

从宏观上看，整个深度学习运算计算一次，进入MAC的总数据量远大于静态数据的容量，因为无论是模型参数还是中间数据都多次被重复使用，因此实际所需的数据带宽非常大，并且当所有这些数据都仅通过DRAM被缓存使用时，其功耗开销也是惊人的，因此充分利用各级缓存的特性非常重要，设计一个合理的数据流，将多次被重复使用的数据放在离计算资源较近的地方，少量读取的数据放在DRAM中，将提高计算性能，降低系统功耗。

二

那么问题来了，如何才能设计一款真正适用于终端的AI芯片。

简单的设计一个卷积加速器并不能带来深度学习计算性能上的提高，合格的计算架构需要结合对存储问题的分析来设计，不仅要考虑计算架构，也要考虑存储的数据流控制，因此深度学习的计算特点并非是一个简单粗暴的并行计算问题。

首先还是要考虑浮点和定点计算的问题，8 位的整数乘法比IEEE 754标准下16位浮点乘法降低 6 倍的能耗，占用的芯片面积也少 6 倍;而整数加法的差异是13倍的能耗与38倍的面积，因此终端AI芯片采用定点计算将获得巨大收益。当定点成为设计目标的时候，要充分考虑软硬件的结合，不同网络对定点位数的影响程度是不一样的，数据量化的具体方式也有差异，有线性量化也有非线性量化的方法，因此针对应用场景结合软件协同设计非常有必要。

其次深度学习不是简单粗暴的并行计算但仍然有明显的并行计算特征，因此考虑存储问题后放入更多的计算资源会大幅提高计算性能。首先将最多被重复使用的数据放在接近计算资源的地方，这符合较为流行的In Memory Computing(存储计算一体化)的思想，并且考虑到当前工业水平，这更为实际，而通过重新设计包括计算单元的存储单元或采用ReRAM等方式是未来的发展方向。

第三要考虑到深度学习数据的另一重要特性，即数据稀疏化特性，也就是说在参与运算的数据中有大量的零值数据存在，这些零值数据即可以在存储中被压缩存放，降低存储容量和带宽需求，也可以在计算中被进一步调度，减少运算压力，提高运算的有效性能。这些零值数据不仅存在于模型参数中，也大量存在于神经网络各层运算的中间数据中，这两方面都需要进行考虑。稀疏数据在多核心并行计算中的调度是个复杂的问题，而不同网络结构也会带来不同的影响，因此将软硬件协同设计，动态调度的调度器是非常复杂的设计难点。

最后要考虑针对不同网络的资源有效利用率问题，由于神经网络差异化较大，如果希望针对不同网络都有较高的资源有效利用率，则需要在较细的颗粒度上进行优化，进一步加深了数据流调度器的复杂度。

关键字：AI 芯片人工智能引用地址：如何设计一款适用于终端的AI芯片

上一篇：英特尔年末推出安全处理器将永久避开两大漏洞
下一篇：我国高速磁浮技术通过审核时速600这次是要“逆天”

推荐阅读最新更新时间：2024-05-03 02:23

高通正式公布5G基带芯片的18家OEM合作伙伴

　　高通跟三星闹翻看来是没有悬念的了，但让人没有想到的是，魅族居然也没有在这份大名单中，紧跟三星不后悔的节奏啊。下面就随网络通信小编一起来了解一下相关内容吧。　　现在，高通对外正式公布了明年使用高通 X50 5G NR基带芯片的18家OEM合作伙伴，除了运营商外，手机厂商备受关注，其中包含了小米、中兴、OPPO、vivo、HTC、夏普、索尼移动、LG、富士通、HMD等。高通正式公布5G基带芯片的18家OEM合作伙伴　　苹果和华为没有出现在这份名单中非常正常，而三星和魅族也没有队伍中，由此可见在抢占 5G 市场的布局中，三星与高通将彻底分道扬镳，而之前的消息还显示，下一代骁龙处理器代工权将落到台积电手

[网络通信]

清微智能获B轮数亿元融资，已经有三颗芯片量产、数百万颗芯片落地应用

3月25日，可重构智能计算芯片设计企业清微智能宣布完成数亿元B轮融资，由普罗资本管理的国开装备基金领投，商汤国香资本、明智资本、北京集成电路尖端芯片基金及原股东君海创芯、卓源资本跟投。清微智能的本轮融资将主要用于企业核心可重构计算技术的持续研发，完善公司产品线和各领域解决方案，提升企业的项目交付能力，深入开拓行业客户。清微智能是可重构计算芯片领导企业，提供以端侧为基础，并向云侧延伸的芯片产品及解决方案。其核心技术团队来自清华大学微电子所，兼具芯片、软件、算法和系统研发能力。 2019年6月，清微智能量产第一颗可重构计算架构芯片——超功耗智能芯片TX210，此后多模态智能芯片TX510、智能语音SoC芯片TX231相继量产。清

[手机便携]

TCL在光谷建工业研究院聚焦人工智能和新型显示技术研发

4月19日，武汉市长万勇会见TCL集团董事长李东生一行，就TCL集团及华星光电在武汉市的战略布局进行深入交流。副市长汪祥旺、东湖高新区管委会主任刘子清、市政府副秘书长张军、TCL集团执行董事黄伟等参加活动。会议期间，东湖高新区同TCL集团签署合作协议，双方将在光谷合作共建TCL集团工业研究院。东湖高新区管委会副主任夏亚民、TCL集团工业研究院副院长马松林代表双方签约。这个研究院主要做什么？聚焦人工智能技术和新型显示技术的研发与应用在人工智能领域，将主要和武汉相关高校院所合作，致力于图像和语音的人工智能相关算法的研究和应用；在新型显示领域，将引入聚华国家印刷及柔性显示创新中心平台国家项目，引导新型

[手机便携]

【STM32】串口通信---用代码与芯片对话

前言开发板：stm32f407VET6 开发环境：keil5 MDK 串口通信的相关知识，请参考这篇文章【STM32】5分钟了解STM32的串口通信这篇文章讲的都是基础知识，那么串口通信的代码该如何写呢？一、串口通信基本知识【STM32】5分钟了解STM32的串口通信二、编程思路 usart.h // ============================================= # @Time : 2020-09-03 # @Author : AXYZdong # @CSDN : https://blog.csdn.net/qq_43328313 # @FileName: usart.

[单片机]

eASIC加入OpenPOWER基金会，提供定制化设计的加速器芯片

加州圣克拉拉--(美国商业资讯)--作为一家致力于交付定制集成电路(IC)平台（eASIC 平台）的无晶圆厂半导体公司，eASIC Corporation (@easic)今日宣布其已加入OpenPOWER基金会，这是一个基于POWER微处理器架构的开放开发社区。 OpenPOWER基金会正日益壮大，越来越多像eASIC这样的技术企业加入其中，携手构建先进的服务器、网络、存储和加速技术以及行业领先的开源软件，旨在向下一代超大型云数据中心开发人员提供更多选择、控制和灵活性。该组织让POWER硬件和软件首次可用于开放开发，同时向其他企业提供POWER知识产权许可，大大扩展了基于该平台的创新者生态系统。 eASIC将提供其最

[嵌入式]

在TI，数字成像芯片的制作过程与众不同

Jeff Marsh把自己看作一名“戏法大师”。他是德州仪器（TI）的DLP®产品工程设计经理，监督检查DLP芯片制作的每一步。 “我要同时应对很多独特的挑战，”Jeff说，“不过在TI工作了20年后，我现在做的还算得心应手。” “得心应手”也许还是一个谦虚的说法。自从Larry Hornbeck博士在1987年发明第一块DLP芯片以来，新版本的DLP半导体芯片已经实现了广泛的应用。数字微镜器件（DMD）的发明本身彻底改变了电影业，为Hornbeck博士赢得了学院奖*，以奖励他所发明的、用于TI DLP Cinema® 投影中的DMD。 DLP技术还实现了今天的工业用高速3D打印机和手持式近红外（NIR）

[单片机]

在TI，数字成像<font color='red'>芯片</font>的制作过程与众不同

我国移动芯片产业加速发展

随着移动互联网在全球的普及，移动智能终端正在快速蚕食传统PC的市场空间。在终端芯片领域，移动芯片的市场占有率却在不断提升，逐渐成为芯片产业的“明星”和领跑者。值得一提的是，在移动互联网发展的新浪潮中，我国的移动芯片产业正在崛起，逐渐在全球芯片市场中占据一席之地，这不仅促进了全球芯片市场的“变局”，更将为我国ICT产业的未来发展提供支撑和动力。移动芯片是智能终端的硬件平台，是其物理能力的基础。在我国智能终端市场上爆发的激烈“核”战，虽然带有市场推广的色彩，但也是市场对企业“核”、“芯”能力的确认和追问。在移动流量翻番、移动应用超过百万的移动互联网时代，如果没有移动芯片的进步，智能终端甚至移动互联网产业的持续发展将难以想象。因此，

[半导体设计/制造]

当AI开始改造“文房四宝”：看腾讯的脑洞与逻辑

不知大家注意到没有，时间推进到2021，大多数“AI+教育”公司都不再局限于算法软件和SaaS系统等，更多强调“软硬一体”，打起了个人消费硬件的主意。BAT跑步入场，3月2日，腾讯教育联合暗物智能科技发布重量级教育新产品“AILA智能作业灯”。对于教育领域来说，硬件是不可或缺的吗？更多智能教育硬件的落地，究竟能解决什么问题？这或许是2021年AI产业中，刷新你我常识的话题之一。 AI变天记：为什么智能教育需要硬件配合各种教育科技轮番登场，本质都是为了解决同一个问题——个性化培养。孔子讲因材施教，爱因斯坦在《论教育》中提到“学校的目标应当是培养有独立行动和独立思考的个人”。在数字化社会中，个体的崛起注定会让传

[嵌入式]

当<font color='red'>AI</font>开始改造“文房四宝”：看腾讯的脑洞与逻辑

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！