有关AI处理器的名词解释一览

发布者:jiaohe1最新更新时间:2019-07-03 来源: 半导体行业观察关键字:AI处理器 手机看文章 扫描二维码
随时随地手机看文章

在本文中,我们将从三个方面介绍人工智能系统中使用的核心处理器体系结构的最常见选择:标量、向量和空间。对于每种情况,我们都将对其性能特征和优化算法的类型进行一些概括。在后面的文章中,我们将更深入地讨论它们是如何实现的,以及它们在不同类型的AI工作负载上的性能。


image.png


Flynn分类法


如果没有相当流行的“Flynn分类法”,任何对处理器架构的阐述都是不完整的,因为命名法很常见。它的初衷是描述一台哈佛架构计算机如何摄取指令和数据流,并且尽可能在这种情况下最有意义。尽管如此,现代处理器通常比其他处理器更接近于一种特性,因此我们经常用这种方式来指代它们,但我们应该注意,假设任何现代处理器都完全符合其中一种类型,那将是一个严重的过度简化。这里介绍的是一种比较开放的稍微现代一些的分类法。


SISD:单指令单数据


最简单的CPU形式适合这一类。CPU的每个循环摄取指令和数据元素并处理它们以便修改全局状态。这个概念是计算机科学的基础,因此大多数编程语言都编译成一组针对这种架构的指令。大多数现代CPU也模拟SISD操作,尽管软件和硬件中可能会用到非常不同的概念。


SIMD:单指令多数据


最简单的SIMD架构是矢量处理器,类似于具有更宽数据类型的SISD架构,因此每条指令在多个连续数据元素上运行。稍微复杂的是线程并行性,其中单个指令在多个线程状态上操作,这是更通用的编程模型。


MISD:多指令单数据


对于什么是错误处理程序没有普遍的共识,所以我在这里将不做限制。考虑一个架构,它能够在单个数据输入上以单个周期的顺序执行多个任意指令。这基本上需要从输出到输入进行多路复用,而不存储中间结果。稍后,我们将看到这种高级体系结构的优点。


MIMD:多指令多数据


我再次不设限地说,一个非常长的指令字(VLIW)处理器最适合这个类别。这种处理器的目的是公开一个更精确地适合处理器可用资源的编程模型。VLIW指令能够同时向所有执行单元发送数据,这通过指令级并行(ILP)具有很大的性能优势,但编译器必须具有体系结构感知能力并执行所有调度优化。一般来说,这被证实具有挑战性。


标量(CPUs):混合性能


现代CPU是一个非常复杂的系统,旨在很好地完成各种任务。它的元素涵盖了Flynn的每一类分类。您当然可以将其编程为SISD机器,它将为您提供输出,就好像程序是按照您给出的顺序计算的一样。但是,每个CISC指令通常被转换为多个RISC指令链,以便在单个数据元素(MISD)上执行。它还将查看您提供的所有指令和数据,并将它们并行排列以便在许多不同的执行单元(MIMD)上执行数据。还有许多操作,例如在AVX指令集中,对许多并行对齐的数据元素(SIMD)执行相同的计算。此外,由于多个内核和多个线程并行运行以在单个内核上同时使用资源,因此可以实现Flynn分类法中的几乎任何类型的并行性。


代码优化器


如果CPU要以简单的SISD模式运行,从存储器中一次一个地抓取每个指令和数据元素,那么不管频率有多高,它都会非常慢。在现代处理器中,只有相对较小部分的管芯区域专用于实际执行算术和逻辑。其余部分专门用于预测程序接下来要做什么,并在不违反任何因果约束的情况下排列指令和数据以有效执行。也许与CPU的性能和其他体系结构相比,关系最密切的是对条件分支的处理。它不是等待解析一个分支,而是预测要朝哪个方向走,然后在出错时完全恢复处理器状态。在硅片上蚀刻了数百个这样的技巧,这些技巧在各种各样的工作负载上进行测试,在执行高度复杂的任意代码时提供极大的优势。


摩尔定律哲学


在我的第一份工作中,我被指派去集成一个非常昂贵的专用集成电路,这被认为是实时解码卫星图像所必需的。我注意到这个设计有几年的历史了,我做了一些计算,结果告诉我,我可以在英特尔处理器上拥有几乎相同的计算能力。在ASIC可用之前,我用C语言编写了该算法,并在奔腾III CPU上演示了该系统。那时候,'Dennard Scaling'的速度如此之快,以至于在一小段时间内,通用处理器的性能提升超过了对专用处理器的需求。选择通用处理器的最大优势可能是它易于编程,这使其成为算法开发和系统集成的首选平台。可以将算法优化为更专业的处理器,但CPU已经非常擅长为您执行此操作。在我的特殊情况下,第一版卫星使用Reed-Solomon码,但以后的设计还是考虑用Turbo码。使用ASIC的下行链路站点必须更换整个系统,我们的站点将使用简单的软件更新和常规CPU升级。因此,您可以花时间优化代码,也可以将时间花在创新应用程序上。摩尔定律的推论是,很快就会足够快。


矢量(GPU和TPU):简单和平行


在许多方面,矢量处理器是最简单的现代体系结构:一个非常有限的计算单元,它在芯片上重复多次,以便在大量数据上执行相同的操作。这些都是第一次普及的图形,因此术语GPU。一般来说,GPU不具备CPU为优化复杂的任意代码所做的预测gymnastics功能,并且具体地具有仅限于支持某些类型的计算的有限指令集。GPU性能的大部分进步都是通过密度,面积,频率和内存带宽的基本技术扩展实现的。


GPGPU


最近有一种趋势是扩展GPU指令集以支持通用计算。这些gp指令必须经过调整才能在simd体系结构上运行,这就暴露了一些优点和缺点,具体取决于算法。许多被编程为在CPU上作为重复循环运行的算法实际上只是在每个循环中对数组的每个相邻数据元素执行相同的操作。通过一些程序员的努力,它们可以很容易地并行化,有时在GPU上大规模地并行化。


值得注意的是。如果任何元素上有任何条件,那么所有分支都必须在所有元素上运行。对于复杂代码,这可能意味着计算时间相对于CPU呈指数增长。GPU具有非常宽的内存总线,可以提供出色的流数据性能,但是如果内存访问与向量处理器元素不一致,那么每个数据元素都需要来自内存总线的单独请求,而CPU具有非常复杂的预测缓存机制,可以大大补偿这一点。


内存本身非常快的同时也非常小,并且依赖于PCIe总线上的数据访问传输。在一般情况下,GPGPU算法的开发比CPU要困难得多。然而,这种挑战在一定程度上是通过发现和优化高效的并行算法来解决的,这些算法通过统一的执行分支和对齐的内存访问获得相同的结果。通常,这些算法在原始操作方面效率较低,但在并行架构中执行速度更快。


AI操作


许多人工智能中流行的算法都是基于线性代数的,而参数矩阵的大规模扩展使得该领域有了很大的进步。GPU的并行性允许最基本的线性代数的大规模加速,因此它适合AI研究人员,只要它们保持在矩阵上密集线性代数的范围内,矩阵足够大以占据大部分处理元素,小到足以容纳GPU的内存。然而,这种加速是如此之快,以至于到今天为止,在这些限制下,在深入学习方面已经取得了很大的进展。


GPU中现代开发的两个主要推动力是Tensor Processing Unit(TPU),它们在一个周期内执行全矩阵运算,而多GPU互连则用于处理更大的网络。我们在专用图形的硬件架构和为AI设计的硬件之间经历了更大的分歧。


今天,我们在专用图形的硬件架构和为AI设计的硬件之间遇到了更大的分歧。最简单的分歧是在精度上,AI正在开发基于低精度浮点和整数运算的技术。稍显迟钝的是图形处理器用来实时呈现令人信服的复杂场景重现的快捷方式,通常使用非常专业的计算单元。因此,架构之间的相似性以两者的最高优化级别结束。


Systolic Arrays


ASIC或FPGA可以为任何类型的计算体系结构设计,但是这里我们关注的是特定类型的体系结构,它与其他选择有些不同,并且与人工智能相关。在诸如CPU或GPU的时钟体系结构中,每个时钟周期从寄存器加载数据元素,将数据移动到处理元件,等待操作完成,然后将结果存储回寄存器以进行下一个操作。在空间数据流中,操作在处理器上物理连接,以便一旦计算结果就执行下一个操作,并且结果不存储在寄存器中。当在处理元素本地的寄存器中包含它们自己的状态的中等复杂单元以这种方式链接在一起时,我们将其称为“Systolic Arrays”。


功耗、延迟和吞吐量


有一些直接的优势很容易实现。在基于寄存器的处理器中,功耗主要是由寄存器之间的数据存储和传输造成的。其中唯一消耗的能量是处理元素,并将数据传输到下一阶段。另一个主要优点是元素之间的延迟,这不再局限于时钟周期。在吞吐量方面也有一些潜在的优势,因为数据可以以最慢处理阶段限制的速率被时钟发送到Systolic Arrays中。数据以相同的速率在另一端输出,其间存在一些延迟,从而建立数据流。与同步时钟 - 执行 - 存储循环相比,这可以是更高能效和/或更快的数量级,这取决于架构的目标。


数据流设计


如果说CPU是最容易编程的,并且GPU提出了更大的挑战,那么FPGA需要非常大的努力和大量的技能,而ASIC则需要更大量的成本和工程投资。尽管如此,特定算法的好处仍然很大。


要想知道这有多大的优势,可以考虑在现代硅工艺中驱动另一个逆变器的“标准化延迟”以单皮秒为单位测量,而时钟周期接近纳秒。类似地,传输能量是电阻和电容的函数,其可以根据互连的长度来计算,并且处理元件之间的距离可以比到在时钟周期之间保持数据的寄存器的距离短几个数量级。FPGA没有太大的优势,因为元件之间存在额外的扇出,切换和传输延迟,但它提供了灵活性,可以通过一个芯片适应多种数据流架构。虽然可以实现任何类型的算法,但是复杂性存在限制,因为条件需要两个分支的布局,这大大增加了面积并降低了利用效率。FPGA和ASICS还可以采用同步和收缩结构的混合来优化布局效率和速度之间的权衡。


数据流系统


用于AI实现的最常见的systolic array 类型是张量核心,它作为TPU或GPU的一部分集成到同步体系结构中。还提出了许多不同类型的卷积核心。已经在FPGA系统中实现了整个深度学习架构(如ResNet-50)的完整数据流实现,从而在延迟和功耗效率方面实现了最先进的性能。可定制性还允许任意位长精度,这会减小布局大小和处理延迟,但必须仔细调整以适应系统的统计性能要求。然而,主要的独特功能是处理的实时性质允许AI与实时系统中的其他信号处理组件集成。


结论


在为特定系统选择AI处理器时,了解每种算法在所用算法的上下文中的相对优势以及系统要求和性能目标非常重要。在后面的章节中,我们将介绍一些注意事项和示例。我们将看到这些处理器体系结构中的每一个在各种系统级考虑因素中都比其他处理器体系结构更具优势。


关键字:AI处理器 引用地址:有关AI处理器的名词解释一览

上一篇:日本制裁韩国 或致iPhone减产
下一篇:百度飞桨将联手华为麒麟芯片 共同开阔AI市场

推荐阅读最新更新时间:2024-10-11 08:53

为什么某些嵌入式 AI 处理器比其它更智能
Liran Bar, Director of Product Marketing, CEVA 移动设备上的人工智能已经不再依赖于云端连接,今年CES最热门的产品演示和最近宣布的旗舰智能手机都论证了这一观点。人工智能已经进入终端设备,并且迅速成为一个市场卖点。包括安全、隐私和响应时间在内的这些因素,使得该趋势必将继续扩大到更多的终端设备上。为了满足需求,几乎每个芯片行业的玩家都推出了不同版本、不同命名的人工智能处理器,像“深度学习引擎”、“神经处理器”、“人工智能引擎”等等。 然而,并非所有的人工智能处理器都是一样的。现实是,许多所谓的人工智能引擎就是传统的嵌入式处理器(利用CPU和GPU)加上一个矢量向量处理单元(VPU)。V
[手机便携]
寒武纪推出边缘AI处理器思云220及加速卡
在第21届高交会上,寒武纪正式发布边缘AI系列产品思元220(MLU220)芯片及M.2加速卡产品。思元220标志寒武纪在云、边、端实现了全方位、立体式的覆盖,对寒武纪在AI边缘计算市场的愿景,公司副总裁刘道福在现场做了解读。 寒武纪副总裁刘道福 为什么边缘侧越来越重要? 刘道福表示,随着5G时代的到来,边缘计算越来越受到关注,数据在本地(比如网关等)进行汇集、处理,相比数据中心或者说云计算,边缘计算具有几点优势和互补性,包括:第一,大幅降低传输成本,尤其是针对电力、能源、工业等网络条件并不好,或通讯基础设施改造成本很高的地方,边缘的数据通过边缘决策,或者仅将部分关键有效信息传回云端集中处理,都可以大幅降低传输成本。第二
[嵌入式]
寒武纪推出边缘<font color='red'>AI</font><font color='red'>处理器</font>思云220及加速卡
寒武纪重磅发布两款AI芯片,要让天下没有难做的智能处理器
集微网消息(记者 乐川)“有了1M以后,天下没有了难做的终端智能处理器。”在今天寒武纪上海召开的发布会上,陈天石兴奋地指出,“而且寒武纪不吹牛!”1M是寒武纪最新一代终端IP产品,同时还发布了最新一代云端AI芯片-MLU100及搭载MLU100的云端智能处理卡。此次寒武纪具里程碑意义的新产品,树立了全球高性能芯片的全新标杆。 寒武纪第三代智能终端处理器IP 1M,树立AI芯片新标杆 寒武纪公司创始人兼CEO陈天石博士发表了主旨演讲。他回顾了了寒武纪创业的初衷,并介绍了寒武纪开放、协作、共赢的商业理念:与全球上下游的合作伙伴紧密合作,为人类迈向智能时代构建核心物质载体。 在去年,华为发布了搭载全球首款人工智能处理器麒麟970的智能手
[手机便携]
英特尔发布新一代AI处理器Habana Gaudi 2,采用7nm技术
北京时间5月10日22点,新一届英特尔On产业创新峰会开幕,本次峰会是英特尔On系列的最新峰会,致力于打造产业和技术的未来,更大化创新技术的价值。英特尔表示,本次大会汇集了来自全球商业及技术创新人士的最新思想,同时为线上和线下观众、客户提供学习新知、培养技能和拓展人脉的机会。 英特尔公司数据中心与人工智能事业部执行副总裁兼总经理Sandra Rivera在峰会开幕式上透露,公司正式推出基于7nm的AI处理器 Habana Gaudi 2。在演示环节中,英特尔表示:“客户关心的就是两件事,一个就是使用服务器的成本,第二点就是去训练模型所花的时间。Gaudi 2已经达到了非常稳定的5500个图像/每秒的吞吐量,它基于7nm技术。”
[手机便携]
权威AI榜单最新发布:平头哥玄铁RISC-V处理器获得AIoT四项第一
4月7日,全球权威基准MLPe发布榜单,在聚焦低功耗、高能效的领域nyv0.7榜单中,基于平头哥玄铁-V C906处理器的软联合优化方案,取得了全部4个指标的第一。这意味着在AIoT领域,RISC-V架构能以极低的计算代价实现定制化AI功能。 (图说:MLPerf网站截图) MLPerfTiny是目前全球IoT领域对软硬件性能和优化能力测试的权威AI榜单,包含视觉唤醒、图像分类、语音唤醒及异常监测等4个典型AI任务。今年,参与比拼的覆盖、RISC-V及自研架构等。 此次Tinyv0.7榜单中,在不使用加速器的情况下,阿里基于平头哥玄铁RISC-V C906处理器提交的软硬件性能优化结果,在满足精度要
[机器人]
三星Exynos 9810处理器将会加入AI芯片
随着高通“骁龙神经引擎”、苹果A11“Bionic”和华为麒麟970“NPU”陆续亮相,神经网络引擎已经成为手机SoC上一个新的流行概念,而未来的旗舰级SoC上也将会标配这样的规格。 近日,业内传出消息称,三星正在计划为下一代的Exynos平台加入定制的神经引擎芯片,他们向一家名为深鉴科技的中国公司投出了巨资,而这家公司专注于AI领域,其主推的产品就是深度学习处理器。 很显然,三星投资深鉴科技的目的是为Exynos 9810平台加入一颗AI协处理器,这与此前“三星Galaxy S9将支持3D扫描Face-ID”的传言不谋而合。未来的手机将会在人工智能方向上越走越远,而业界大牌三星的加入无疑会对这一进程起到重要的推动作用。
[半导体设计/制造]
小广播
最新物联网文章
换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved