芯片架构将AI推向边缘计算-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

随着机器学习应用开始出现在终端设备和物联网网络边缘，实现AI的加速器可能看起来更像FPGA和SoC模组，而不是英特尔和英伟达目前的数据中心绑定芯片（data-center-bound chip）。

人工智能和机器学习需要功能强大的芯片来从大数据集中计算答案。大多数AI芯片——包括训练和推理——都是为数据中心开发的。然而，这种趋势很快就会改变。其中很大一部分处理将发生在边缘，即网络的边缘或传感器和传感器阵列的内部或附近。

几乎可以肯定，训练将留在云端，因为对于这一大块资源的最有效产品是英伟达的GPU，它主导着这一部分市场。尽管数据中心可能会承担包含大量数据集的训练部分，但推理可能最终会交给边缘。市场预测似乎同意这一点。

Tractica公司研究主管、边缘设备AI报告的作者Aditya Kaul说：“推理硬件市场是一个新市场，但变化迅速。数据中心有一些机会，并将继续存在。基于云的数据中心AI芯片市场将继续增长。但是推理处于边缘，这里开始变得引人注目。至少有70家专业人工智能公司正在研究某种与芯片相关的人工智能技术。”

Kaul说：“在边缘，智能手机、机器人、无人机、相机、安全摄像头等所有需要AI处理的设备都将成为未来的热点。”

图1：按市场领域划分的深度学习芯片组收入。（来源：Tractica）

到2025年，基于云的AI芯片组将带来146亿美元的收入，而基于边缘的AI芯片组将带来516亿美元的收入，是数据中心的3.5倍，边缘AI芯片组主要由手机、智能音箱、无人机、AR/VR耳机，以及其他所有需要AI处理的设备组成。

虽然英伟达和英特尔现在可能主导基于数据中心的机器学习应用的市场，谁将占据远离数据中心的边缘计算AI市场？那些芯片会是什么样子？

AI边缘芯片需要做什么

根据Semico Research公司ASIC和SoC分析师Rich Wawrzyniak所言，边缘计算、物联网和消费终端设备将需要以相对较低的功耗、价格和较小芯片尺寸进行高性能推理处理。这很困难，特别是因为边缘设备处理的大多数数据是庞大的视频和音频数据。

Wawrzyniak说：“数据很多，但如果你有监控摄像头，它必须能够实时识别出坏人，而不是把一张照片发送到云端，然后等着看有没有人认出他。”

图2 （来源：Barclays Research于2018年5月的报告，由Xilinx提供）

将ML级别的智能添加到边缘设备的一些愿望来自于需要将这些设备上的数据保密，或者降低将数据发送到云端的成本。然而，大部分需求来自那些希望设备位于边缘计算设施或掌握在客户手中的客户，他们不希望设备简单地收集数据并定期将其发送到云端，以便他们可以直接与公司自己的数据或其他客户和路人进行实时交互。

NXP半导体AI技术主管Markus Levy表示：“客户意识到，他们不想把大量处理工作转移到云端，因此他们认为边缘是真正的目标。既然你可以在边缘实现AI，你就可以把物联网变成真正具有能力的东西。我们看到消费者物联网、工业物联网以及嵌入式的增长非常快，这是我们最大的增长领域。”

据IDC分析师Shane Rau称，今年接受IDC调查的商业技术客户表示，他们确定会把机器学习转移到边缘设备上，主要是汽车、智能家居、视频监控摄像头和智能手机。该公司的客户调查将这四种设备列为ML的候选设备。

边缘AI架构发展趋势

边缘计算的需求范围可能包括数亿计的工业和消费设备，因此任何单一的架构都不太可能满足所有这些需求。

NXP的Levy表示：在微控制器和相对低端的芯片上运行推理模型是可以的，但大多数机器学习功能需要从基于FPGA、ASIC和其他SoC配置的一长串可选CPU附加项，以及GPU和CPU的组合，有时还需要由Google的TPU等特殊用途的ASIC来增强。

大部分的增强都是以加速器的形式出现的。这些FPGA、SoC、ASIC和其他专用芯片旨在帮助资源受限的基于x86的设备通过一层接一层的分析标准处理大量图像或音频数据，因此app可以正确地计算和加权每个数据的值。

英特尔和英伟达已经向边缘AI市场发起冲击。Kaul说，像英伟达的Jetson这样的产品并不能令人信服。Jetson是一个GPU模块平台，具有7.5W的功率预算，只有英伟达更典型产品的70W功率的一小部分，但对于一般不超过5W的边缘应用来说还是太高了。

Levy说：“有很多IP公司正在为神经网络寻求加速，因此有足够的选择使加速器开始成为边缘设备推理的需求。”

图3：按类别划分的AI边缘设备出货量。（来源：Tractica）

但是，要想在潜在的亿万个设备上添加ML加速和支持，将需要更多的可定制性、更低的成本，以及更专门针对资源受限设备上ML应用需求的规范——这意味着，如果要取得成功，整个市场将需要更好的处理器。

神经推理需要数万亿次乘法累加运算，因为模型从其公式矩阵的一层提取数据，尽管每一层可能需要不同的数据大小，而且其中一些设备可能在输入设置为8位整数而不是16位整数时运行得更快。

Flex Logix联合创始人兼首席执行官Geoff Tate表示：“为了在数据中心获得良好的吞吐量，大多数架构依赖于必须使用相同的权重集来创建批处理的数十或数百个任务。如果你有28张图片，你加载图片，加载第一阶段的权重，对第一阶段做数学运算，保存结果，然后加载第二阶段的权重。通过在每一层上完成所有28个批次，你可以将权重加载时间缩减到一次只加载一个的1/28。如果加载和管理权重是你不擅长的，那么你可以通过批处理来解决它。这就是为什么你会看到基准测试显示第28批的运行效率低于第1批。如果加载权重的速度很慢，则难以扩展。但在数据中心之外的任何地方都必须这样做。如果你有监控摄像头，则必须在图像传入时对其进行处理，以便批大小始终等于1。如果你在测量性能，则数据中心外的批大小始终等于1。”

Flex Logix开发的神经网络引擎可以避免批处理问题。Tate说：“因为我们加载权重的速度非常快，所以我们不需要进行批处理，我们的性能在第1批和第28批时相同，这在边缘应用中非常重要。”

推理硬件方面的两项新工作

Xilinx试图利用其在FPGA和系统级设计方面的经验，推出新的产品系列和路线图，以满足尽可能多的边缘/设备市场的需求。

Xilinx在去年春天讨论了这个想法，但直到10月才正式宣布，该公司描述了一个自适应计算加速平台，该平台“利用CPU、GPU和FPGA的力量来加速一切应用”。

Xilinx的演示描述了一个广泛的产品线、使用案例列表和有关其AI引擎核心的详细信息，其目标是提供比传统方法的单位芯片面积高出3~8倍的性能，并提供高性能DSP能力。

与此同时，Flex Logix创建了一个使用低DRAM带宽的可重构神经加速器。芯片的面积和功率的目标规格将在明年上半年完成，并在下半年流片。推理引擎将充当CPU，而不仅仅是一个更大，更漂亮的加速器。它提供了模块化、可扩展的架构，旨在通过减少移动数据的需要以及通过改进数据和矩阵计算的加载方式来减少瓶颈，从而降低移动数据的时间和精力成本。

该芯片将DRAM专用于单个处理器块，而不是将其作为一个大内存池进行管理。DRAM不能同时将数据馈送到芯片的多个部分。Tate说：“将DRAM作为流入一个处理器块的大内存池处理，这是范诺依曼架构的典型特征，但它不会成为神经网络的成功架构。”

早期

Wawrzyniak表示，Xilinx，Flex Logix和其他公司蜂拥到了一个仍处于发展中的边缘推理市场，显示出市场和SoC、FPGA制造商提供良好技术以应对它们的能力的广泛信心，但这并不能保证他们能够克服安全、隐私、现状的惯性和其他无形的问题。同样，FPGA、ASIC和SoC加速ML的市场仍处于起步阶段。

Linley Group的Linley GwenNap表示，当一个新市场发展起来时，看到许多新的参与者和新方法是正常的。FPGA和ASIC供应商也在其中，因为这些技术使一家知道自己在做什么的公司能够快速生产出合理的产品。不过，标准最终将在一两年内回归，这将稳定所涉及的参与者的数量和专长，并确保与其他市场的互通性。

关键字：AI 引用地址：芯片架构将AI推向边缘计算

上一篇：全球超算500强，美国继续卫冕
下一篇：AI新贵Gyrfalcon的多款机器学习芯片

推荐阅读最新更新时间：2024-03-30 23:56

聚首泉城，广开言路，赋能AI发展

经过60余年的发展，AI在算法、算力和算料（数据）“三算”方面取得了重要突破，处于从“不能用”到“可以用”的技术拐点，但是距离“很好用”还有诸多瓶颈。而这期间也会催生新技术、新产品、新产业、新模式，引发经济结构重大变革，对未来企业的发展带来机遇与挑战。2019中德中小企业合作交流大会·AI分论坛在泉城济南成功举办。本次论坛由济南高新技术产业开发区管委会、济南市科学技术局、山东国惠安创智能物联发展有限公司主办，安创加速器（Arm Accelerator）、济南高新区齐鲁软件园发展中心承办。期间在AI分论坛上，聚焦于人工智能和物联网产业的创新创业服务平台“安创加速器”举行揭牌仪式。济南高新区管委会常务副主任寇梅、济南市科学技术

[物联网]

聚首泉城，广开言路，赋能<font color='red'>AI</font>发展

“芯痛”之下阿里苦心研发NPU AI芯片究竟哪款PU更厉害？

　　4月19日，有消息称，阿里巴巴达摩院正在研发一款神经网络芯片——Ali-NPU，主要运用于图像视频分析、机器学习等 AI 推理计算。按照设计，这款芯片性能将是目前市面上主流CPU、GPU架构 AI 芯片的10倍，而制造成本和功耗仅为一半，其性价比超过40倍。下面就随网络通信小编一起来了解一下相关内容吧。　　应用上，通过此款芯片的研发将会更好的落地在图像、视频识别、云计算等商业场景中。据阿里达摩院研究员骄旸介绍说：“CPU、GPU作为通用计算芯片，为处理线程逻辑和图形而设计，处理 AI 计算问题时功耗高，性价比低，在AI计算领域急需专用架构芯片解决上述问题。阿里巴巴此款Ali-NPU在AI领域积累了大量算法模型优势，以最小成本

[网络通信]

智己汽车上海车展发布AI4M智能战略

4月18日，智己汽车于上海车展首日正式发布“AI4M智能战略”，通过“软硬件架构”、“大规模智能算法”和“智能场景体验”三大支点，将AI变革的巨力聚向“忠于用户出行”。同时，智己汽车的VMC中央协调运动控制器、全Linux内核舱驾融合系统、D.L.P 人工智能模型等领先智能科技将在未来2到3年内通过四款车型，大规模量产上车。据介绍，AI4M智能战略的意义在于，规划了明确的智能场景设计和实践目标。例如，AI赋能的汽车将获得全场景感知智能，实现窄路循迹原路返回、精准贴边停车等老司机都难以做到的精准行为。再例如，“驾舱融合影像”功能，将帮助驾驶者无死角消除A柱盲区、侧盲区，提供后视影像等，彻底解决视角盲区痛点。为

[汽车电子]

智己汽车上海车展发布<font color='red'>AI</font>4M智能战略

人工智能如何通过更好地倾听来改变客户体验

近年来，人工智能在人类语言处理中的应用有了重大突破。例如OpenAI公司开发了一种革命性的人工智能模型，可以阅读、理解和书写，几乎与人类的能力水平相当。该公司是一家由伊隆·马斯克提供支持的非盈利研究机构。 OpenAI公司认为这一技术突破很可能带来更大的风险，以至于没有共享这一技术的代码，而是发布了限量版本。在此将深入探讨这一里程碑的发展，并介绍企业在利用人工智能驱动的自然语言处理方面的进展。是什么使这一突破如此显著（并且可能具有危险性）？ OpenAI公司通过从互联网上800万页资料来训练大规模语言模型，然后该模型使用这种学习来生成给定句子中的下一个单词。然而，令研究人员感到惊讶的是，它如此熟练，以至于它可以在只有一个主句

[机器人]

人工智能电视的选择，智能和智障往往只有一步之遥

“智能”一词，是近年来被提及最多的词汇，无论是对于产品还是对各个行业，无不透漏着这已经是人工智能的时代了。当然，“智能”也为我们的生活带来了诸多便利。而与我们的日常生活紧密相关的家电产品当然也不例外，乘着“智能”风，推陈出新的带来了更优秀更有品质的产品。就拿我们家中离不开的电视来说吧，过去我们只能看一些卫视，电视台等节目。而如今不同了，电视有了更多的功能，不仅可以看电影，追溯失去的光阴，而且还能够智能操控，不用动手调台一键语音即可观看，可见是十分的方便。根据2018年以及2019年前三个月主要电视厂商的新品发布来看，未来电视将朝着更智能、更大屏、更高端、更具差异化的方向发展，人工智能电视的时代已然到来。然而现如今

[嵌入式]

<font color='red'>人工智能</font>电视的选择，智能和智障往往只有一步之遥

以工业界思维破解AI落地场景碎片化难题

AI从前两年的概念泛起，如今正逐渐走向落地应用阶段，然而，从厂商和用户的普遍反馈来看，人工智能在安防领域的落地应用似乎并没有大众想象中的顺利，开始有越来越多诸如场景碎片化、应用成本高、实验室场景到实际应用场景效果差距较大等问题被暴露出来，而这些也成为当前阶段AI落地应用过程中新的痛点。其中，对于产品和解决方案提供商而言，AI应用场景的碎片化更成为工程项目亟待解决的问题。 AI作为一种应用技术，有通用型市场，也有垂直市场。第一种情况下诞生了AI＋行业的第一批人工智能公司；当AI通用技术从普及到往行业深扎的过程中，会出现行业＋AI的第二批人工智能公司。在跟场景数据强相关的市场上，必然会出现垂直型的行业＋AI公司。 AI技术下沉激发

[机器人]

康泰瑞影参与深度学习研究联盟获得政府资助

瑞典斯德哥尔摩——2017年4月10日——康泰瑞影是一家专注于图像分析和人工智能的医疗技术公司。近日，由康泰瑞影参与组成的一个深度学习研究联盟已获得500 000瑞典克朗的资助，由瑞典政府专门资助创新机构的瑞典创新局提供。该项目用于评估深度学习能否提供较目测检验更为准确、更为可靠的图像分析结果。研究重点是明确界定的癌症患者群体，并为该群体提供治疗前后以及随访时的PET/CT图像。联盟包括两家知名机构：瑞典皇家理工学院和卡罗林斯卡学院；以及两个商业合作伙伴，其中就包括康泰瑞影。康泰瑞影的首席执行官Anita Tollstadius称：“这是一群非常杰出的并具有高超研究技能的研究人员。我们以被选为该项目的密切研究合作伙伴

[医疗电子]

豪威集团在AutoSens展会上首次推出人工智能专用集成电路

豪威集团在AutoSens展会上首次推出人工智能专用集成电路OAX4600——可同时用于驾驶员/乘员监控系统的耐用且高度集成的ISP和NPU OAX4600 可实现无缝隙的驾驶员/乘员监控系统功能和灵活的汽车设计，在较小的封装内集成低功耗的RGB-IR ISP和两个NPU 加利福尼亚，圣克拉拉 – 2022年5月4日 – 豪威集团，全球排名前列的先进数字成像、模拟、触屏和显示技术等半导体解决方案开发商，当日发布用于汽车行业的高级人工智能专用集成电路（ASIC），该产品能以无缝方式同时为专用的驾驶员/乘员监控系统（DMS/OMS）供电。该产品采用晶片堆叠架构提供集成的RGB-IR图像信号处理（ISP），在单个低

[汽车电子]