AI芯片即将被颠覆？效率比CPU高100倍，功耗比GPU低1000倍-电子工程世界

上世纪，一个名为“skunkworks”的项目构建了一个工程工作站，它的算力在当时非常出色，但为了驱动这个大家伙，处理器和主板都依赖着复杂的水冷系统散热。巧合的是，这一散热系统发生了故障，最终计算机内部完全被熔化。

现在，随着通用算力诸如GPU需求增加，加之每年部署的边缘设备越来越多，更多人开始关注计算的能源需求和散热。也就是说，谁能在更低功耗释放更多算力，就能赢得未来。

这两天，国外一家芯片初创公司Efficient Computer脱离“隐身模式”，并推出一款可重新配置的数据流处理器架构（Reconfigurable Dataflow Processor Architecture）的处理器——即Fabric架构。

根据该公司的介绍，其Fabric架构的效率比市场上领先的通用CPU高出100倍，功耗比GPU低1000倍，标志着通用边缘计算新时代开始了，解锁了以前因能源限制而受到限制的广泛应用。

事实上，可重构芯片是一个早被关注的芯片路线，不仅备受魏少军等专家青睐，国内也有产品已经面世。

颠覆市场的芯片架构

根据外网透露，Efficient的Fabric架构是在卡内基梅隆大学七年多的研究中开发的，目前已经拥有了首款名为Monza的测试芯片，但该公司尚未透露基于Fabric架构的芯片的实际性能数据。

不过可以肯定的是，这种架构下的处理器，性能不是一般的强劲——即上文所述的效率比市场上领先的通用CPU高出100倍和比GPU低1000倍的功耗，能效比则比市场上领先的通用CPU高出100倍。

也就是说，它不仅能够实现更低的运营成本，还能消除边缘计算的能量障碍，整个数字芯片的市场逻辑都会被颠覆。

所以，可重构处理器架构究竟是何方神圣，为什么能这么强大？

根据Efficient的介绍，传统通用处理器能够处理几乎所有可能的工作负载，甚至可以与几十年前发布的软件向后兼容，这大大增加了它们的复杂性，最终增加了功耗。

这些处理器过度的通用性，导致大量精力花在不必要的内部数据移动和指令控制开销上，

可重构架构顾名思义就是能够重新配置的数据流处理器架构，专为特定用例量身定制，可在其“计算结构”上并行执行经过特殊优化的代码。特别是在低功耗嵌入式和边缘计算中，并且需要支持通用编程语言的专有软件堆栈（编译器）。

运行原理可以解释为，来CPU资源通过软件针对特定工作负载进行调整，大大提高效率。同时，Efficient称Fabric可以处理通用数据处理计算、数据分析，并用于AI和ML，这表明Efficient正在处理一个固有的并行架构。

Efficient的软件堆栈支持主要的嵌入式语言，因此实际应用程序的开发人员将能够快速地重新编译结构架构的代码。但对这种架构来说，重新编译软件是必须的，因此软件兼容性将是可重构处理器的局限。

目前，Efficient Computer已获得Eclipse领投的1600万美元种子轮投资，Eclipse是一家风险投资公司，曾为Cerebras、FlexLogix和Tenstorrent提供资金。

可重构芯片，不是FPGA

原清华大学微电子所所长、IEEE Fellow魏少军，是第一代可重构计算架构的缔造者。

“动态可重构芯片很多时候被误解成FPGA。不仅在国内，在国际上也是如此。”魏少军曾在论文中写道，根据介绍，早在20世纪60年代初，可重构概念就已经被提出，经过将近60年时间，可重构问题才真正意义得到突破，说明该技术难度非常高。

所谓可重构，可分为静态重构和动态重构，最典型的具有静态重构特征的可重构计算芯片是FPGA，而本文所介绍的重点是“可重构”是动态重构架构的处理器，因此统称“可重构芯片”。

人们熟悉的CPU、DSP硬件可编程性弱，软件可编程性强；ASIC、SoC软件和硬件可编程性都弱；FPGA、EPLD硬件可编程性强，但软件可编程性弱。

可重构芯片则不仅软件可编程，还要硬件可编程，有时称为RCP或CGRA等，其特点是：软件硬件都可以编程、混合粒度、芯片的硬件功能随软件的变化而变化，应用改变软件、软件再改变硬件。此外，可重构芯片与CPU等处理器有很多类似的地方，开发者不需要底层芯片设计知识。

总结起来，可重构芯片与传统芯片预期特点和潜在能力可总结为：

软硬件可编程；
硬件架构的动态可变性及高效的架构变换能力；
兼具高计算效率和高能量效率；
本征安全性；
应用简便性，不需要芯片设计的知识和能力；
软件定义芯片，也就是说它是一种“通用的专用芯片”，既具备了通用性又具备了专用性；
实现智能的能力，比喻来说就是芯片使用过程通过“教育”不断地自我“学习”并改进。

动态可重构芯片的属性分类，图源｜科技导报

那么问题来了，既然有FPGA，也有ASIC，我们为什么要再花大力气研究可重构芯片？

事实上，随着集成电路工艺技术进步到14nm， ASIC综合成本高达1.5～2亿美元，通常要销售 3000万颗以上，才能将研发成本合理地摊销到每颗芯片上，但ASIC本身以多品种、小批量为特色，销量很难得到保障。而FPGA相比ASIC，没有能量效率和计算效率优势。

可重构芯片就是解决上述问题应运而生的方案。论文中介绍：“设想一下，如果只生产一种‘通用’的芯片，其功能可以通过软件改变，当不同的软件写入就变成了‘专用’的芯片。这将是非常理想的情况。如果这个想法能实现，可以认为软件定义芯片就成为了现实。”

可重构芯片的基本架构仍然采用专用集成电路基本架构，不一样的是，控制单元变成了通用的控制单元，通用数据通道是一个克根据需要自行定义的二位处理单元（PE）阵列，既可以同构，也可以异构，采用数据驱动方式运行。

可重构芯片的基本架构，图源｜科技导报

当然，世界上没有那么十全十美的事情。可重构芯片的开销明显，例如，在DISC II系统中，25~71%执行时间花费在重构上，在UCLAATR中重构时间达到了98.5%。

此外，它的编程复杂度较高，传统CPU使用Java、C/C++等成熟编程语言，可重构计算则需要对硬件进行编程，通常使用硬件编程语言（如Verilog、VHDL等），这些语言很难掌握。

更重要的是，制程工艺跟随摩尔定律每两年更新一次，架构更新带来的性能提升不如工艺更新来得直接，可重构芯片的核心技术又太多了（配置信息量大幅减少及“隐式配置-数据驱动”技术、配置信息高效加载及相关性感知缓存及轮摆式加载技术、高效阵列架构及控制密集型任务并行化方法、时域空域协同映射技术），所以这么多年，可重构计算几乎被埋没在历史中。

中国已有产品开始面世

发展可重构计算，就是布局未来。而中国一直在可重构芯片上不断探索。十多年前，我国学者就敏锐地意识到可重构计算技术的巨大潜力，并在八六三计划重点课题及国家科技重大专项的支持下，进行了长期的研究，取得了一系列具有重要国际影响力的研究成果。

2015年4月，清华大学与英特尔进行过合作，以英特尔的处理器架构（Intel Architecture）和清华大学的可重构计算（Reconfigurable Computing）构建新型计算硬件和软件研发，

2018年1月24日， MIT Technology Review专题报道了可重构芯片的研究成果，认为该技术能动态调整计算和内存参数来满足实时 AI 软件的不同需求，是中国取得的一个“Crowning Achievement”，是中国大陆的半导体技术成果近5年来第二次被《MIT Technology Review》报道，成果得到了国际同行的高度认可。

现在，中国已经开始涌现诸少量公司和产品。

清微智能

清微智能是国内可重构计算（CGRA）商业化走得比较快的企业，于2018年7月成立，由清华大学微电子学研究所的魏少军教授及尹首一教授领衔，全球首家也是出货量最大的可重构计算芯片商用企业。这家公司的主要思路是将产品推向云端训推一体、边端自动驾驶、安防监控等智能计算场景。

虽然在2018年才正式成立，不过魏少军教授和尹首一教授的带领的团队在2016年和2017年就分别推出了Thinker-I、Thinker-Ⅱ及Thinker-S等基于CGRA结构的加速器芯片。

2019年，量产首颗芯片TX210，可以应用于智能手机、可穿戴智能设备、小家电、大家电、玩具、车载等场景数百万颗的销量不仅第一次用市场证明了可重构计算的商业价值，而且使智能穿戴设备的芯片设计理念发生了巨大改变。

在语音芯片上旗开得胜后，清微智能又推出全球首款可重构多模态智能计算芯片TX510，为IoT设备的超低功耗视觉处理芯片。

不止如此，清华大学集成电路学院尹首一教授、魏少军教授团队在ISSCC 2022上，提出可兼顾能效、精度和灵活性的AI芯片新范式，可重构数字存算一体架构，并设计出国际首款面向通用云端高算力场景的存算一体AI芯片ReDCIM（Reconfigurable Digital CIM）。

ReDCIM芯片使用TSMC 28nm工艺成功流片，首次在存算一体架构上支持高精度浮点与整数计算，满足云端AI推理和训练等各种任务需求。

鲲云科技

鲲云科技的思路是将可重构计算用在大算力需求巨大的数据中心内，即现在爆火的AI芯片，该公司成立于2017年。

2020年，可重构数据流AI芯片企业深鲲云科技正式发布全球首款可重构数据流架构AI芯片 CAISA，相比国际同类产品在芯片利用率指标上实现数量级提升，芯片利用率最高可达95.4%。

鲲云科技推出的基于CAISA芯片的系列算力产品已服务中国移动、中国联通、中国电信、中国铁塔、浪潮集团、中控技术等700多家信息化企业，所交付的算力产品支撑客户在石化、矿山、电力、城市生命线等20多个行业、数千个数字化项目稳定交付。

该公司日前完成完成数亿元C轮融资，此轮融资由普罗资本领投，鼎晖百孚、联通旗下联创基金、张科垚坤基金、钟楼金控集团跟投，主要用于支持下一代可重构数据流CAISA AI芯片的研发和规模落地。

AI芯片作为人工智能时代的基础设施与核心动能，重要性日益凸显。该公司的目标是利用 CAISA架构创新让更多客户用上性能更高、更便宜、更好用的AI芯片。

千芯科技

千芯科技是把时下两个热门概念融合在一起的的公司，布局可重构存算AI芯片，即可重构计算+存算一体，该公司成立于2019年。

如今，千芯科技第一代可重构存算AI芯片已通过互联网大客户验证，并进入互联网大客户的供应商名录，也在逐渐与做自动驾驶的厂商沟通，以IP形式授权核心技术。

澜起科技

去年1月，澜起科技发布了第四代津逮CPU。

虽然CPU部分是英特尔的第四代至强可扩展处理器，不过在其CPU内部还有另一个与清华大学合作的安全模块，该安全模块为可重构计算安全检测模块，也就是说CPU的另一部分由国内完成设计。

媒体也曾评价，Chiplet技术的出现允许我们在“造芯片”的时候由浅入深地提高芯片内部使用的“国产成分”比例。

AI市场，或将被颠覆

可以说，可重构计算芯片对于现在爆火的AIGC来说，至关重要。

随着现行半导体工艺线宽逼近物理极限，依靠工艺技术获得集成电路性能和功耗的改善越来越困难。通过架构创新延续摩尔定律，并持续在性能、功耗和成本上获得收益成为当前国际研究的热点。

2015年，国际半导体技术发展路线图（ITRS）认为，粗颗粒度可重构架构（CGRA）是未来最有发展前途的新兴计算架构之一。

无独有偶，美国DARPA提出的电子振兴计划就把架构创新作为三个重点研究方向之一。

但一颗芯片，在进入商业化的市场时，不仅要面对客户的各种考验，还要具备更好的性价比。反观目前市场，玩家数量较为稀少，技术成熟度还远未达到理想程度。

不过，在摩尔定律愈加放缓的现如今，改善结构这一条路，愈发明亮。可见这一赛道或许在AI芯片需求暴增的现在，呈现即将爆发的态势。

关键字：AI芯片可重构计算引用地址：AI芯片即将被颠覆？效率比CPU高100倍，功耗比GPU低1000倍

上一篇：消息称英特尔 Lunar Lake 处理器 17W 下多核性能相比 15W Meteor Lake-U 提升 50%
下一篇：龙芯2K3000计划上半年交付流片：内置自研GPGPU LG200

推荐阅读最新更新时间：2024-11-13 09:23

英特尔完成收购Mobileye，英伟达的自动驾驶优势还明显吗？

前不久，英特尔终于完成了对Mobileye的收购，共计153亿美元的价格，是英特尔在自动驾驶领域的一场豪赌。整个2016年，Mobileye的营收为3.5816亿美元，而英特尔能够花费40多倍的溢价率收购，足以可见其势必要争夺更多自动驾驶话语权的野心。但是，同样作为自动驾驶领域芯片提供商的英伟达能答应吗？除了收购，英特尔还在拉帮结派斥资豪赌的英特尔，在完成对Mobileye的收购之后，就开始“动作”不断。首先是宣布将要组建一支高度自动驾驶（SAE L4级别）的车队，在今年年底上路测试，测试地区包括美国、以色列和欧洲，车队规模将达到100辆，并且将融合多个品牌的车型。接着英

[嵌入式]

SK海力士和韩科院合作，利用AI技术改善芯片制造过程

韩国时报消息，SK海力士12日表示，已与世界顶级的理工大学韩国科学技术院（KAIST）建立合作关系，将利用人工智能技术改善芯片制造过程。根据谅解备忘录，SK海力士将通过云计算将半导体制造过程中产生的数据实时提供给韩科院，韩科院将利用AI技术分析数据，帮助推动芯片制造过程的发展。 SK海力士表示，今年3月在其总部推出了云计算系统，为使韩科院能够存储提供的数据，公司还在该院校的大田校区和Seongnam-KAIST下一代ICT研究中心设立了安全数据存储处。 SK海力士一直在加强与韩国高等院校的合作关系，进一步提高其在半导体行业的能力。公司高管表示，预计这次合作将有助于加速芯片制造技术的发展。公司已建立了一个系统，可以立即将大学开发的

[手机便携]

光子芯片横空出世，28岁MIT中国青年科学家直取AI算力霸业

英国牛津大学在 2017 年发表了用于计算的光子芯片的研发成果，其研究人员使用了特殊的相变材料与集成光路，模拟人脑的神经突触作用，设计“光子突触”，其理论运行速度是人脑的千倍。　　实际上，麻省理工学院的研究团队与合作研究者也有类似的发现，他们在更早的 2016 年提出了使用光子代替电子为理论基础的计算芯片架构，由于光和透镜的交互作用过程本身就是一种复杂的计算：傅立叶变换——利用这个原理，并使用多光束干涉技术，就可让相关系寻反应所需要的计算结果。而这种芯片架构就被该研究团队称为可程序设计纳米光子处理器。　　2017 年 6 月，麻省理工学院研究团队针对可程序设计纳米光子处理器提出了一份论文，并且发表在《自然-光子

[半导体设计/制造]

索尼发布SRS-XB402M智能音箱，内置联发科AI芯片方案

由于智能家居市场规模的不断扩大，加之人工智能技术的普及，越来越多的科技企业包括谷歌、亚马逊、索尼、阿里等巨头纷纷布局智能音箱行业。其中索尼拥有多年的音频基因优势，最新发布的SRS-XB402M智能音箱是索尼首款支持亚马逊Alexa语音助手，同时还毫不意外的携手了“AI芯片大户”联发科，一推出即受到市场高度关注。内置联发科AI芯片的索尼SRS-XB402M智能音箱（图/网络）索尼这款SRS-XB402M智能音箱备受关注的原因则在于其是第一款提供内置Alexa语音助手的智能设备，据悉为了让其表现更具竞争力，索尼和联发科多年深度合作，将AI芯片方案做到定制级。实际上联发科和索尼的合作向来已久，此前在智能电视领域联

[嵌入式]

索尼发布SRS-XB402M智能音箱，内置联发科<font color='red'>AI</font><font color='red'>芯片</font>方案

美国突然升级AI芯片出口禁令，英伟达、ASML、壁仞科技、摩尔线程回应

据外媒报道，美国当地时间10⽉17⽇，拜登政府表示，将计划停止向中国出口由英伟达等公司设计的更先进的AI芯⽚，并将更⼴泛的先进芯片和芯片制造工具限制扩大到更多国家，包括伊朗和俄罗斯在内的40多个国家。此外，新措施可能“至少每年”更新⼀次。预计新规将在向公众征求30天意见后生效。英伟达回应新禁令对此，10月17日晚，英伟达（NVIDIA）总部发言人在一份声明中表示：我们在遵守所有适用法规的同时，致力于提供支持多个不同行业的成千上万种应用程序的产品。考虑到全球对我们产品的需求，我们不预期（这一措施）在短期内对我们的财务结果产生重大影响。此前，为了不违反美国对华出口限制的规定，英伟达、英特尔等AI巨头都通过自己的方式，为

[半导体设计/制造]

美国突然升级<font color='red'>AI</font><font color='red'>芯片</font>出口禁令，英伟达、ASML、壁仞科技、摩尔线程回应

AI进化论：由技术驱动到商业驱动，逆向创新深入上游芯片

到底是人类驯服了小麦还是小麦驯服了人类？在AI技术发展和商业落地两者的关系上，如今也呈现出同样的状态。李开复上周在世界人工智能大会上指出，过去几年来AI有一个特别大的转型，即从技术驱动变成商业驱动，其产业化和商业化速度越来越快，而AI创业已经从“AI+”推进到“+AI”时代。两者的区别在于，前者是以AI技术（AI工程师、科学家）为核心来寻找商业机会；后者是针对传统应用去产生价值，从而一定程度反过来影响上游技术的发展路径。在更上游的AI芯片领域，情况同样如此。“无芯片，不AI”已成为业界共识。市场调研公司Tractica的报告则显示，AI芯片的市场规模将由2018年的51亿美元增长到2025年的726亿美元，年均复合增长率达46

[手机便携]

Jefferies：NVIDIA终将掌控AI芯片市场八成利润

CNBC 23日报导，Jefferies 半导体分析师Mark Lipacis重申NVIDIA Corporation投资评等为“买进”、目标价自180美元调高至230美元。Lipacis预期NVIDIA 人工智慧 (AI)应用晶片“Volta”未来18-24个月的销售成绩将优于市场预期，2019会计年度(2018年2月起) 每股盈余预估将达4.12美元、高于华尔街目前预期的4.00美元。NVIDIA是在5月10日发表Volta。FactSet统计显示截至上周五(10月20日)为止这家公司股价的12个月累计涨幅达192%、高居标准普尔500指数成分股之冠。 Lipacis预期NVIDIA最终将掌控AI晶片市场八成利润。他提到，

[半导体设计/制造]

人工智能芯片到底有何不同？

　　2018年1月9日，全球规模最大的2018北美消费电子产品展在美国拉斯维加斯拉开帷幕。本次参展的科技企业超过4000家，包括高通、英伟达、英特尔、LG、IBM、百度在内的业界科技巨头纷纷发布了各自最新的人工智能芯片产品和战略，作为本届展会的最大看点，人工智能芯片产品无疑受到了最为广泛的关注。　　与CPU比较，人工智能芯片有何不同？　　2017年，当AlphaGo在围棋大战中完胜柯洁后，各大媒体对人工智能的讨论就不绝于耳，甚至有人担心机器会具备自主思维，终有一天会像电影《终结者》中的场景一样对人类造成生存威胁。不管这种危机是否存在，但必须认识到人工智能芯片在架构和功能特点上与传统的CPU是有着非常大的区别。　　传统的CPU

[嵌入式]

热门资源推荐
热门放大器推荐

小广播