AI芯片架构的争论真有意义吗？-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

雷锋网按：本文来源 StarryHeavensAbove，作者：唐杉，雷锋网授权转载.

做了这么多年芯片，像AI芯片这样备受关注的情况还是第一次看到。这段时间随着Volta和TPU2的发布，“GPU好还是TPU好”的争论又热了起来，也有很多断言性的结论。这样的争论真的有意义吗？

我们先看一张图，它来自RIT的Shaaban教授的计算机体系结构课程，比较各种computing elements。其中，他把GPU，DSP归为ASP，TPU大概的位置是Co-processor这一类。FPGA则是一种Configurable Hardware。

实际上，今天大家吵的厉害的CPU，GPU，DSP，TPU（第一代采用脉动阵列架构），FPGA这些架构并不新鲜，都是体系结构领域研究多年的内容。除了GPP（General Purpose Processors，通用处理器，或者我们一般意义上说的CPU），这些架构的发明，往往是针对特定应用或者特殊目标的。从这些架构在图中的分布可以看出，每个架构都是Trade-off的结果，Computational Efficiency的提高是以牺Programmability/Flexibility为代价的。

具体到AI应用，是不是可以说TPU就比GPU好，或者反之呢？

我们不妨再来看另一张图，它来自International Business Strategies, Inc. (IBS)2014年发布的报告 "Strategies in Optimizing Market Positions for Semiconductor Vendors Based on IP Leverage"。它说明的是在主流的芯片设计中，随着工艺节点的演进，设计成本变化的趋势和分布（不包括生产成本）。

从这里不难看出，我们在一个芯片项目中各个任务需要的投入（cost）。显然，其中最大的部分是Software，Verification和Validation。而Architecture设计只占其中的很小一部分。这个比例和目前大多数芯片厂商的人员配置也是基本相符的。形成这种趋势，是因为现在的芯片往往只是一个复杂系统中的一部分。芯片设计厂商（或者方案商）提供给客户的已经远远不止芯片本身，而是一套完整的软硬件解决方案。Nvidia在Deep learning上的巨大成功，是归功于它的芯片底层硬件架构，还是它完善的软硬件生态呢？当然是后者。Google之所以敢于和能够自己设计TPU芯片，是和Tensorflow布局和以及data center方面的经验分不开的。绝大多数deep learning用户看到的是Tensorflow（或者其它训练框架）和CUDA，而不是底层硬件（只要硬件别太昂贵）。

由于目前的计算系统，比如说Deep Learning的系统，是一个相当复杂的软硬件系统。要公平的对比不同的芯片硬件架构反映到最终应用层面上的优劣，是一件非常困难的事情。从不同的角度或者立场出发，大家可能会看到完全不同的结果。此处想起前段时间的段子，“89);">拳击跟太极谈实战，太极跟拳击谈历史；空手道跟太极谈实战，太极跟空手道谈武德；柔术跟太极谈实战，太极跟柔术谈观赏；泰拳跟太极谈实战，太极跟泰拳谈养生；瑜伽跟太极谈养生，太极‘来，我们谈谈实战。’ ”真不是黑太极，不过如果大家可以直接“对战”，也就没有打嘴仗的必要了。

决定我们的AI芯片是否成功的因素到底是什么？仅仅是因为你选择了Nvidia GPU采用的硬件架构或者是Google TPU的脉动阵列架构吗？还是你发明了一种新的架构？当然不是。架构的选择和设计应该服务于整个系统和项目，需要对很多因素做Trade-off和Optimiztion。从技术角度来看，如果把一个芯片应用分成，算法/软件，硬件架构，电路实现，几个从高到低的基本层次。那么高层次上的优化，对于整个系统的效果往往比低层次高一个数量级。（当然，这是个一般经验，针对不同类型的项目会有一定差异）

很多时候，这种Trade-off甚至都不是技术本身的问题。比如，Google在芯片设计上的实力和Nvidia相比相差很远，从硬件相对简单的脉动阵列做起就是个比较自然的选择。而在Google TPU的论文里也明确提到，由于项目时间比较紧，很多优化也只能放弃（Google TPU 揭密）。

“Under The Hood Of Google’s TPU2 Machine Learning Clusters”，这篇文章对Google TPU2现有的信息做了非常深入的分析，作者从Google提供的仅有的几张照片中发掘出大量信息（建议大家点击本文最后的查看原文好好看看）。其中有这样的描述：

“This tight coupling of TPU2 accelerators to processors is much different than the 4:1 to 6:1 ratios typical for GPU accelerators in deep learning training tasks. The low 2:1 ratio suggests that Google kept the design philosophy used in the original TPU: “the TPU is closer in spirit to an FPU (floating-point unit) coprocessor than it is to a GPU.” The processor is still doing a lot of work in Google’s TPU2 architecture, but it is offloading all its matrix math to the TPU2.”

也就是说TPU2和GPU相比，它更像是coprocessor，需要更多的依赖CPU这样的通用处理器。这也是Google的Trade-off之一。从这篇文章还可以看出，Goolge在Data center领域的经验，让它可以用很多板级设计和系统级设计优化来弥补芯片设计能力的欠缺。

另一方面，硬件架构是取得竞争优势的门槛吗？

还是那句话，体系结构的研究已经很成熟了，创新很难，想做别人做不了的东西基本不可能。Nvidia最新的GPU中，增加了Tensor Core（Nvidia Volta - 架构看点），而在面向自动驾驶的Xavier SoC中，设计了专门的硬件加速器DLA（Deep Learning Accelerator）（从Nvidia开源深度学习加速器说起）。Google TPU2中为了同时实现training（第一代TPU只支持inference），增加了对浮点数的支持。虽然目前看不到细节，但可以猜想它的架构也相对第一代TPU的简单的脉动阵列（脉动阵列 - 因Google TPU获得新生）做了很大改进。可以看出，在口水战的同时，他们也在相互借鉴对方的优势。而对于一个成熟团队来说，硬件架构上的改进并不是很大的困难。更大的风险在于硬件架构的改动对软硬件生态的影响（又是一个trad-off）。

“Under The Hood Of Google’s TPU2 Machine Learning Clusters”，这篇文章最后这样说：

“There is not enough information yet about Google’s TPU2 stamp behavior to reliably compare it to merchant accelerator products like Nvidia’s new “Volta” generation. The architectures are simply too different to compare without benchmarking both architectures on the same task. Comparing peak FP16 performance is like comparing the performance of two PCs with different processor, memory, storage, and graphics options based solely on the frequency of the processor.”
“That said, we believe the real contest is not at the chip level. The challenge is scaling out compute accelerators to exascale proportions. Nvidia is taking its first steps with NVLink and pursuing greater accelerator independence from the processor. Nvidia is growing its software infrastructure and workload base up from single GPUs to clusters of GPUs.”
“Google chose to scale out its original TPU as a coprocessor directly linked to a processor. The TPU2 can also scale out as a direct 2:1 accelerator for processors. However, the TPU2 hyper-mesh programming model doesn’t appear to have a workload that can scale well. Yet. Google is looking for third-party help to find workloads that scale with TPU2 architecture.”

对于Data center的training和inference系统来说，竞争已经不是在单一芯片的层面了，而是看能否扩展到exascale的问题（exaFLOPS，10的18次方）。而和TPU2的同时发布TensorFlow Research Cloud (TFRC)，对于发展TPU2的应用和生态，才是更为关键的动作。大家可以顺便看看这次Google展示的板级和机架的照片。

对于一个AI芯片项目来说，考虑整个软硬件生态，要比底层硬件架构的设计重要的多。最终给用户提供一个好用的解决方案，才是王道。

而对于看热闹的我们，也许站的远一点，可以看到更多有价值的东西，争论也才更有意义。

关键字：AI 架构引用地址：AI芯片架构的争论真有意义吗？

上一篇：ARM最强CPU/GPU来了！A75、G72首发
下一篇：英特尔从数据着手,构建更加沉浸式、个性化的智能互联世界

推荐阅读最新更新时间：2024-05-03 01:13

Word将集成微软“Ideas”：用AI来辅助写作

去年，微软将人工智能加入PowerPoint 的想法，这是一种建议改进演示文稿的工具。现在，微软正在将Ideas改编为Microsoft Word，提供创意来增强您的写作能力。虽然Word已经纠正了拼写错误的单词，并对语法提出了一些修改建议，但它的思想还要更进一步。该服务不仅总结了单词长度以及阅读文档所需的时间，而且还更贴近您的语言，并在适当时提出更合适的单词。其创意还会考虑您的语言来确保其性别包容性。最近，微软在西雅图的微软Build开发者展示会上宣布了这一改变。 Word Ideas总结了文档并改进了语言 Ideas还将继续发展，Office如何利用人工智能和协作进一步改进。不久前，Office文档缺乏对OneD

[机器人]

宝马无人驾驶园区曝光，你可以为所欲为

据Engadget报道，宝马汽车公司无人驾驶资深专家德里克·维塞尔曼（Dirk Wisselmann）告诉我（本文作者罗伯特·鲍德温（Roberto Baldwin）），该公司首款自动化水平达到三级的无人驾驶汽车将具备4级或5级高速公路无人驾驶的技术能力。他说：“我们可以创建一个软件更新(用于汽车)，并通知我们的司机：‘我们对这条路非常有信心，我们确信什么事也不会发生。如果你想睡觉，你可以睡觉。’我们的想法是，现在必须开发一款高度复杂的汽车。” 我们坐在这家汽车制造商的最新研究中心，这里专门用于研发那种高度复杂的汽车。或者在宝马的案例中，需要研发两辆车。其中一款是全电动、自动化水平三级的汽车，它将向公众出售。在

[嵌入式]

美媒：对人工智能挑战，中国人最为乐观

根据一份调查报告，中国人对未来科技和就业前景持最积极的态度，65％受访者说像人工智能和机器人技术这类创新将在今后5到10年里创造出（更多）就业机会。中国人对就业前景的乐观态度远超全球平均值——全球顶尖传播集团电通安吉斯对10个国家的2万人进行的调查显示，平均只有29％的人认可新兴技术将创造新就业机会。英国和德国人是所有国家中最悲观的，只有18％的人认为新兴技术会提供就业机会。美国人稍乐观，23％的人持此观点。中国正为明日科技投入巨资。去年中国发布规划，要在2030年达到人工智能领域的世界领先水平，相关产业市场规模将达1万亿元。今年1月中国表示要打造投资21亿美元能容纳400家科技企业的人工智能产业园区。报告称，中国企业雇主在

[机器人]

「卓视智通」完成数千万Pre-B+融资，AI视觉大模型突围

我国智能交通产业发展迅猛，预计2025年规模将达万亿级。在传感器、通信、云计算等多项关键技术加速迭代的背景下，计算机视觉技术正处于机遇与挑战并存的关口。谁能够突破算法技术瓶颈，实现交通场景的精确智能感知，就能抢占这个万亿级蓝海。近日，作为我国较早布局计算机视觉技术产业化应用的企业，卓视智通宣布完成数千万元Pre-B+轮融资。据悉，本轮融资由中交资本、腾飞资本联合投资，资金将主要用于市场拓展、AI打磨新等技术研发、AI训练平台建设，以及智能制造生产基地的升级扩容。 2012年成立的卓视智通，算得上中国计算机视觉领域的“老将军”。十余年，公司经历了从技术积累到商业化应用的蜕变，人工智能技术也完成了从传统模式识别，到深度学习，再到

[机器人]

联想刘军首次全方位展示新IT架构：基于AI 装备精良

4月20日，联想中国区在深圳举办以“一起联想全栈出击”为主题的新财年大客户合作伙伴大会。会上，联想集团执行副总裁兼中国区总裁刘军回顾和总结了过去面临的处境和打下的成绩，并期待以全新升级的新IT全栈产品、方案和服务策略应对新挑战、冲击新目标。联想集团执行副总裁、中国区总裁刘军刘军表示，联想前瞻性地判断出了中国智能化转型的趋势，坚定实施以客户为中心转型和3S转型变革，从而率先构建了基于“端-边-云-网-智”新IT技术架构的3S全栈能力，打造了强大的智能IT引擎“擎天” 。过去三年，面对多变的疫情走势，波动的汇率，放缓的经济，疲弱的市场，复杂的国际形势等前所未有的挑战，联想依然能迎难而上、韧性成长：联想集团整体营

[家用电子]

联想刘军首次全方位展示新IT<font color='red'>架构</font>：基于<font color='red'>AI</font> 装备精良

嵌入式系统架构：RISC家族之PowerPC　

　　PowerPC是一种RISC多发射体系结构。二十世纪九十年代，IBM（国际商用机器公司）、Apple（苹果公司）和Motorola（摩托罗拉）公司开发PowerPC芯片成功，并制造出基于PowerPC的多处理器计算机。PowerPC架构的特点是可伸缩性好、方便灵活。第一代PowerPC采用0.6微米的生产工艺，晶体管的集成度达到单芯片300万个。Motorola公司将PowerPC内核设计到SOC芯片之中，形成了Power QUICC（Quad Integrated Communications Controller），　Power QUICC II和Power QUICC III家族的数十种型号的嵌入式通信处理器。　　　

[嵌入式]

展锐首款AI芯片SC9863荣获“2018年度最佳终端解决方案奖”

集微网消息，在今日举办的中国手机创新周暨中国手机设计与应用创新大赛中，紫光展锐SC9863芯片脱颖而出，荣获“2018年度最佳终端解决方案奖”。专家组评审一致认为，随着紫光展锐在企业架构、产品线上的逐步整合，以及向中高端发力的市场策略，这款芯片或将开启展锐的腾飞大幕。这款SC9863芯片于今年五月面世，这是紫光展锐首款支持人工智能应用的8核LTE SoC芯片平台，该平台面向全球主流市场，可实现高性能的AI运算和应用，全面提升移动终端的智能化体验。就在五月中旬，首款搭载紫光展锐SC9863芯片平台的智能手机中国移动A5手机正式出货。作为一款高集成度的LTE芯片解决方案，紫光展锐SC98

[手机便携]

人工智能再升级会颠覆人类吗？

5月9日晚，谷歌召开一年一度的Google I/O大会，会上展示了谷歌新研发的人工智能软件谷歌助手（Google Assistant）的神奇力量。一位用户想剪头发，谷歌助手直接帮用户电话预约理发店，在全程与理发店的真人对话中，谷歌助手丝毫没有出现任何滞后和逻辑错误，理发店那头丝毫没有察觉到自己是在和AI对话。谷歌助手还可以帮人预订餐馆、影院、旅行社，通过学习还能像一个发小/闺蜜/老友那样陪人聊天，同时实现多线处理。谷歌助手展现的功能意味着人工智能的进一步升级，而且具有里程碑意义。如果让理发店的职员都意识不到是在与AI对话，证明谷歌助手通过了图灵测试，拥有了与真人相同或类似的智能或智力。即便这样，也并非是AI的逆天或将会颠覆人类

[机器人]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！