华为的达芬奇架构芯片能否和英伟达平起平坐

发布者:幸福家庭最新更新时间:2018-10-12 来源: 半导体行业观察关键字:华为  英伟达 手机看文章 扫描二维码
随时随地手机看文章

日前,华为公布了其最新的AI芯片战略,并正式推出了基于达芬奇架构设计的的云端和边缘端的AI芯片。作为国内ICT产业、集成电路领域的一个重要角色,华为的这次公布,让行业内的人沸腾了。甚至出现了华为将在云端AI芯片领域干掉英伟达、谷歌,在边缘端会对这个领域的AI芯片初创者或者老玩家带来灭顶之灾。但华为真的有那么强大的影响力吗?我们来看一下本文作者对华为战略和整个市场影响力的分析。


近日,华为在联接大会2018发布了其全栈全场景AI解决方案,涵盖了从终端到云端,从AI芯片到深度学习训练部署框架的多层解决方案,其在AI领域投入的决心可谓巨大。然而,如果仔细分析其具体落地,我们会发现华为的战略特别实用主义,并没有去刻意追求技术上的精致,而是快速做了一个能满足需求的框架,以求先占领市场再做迭代。本文将着重对华为的AI芯片战略做一分析,并加入一些华为AI芯片对整个产业影响的个人观点。

 

多战场全覆盖:华为的雄心壮志

 

华为在本次大会上公布了其AI战略,涉及的产品无论是深度还是广度都是非常惊人的。首先,从深度来说,其AI相关产品生态包含了从应用接口ModelArt(用于客户的应用直接接入AI功能),中层深度学习软件框架MindSpore,软硬件接口层CANN,直到专用硬件Ascend系列,最终可以为终端和云端的应用赋能。

 

华为的AI战线之深可谓是全球一流,仅有Google、百度等技术导向明显的互联网公司可以与之匹敌(Google拥有最流行的深度学习框架TensorFlow和芯片TPU,百度则拥有深度学习框架PaddlePaddle和芯片XPU),而诸如微软、亚马逊、腾讯等其他云服务领域厂商的战线深度,尤其是在硬件领域的投入决心,都远远不及华为。

 

image.png

 

华为的战线如此之深,究其原因无外乎是“有纵深才能有壁垒”。

 

对于华为这样的巨头公司而言,只有把握住了生态链上的每一个环节,把开发者和用户的整个使用循环全部保留在自己的生态圈内,才能形成真正的壁垒,否则只要在任何环节存在空白或者弱项,就有被竞争对手或者新兴公司单点突破的机会。而这样的壁垒一旦形成,不仅仅可以完成对于竞争对手的防御,更可以在整体生态上获得极高的利润——由于完整技术栈的不可替代性,从而可以收获大量利润。Nvidia就是把自己凡是能接触到的生态环节都打通并做到极致的公司,从而产生了极高的壁垒:硬件上有GPU,深度学习框架和软硬件接口层有CuDNN和TensorRT,因此在这几年深度学习人工智能高速发展中,Nvidia几乎占据了不可替代的地位。

 

然而,Nvidia人工智能生态中的底层硬件GPU却存在破绽,由于GPU对于人工智能算法的支持并非完美,因此造成了计算效率不高,也引得群雄逐鹿,众多公司纷纷进入人工智能芯片的战场。从这个角度来看华为正在做挑战Nvidia的事情,借着Nvidia GPU做人工智能效率低的弱点,希望构建自主的技术生态来取而代之。

 

出了纵向深度之外,华为的战线横向也铺得很开。一旦有了一个设计完善的纵向框架,那么把这个框架在不同算力需求尺度上推广上将是非常容易的,对于华为这样以执行力强著称的公司来说这样的平推战术更是得心应手。一旦战略的深度和广度上都得到良好的执行,其最终的收益将是乘数效应(即收益正比于深度x广度),从而带来惊人的回报。从华为的战略广度来看,既包含终端(低功耗,中低算力),也包含边缘(中等功耗,中等算力)和云(高功耗,高算力)。在之前,华为的业务领域早已包含了从端(华为/荣耀手机以及智能家电)到云(华为云),因此在之前的业务上再部署推广人工智能可谓是水到渠成。 

 

image.png

 

唯快不破:“达芬奇”架构

 

华为同时注重深度和广度的人工智能战略是以技术为基石的,而其技术栈中最具有挑战性,同时也是最具有区分度的就是底层芯片。为了满足华为战略上的需求,其芯片技术需要满足以下需求:

 

  • 性能好,否则难以撼动Nvidia的位置,这毫无疑问是战略深度中最重要的一个要素;

  • 设计可伸缩性好,同一架构可以通过修改设计规模快速部署到不同算力尺度的应用,从而实现战略广度快速铺开的需求;

  • 通用性好,能兼容尽可能多的操作;

  • 上市速度要快。

 

以上四点要同时满足是非常困难的,尤其是一些非常痴迷于技术的公司,往往会选择去探索新的芯片架构以把前三个需求做到极致,这也就意味着放弃了第四个能快速上市的需求,因为新架构往往意味着较长的研发周期和较大的风险,难以做到快速上市。而华为的选择则是在传统架构上做足够的工程优化,并不追求极致性能,但求能满足用户需求并快速落地。与之对应的是华为使用在Ascend系列芯片中的达芬奇架构。

 

image.png

 

从Ascend芯片的架构来看,其实就是传统的ARM核+AI加速器的模式,而其AI加速器就是达芬奇核心。达芬奇核心从架构上看起来也并没有使用炫技式的前沿技术,而是简单直接地把计算用的乘加器(MAC)按照不同的计算组织成不同的方式,并搭配标准的数据缓存。当要做人工智能相关的计算时,可以使用按cube(“三维立方”) 模式组织的MAC群,从而支持相关计算。当需要其他常规计算时,则可以使用矢量或标量计算MAC。对于不同规模的芯片,可以通过放置不同数量的达芬奇核心来满足需求,因此同一个达芬奇核心的设计可以灵活地满足华为战略横向上不同应用的需求。

 

这次的大会上,华为发布了Ascend 910和Ascend 310,其中Ascend 910针对云端应用,使用7nm工艺在350W的功耗上实现了256 TOPS半精度浮点数算力或512 TOPS 8位整数算力,并且集成了128通道全高清视频解码器;而Ascend 310针对边缘应用,使用12nm工艺在7W的功耗上实现了8 TOPS半精度浮点数算力或16 TOPS 8位整数算力,并且集成了单通道全高清视频解码器。从中,我们可以看到华为的战略横向野心很大,但是第一个落地的市场看来还是机器视觉市场。

 

从公布的芯片性能上来看,这次Ascend 910以及Ascend 310特意提到了视频解码器,显然是与视频应用有关;此外,达芬奇架构中的cube式MAC阵列估计也是为了同时兼顾云端训练应用和机器视觉推理应用而做的选择。从技术上看,cube式MAC阵列非常适合卷积神经网络。卷积神经网络是目前机器视觉应用最流行的模型,而机器视觉应用则可以说是这一波人工智能应用中落地幅度最大的。在卷积神经网络中,卷积计算的形式(如下图)可以被达芬奇的cube式MAC阵列高效支持,而决策树、贝叶斯等其他常见机器学习算法在cube式MAC阵列上运行却不见得有什么优势,因此可以猜测达芬奇的架构设计首要目的是为了支持卷积神经网络推理,而优化卷积神经网络推理就意味着主打机器视觉。

 

换句话说,达芬奇架构是在通用性上有意识地做了折衷以换取较合理的开发时间和成本。另一方面,做云端训练的时候由于数据往往是批量到来,因此使用cube式MAC阵列也能一次处理一个批次中的不同并行数据,从而也能较好地支持训练。然而,如果从从架构上做比较,cube式的MAC阵列的效率相比Nvidia GPU的SIMD架构未必会有本质上的提升,因此从训练的角度来看达芬奇架构可以说是Nvidia GPU的替代者,但很难说是超越者。

 

image.png

 

我们不妨将达芬奇架构与目前最热门的两种商用人工智能芯片架构做比较,即Nvidia的GPU和Google的TPU。Nvidia的GPU架构源自经典的GPU多核并行架构,为了优化人工智能计算,加入了对于矩阵运算的优化支持(Tensor Core)。但是GPU并非天生为人工智能而生,因此在卷积神经网络推理等主流应用上,GPU架构的效率并不高,因此华为达芬奇为卷积神经网络优化过的架构相比GPU的计算效率要强不少。与Google的TPU相比,达芬奇架构则显得更加简单直接。

 

TPU上使用了优美的脉动阵列(systolic array)架构,该架构虽然很久之前就被人们提出,但是迟迟没有找到合适的应用,因此TPU采用脉动阵列从某种意义上可以说是重新发明了脉动阵列,给了脉动阵列以新生。脉动阵列的优势是对于内存带宽的需求大大减少,但是问题在于难以做小,一旦做小了效率就会大大下降——在TPU等级的云端高算力应用脉动阵列是合适的,但是在终端低算力低功耗应用中脉动阵列的效率就不高。因此达芬奇架构相比TPU的脉动阵列来说更灵活,能满足不同算力需求,也即满足了华为AI战略中的横向部分。

 

 

最终比拼的还是生态

 

从之前的分析中,我们的结论是华为的达芬奇架构是一个出色的架构,与Nvidia的GPU和Google的TPU相比性能并不落下风,但是其可伸缩性却远好于GPU和TPU,能快速部署到多个不同算力等级的应用中。为了能充分发挥可伸缩性强的优势,华为的AI芯片必须能尽快进入多个不同的应用领域,因此最终比拼的还是综合生态而非一两个特定应用上的性能对比,正如两军交战最终看的是能否实现战略意图而并不比纠结于一两座城市的得失。那么,在与Google和Nvidia等生态玩家的比拼中,华为有哪些优势和挑战呢?

 

从公司基因来看,Google是一家技术驱动的互联网公司,Nvidia是芯片硬件公司,而华为则是设备提供商。Google一切业务的源头都是互联网,因此也希望把一切新扩展的业务规划到互联网的范畴中。Google属于第一批看到人工智能潜力的公司,在自己的业务中早早就用上了人工智能,并开发了全球最流行的深度学习框架TensorFlow。

 

当人工智能得到更多认可后, Google Cloud上开放了深度学习应用接口给用户使用,并且在发现人工智能计算需要新一代芯片后着手研发了TPU。对于Google来说,最关键的生态环节在于人工智能入口即TensorFlow,一旦TensorFlow成为人工智能的绝对主流框架,那么Google就将成为制订下一代人工智能标准化实施方案的主导者,这可以说与当年Google把握了互联网搜索入口如出一辙。另一方面TPU其实只是其生态中并不怎么重要的一环,事实上TPU最早是给Google内部自己使用以节省云计算功耗并加速训练模型用的,Google并没有强烈的让所有用户都用上TPU的决心。

 

Nvidia则是底层芯片硬件公司,最关注的是GPU是否能卖得足够好,CuDNN和TensroRT可以认为是GPU在人工智能时代的驱动程序,但却不是Nvidia的主要盈利点,而Nvidia更不会尝试去做人工智能时代入口之类的尝试,而是会更倾向于把自己定义为“人工智能计算的赋能者”。

 

相比Google和Nvidia,华为事实上在一个更中间的位置,因为华为是一个解决方案提供商,最终是为了解决客户的需求,因此其解决方案中既要包含硬件又要包含软件。华为在底层硬件和上层软件接口上都有与Nvidia和Google重合竞争的部分,但是其解决方案提供者的地位则是与Nvidia以及Google都没有任何竞争。

 

举例来说,如果中国某零售巨头要做智能零售解决方案,需要高速边缘服务器,这样的公司将会是华为的目标客户,却并非Google或Nvidia的目标客户,因为这三家公司中只有华为有意愿给这样的客户提供服务器软硬件以及云端接入的完整解决方案。而此次发布的Ascend芯片则很明显是瞄准了安防、智能零售等新兴机器视觉解决方案市场,在这些市场Nvidia和Google的基因决定了它们都不会涉足。

 

虽然目前华为和Google以及Nvidia在边缘计算解决方案领域并没有直接竞争,但是随着华为在云端布局加深,与Nvidia和Google将会有正面竞争。如前所述,Google的TensorFlow是手中的一张王牌,凭着TensorFlow的开放性以及社区建设,目前TensorFlow已经能完美支持多种不同的硬件平台,另一方面华为的MindSpore配合CANN则更像是面对自家芯片做的定制化解决方案,性能卓越但是开放性却可能会成为一个挑战。另一方面,在硬件层面,达芬奇如果想彻底战胜Nvidia的GPU或许还需要在芯片架构上更进一步,如果无法对GPU有数量级的性能优势,最终恐怕还是会陷入苦战。

 

对AI芯片行业的影响

 

这次华为大举进军AI芯片,是AI芯片领域的一个重要事件。天下之势,分久必合,合久必分,最初的系统厂商如IBM,SUN等的系统都是包含了自研芯片,直到以Intel为代表的标准化处理器芯片崛起以及计算市场利润变薄后这些系统公司才逐渐放弃自研芯片而转而采用Intel的标准化处理器芯片;而AI市场目前看来潜力巨大,不同场景差异化大而且对于芯片效率有很高的需求,这也就为系统厂商重新开始自研芯片提供了足够的动力。 我们认为华为这次自研AI芯片是系统厂商自研芯片趋势的延续。

 

在华为之前,已经有Google、Facebook、亚马逊、阿里巴巴、百度等诸多互联网系统厂商开始了AI芯片研发,而华为作为中国芯片研发能力最强的系统厂商,进入AI芯片领域可谓是理所当然,因为对于系统厂商来说拥有了自研芯片才能拥有真正的核心竞争力。华为这次进军AI芯片预计将会引发更多系统厂商进入AI芯片领域,估计海康、大华、旷视、商汤、依图等都有自研芯片(或者与其他芯片公司合作研发自己专属的定制化芯片)的商业动力,我们在不久的将来预计会看到更多系统厂商发布自己的芯片,反之缺乏自研芯片能力的系统厂商的生存空间将会受到挤压,要么逐渐消失,要么找到新的商业模式。 

 

另一方面,对于AI芯片初创公司来说,华为的AI芯片目前并没有对外销售的打算,因此华为并非直接竞争对手。此外,由于AI芯片细分市场多,差异化大,华为的AI芯片更有可能发挥鲶鱼效应,激励这些AI芯片初创公司去寻找华为无暇顾及的细分市场,例如功耗小于1W的超低功耗市场等等。

 

此外,华为的Ascend系列AI芯片也并非不可战胜,其架构如前所述并非属于常人无法想象的黑科技,而更像是一款经过仔细工程优化的AI加速器。因此AI芯片公司如果拥有下一代技术,即使与华为在云端正面竞争也有胜算。

 

最后,我们必须看到不少AI芯片初创公司实际上也是系统厂商,其AI芯片也是主要供自己的系统使用,如Rokid等。对于这类自研AI芯片的初创系统厂商来说,华为施加的竞争压力会更大,因为华为实际上走了和这些厂商一样的道路,本来这些初创公司系统中的亮点是自研芯片,但是现在相对于同样拥有自研芯片的华为来说这个就不再成为亮点了。对于这些厂商,如何找到属于自己的差异化市场避开华为的锋芒就成了目前亟待解决的问题。

 


关键字:华为  英伟达 引用地址:华为的达芬奇架构芯片能否和英伟达平起平坐

上一篇:华为推出全新AI芯片叫板NVIDIA
下一篇:传感器芯片市场国有化率不足10%,呈现高度依赖态势

推荐阅读最新更新时间:2024-05-03 03:19

华为Watch GT 2e和GT 2有哪些区别
昨天花粉俱乐部官方微博发布了消费者关于华为Watch GT 2e最想问的八大问题的官方解答情况,我们一起来看看。 1.华为Watch GT 2e和GT2相比都有哪些区别呢? 定位上,GT2e的「e」 代表着「energy」,更聚焦追求潮酷生活的[ Z世代」年轻人群。 设计上,它拥有一体化设计、 精致的纹理、动态表盘等。 同时GT 2e还作为很多潮流运动的首发,这些特性在算法上也做了大量的优化。在健康方面华为还与301医院合作,在GT 2e上取得了很多突破性成果,包括睡眠呼吸暂停研究、心脏健康研究等。 2. 华为Watch GT 2e在外观上有哪些细节的设计突破?设计师是如何产生这些灵感的? 设计突破体现在表体与表带一体化设计,
[手机便携]
2020年饱受打击的华为,2021年影响力可能减弱
分析师表示,今年华为的 5G 业务可能放缓,并进一步向软件领域进军,同时希望美国制裁对其智能手机业务的影响能够缓解。 他们说,获取高端半导体的渠道受限,意味着在中国网络升级期间华为将实行配给;而在继续开发专有操作系统之际拆分移动部门将使华为的排名大幅下降。 美国 2019 年 5 月以国家安全为由将华为列入贸易黑名单,华为一再否认自身构成风险。这实际上禁止了美国公司向华为出售必要的美国技术。去年 8 月,该禁令扩展到台积电等主要供应商。 Eurasia Group 全球科技政策负责人 Paul Triolo 表示,由于华为依靠台积电为其手机、5G 网络基站、服务器、云计算和人工智能产品生产高端芯片,上述变化触到了华为
[嵌入式]
华为2017年销售收入6036亿元 净利润475亿元
    新浪科技讯 3月30日午间消息,华为今日发布2017年年报。全球销售收入6036亿元人民币,同比增长15.7%,净利润475亿元人民币,同比增长28.1%。   报告显示,2017年华为运营商业务、企业业务、消费者业务三大BG均实现了增长。   2017年华为运营商业务实现销售收入人民币2978亿元,同比增长2.5%;企业业务实现销售收入人民币549亿元,同比增长35.1%;消费者业务实现销售收入人民币2372亿元,同比增长31.9%。全年智能手机发货1.53亿台。   在研发投入上,2017年华为研发费用达897亿元人民币,同比增长17.4%,近十年投入研发费用超过3940亿元。   华为轮值董事长胡厚崑
[手机便携]
IDC:苹果和华为将蚕食逾九成国内高端 5G 手机市场
上周五,苹果终于发布了首款支持 5G 的 iPhone 12 系列产品,这让不少用户期待已久。虽然苹果的 5G 设备迟到了一年,但 iPhone 依然是市面上最受欢迎的智能手机产品,支持 5G 的 iPhone 将会激起大量用户的换机冲动。 根据市场调研机构 IDC 的预测,中国将继续在全球 5G 市场中保持领先地位,原因包括 5G 套餐定价相对较低,以及有更多用户购买 5G 设备。IDC 的数据显示,2020 年第二季度,全球 5G 智能手机的平均定价为 837 美元(约 5591 元),而国内市场的平均定价仅 464 美元(约 3100 元)。 2020上半年,国内售价高于 600 美元的 5G 手机出货量为 2350
[手机便携]
IDC:苹果和<font color='red'>华为</font>将蚕食逾九成国内高端 5G 手机市场
华为死磕全面屏!荣耀9青春版曝光
全面屏是目前手机圈最热的设计,特别是随着苹果和三星的入局,更加快了这个外形成熟度,当然国产厂商在跟进速度上也足够快,其中最突出的当属华为。   没错,麦芒6、荣耀7X、Nova 2S、荣耀V10,这都是过去一段时间,华为接连发布的全面屏手机,当然还有即将畅享7S以及荣耀9青春版等,两者今年年底前亮相没有任何问题。   荣耀已经宣布,本月13日要在深圳举行新机发布会,而从最新曝光的消息看,主角正式荣耀9青春版,其最大的亮点就是配备了5.65英寸18:9全面屏(分辨率2160×1080像素),同时还延续荣耀9超漂亮的外形设计。   此外,这款荣耀9青春版还将搭载麒麟659处理器,前后摄像头都是1300万+200万组合,内置电池容量在
[手机便携]
iPhone以旧换新支持华为、小米等其他品牌
集微网消息,今年iPhone的新机在中国销量遇冷,苹果不仅在新品推出仅3个月后,就推出了限时旧换新以提升购买力,直营店Apple Store更首度接受华为、小米、OPPO、vivo手机旧换新买iPhone新品,消费者可以在官网上先估价。不过,苹果给非iPhone的旧换新折抵价格明显过低,显然优先希望吸引苹果用户换机、而不是吸引安卓阵营投靠,至于能否奏效还有待观察。 iPhone新机推出后,有意购买的消费者通常只能在美国电信官网或营业厅,或是BestBuy这类零售渠道,才能用其他品牌的手机来以旧换新折价,苹果官网与Apple Store则都只接受旧款iPhone的以旧换新。 不过,或许是因为iPhone新机推出后,在中国
[手机便携]
自愿加班不算加班,这些公司的员工根本不担心
临近年底,很多人因为忙不完的工作被迫进入循环 加班 模式。可加班能领到加班费吗?   对此,辽宁省人社厅12333劳动关系处相关人士给了明确答复:用人单位支付加班工资的前提是“根据实际需要安排员工在法定标准工作时间以外工作”。员工自愿加班,不属于加班,用人单位无须支付加班费。     该解释自有其法律依据,根据《劳动法》第四十一条、第四十四条规定,用人单位与劳动者协商、安排劳动者延长工作时间,是支付加班工资的必要条件。   当然,这也契合常理。倘若任何加班都可以领加班费,那些工作拖沓,赖在单位的人,会成为最大的受益者。而这对于工作效率高的同事,也并不公平。毕竟,决定一个人工作能力的指标是质量和效率,而不是工作时长。   不过,
[嵌入式]
李斌:蔚来自研芯片一颗顶英伟达四颗
4月21日消息,据媒体报道,蔚来李斌近日表示,去年购买了很多的英伟达芯片,这耗费了公司不少钱,为此公司转向自研芯片,因为一颗芯片可以顶四颗,所以能降低成本。 据资料显示,在2023蔚来日上,蔚来正式发布了首颗自研智能驾驶芯片——神玑NX9031。 蔚来李斌表示,蔚来的目标是用一颗自研芯片实现目前业界四颗旗舰智能驾驶芯片的性能,使得效率和成本更优。 这款芯片在业界内具有显著的技术优势,它是首款采用5nm车规工艺制造的智能驾驶芯片,内部集成了超过500亿颗晶体管。这意味着神玑NX9031能够处理海量的数据,为蔚来汽车的智能驾驶系统提供强大的算力支持。 神玑NX9031的另一个亮点是其自研的推理加速单元NPU。这一单元具有强大的算力,能
[汽车电子]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved