从百度昆仑看AI造芯策略

发布者:机器人总动员最新更新时间:2021-03-18 来源: 半导体行业观察关键字:百度昆仑 手机看文章 扫描二维码
随时随地手机看文章

如今互联网科技企业造芯已不是什么新鲜事,尤其是AI领域已经成为世界科技巨头争夺的制高点, IBM,微软,谷歌和亚马逊正在微调其AI平台,以使客户更轻松,更快捷地整合各种AI技术。


image.png


 可以说,造芯热几乎与人工智能的爆发处于同一个阶段,人工智能的这一轮爆发是深度学习算法的兴起,而深度学习的基础就是需要更多的数据训练、更高的算力支撑。当传统芯片逐渐无法满足互联网爆发的算力需求时,拥有先进算法和强大计算能力的互联网公司成为了芯片自研的推动者,国内外企业几乎步调一致地各自开启了这一篇章。 中国在进入其市场方面的行动将在该行业的创新中发挥关键作用。根据一项研究,中国现在占全球半导体消费的60%。根据《国际商业战略》,2019年,中国半导体行业销售额为2122亿美元,北美为595亿美元,世界其他地区为488亿美元,欧洲为418亿美元,日本为387亿美元。 

                                                image.png

图:2019年按地区划分的全球半导体消费(十亿) 目前,国产AI芯片处于一个窗口,这个窗口有如下特征:1、市场广阔,容纳下许多巨头玩家;2、处于爆发期初期,大规模应用尚未到来;3、应用场景分散、复杂度高,需要定制化;4、单独芯片不够,需要配套的解决方案支撑。 在这样的大背景下,对“AI第一股”百度而言,造芯能抓住其中的哪些机会,竞争力又有多少? 

 

问世2年多,昆仑几何?

 

衡量一款芯片好不好,成不成功,最直观的就是看出货量。百度昆仑于2018年宣布,2019年12月,百度和三星宣布,百度首款基于云的产品昆仑第一代用于计算和边缘计算的AI芯片已经完成。 截至目前,实现量产的百度昆仑1已在百度搜索引擎及云计算用户部署2万片。与国内其他互联网造芯玩家的产品相比,百度昆仑1的出货量可以说是不错的。 从技术结合场景的经验来看,新一批崛起的AI 芯片要针对不同的人工智能应用类型和场景,对于芯片的要求就不单单是要适合深度学习,需要兼顾计算能力、能耗和灵活性。

 

 image.png 

云计算巨头纷纷布局云计算+FPGA芯片,首先因为FPGA作为一种可编程芯片,非常适合部署于提供虚拟化服务的云计算平台之中。FPGA的灵活性,可赋予云服务商根据市场需求调整FPGA加速服务供给的能力。 

 

运算速度、功耗等性能是衡量一款芯片的核心指标。昆仑芯片定位为通用AI芯片,目标是提供高性能,低成本,高度灵活的AI芯片。特别要指出的是,昆仑芯片既能做训练也能做推理,它可以满足AI的高处理需求,用于云实例和边缘实例,包括数据中心,公共云和自动驾驶汽车。据了解,昆仑2将采用7nm工艺打造,将于2021年实现量产,其性能对1代,将再提升3倍。 

 

一份经纪报告显示:“这种大型的,基于云的,具有高计算能力的AI芯片具有很高的技术门槛。只有百度,华为和寒武纪才能生产这些产品。” 在昆仑芯片诞生前,2017年百度内部数据中心、自动驾驶系统等就已大规模使用部署了超过10000片FPGA加速器,这对跨行业跨场景测试昆仑芯片打下了初步基础。随后,在部署上线的微亿智造工业智能质检设备上,百度智能云以整机一体化方式,向微亿智造交付搭载百度昆仑芯片的百度云质检一体机。 

 

仅仅硬件远远不够,一个整体的解决方案对商业化落地也至关重要。百度提出了AI-Native的云计算架构,从基础设施的AI计算集群、AI芯片,到工程平台的飞桨、云原生,以及应用开发平台的视频云、区块链等,通过云智一体、端到端的方式,支持产业的智能应用。 

 

当然,无形财产的积累对以科技为导向的企业来说也是至关重要的一环,手机芯片玩家高通光靠专利费就吃透了全世界。在AI专利申请和许可方面,百度已连续三年位居中国第一,百度AI开放平台也已经汇集了265万开发者。 百度在其他地区的市场份额不大,与成熟的竞争对手竞争也将非常艰难。但尽管如此,在当前大环境下,昆仑芯片如今的量产和交付进展却凸显了AI在中国的整体发展势头,也代表了中国企业在这一新兴领域确立全球领导者的决心。 

 

其实在AI领域,中国一直没有落后。据斯坦福大学发布的一份222页的《2021年度AI指数报告》指出,2020年,中国在世界人工智能期刊上的引用频次首次超过美国。在刊登数量上,早在2004年,中国在人工智能期刊的总发表数量上短暂超过美国,然后在2017年重新占据领先地位。 

 image.png

中国在世界人工智能期刊上的引用频次首次超过美国 

 

定制、魔改、二次开发

 

早在2011年百度启动了FPGA AI加速器项目,2015年的FPGA部署已经超过5000片,2017年成为业界部署最多的,超过了12000片;2018年百度发布自主研发的AI芯片——百度昆仑;2019年流片成功,2020年昆仑一代开始量产并且大规模部署。 关于昆仑芯片的细节我们不做过多的赘述,但是值得一提的是,往往GPU是打造AI芯片的重要手段之一,但是我们也可以看出,百度从一开始却是基于FPGA打造的,FPGA的特点就是可编程,这样使用昆仑芯片的用户,就完全可以根据自己的应用场景来进行定制、魔改、二次开发。 

 

由于AI应用场景的分散和复杂度高,定制化就显得格外重要。FPGA作为一种可编程芯片,非常适合部署于提供虚拟化服务的云计算平台之中。昆仑芯片配以FPGA的灵活性,可让用户可以按照自己的需求和应用场景进行专项定制,魔改,二次开发,实现更快速的市场普及,并能完成自身产品的后续迭代。 在性能方面,百度昆仑性能最高比英伟达T4强三倍。放大到全球的AI芯片,据麻省理工学院林肯实验室超级计算中心的一项统计研究《机器学习加速器的调查和基准测试》,在全球公开宣布的人工智能加速器和处理器的性能与功率分散图中,我们也可以看出,昆仑芯片性能也处于高位(如下图)。下图显示了最近公开发布的一些AI处理器能力(截至2019年5月),列出了芯片的峰值性能与功耗。 

image.png

公开宣布的人工智能加速器和处理器的性能与功率分散图(图源:MIT《机器学习加速器的调查和基准测试》研究) 注:其中x轴表示峰值功率,y轴表示每秒千兆次操作的峰值。处理能力的计算精度由所采用的几何形状来描述;计算精度范围从单个位int1到单个字节int8,从4字节float 32到8字节float 64。形状因子由颜色来描述,这对于显示消耗了多少能量很重要,而且对于显示在单个芯片、单个PCI卡和整个系统中可以装载多少计算量也很重要。蓝色仅是单个芯片的性能和功耗。橙色表示芯片的性能和功率(注意,它们都在200-300W区域)。绿色表示整个系统的性能和能力——在这里是单节点桌面和服务器系统。 

 

众所周知,“AI应用场景碎片化、落地难”已成行业共识,在AI芯片前仆后继的大军中,泡沫过后,许多企业已销声匿迹,仅留下了为数不多的十几家。百度又能靠什么? 

 

造芯者不但需要懂硬件,还需要懂AI算法软件。据了解,百度昆仑作为百度人工智能平台的核心组件,可以原生支持开源深度学习框架飞桨(PaddlePaddle),百度机器学习平台(BML)及各垂类的AI 能力引擎。另外,昆仑不仅支持全球主流CPU、操作系统,Pytorch和 TensorFlow 等深度学习框架,也和国产化厂商密切合作支持飞腾、申威和海光等国产CPU,麒麟、深度和统信等国产操作系统。 此外,生态能力在芯片行业中尤为关键,而且放在自家产品上可尽显其性价比优势。

 

 其实这点我们可以从华为麒麟芯片得到启发,因为有手机终端的不断试错和支持,麒麟芯片才能在迭代中不断创新,二者相辅相成,最终成就一段手机史上的佳话。百度亦是如此,相比其他单打独斗的AI芯片企业,它有大公司的生态优势。百度完全不用有一般AI芯片厂商的担忧:“我该做什么样的芯片?芯片做出来能否迎合市场的需求?又将用在什么场景?”因为百度有太多的应用场景了,智能音箱、智能驾驶Apollo、智能云等等,这些对百度整体业务都形成一个大循环。 

 

特斯拉也是一样。在特斯拉自研FSD芯片前,需要采用英伟达的芯片,不仅在性能上满足不了特斯拉的需求,而且成本还高昂,完全不具有话语权。此后,特斯拉自己研发芯片竟达到了与英伟达相同乃至更好的效果,成本也把控在自己手里。 

 

在造芯策略上,百度与当下国际互联网巨头如亚马逊、谷歌、微软等如出一辙,自产自用为主,但同时也注意为芯片建生态,芯片又反哺生态。未来随着智能汽车逐渐爆发,云计算、物联网市场的大幅度需求,百度或将被推上历史的潮头。

关键字:百度昆仑 引用地址:从百度昆仑看AI造芯策略

上一篇:恩智浦:低功耗智能处理器可满足云到边缘的转变
下一篇:Lightmatter开发硅光子处理器,预计下半年投产

小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved