英伟达数据中心业务暴增1.99亿,这些人工智能芯片值得关注 !
又到了各大公司发布财报的时候。2月10日,英伟达发布2016年第四季度的财报显示,其营收同比增长55%,净利润达到了6.55亿美元,同比增长216%。在过去的一年中,曾经以游戏芯片见长的Nvidia股价从十几年的稳居30美元迅速飙升至120美元。
在财报电话会议里,CEO黄仁勋将本季度的疯狂数据归功于游戏和数据中心这两块业务。英伟达的官网上分享了营收各业务线的情况: 游戏业务仍然独占鳌头,带来了13.48亿美元营收,较去年同期增长66%。授权部门(OEM和知识产权)则是唯一在本季度营收下降的部门。而最疯狂的增长发生在数据中心业务:从较去年同期的9700万美元暴增到2.96亿美元,205%的增幅是要逆天吗……
这种疯狂的数据得益于深度学习和人工智能技术的普及和在工业界的推广,大量的数据中心开始采用英伟达的GPU等其他产品。
为什么这么判断?其实,人工智能的核心通常是一种名为深度神经网络的计算机系统。而经过多年研究,这方面的专家发现并建立了一种共识:神经网络非常适合跑在GPU(图形计算单元,通常称为显卡,但也有一定区别)上。这样的现状对英伟达再合适不过了,因为GPU就是它的核心技术。
人工智能将会成为未来趋势吗?
上文中刚刚讲到,英伟达业务数据暴增主要得益于深度学习和人工智能技术的普及,使得大量的数据中心采用英伟达的GPU等产品。有研究机构曾做过深度剖析,在人工智能领域,GPU、FPGA、ASIC等这些芯片,可能迎来爆发期。
从去年3月份智能机器人AlphaGo战胜李世石,到近期谷歌的最新用于人工智能深度学习的芯片TPU曝光,一个千亿级的市场应用逐渐浮出水面。有人问,人工智能会成为未来的趋势吗?答案是会。
人工智能,简单地说,就是用机器去实现目前必须借助人类智慧才能实现的任务。人工智能包括三个要素:算法,计算和数据。
对人工智能的实现来说,算法是核心,计算、数据是基础。在算法上来说,主要分为工程学法和模拟法。工程学方法是采用传统的编程技术,利用大量数据处理经验改进提升算法性能;模拟法则是模仿人类或其他生物所用的方法或者技能,提升算法性能,例如遗传算法和神经网络。而在计算能力来说,目前主要是使用GPU并行计算神经网络,同时,FPGA和ASIC也将是未来异军突起的力量。
随着百度,Google,Facebook,Microsoft等企业开始切入人工智能,人工智能可应用的领域非常广泛。2013年100多家组织开始研发深度学习与人工智能,到2015年,短短2年间,研发机构已经迅速激增到3409家。可以看到,未来人工智能的应用将呈几何级数的倍增。应用领域包括互联网,金融,娱乐,政府机关,制造业,汽车,游戏等。从产业结构来讲,人工智能生态分为基础、技术、应用三层。应用层包括人工智能+各行业(领域),技术层包括算法、模型及应用开发,基础层包括数据资源和计算能力。
人工智能将在很多领域得到广泛的应用。目前重点部署的应用有:语音识别,人脸识别,无人机,机器人,无人驾驶等。
人工智能市场将保持高速增长,根据艾瑞咨询的数据,2020年全球人工智能市场规模约1190亿人民币。而未来10年,人工智能将会是一个2000亿美元的市场。空间非常巨大。其中在硬件市场方面,将会有30%的市场份额。
■ 深度学习
人工智能的核心是算法,深度学习是目前最主流的人工智能算法。深度学习在1958年就被提出,但直到最近,才真正火起来,主要原因在于:数据量的激增和计算机能力/成本。
深度学习是机器学习领域中对模式(声音、图像等等)进行建模的一种方法,它也是一种基于统计的概率模型。在对各种模式进行建模之后,便可以对各种模式进行识别了,例如待建模的模式是声音的话,那么这种识别便可以理解为语音识别。而类比来理解,如果说将机器学习算法类比为排序算法,那么深度学习算法便是众多排序算法当中的一种,这种算法在某些应用场景中,会具有一定的优势。
深度学习的学名又叫深层神经网络(Deep Neural Networks),是从很久以前的人工神经网络(ArtificialNeural Networks)模型发展而来。这种模型一般采用计算机科学中的图模型来直观的表达,而深度学习的“深度”便指的是图模型的层数以及每一层的节点数量,相对于之前的神经网络而言,有了很大程度的提升。
从单一的神经元,再到简单的神经网络,到一个用于语音识别的深层神经网络。层次间的复杂度呈几何倍数的递增。
以图像识别为例,图像的原始输入是像素,相邻像素组成线条,多个线条组成纹理,进一步形成图案,图案构成了物体的局部,直至整个物体的样子。不难发现,可以找到原始输入和浅层特征之间的联系,再通过中层特征,一步一步获得和高层特征的联系。想要从原始输入直接跨越到高层特征,无疑是困难的。而整个识别过程,所需要的数据量和运算量是十分巨大的。
2012年,由人工智能和机器学习顶级学者AndrewNg和分布式系统顶级专家JeffDean,用包含16000个CPU核的并行计算平台训练超过10亿个神经元的深度神经网络,在语音识别和图像识别等领域取得了突破性的进展。该系统通过分析YouTube上选取的视频,采用无监督的方式训练深度神经网络,可将图像自动聚类。在系统中输入“cat”后,结果在没有外界干涉的条件下,识别出了猫脸。可以看到,深度学习之所以能够在今天得到重要的突破,原因在于:1、海量的数据训练2、高性能的计算能力(CPU,GPU,FPGA,ASIC))。两者缺一不可。
英伟达GPU在人工智能领域占尽先机
针对英伟达数据中心业务和自动驾驶两大全新业务板块的高涨幅,一位美国计算机硬件分析师表示,事实上,这是整个英伟达财报里最具有说明力的内容,因为数据业务和自动驾驶的增长根本上是人工智能和深度学习的发展所激发的。
在目前的深度学习领域,把神经网络投入实际应用要经历两个阶段:首先是训练,其次是执行。从目前的环境来看,训练阶段非常需要处理大量数据的GPU(图形处理器,下同),也就是以游戏和高度图形化的应用做图像渲染起家的英伟达领先的领域;而在转型阶段则需要处理复杂程序的CPU,也就是微软十几年来领先的领域。
“英伟达目前的成功事实上代表了GPU的成功,它正是最早的GPU领先者之一。”上述行业分析师表示。
深度学习神经网络尤其是几百上千层的神经网络,对高性能计算需求非常高,而GPU对处理复杂运算拥有天然的优势:它有出色的并行矩阵计算能力,对于神经网络的训练和分类都可以提供显著的加速效果。
举个例子,研究员不用一开始就人工定义一个人脸,而是可以将几百万个人脸的图像展示出来,让计算机自己定义人脸应该是什么样子的。学习这样的例子时,GPU可以比传统处理器更加快速,大大加快了训练过程。
因此,搭载GPU的超级计算机已经成为训练各种深度神经网络的不二选择,比如Google大脑早期就是使用Nvidia的GPU做深度学习。“我们正在搭建一款带有跟踪功能的摄像装置,因此需要找到最适合的芯片,GPU是我们的首选。”欧盟AR初创企业QuineCEO Gunleik Groven表示。
目前,谷歌、Facebook、微软、Twitter和百度等互联网巨头,都在使用这种叫做GPU的芯片,让服务器学习海量的照片、视频、声音文档,以及社交媒体上的信息,来改善搜索和自动化照片标记等各种各样的软件功能。一些汽车制造商也在利用这项技术,开发可以感知周围环境、避开危险区域的无人驾驶汽车。
除了在GPU和图形计算领域长期领先,英伟达也是最早一批在人工智能领域进行投资的科技公司。2008年,当时在斯坦福做研究的吴恩达发表了一篇用GPU上的CUDA进行神经网络训练的论文。2012年“深度学习三巨头”之一Geoff Hilton的学生Alex Krizhevsky用英伟达的GeForce显卡在ImageNet中将图像识别准确率大幅提升,这也是英伟达CEO黄仁勋时常提到的英伟达注重深度学习的开端。
有报告显示,世界上目前约有3000多家AI初创公司,大部分都采用了Nvidia提供的硬件平台。
“深度学习被证明是非常有效的。”黄仁勋在季报2月10日的发布会中表示。在列举目前GPU计算平台正在人工智能、云计算、游戏和自动驾驶领域快速展开应用的同时,黄仁勋表示,在未来数年间,深度学习将会成为计算机计算的一种基础性的核心工具。
AMD和Intel等芯片巨头的人工智能芯片大战
投资者和芯片制造商关注着所有互联网巨头的一举一动。仅仅以英伟达的数据中心业务为例,在很长一段时间以来,该公司一直为谷歌提供数据服务。英伟达并非GPU的唯一领先者,巨头Intel和AMD都在这一领域有着不同的优势。
根据多家美国主流媒体报道,AMD已将Radeon GPU专利授权给Intel,这两家在PC巨头的联姻无疑是为了对抗眼下呈现不断上升势头的英伟达。 其实在2011年,Intel曾与英伟达签订过一个协议。
对于AMD来说,将自己的GPU授权给Intel,也无疑是一种不错的选择,双方在GPU市场更多是互补,而且面对英伟达这个共同敌人。在授权给Intel后AMD每年可以获得了约2亿美元的收入,这对于当前正缺乏资金的AMD来说无疑是甘露。Intel与AMD在GPU的合作可以有力地打击英伟达。
2016年11月,Intel公司发布了一个叫做Nervana的AI处理器,他们宣称会在明年年中测试这个原型。如果一切进展顺利,Nervana芯片的最终形态会在2017年底面世。这个芯片名称基于Intel早前购买的一个叫做Nervana的公司。按照Intel的人所说,这家公司是世界上第一家专门为AI打造芯片的公司。
Intel公司披露了一些关于这个芯片的一些细节,按照他们所说,这个项目代码为“Lake Crest”,将会用到Nervana Engine 和Neon DNN相关软件。这款芯片可以加速各类神经网络,例如谷歌TensorFlow框架。
芯片由所谓的“处理集群”阵列构成,处理被称作“活动点”的简化数学运算。相对于浮点运算,这种方法所需的数据量更少,因此带来了10倍的性能提升。Lake Crest利用私有的数据连接创造了规模更大、速度更快的集群,其拓扑结构为圆环形或其他形式。这帮助用户创造更大、更多元化的神经网络模型。这一数据连接中包含12个100Gbps的双向连接,其物理层基于28G的串并转换。
FPGA、ASIC可能逆袭
上文提到过,在人工智能的大趋势下,除了GPU受到高度关注以外,FPGA、ASIC也可能大有可为。
Intel在在2015年以161亿美元收购了FPGA龙头Altera,其目的之一也是看中FPGA的专用计算能力在未来人工智能领域的发展。FPGA之所以能有潜力成为人工智能深度学习方面的计算工具,主要原因就在于其本身特性:可编程专用性,高性能,低功耗。
北京大学与加州大学的一个关于FPGA加速深度学习算法的合作研究。展示了FPGA与CPU在执行深度学习算法时的耗时对比。在运行一次迭代时,使用CPU耗时375毫秒,而使用FPGA只耗时21毫秒,取得了18倍左右的加速比
据了解,微软在使用一种叫做现场可变编程门阵列(FPGA)的新型处理器。据介绍,这个FPGA 目前已支持微软Bing,未来它们将会驱动基于深度神经网络——以人类大脑结构为基础建模的人工智能——的新搜索算法,在执行这个人工智能的几个命令时,速度比普通芯片快上几个数量级。有了它,你的计算机屏幕只会空屏23毫秒而不是4秒。
在第三代原型中,芯片位于每个服务器的边缘,直接插入到网络,但仍旧创造任何机器都可接入的FPGA池。这开始看起来是Office 365可用的东西了。最终,Project Catapult准备好上线了。另外,Catapult硬件的成本只占了服务器中所有其它的配件总成本的30%,需要的运转能量也只有不到10%,但其处理速度却是原来的2倍。
ASIC(ApplicationSpecificIntegratedCircuits,专用集成电路),是指应特定用户要求或特定电子系统的需要而设计、制造的集成电路。严格意义上来讲,ASIC是一种专用芯片,与传统的通用芯片有一定的差异。是为了某种特定的需求而专门定制的芯片。谷歌最近曝光的专用于人工智能深度学习计算的TPU,其实也是一款ASIC。
TPU是专门为机器学习应用而设计的专用芯片。通过降低芯片的计算精度,减少实现每个计算操作所需的晶体管数量,从而能让芯片的每秒运行的操作个数更高,这样经过精细调优的机器学习模型就能在芯片上运行得更快,进而更快地让用户得到更智能的结果。Google将TPU加速器芯片嵌入电路板中,利用已有的硬盘PCI-E接口接入数据中心服务器中。
据Google 资深副总裁Urs Holzle 透露,当前Google TPU、GPU 并用,这种情况仍会维持一段时间,但他表示,GPU 可执行绘图运算工作,用途多元;TPU 属于ASIC,也就是专为特定用途设计的特殊规格逻辑IC,由于只执行单一工作,速度更快,但缺点是成本较高。
总结一下,人工智能越来越被人们看好,成为未来趋势是不言而喻的。2016年,芯片企业和互联网巨头们在芯片领域开展全面部署,其中,英伟达凭借在GPU领域长期的领先地位,以及较早的在人工智能领域进行投资而占尽先机。AMD和Intel等芯片巨头也纷纷加入这场人工智能芯片市场争夺战。另外,某研究机构表示,除了GPU之外,FPGA、ASIC也将可能在人工智能来临之际迎来爆发期。未来将会如何,很值得期待!
备注:文章部分来源于PingWest、21世纪经济报道、浙商证券,如有侵权请联系沟通。