人工智能处理器技术盘点

发布者:大树下的大白菜y最新更新时间:2018-06-06 来源: 中关村在线关键字:人工智能 手机看文章 扫描二维码
随时随地手机看文章

  1492年哥伦布从西班牙巴罗斯港出发,一路西行发现了美洲。葡萄牙人达伽马南下非洲,绕过好望角到达了印度。不久之后,麦哲伦用了整整三年时间,完成了人类史上第一次环球航行,开启了人类历史上的大航海时代。大航海时代的到来,拉近了人类社会各文明之间的距离,对人类社会产生了深远的影响。


人工智能进入“大航海时代”


人工智能进入“大航海时代”


  从深蓝到Alpha Go,人工智能逐渐走进人们的生活。人工智能也从一场技术革命,逐渐走向了产业落地。智能手机、智能家居设备、智能音箱……等设备,已经完全进入到人们的生活中。指纹识别、人脸识别、画面增强等实用人工智能的技术,也成为了人们日常使用电子设备必不可少的技术。


基于面部识别的emoji表情


基于面部识别的emoji表情


  这些在我们日常生活中“见怪不怪”的人工智能技术越来越普遍,代表了人工智能产业在近年来的爆炸式发展,2018年更是被称为人工智能技术规模应用的拐点。而作为人工智能技术的核心,人工智能芯片也备受关注,引得国内外科技巨头纷纷布局。谷歌、苹果、微软、Facebook、英特尔、高通、英伟达、AMD、阿里巴巴等巨头纷纷开始自主研发人工智能芯片。



  国产寒武纪芯片


  并且人工智能芯片的应用场景细分市场越来越多,专门为某些人工智能应用场景定制的芯片适用性明显高于通用芯片。这样的形势,给一些人工智能芯片的初创公司带来了机会。寒武纪芯片和地平线的人工智能视觉芯片、自动驾驶芯片等,就是初创公司在人工智能芯片领域取得成功的代表。


  人工智能芯片大火的同时,已经呈现出三分天下的态势。FPGA、GPU和TPU芯片,已经在人工智能领域大规模应用。这三种人工智能芯片有何不同?人工智能企业又是怎样看待这三种芯片的?下文将为您详述。


  FPGA并不是新鲜的事物,而因为AI的火热的应用需求不断增强,FPGA正是作为一种AI芯片呈现在人们的面前。准确的说,不仅仅是芯片,因为它能够通过软件的方式定义,所以,更像是AI芯片领域的变形金刚。


  FPGA是现场可编程逻辑阵列的首字母缩写,即Field-Programmable Gate Array。过去曾与可编程逻辑器件CPLD进行过较量,如今已经在PAL、GAL、CPLD等可程式逻辑装置的基础上进一步发展,成为英特尔进军AI市场的一个重要法宝。


全球FPGA市场的年均增长率会达到7%(图片来自:gartner.com)


全球FPGA市场的年均增长率会达到7%(图片来自:gartner.com)


  为了更好地了解FPGA和其对AI芯片的未来看法,ZOL企业站对英特尔可编程解决方案事业部亚太区市场拓展经理刘斌(Robin Liu)进行了书面采访。面对目前市场上出现的,CPU、GPU、FPGA、TPU等多种技术处理方式,英特尔又有哪些判断。


  FPGA三大特点


  刘斌表示:“实际上今天绝大多数人工智能系统是部署在通用处理器上的,原因是在很多应用领域中人工智能部分只是完成某个环节的系统任务,还有大量其它任务一起构成系统处理的完整单元。”在此基础上,出现了很多种选项,比如FPGA、TPU2或者NNP等专用处理器。这种专用处理器,往往向深度学习和神经网络领域延伸,拥有更高效的存储器访问调度结构。


FPGA具有很强的灵活性(图片来自:ruggedpcreview.com)


FPGA具有很强的灵活性(图片来自:ruggedpcreview.com)


  FPGA被称为大型数据中心和计算机群众的“加速多面手”也有其技术生态背景。FPGA的开发社区规模相对较小,也具有一定的门槛,但是,FPGA具备良好的存储器访问能力,并且可以非常灵活高效的处理各种不同位宽的数据类型,其有效计算力接近专用处理器的水平,FPGA还可以在线重编程成为其它非人工智能任务的硬件加速器,这也是其有别于GPU和TPU的关键因素。


  具体而言有三大特点:FPGA器件家族的广泛覆盖可以适配从云到端的应用需求;FPGA具有处理时延小并且时延可控的特点,更适合某些实时性要求高的业务场景;FPGA可以灵活处理不同的数据位宽,使得系统可以在计算精度、计算力、成本和功耗上进行折衷和优化,更适合某些制约因素非常严格的工程化应用。相比于ASIC则FPGA更加灵活,可以适配的市场领域更加广泛。


  自定义功能芯片


  以微软为例,在微软必应搜索业务和Azure云计算服务中,均应用了英特尔FPGA技术,在其发布的“脑波项目”(Project Brainwave)中特别阐述了英特尔FPGA技术如何帮助Azure云和必应搜索取得“实时人工智能”(real-time AI)的效果。


  英特尔 FPGA 支持必应快速处理网页中的数百万篇文章,从而为您提供基于上下文的答案。借助机器学习和阅读理解,必应 现在可提供智能答案,帮助用户更快速找到所需答案,而非手动点击各个链接结果。在微软脑波计划中,同样选择了英特尔现场可编程门阵列的计算晶片,以具有竞争力的成本和业界最低延迟进行人工智能计算。


  如果说在AI芯片领域各家有各家的拿手绝学,那么身为“变形金刚”FPGA的拿手绝学就是自定义功能了。作为特殊应用积体电路领域中的一种半定制电路的FPGA,既解决了全定制电路的不足,又克服了原有可编程逻辑器件门电路数有限的缺点。也就是说,尽管FPGA不是辐射范围最广的,但是一旦匹配后,输出惊人,所以也是良好的芯片选择。


  不止FPGA


  随着人工智能的发展,芯片的设计不仅要能够满足人工智能对计算力的需求,还要能够适应不断变化的产业需要。在不同的应用领域和不同的位置,前端还是数据中心,甚至边缘计算等应用场景。刘斌表示:一种芯片是没办法解决所有问题的。从移动设备,到服务器,再到云服务、机器学习和人工智能的加速,需要不同种类的技术支持,需要能够支持从毫瓦级到千瓦级的多种架构。


  在英特尔人工智能领域,除了FPGA之外,还提供了ASIC方案下的NNP神经网络计算加速器、Movidius专注前端智能摄像头领域和Mobieye加速芯片,在无人车领域做视觉相关的物体、道路、异常情况的监测。


  过去30多年,摩尔定律几乎每年都会推动微处理器的性能提升50%,而半导体的物理学限制却让其放慢了脚步。如今,CPU的性能每年只能提升10%左右。事实上,英伟达CEO黄仁勋在每年的GTC上都会提到同一件事——摩尔定律失灵了。也就是说,人们要获得更强的计算力,需要花费更多的成本。与此同时,GPU的崛起速度令人咂舌,看看英伟达近两年的股价就知道了。


微处理器趋势图(图片来自NVIDIA)


微处理器趋势图(图片来自NVIDIA)


  随着人工智能、深度学习等技术的兴起与成熟,起初为图像渲染而生的GPU找到了新的用武之地,以GPU驱动的计算环境随处可见,从HPC到AI训练。站在数字世界、高性能计算、人工智能的交叉口,GPU悄然成为了计算机的大脑。将性能从10倍提升至100倍,GPU的加速能力远超以X86架构构建的CPU系统,将时间压缩至分钟级别,功耗也相对较低。


  2006年,借助CUDA(Compute Unified Device Architecture,通用计算架构)和Tesla GPU平台,英伟达将通用型计算带入了GPU并行处理时代,这也为其在HPC领域的应用奠定了基础。作为并行处理器,GPU擅长处理大量相似的数据,可以将任务分解为数百或数千块同时处理,而传统CPU则是为串行任务所设计,在X86架构下进行多核编程是很困难的,并且从单核到四核、再到16核有时会导致边际性能增益。同时,内存带宽也会成为进一步提高性能的瓶颈。


传统CPU计算架构难以支撑快速成长的HPC(图片来自NVIDIA)


传统CPU计算架构难以支撑快速成长的HPC(图片来自NVIDIA)


  与以往的通用算法相比,深度学习对计算性能的要求则到了另一个量级上。尽管在GPU中运行并行核心时处理的应用数量相同,但在系统中单个内核的使用效率却更高。此外,经过重写的并行函数在应用程序关键部分运行时,在GPU上跑的速度更快。


  更重要的是,英伟达在利用GPU构建训练环境时还考虑到了生态的重要性,这也是一直以来困扰人工智能发展的难题。首先,英伟达的NVIDIA GPU Cloud上线了AWS、阿里云等云平台,触及到了更多云平台上的开发者,预集成的高性能AI容器包括TensorFlow、PyTorch、MXNet等主流DL框架,降低了开发门槛、确保了多平台的兼容性。


  其次,英伟达也与研究机构、大学院校,以及向Facebook、YouTube这样的科技巨头合作,部署GPU服务器的数据中心。同时,还为全球数千家创业公司推出了Inception项目,除了提供技术和营销的支持,还会帮助这些公司在进入不同国家或地区的市场时,寻找潜在的投资机会。


  可以说,英伟达之于GPU领域的成功除了归功于Tesla加速器、NVIDIA DGX、NVIDIA HGX-2这些专属的工作站或云服务器平台,更依托于构建了完整的产业链通路,让新技术和产品有的放矢,从而形成了自己的生态圈,这也是英特尔难以去打破的。


  在不久前举行的谷歌I/O 2018开发者大会上,TPU3.0正式亮相。根据官方介绍,TPU3.0的计算能力最高可达100PFlops,是TPU2.0的8倍多。TPU的英文全名是Tensor Processor Unit,它是谷歌自主研发的针对深度学习加速的专用人工智能芯片。TPU是专为谷歌深度学习框架TensorFlow设计的人工智能芯片。著名的AlphaGo使用的就是TPU2.0芯片。


谷歌TPU3.0芯片


谷歌TPU3.0芯片


  目前大多数人工智能企业青睐于GPU芯片,而TPU相对于GPU而言,采用8位低精度计算节省晶体管,对精度影响很小但是却可以大幅节约功耗。尤其是当大面积集成系统时,TPU不仅性能更强,功耗也会大幅低于GPU集成系统。由于芯片能力非常强大,谷歌使用了液冷散热技术,可以帮助TPU更好的为数据中心服务。


谷歌TPU架构


谷歌TPU架构


  除了强大的性能外,谷歌在生态系统的建设上做了大量的工作。在TPU1.0和2.0的初期,谷歌并没有大规模推进其商业化,而是围绕生态做文章。这就意味着要投入巨额的成本,而且冒着极大的市场风险。当然,背后的潜在市场也是巨大的。在人工智能市场竞争激烈的形势下,吸引到更多的开发者到谷歌的生态系统中,将会比对手有更强的竞争优势。


TPU计算集群


TPU计算集群


  目前谷歌正快速扩张自己的云计算业务,TPU也依托于云平台运行。通过更低的售价让人工智能开发企业抛弃GPU,转投成本更低的TPU服务,是谷歌目前正在大力发展的业务。如果TPU无法获得巨大的市场份额从而降低单颗TPU的成本,那么谷歌将很难在人工智能市场盈利。不过,TPU强劲的计算性能和集群计算阵列可以让人工智能开发企业更快的开展业务。TPU的强大,让谷歌在人工智能芯片领域已称霸一方。    


  上游厂商喊得再欢,落地到千人千面的行业场景中也要由解决方案商来帮忙,无论是GPU、FPGA还是TPU,最终还是要听听客户的使用感受。为此,我们采访了人工智能产品和行业解决方案提供商旷视科技。旷视科技利用自主研发的深度学习算法引擎Brain++,服务于金融安全、城市安防、手机AR、商业物联、工业机器人等五大核心行业。


  在旷视科技看来,GPU、FPGA、TPU在通用性和能效比之间的取舍不同。其中,GPU最成熟,但也最耗资源,常用于训练神经网络和服务端;FPGA最灵活,能支持应用中出现的特殊操作,但要考虑灵活度和效率之间的trade-off;TPU相对最不灵活,但如果场景合适则能发挥出最大功用。


  如果拿汽车类比,GPU是大巴车,适合多人同目标;FPGA是小轿车,能到任何地方,但得自己会开;而TPU是火车,只能在比公路少的多的铁轨上开,但开的飞快。人工智能还在快速发展,还处于在各个行业落地的过程中。这个阶段对GPU,FPGA和TPU都有需求。


  目前,旷视科技选择的是T型技术方案,即在维持一定广度的同时,深耕某些应用场景,因此在算法实际落地的过程中,自然而然地产生了从GPU/CPU到FPGA的需求。GPU主要用于训练,而FPGA能在端上能提供比GPU更好的性能功耗比。CPU则是无处不在的“默认“选择。未来,不排除采用TPU的方案来进一步提高端上的能力。


  从行业来看,当前IoT领域对AI芯片的需求最为迫切,原因是IoT领域要求在有限的功耗下完成相应的AI任务,最需要性能功耗比高的AI芯片。至于未来要借助AI赋能各个行业,旷视科技认为,最初阶段可能都会先用GPU的AI方案,因为和源头(即神经网络训练阶段)衔接最好。另外对于中心化的应用,只要GPU按现在的“黄定律”的速度迭代前进,基于GPU在大批量处理数据的场景下仍然经常是公开可得的最佳方案。


关键字:人工智能 引用地址:人工智能处理器技术盘点

上一篇:英伟达布局机器人领域,推出专用芯片及平台
下一篇:Android P原生支持Fraunhofer xHE-AAC音频编解码器

推荐阅读最新更新时间:2024-05-03 02:58

意法半导体新品发布:推出耐高温、支持AI的汽车惯性测量单元
意法半导体(STMicroelectronics,ST)于11月30日宣布,推出一款名为ASM330LHHXG1的新型汽车用惯性测量单元(IMU)。该产品采用了传感器内AI和增强型低功耗操作,能在125°C的温度范围内稳定工作,即使在恶劣环境下也能保持可靠性。 这款新型汽车IMU包含一个3轴加速计和3轴陀螺仪,两个传感器运行时的电流消耗低于800μA,这有助于降低系统的功耗预算,使其可以在始终感知的应用中使用。传感器内部的AI通过使用内置的机器学习核心(MLC)和有限状态机(FSM),能够减轻主机处理器的负担,实现低延迟、节能的事件检测和分类。 ASM330LHHXG1智能传感器的另一个优点是其扩展的温度范围。这使得它可以
[汽车电子]
意法半导体新品发布:推出耐高温、支持<font color='red'>AI</font>的汽车惯性测量单元
人工智能与大数据的关系和影响
  和大数据是当今最火热的两个,二者之间有着密不可分的关系。   人工是指计算机人类智能的能力,包括理解语言、学习、推理、计算、感知和规划等。   而人工智能是一种基于计算机科学的技术,旨在模拟人类的智能行为和思维方式。   而大数据则是指规模巨大、难以处理的数据集合。   大数据是指由各种数据来源产生的大量数据   这些数据来源包括、移动设备、社交媒体、搜索引擎、交易系统等。这些数据的规模非常庞大,通常需要用到先进的数据处理技术和才能进行有效的分析和利用。   人工智能和大数据是密不可分的。大数据提供了足够的数据让,从而使人工智能更加聪明、精确和准确。同时,人工智能也能够为大数
[机器人]
马文·明斯基,将一生奉献给了人工智能事业
“智能问题看起来深不见底,我想这是值得我奉献一生的领域。” 在70年的人工智能浪潮中,马文·明斯基(Marvin Minsky)是一个如雷贯耳的名字,与机器学习、神经网络、虚拟现实、框架理论等热门名词紧紧联系在一起。他是定义和发展“人工智能”的先驱者之一,也是人工智能领域的首位图灵奖获得者,被尊称为“人工智能之父”。他的学术贡献璀璨夺目,横跨人工智能、机器人、图形与显微镜技术、数学、认知心理学等多个学科领域。 探究智能的狂热 1927年,Marvin Minsky出生于美国纽约的一个犹太家庭。他从小在私立学校接受教育,高中毕业后遵循犹太传统应征入伍,在二战末期经历了两年海军生涯。退伍后,他在哈佛大学主修数学,同时选
[嵌入式]
马文·明斯基,将一生奉献给了<font color='red'>人工智能</font>事业
LG电子将转向 重点发力人工智能与机器人业务
    LG电子首席执行官乔晟金(Jo Seong-jin)表示,LG作为韩国消费电子行业的巨头,今年之内将改变方向,加强人工智能和机器人业务的发展,这也是未来公司业绩增长策略的一部分。 LG 参加了2018 年德国柏林国际消费电子展(IFA),乔晟金8月31日在电子展上表示,公司计划聘请大批工程师,给发展人工智能和机器人业务提供更好的技术基础。 乔晟金反复声明,机器人和人工智能是未来的趋势,公司要突破目前的领域,引领商界。他说:“世界正要迎来人工智能的时代,顺应潮流十分重要。” 乔晟金谈到机器人业务方面,公司会把重点放在家用机器人、公用机器和工业机器上,也要在研发可穿戴器械设备领域领先。公司还在电子展上推出了CLOi Sui
[手机便携]
云端、物联网、AI等技术助力,智能家居市场望明显增长
上周台湾建筑大厂远雄建设开记者会,介绍该公司旗下的智能二代宅,透过云端、 物联网 、 AI 等技术的整合,擘划出未来居家生活的新面貌,从远雄的相关动作与国外近年来的家电连网进展,可以看出智能住宅这个老议题已再次加温, 尤其是在如Amazon这类型语音智能助理的带动下,近期可望有明显成长。   说智能住宅是老议题一点都不为过,早在10几年前,包括Intel等科技大厂就曾经推动过数字家庭,其诉求是将家中的PC、音响、电视等影音设备串流,不过当时只有科技产业一头热,大型家电业者多持观望态度,后来不了了之, 在数字家庭息声不久后,换工业计算机业者喊出智能住宅,与之前数字家庭不同,智能住宅主要以控制技术为主,应用的设备是家中灯光、窗帘
[嵌入式]
人工智能和机器人结合 打造10000美元的性爱机器人
  美国性爱娃娃制造商RealDoll正将人工智能()和机器人结合起来,开发出一款可以定制性格,和人进行情感交流的性爱机器人。   新产品有好几个部分,都将在今明两年推出。首先是 AI ,预计将于 4 月 15 日推出;接着是“机器人头”系统,将于年底发布;而虚拟现实平台则要等到明年。   价格自然也不菲,光是这个机器人头售价就高达 10000 美元。而除了智能的部分,身体也非常逼真。   每个仿真硅胶“RealDoll”性爱机器人都拥有灵活的骨骼,从开始生产到最终成品出炉大约需要耗费 80 小时,不仅如此,这款性爱机器人还可以定制生殖器和更换面孔。   在加州圣马科斯厄比斯创意( Abyss CreaTIon)
[机器人]
NVIDIA Omniverse让AI训练变得更加简单易用
Rendered. 将 NVIDIA Omniverse Replat 集成到其合成数据生成平台,使 AI 训练变得更加简单易用。 Rendered.ai 正在通过其合成数据生成(G)平台即服务(PaaS)为、数据科学家等人员简化 AI 训练。 训练 AI 模型需要大量高质量、多样化且无偏向的数据集。在对 AI 的需求日益增加的情况下,获得这些数据的难度很大且成本高昂。 Rendered.ai 平台即服务的解决方法是,生成符合现实的合成数据(从 3D 中创建的数据)来训练计算机视觉模型。 Rendered.ai 创始人兼首席执行官 Nathan Kundtz 表示:“真实世
[机器人]
英特尔自研AI工具,将耗时数周的芯片设计周期缩短至几个小时
增强型人工智能为Meteor Lake处理器的设计提速,并将在未来的客户端处理器家族中得到应用。 Olena Zhu博士,英特尔客户端计算事业部高级首席工程师及人工智能解决方案架构师 (来源:英特尔公司) 数十年来,我们需要将科学与艺术相结合,以决定将热敏传感器置于英特尔客户端处理器的何处。 电路设计师会参考历史数据,来确定将热感应器放置在现代笔记本电脑的中央处理器(CPU)的哪个位置。他们还会依靠经验判断热点容易出现的区域。这个复杂的流程可能需要耗费6周时间进行测试,包括模拟工作负载,优化传感器位置,然后重新开始整个步骤。 如今,得益于英特尔工程师内部研发的一种新的增强智能工具,系统级芯片的设计师无需再等6周
[半导体设计/制造]
英特尔自研<font color='red'>AI</font>工具,将耗时数周的芯片设计周期缩短至几个小时
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved