大数据重塑新芯片架构 AI处理器寻求突破

发布者:BlissfulHeart最新更新时间:2017-06-02 关键字:芯片  AI 手机看文章 扫描二维码
随时随地手机看文章

  业界共同的愿景是开发一款人工智能(AI)处理器,它可为神经网络处理训练与推理等任务,甚至可能出现一些新的自我学习技术;这种AI处理器还必须能透过大规模的平行化方式提供强大的性能,同时具有高功效且易于编程...下面就随网络通信小编一起来了解一下相关内容吧。

  由亚马逊(Amazon)、Google和Facebook等网络巨擘所收集的大量数据集,正推动处理这些巨量数据的新芯片复兴。 预计在六月底的年度计算机架构大会上将亮相其中两项最新成果。

  史丹佛大学(Stanford University)的研究人员将介绍一种可重配置处理器——Plasticine,它可支持比FPGA更高近100倍的每瓦特性能,同时也更易于编程。 此外,Nvidia的两名资深设计人员定义了一款推理处理器,可提供较现有组件更高2倍性能与能源效率。

  这些芯片象征着这项任务的冰山一角。 过去一年来,英特尔(Intel)收购了三家机器学习创业公司。 而其竞争对手——三星(Samsung)则连手Dell EMC投资英国公司Graphcore,这是该领域的六家独立新创公司之一。

  Nvidia正致力于推动其GPU作为神经网络训练引擎的销售。 同时,该公司也正调整其芯片架构,使其得以更有效地处理这些任务。

  Google则声称其庞大的x86 CPU丛集以及Nvidia的GPU均不足以胜任这项处理任务。 因此,Google推出了自家的两款加速器版本——Tensor处理器(TPU)。

  Graphcore执行长Nigel Toon说:“如今正是“运算2.0”(Compute 2.0)的时代,它象征着一个全新的运算世界。 Google最终将使用以TPU为基础的机架结构,几乎不使用任何CPU,因为它有98%的营收都来自搜寻——这正是机器学习的理想应用。 ”

  最终,机器学习芯片将出现在广泛的嵌入式系统中。 以汽车每年卖出1,800万辆和服务器约1,000万套的年销售量来看,Toon说:“自动驾驶车应用可望为这项技术带来一个比云端更大的市场,而且是一个以往从未存在过的市场。 ”

  如今业界共同的愿景是开发一款人工智能(AI)处理器,它可为神经网络处理训练与推理等任务,甚至可能出现一些新的自我学习技术。 这种AI处理器还必须能透过大规模的平行化方式提供强大的性能,同时具有高功效且易于编程。

  即使是这项开发任务的基本数学也引发热烈讨论。 Toon认为,16位浮点乘法与32位累加运算的组合,能够带来优化精确度以及最小误差。

  这正是Nvidia Volta架构导入的Tensor核心所使用的途径,同时也是Graphcore将在今年10月出样给早期合作伙伴的高阶芯片。 该新创公司正专注于开发一款采用新内存与互连的大型芯片,该芯片并可外接至各种单元与丛集。

  后多核心时代的灵活性

  由Kunle Olukotun带领的史丹佛大学研究团队也有类似的目标,不过,他们采取了一条与Plasticine不一样的道路。

  Olukotun说:“多核心时代即将结束…… 我们正处于一个现代应用程序(app)改变运算模式的时代。 ”Olukotun曾经协助一家新创公司率先打造出多核心设计,该技术最终成为Oracle基于Sparc处理器的一部份。

  “对于机器学习的统计模型,真正需要的运算方式与古典的确定性运算途径截然不同,所以这将带来一个真正的机会。 ”

  如同英国布里斯托的竞争对手Graphcore一样,史丹佛大学研究团队摒弃了共享一致的快取等传统思维。 史丹佛大学数据科学计划执行总监Stephen Eglash认为,Plasticine“最令人兴奋之处在于硬件可在运行时重新配置,为特定计算方式实现优化。 ”

  Olukotun说:“我们的目标在于让拥有专业知识的任何人都能建立可生产的机器学习系统,而不一定得由机器学习或硬件领域的专家来做。 ”

  为了实现这一目标,史丹佛大学定义了一种新的语言Spatial,可将算法的各部份映像至平行处理器的各部份。 Olukotun说:“我们拥有完整的编译程序流程,从高层级的Tensor Flow架构到硬件呈现。..。.. 事实上,它具有比FPGA更高10倍每瓦特性能,也更易于编程100倍。 ”

  Spatial类似于Nvidia的Cuda GPU编程语言,但应该更易于使用。 它能将诸如分散/收集或MapReduce等功能映像至硬件中的外显内存阶层架构,经由DRAM和SRAM实现串流数据集。

  因此,Pasticine处理器“是一项软件至上的计划,”Olukotun说。

  Eglash认为在物联网的边缘节点正需要这样的技术。 “我们所产生的数据将会比传送至云端的更庞大,所以必须采用一些分布式的本地运算。 ”

  短期来看,机器学习将为智能型手机带来“超级个性化”,针对用户的喜好自动量身打造。 别再为密码和指纹伤脑筋了。 Eglash说:“你的手机可能在几秒内就知道你是不是本尊。 ”

  在工业物联网(IIoT),推理任务已经被分配至网关了。 GE Digital云端工程主管Darren Haas说,“我们所打造的一切都可以被划分成较小的装置,甚至是Raspberry Pi 。.. 我们在云端建立了大规模的模型,并使其得以在边缘执行于轻量级硬件上。 ”

  史丹佛大学的Plasticine架构

  史丹佛大学的Plasticine是一种全新的架构,可能是Graphcore等新创公司将会采用的技术。 它充份利用了平行模式和高层级抽象,以撷取有关数据位置、内存存取模式和控制流程等细节,从而在“一系列的密集与稀疏应用上进行操作”。

  在该芯片核心采用16×8的交错式图形运算单元(PCU)数组与图形内存单元(PMU),透过3个互连信道利用3种控制协议进行连接。 这款尺寸为113mm2的芯片采用Spatial将应用映像至数组上;相较于采用类似28nm制程打造的FPGA,该芯片可提供更高95倍的性能以及高达77倍的每瓦性能。

  Plasticine在1GHz频率频率下的功耗高达49W,支持12.3TFlops的峰值浮点运算性能,以及16 MB的芯片容量。

  PCU是执行巢状模式之可重配置SIMD功能单元的多级管线。 PMU使用库存的缓存器内存和专用寻址逻辑与地址译码器。

Plasticine采用16×8的PCU与PMU数组,以及地址产生器和交换盒

  这些主单元和其他周边组件透过字级纯量、多字符向量和位级控制互连进行连接,且全部都采用相同的拓扑结构。 各个连接都采用分布式的分层控制机制,以尽可能减少使用同步单元,从而实现序列、流水线或串流的执行。

  该途径简化了编译程序映像并可提高执行效率。 “每个Plasticine组件均用于映像应用的特定部份:本地地址计算在PMU中完成,DRAM地址运算发生在DRAM地址管理单元,其余的数据运算则在PCU中进行。 ”

  Olukotun解释说:“本质上,它是一组高度库存的内存,支持专用地址单元产生附近的地址。 只需执行计算,即可让内存在正确的时间将数据串流至运算单元,而无需解译指令。 ”

  该芯片采用四个DDR信道外接DRAM,并进行缓冲和管理,以尽可能减少芯片外处理。

  Olukotun说:“许多机器学习都专注于建置卷积神经网络(CNN),但我们的目标是打造更灵活且涵盖稀不断变化中的疏密集算法,让开发人员可以将其设计想法传达给硬件。 ”

  研究人员采用周期精确仿真来合成设计的RTL,为线性代数、机器学习、数据分析与图形分析等任务产生基准。 他说:“我们希望这些设计概念能直接用于芯片上,并计划在6到18个月内进行芯片设计。 ”

  

Plasticine与英特尔28nm Stratix-V的性能比较 (来源:Stanford)

  Nvidia研究人员打造稀疏推理引擎

  另一组由9名研究人员组成的研究团队(其中有7人来自Nvidia)将介绍稀疏卷积神经网络(SCNN)推理加速器。 该研究团队包括资深的微处理器设计人员Joel Emer(曾协助定义同步多线程),以及Nvdia首席科学家William Dally。

  相较于同级配置的密集CNN加速器,SCNN可提供更高2.7倍的性能和2.3倍的能源效率。 该芯片采取较以往的研究更先进的途径,可消除无关紧要的数学运算,并专注于以最高效的方法处理CNN权重与启动。

  此外,它采用了一种新的数据流,可在压缩编码过程中保持稀疏权重与启动,从而避免不必要的数据传输以及减少储存的需求。 此外,“SCNN数据流有助于将这些权重与启动有效地传递到乘法器数组,并在此广泛重复使用。 ”

  该途径可让“较大CNN的所有操作量保留在各层间的芯片缓冲区,完全不必使用大规模网络所需的高成本跨层DRAM参考资源。 ”

SCNN使用处理元素(PE)数组,处理权重以及输入/输出启动 (来源:Nvidia)

  该芯片的处理元素(PE)采用支持权重和启动向量的乘法器数组。 该芯片采用16nm制程技术,将64个PE与16个乘法器封装于7.4mm2模块中,使其尺寸略大于类似的密集CNN加速器。

  该论文并比较了SCNN与其他研究中的芯片。 然而,Dally猜测这款芯片“比商用推理加速器的效率更高,因为它利用的是稀疏设计途径。 ”

  如同Plasticine一样,目前的研究成果是以仿真为基础,尚未制造芯片。 Dally说:“我们正为这款设计进行布局以及时序收敛。 ”

  Nvidia尚未宣布商用化SCNN技术的任何计划,但在研究论中指出,“我们正持续在这个领域的研发工作。 ”

    以上是关于网络通信中-大数据重塑新芯片架构 AI处理器寻求突破的相关介绍,如果想要了解更多相关信息,请多多关注eeworld,eeworld电子工程将给大家提供更全、更详细、更新的资讯信息。

关键字:芯片  AI 引用地址:大数据重塑新芯片架构 AI处理器寻求突破

上一篇:谷歌TPU势头正劲 英伟达GPU突围AI芯片胜算有几分
下一篇:传联想全球总裁兰奇已离职 并“跳槽”华为

推荐阅读最新更新时间:2024-05-07 17:25

恩智浦NFC芯片加入高通骁龙系列
     智浦半导体(NXP )今(6)日宣布,与高通(Qualcomm )携手合作,未来在高通的行动处理器系列晶片,包括Qualcomm Snapdragon™ 800、 600、400和200处理器的平台上结合恩智浦的近距离无线通讯(NFC)和嵌入式安全元件(eSE)解决方案。 Qualcomm 的骁龙(Snapdragon)相关的设备上迅速导入NFC和eSE技术,将可满足众多消费应用对多元化功能的市场需求。新的参考设计将NFC技术延伸到智慧手机外的其他应用领域,例如自动化家庭(Home automation)、消费性电子产品、汽车、智慧家电、个人计算和可穿戴装置。 推出适用于Snapdragon平台的恩智浦NFC和eS
[手机便携]
Altera FPGA设计安全工业芯片系统的验证方法
工业自动化、物流以及智能电网等很多工业领域都要求机械设备和产品具有安全性,经过了功能安全认证。当开发必须符合全世界安全标准的机械设备时,灵活性和逐渐增高的安全成本是非常重要的决定因素。 在这些应用中,安全要求产生了新的机械开发过程,增加了电子设备的复杂度,一般会导致显著增加硬件成本,延长了产品面市时间。工业芯片系统能够帮助工程师在获得IEC 61508产品认证过程中节省18个月的设计时间。具有Altera FPGA等经过认证的器件意味着,设计人员可以充分发挥FPGA的灵活性优势,不用担心这些器件能否用于安全应用。 设计挑战 如果公司计划将产品销售到需要符合当地安全规章制度的国家,这些国家要求有功能安全评估人员的认证,例如,新
[嵌入式]
Altera FPGA设计安全工业<font color='red'>芯片</font>系统的验证方法
移动芯片苹果或许比华为更有优势
其实在移动 SoC 集成 AI 人工智能处理单元这一全新模式上,苹果比其他竞争对手有更大的优势,重点就是因为苹果软硬结合的实力一直是行业的标杆。 为了一款产品研发能够融入了更多自主重要技术,苹果在很多定制零部件上都体现了非常强大的控制力,从天线到处理器、时序控制器以及未来的屏幕,无一不在自己的掌控当中。除了严格的硬件控制,苹果还有最自主的操作系统和开发环境,例如苹果 6 月新推出的 Core ML 架构,一个面向开发者提供的机器学习架构,支持所有主要的神经网络:深度神经网络(DNN)、递归神经网络(RNN)、卷积神经网络(CNN)。 通过 Core ML 能够让开发者把机器学习用到 app 里,包括文本分析、人脸识别等等功
[半导体设计/制造]
英特尔宣布成立新 AI 公司“Articul8”,专为企业客户提供生成式人工智能软件
1 月 4 日消息,英特尔今日宣布,在数字资产管理公司 DigitalBridge Group 和其他投资者的支持下,该公司将围绕人工智能业务组建一家新的独立公司 ——Articul8 AI,旨在为企业客户提供全栈、垂直优化且安全的生成人工智能(GenAI)软件平台。 IT之家查询发现,英特尔官方暂未透露这家新公司的详细信息,也不愿评论该公司是否将保留新合资企业的多数股权,只是表示该公司将拥有一个独立的董事会,而英特尔仍将是股东。 这家公司不会公开上市,它最初只是英特尔与波士顿咨询集团(Boston Consulting Group)合作开展企业人工智能技术项目的产物。 据介绍,英特尔数据中心和人工智能集团前副总裁兼总经理 A
[焦点新闻]
三星前高管批美国对华芯片限制政策:称其可能适得其反影响韩国
据英国金融时报消息,韩国国会议员、三星电子前芯片工程师和高管梁香子,强力批评美国干预全球半导体产业的做法。她认为美国限制中国大陆取得生产先进制程芯片的措施,可能损害美国与其亚洲盟友的关系,并导致中国大陆更加努力取得科技进展。 梁香子在接受金融时报采访时表示,“如果美国政府持续试图惩罚其他国家,通过法案以及无法预测的方式执行‘美国优先’政策,其他国家可能组成对抗美国的联盟。”她表示美国是世界上最强大的国家,应该更加考虑人类普世价值,以其实力作为武器,并非众人乐见。 梁香子坦诚,美国的科技战手段,迄今还未伤害到韩国的半导体产业,因为对中国大陆的制裁实际上可能导致芯片公司减少产量,从而使得产品价格变高。 她补充道:“美
[半导体设计/制造]
茂德台积电修改赴大陆投资申请升为0.18微米
据台湾媒体2月13日报道,台湾两大芯片代工企业台积电和茂德科技日前向台湾行政机构相关部门提出修改之前的赴大陆投资申请,把之前申请的输往大陆的0.25微米工艺重新修改为0.18微米。 台湾媒体引述政府官员的话说,目前两家公司的申请正在等待政府各相关部门的审批。 众所周知的是,去年年底,台湾行政机构放宽了半导体行业赴大陆投资的相关技术限制,其中批准半导体厂商将8英寸晶圆、0.18微米线宽的工艺输往大陆。 值得一提的是,茂德科技的8英寸芯片厂项目将落户西部的重庆,茂德将把台湾的设备搬迁到重庆。另外,之前重庆工厂的工艺是0.25微米。分析人士认为,如果台湾行政机构批准茂德科技最新提出的申请,重庆8英寸芯片厂将会使用更为先进的0.18微
[焦点新闻]
2017年人工智能行业9大预测:某些职业将实现自动化
美国科技博客VentureBeat近日撰文,对2017年的人工智能行业发展进行了预测。 以下为原文内容: 人工智能成了2016年的热门话题,短期内似乎不会降温。过去一年发生的投资、收购、试点、重组和突破将推动人工智能行业在未来1年产生巨大影响。以下就是2017年人工智能行业值得关注的9大预测: 1、不再夸大其词 人工智能将从天上回归人间。我们不会再谈论牵强附会的人机对抗问题,而是会想尽办法利用人工智能将海量大数据转化成井然有序的信息,帮助我们实现各种梦想。当人们意识到人工智能能做什么、正在做什么之后,新闻报道便会回归理性,从而对人工智能形成更加实际的认识。 我们将积极拥抱人工智能技术,使之成为提升经济效率的关键。从商业流程外包到计
[手机便携]
专利曝光AMD正在研究光子技术 旨在多层芯片上实现光速通信
Tom's Hardware 报道称:AMD 已经表现出了对光子技术的浓厚兴趣,意味着该公司的半导体产品将获得难以置信的快速数据通讯加持。2020 年,该公司向美国专利商标局(USPTO)提交了一项专利,文档中描述了一类新颖的超级计算机,特点是具有连接到单个芯片的光子通信系统。 WCCFTech 解释称:光子学(photonics)侧重于光波的产生、检测与光源操纵,且光本身具有独特的“波粒二象性”—— 结合了光粒子与连续电磁波的属性。 早在 1960 年代,科学家们的最初目标是利用光波来执行标准电子设备使用的类似功能。而随着世界从 1980 年代进入光纤通信时代,研究人员又改变了术语以反映进步。 至于 AMD
[半导体设计/制造]
专利曝光AMD正在研究光子技术 旨在多层<font color='red'>芯片</font>上实现光速通信
小广播
最新网络通信文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved