Kalray MPPA解决方案实现无处不在的低功耗、实时单芯片超算

发布者:delta14最新更新时间:2015-10-09 来源: EEWORLD关键字:解决  解决方案  方案  实现 手机看文章 扫描二维码
随时随地手机看文章
   大规模并行处理器阵列芯片为数据中心及高性能嵌入式应用提供澎湃动力

    超级计算,对很多人来说并不陌生但仿佛又离得很远,或许大家对它的了解也仅仅限于“天河”超级计算机。其实,随着越来越多的应用对实时数值计算和数据处理提出极高的要求,超级计算正在越来越多地出现在与人类生活息息相关的领域。尤其是近些年来,随着云计算、大数据等IT新概念和新技术的出现,以及先进无损音视频处理和自动驾驶设备等嵌入式高性能计算的兴起,使很多原有应用迎来了突破性进展,并促使很多新的IT应用模式出现。而在这些应用背后,许多厂商正在全力实现的“嵌入式”实时超级计算解决方案,可以提供芯片级的高性能数据运算和处理能力。为此,北京华兴万邦管理咨询有限公司走访了业内率先实现单芯片超算(Supercomputingona Chip)商用的法国Kalray公司,为大家一探“片上超算”给行业带来的新机会。

    面向超级计算的多核处理器

    为了完成普通PC或服务器无法完成的大量、复杂的计算任务,超级计算机要求拥有为数众多的处理器。然而,随着对运算速度越来越高的追求,单核处理器已经无法满足超级计算的要求,因为无休止地增加单核处理器的数量不但会造成成本和功耗的大量增加,而且性能也无法呈现几何级数的增长。于是,多核技术开始被大量应用于超级计算当中。以中国的“天河二号”超级计算机为例,其使用的主处理器和协处理器目前均为Intel公司的多核处理器。

    目前,市场上研发并供应多核处理器芯片的厂商为数众多,以Intel和AMD两大处理器厂商为首,不同的多核处理器所面向的应用领域也不尽相同。除了面向PC应用的2核、4核处理器和面向手机和平板电脑的4核、8核处理器外,一些供应商推出的8核、16核处理器也已实现全面的商用,例如XMOS公司的xCORE系列多核处理器已被高解析度音频、千兆网速物联网等领域中的产品、解决方案所采用,该公司全新的xCORE-200多核微控制器通过在单一器件上集成16个或更多高性能32位RISC处理器内核,成为了高性能用户、专业音频与新兴千兆网速物联网(IoT)应用的完美可编程平台。

    在众多的多核处理器供应商中,有一家面向超级计算相关应用的厂商正在越来越多地引起业界的关注,这就是全球首家可以提供256核以上处理器芯片的厂商——法国公司Kalray。Kalray公司是在单芯片上实现超级计算(Supercomputingona Chip™)的发明者,其大规模并行处理器阵列芯片MPPA®(Massively Parallel Processor Array)处理器采用台积电(TSMC)的28nm工艺制程,拥有超过256个可以进行C/C++编程的内核。该公司的单芯片超算解决方案可以为两大类应用提供高性能、低功耗和实时等特性,一类是在数据中心、视频处理等应用中卸载主处理器的任务,另一类是需要较大量数据处理、高实时性和低功耗的嵌入式应用。下面为您具体介绍该公司的解决方案及其商业应用。

    Kalray公司的256核MPPA处理器芯片

    低功耗256核处理器芯片和标准C/C++编程环境

    Kalray公司是一家成立于2008年的无晶圆厂半导体公司,它是开发多核处理器解决方案的先锋厂商。该公司创新的MPPA架构独一无二地提供单芯片超算解决方案,其可以为视频、网络、电信、大数据等领域的云计算应用实现实时加速,还可以为航空航天、国防、汽车等领域的嵌入式应用提供嵌入式高性能运算能力。Kalray公司的总部位于法国,包括位于巴黎和欧洲硅谷格勒诺布尔市(Grenoble)两个地点的办公室,此外,其在美国加州和日本东京还设有分公司。

    Kalray公司的完整解决方案包括MPPA系列多核处理器、PCIe Gen3加速卡、提供网络加速支持的开源网络接口卡(Open NIC),以及软件开发工具包。该解决方案可以提供行业领先的低计算功耗,具有时间可预测性和低延迟性,以及独一无二的处理扩展性和系统密度,可以在同一块片芯上实现多种异构的应用,同时拥有很好的可编程性(包括标准C/C++和OpenCL)。

    MPPA多核处理器包括Andey MPPA和Bostan MPPA两款产品。其中Andey为第一代MPPA处理器,已于2013年第1季度开始供货。它拥有超过256个可以进行32位超长指令字C/C++编程的内核,单精度浮点运算速度可以达到210GFLOPS(每秒十亿次浮点运算),双精度浮点运算速度可达70 GFLOPS,运算速度可达0.7 TOPS(每秒万亿次运算)。该处理器拥有两块带宽为12.8GB/s的64位DDR3内存,以及两个由DMA支持的PCIe Gen3×8接口。Bostan为该公司即将推出的第二代MPPA处理器,目前已完成流片及样片的封装,将于2015年第4季度向先期客户供货。它的单精度浮点运算速度可以达到840 GFLOPS,双精度浮点运算速度可达420 GFLOPS,运算速度可达1.4 TOPS,其他性能相比Andey MPPA有较大幅度的提升。

    MPPA多核处理器采用Kalray独一无二的架构设计。每个处理器芯片拥有4个四核主CPU和16个计算集群,每个计算集群中又包括16个用户核和1个系统核,每个用户核则采用Kalray拥有专利的超长指令字架构进行设计。同时,其片上的DDR存储器和以太网及PCIe接口模块支持了数据的低延迟处理,并使芯片的整体功耗远远低于通用的多芯片组功耗,Andey MPPA处理器的典型功耗为12W,BostanMPPA处理器的功耗为11W-30W。

    Kalray公司独一无二的处理器架构

    为了验证其MPPA处理器的高性能、低功耗特性,并推动其芯片产品的商用化,Kalray推出了采用MPPA处理器的系列网络卡。Kalray的PCIe Gen3加速卡包括Turbo Card2和Turbo Card3两款产品。Turbo Card2加载了4块Andey MPPA芯片,浮点运算速度可以达到0.9TFLOPS(每秒万亿次浮点运算),存储容量高达32GB,拥有8块DDR3内存(总带宽达80GB/s),并配有C/C++ GNU编译器环境。TurboCard3是Turbo Card2的下一代产品,将于2015年底供货,其加载了4块Bostan MPPA芯片,浮点运算速度可以达到3.4 TFLOPS。Kalray的开源网络接口卡ONIC80也将于2015年底开始供货,它是完全可编程的网卡,运行Bostan MPPA芯片,拥有PCIe Gen3×16接口和8GB存储容量,其大小与普通图形加速单元类似,功耗为40W,可以使数据中心变得更加紧凑和冷静。

    Kalray公司的PCIe Gen3加速卡Turbo Card2

    开发工具体系是处理器生态体系中另一项非常重要的指标。为了便于工程师针对不同的应用开发自己的超算解决方案,Kalray提供了方便易用、内容丰富的软件开发工具包,包括标准C/C++编程环境,模拟器、编译器、调试器和系统跟踪,第三方实时操作系统(如Linux、风河)和设备驱动程序,面向CPU的基础C编程和Lib编程,面向DSP的POSIX多线程编程,以及面向GPU的OpenCL编程。可以说,该软件开发工具包提供了众多高性能应用所需求的软件,工程师不需要针对该系列处理器进行大量重新学习就可以上手,并力求最大限度地发挥MPPA多核处理器的全部性能。

    Kalray公司的软件开发工具包

    目标市场:数据中心和关键任务型嵌入式应用

    通过上述对Kalray公司各种硬件产品性能的描述可以看出,它们能够在很多对数据运算和处理有高要求的应用领域发挥重要作用,加上软件开发工具包提供的强力支持,其整体解决方案拥有非常广阔的应用空间。该公司的销售和营销副总裁Jean-Pierre Demange向分析师介绍:“在数据中心的工作过程中,随着大量应用转向云端,数据通信量的激增,以及新数据中心体系的进一步虚拟化需求,开始出现一种逐渐增长的需求,即从主流处理器(x86)向高性能、低功耗、低延迟、完全可编程的协处理器进行集中、实时卸载处理的需求。Kalray的处理器和PCI卡可以提供独一无二的解决方案来帮助数据中心实现这一功能,主要应用范围包括智能网卡、智能存储、运算加速、视频编码等。”

    “除数据中心外,我们的解决方案还有一个重要的目标应用市场,那就是关键任务型嵌入式应用。”Kalray公司的销售和营销副总裁Jean-Pierre Demange继续说道。“关键任务型嵌入式应用市场要求在固定的占板面积上提供越来越高的计算能力,以及在同一块片芯上拥有越来越高的功能集成度,同时还要保留实时性支持和安全规范,而目前其他现有的多核架构尚无法满足这些规范和要求的认证。Kalray是全球首家可以为关键任务型嵌入式应用提供全认证多核解决方案的公司,我们可以为航空航天、国防、自动汽车、机器人和多轴飞行器等应用领域提供支持。”

    Kalray公司的销售与营销副总裁Jean-Pierre Demange、首席执行官Eric Baissus和商务总监Stephane Cordova(从左至右)向华兴万邦分析师展示其产品

    目前,Kalray公司已对其后续产品进行了合理的规划,该公司的首席执行官Eric Baissus介绍道:“我们正在对第三代MPPA多核处理器Coolidge制定技术规范,这款芯片的单精度浮点运算速度预计将高于1200GFLOPS,双精度浮点运算速度预计将高于600GFLOPS,计划2017年初生产样片,2017年年内实现量产。”此外,关于未来对中国市场的开发,Eric Baissus先生也表达了自己的观点:“目前,我们与中国企业的合作还较少,我们希望下一步能够加强与中国市场的联系,并愿意为中国的超算中心和高性能嵌入式应用提供支持。”

关键字:解决  解决方案  方案  实现 引用地址:Kalray MPPA解决方案实现无处不在的低功耗、实时单芯片超算

上一篇:辟谣最强音:有了Intel,Altera与台积电、ARM还是好朋友
下一篇:Xilinx宣布业界首款 16nm All Programmable MPSoC提前发货

推荐阅读最新更新时间:2024-05-03 00:00

从原理到实践:一文了解如何用VT2710实现SPI仿真
现如今,随着汽车电子的发展,串行通信在ECU上也被广泛应用,我们常见的串行通信有:RS485、RS232、PSI5、SPI等,每一种串行通信都有其自身的特点。本文主要就基于VT2710实现SPI仿真进行相关的介绍。 VT2710介绍 VT2710是Vector 旗下的一款串行通信板卡。VT2710 提供一套测试ECU或传感器串行通信通道所需的接口。该模块可用于模拟总线通道上传感器和ECU的行为。此外,还可以监控串行总线上的通信。VT2710可用于控制试验台上的外围设备。 如下图所示,VT2710模块可以同时处理两组串行接口,包括汽车传感器相关的PSI5和SENT接口。以及支持通用型数字接口,SPI,I2C,UART,RS232
[嵌入式]
从原理到实践:一文了解如何用VT2710<font color='red'>实现</font>SPI仿真
罗德与施瓦茨公司的一站式母版制作解决方案
在今年拉斯维加斯的NAB展会上,罗德与施瓦茨公司将会展出强大的DCI与IMF母版制作工作站。R&S CLIPSTER已经是电影后期领域的领导者,在最新的6.2版本中会支持UHD HDR母版制作和32bit浮点运算以及更高的性能,R&S CLIPSTER 6.2在后期生产中多才多艺,能灵活支持各种生产流程,并且CLIPSTER的可靠性在电视和电影领域做内容生产和交付的客户间备受赞誉。 NAB 2017,拉斯维加斯——新版本的R&S CLIPSTER比以前更为强大,新增加的两个功能模块带来了更强大的母版制作与内容交互能力,浮点运算与HDR 工作流程使系统能够以最高质量做不同HDR容器之间的格式转换,6.2版本使得CLIPSTER能
[其他]
汽车类GaN FET可实现更高的工作频率和稳健性
当前的消费者对于续航里程、充电时间和性价比等问题越来越关注,为了加快电动汽车(EV)的采用,全球的汽车制造商都迫切需要增加电池容量、缩短充电时间,同时确保汽车尺寸、重量和器件成本保持不变。 电动汽车车载充电器(OBC)正经历着飞速的发展,它使消费者可以在家中、公共充电桩或商业网点使用交流电源直接为电池充电。为了提高充电速度,OBC功率水平已从3.6kW增加到了22kW,但与此同时,OBC必须安装在现有机械外壳内并且必须始终随车携带,以免影响行驶里程。OBC功率密度最终将从现在的低于2kW/L增加到高于4kW/L。 开关频率的影响 OBC本质上是一个开关模式的电源转换器。它主要由变压器、电感器、滤波器和电容器等无源器件以
[半导体设计/制造]
汽车类GaN FET可<font color='red'>实现</font>更高的工作频率和稳健性
基于PS081数字测量芯片的太阳能衡器和数字传感器设计方案
前言 数字测量芯片PS081的一个应用方向为太阳能衡器。与传统的电子衡器相比,采用acam公司的数字测量芯片PS081的太阳能衡器方案有着许多的竞争优势。由于传统的电子衡器的竞争点仅仅在于价格,导致中国的衡器厂商为价格战而拼尽了利润,很多厂商赔本赚吆喝,仅仅是为了维持生产线的运转。而采用PS081的太阳能衡器方案将给客户带来不同的竞争优势——创新的产品理念、环保的产品内涵和极具竞争力的价格。在节能环保理念越来越深入人心的今天,谁的产品更节能环保,谁就占据了这个市场的主流。因此,PS081在太阳能衡器上的方案绝对是中国衡器厂商的最优选择,也是中国衡器厂商的新希望。 数字测量芯片PS081的另一个应用方向为高精度、高性能数字传感器
[测试测量]
基于PS081数字测量芯片的太阳能衡器和数字传感器设计<font color='red'>方案</font>
数字家电研讨会色彩缤呈,多款智能家电解决方案引发关注
        近日,由业内知名资讯传播机构举办的“第二届数字 家电IC创新技术与节能管理研讨会 ”在佛山顺德成功举办。本次研讨会吸引了众多知名家电企业的工程师和技术研发人员参加,会议采用研讨会与现场展示相结合的模式,为现场观众了解创新技术与应用提供了一个便捷的平台。       很多现场的展示厂商(如 世强电讯 )在本次研讨会上展出自己的产品与方案,其中有Silicon Labs的电容触摸板DEMO,25MIPS的超快响应速度、高精度高抗干扰能力和低功耗,揭示了家电设计技术的全新发展趋势,有望在 机顶盒 、微波炉、洗衣机等家电设备上得到广泛应用。 图1:Silicon Labs电容触摸板DEMO
[安防电子]
基于变压器的运行维护和故障处理方案
电力变压器在电厂有着很重要的作用, 然而, 由于其结构、工艺以及运行维护等多方面的原因, 变压器故障在电厂频繁发生, 大大影响了电厂的正常生产。因此, 加强变压器的定期维护, 采取切实有效的措施防止变压器故障的发生, 对确保变压器的安全稳定运行有重要的意义。 1 变压器常见的故障现象分类及原因 ( 1) 变压器本身出厂时就存在的问题。如端头松动、垫块松动、焊接不良、铁心绝缘不良、抗短路强度不足等。 ( 2) 线路干扰。线路干扰在造成变压器事故的所有因素中属于最重要的。主要包括: 合闸时产生的过电压, 在低负荷阶段出现的电压峰值,线路故障, 由于闪络以及其他方面的异常现象等。这类故障在变压器故障中占有很大的比例。因此, 必须定期对
[电源管理]
基于FPGA的DS/CDMA解扩解调模块设计与实现
在CDMA通信系统中,用于基站信号转发的接收机是一个核心模块,一台接收机只是处理一路用户的解扩解调显然是不合理的,为了提高接收机的效率和降低成本,有必要设计一种多路CDMA信号通用解扩解调平台。而FPGA具有功能强大,开发工程投资小,周期短,可反复编程修改,保密性能好,开发工具智能化等优点,本项目决定采用FPGA作为设计平台;本文首先建立了CDMA信号的扩频调制与解扩解调系统模型,然后提出设计这样一个多路CDMA信号通用解扩解调平台。该平台将保证处理CDMA解扩解调的通用性,既可以将此平台用在CDMA信号蜂窝基站的建设上,也可以用在CDMA卫星地面的基站建设上。   图1 DS/CDMA解扩解调系统原理框图 1 DS/CDM
[应用]
一种在全负载范围内实现ZVS的有源箝位反激变换器
0 引言   传统的反激变换器,因其相对简单的电路结构以及能实现升降压功能而在DC/DC场合中得到了广泛使用.但是,由于反激变换器的变压器同时还兼作为电路中的电感使用,所以气隙较大,不可避免的漏感也较大。在电路原边开关管关断时,该漏感会和原边开关管上的结电容产生寄生振荡,从而在原边丌关管上产生电压尖剌,使之承受高的电压应力,同时,该振荡还是一个EMD源,给电路带来EMI方面的问题。传统的RCD箝位电路将存储在变压器漏感中的能量,全都消耗在箝位电阻上,在一定程度卜缓解了这个压力,但是,降低了电路的效率。如果采用一个有源箝位的电路来取代传统的RCD箝位电路的话,就能很好地解决这个问题。 1 有源箝位电路   典型的有源箝位电路如图1
[电源管理]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved