英特尔、英伟达的隐形对手显现,赛灵思的Versal问市

发布者:SerendipitySoul最新更新时间:2018-10-24 来源: 集微网关键字:Versal  FPGA 手机看文章 扫描二维码
随时随地手机看文章

虽然FPGA一直在数十亿美元的小众市场行走,在整个千亿元级IC大盘中只占据一隅,但并不妨碍它的追逐之梦,而AI、自动驾驶、5G等浪潮兴起为它的梦想插上了翅膀。就像1984年发明FPGA成为开创者一样,赛灵思 ACAP(自适应计算加速平台)首款产品系列Versal 的正式面世,使FPGA完成了从器件到平台的蝶变,也因而赛灵思将直面英特尔、英伟达的竞争,面对规模高出数倍乃至数十倍的竞争对手,Versal能否让赛灵思开启涅槃之旅?

 

一直在与自己赛跑的FPGA独行侠——赛灵思(Xilinx),在其2018开发者大会(XDF)上重磅发布了业界7nm自适应计算加速平台 (ACAP)首款产品——Versal。赛灵思总裁及CEO Victor Peng在解释Versal名称意义时说,Versal寓意Versatile (多样化的)+ Universal(通用的), 代表集多样性和通用性一体,是一款可面向所有应用、面向所有开发者的平台级产品。而Versal的面世表明赛灵思已不再是单纯的FPGA公司,而转变成平台公司。这也意味着赛灵思将不再囿于FPGA做文章,而将染指CPU、GPU等占领的市场,直面与英特尔、英伟达的竞争,Versal凭何给予赛灵思这样的勇气?

 

image.png

 

为何开发ACAP平台?

 

或许这是大势使然。

 

“随着摩尔定律的放缓以及大数据、AI、5G、自动驾驶等的发展,对于计算能力和带宽提出了前所未有的要求,同时新的算法新的框架层出不穷,要应对这一变化就需要灵活应变的架构,而传统芯片设计的周期已经无法跟上创新的步伐。” Victor Peng强调,“就像自然界的适者生存一样,在数字世界灵活应变的系统才是最可持续的。”

 

而这一灵活应变的架构就是异构计算。赛灵思产品及技术营销高级技术总监Kirk Saban认为,一种架构已无法独自完成大量的数据处理,需要异构计算。而从过去多年IC发展来看,计算引擎CPU单纯采用“工艺缩放scaling”技术发展的道路遇到了很大的挑战,难以通过等量的计算提升换取等量的性能提升,迫使计算引擎变成并行趋势。

 

为此,赛灵思启动代号为“Evest(珠穆朗玛)”的计划,意在打造一个具有灵活应变能力的自适应异构计算加速平台,支持所有类型的开发者通过优化的软硬件来为应用加速,同时具备灵活的应变能力,Victor Peng笑言Versal是在业界需求最迫切的时刻雪中送炭。

 

当然Versal要具备上述“魔力”,赛灵思也投入巨大,数十亿美元、上千名工程师、历时 4 年终才出手。 赛灵思软件及IP产品执行副总裁Salil  Raje 对此表示,在开发过程中,Versal要解决诸多挑战,不只是硬件如处理器、AI引擎、收发器等整合,还有软件、7纳米FinFET工艺等,是一个非常大的系统工程。赛灵思花了几千小时的人工来确保软件工具的简单易用,对所有架构进行了重新布置,确保这一平台能够自上而下的软件可编程,也进一步提升了准入门槛。

 

而在这一过程中,FPGA从最初的逻辑门到SoC、MPSoC、RFSoC芯片再进化到ACAP,如在28纳米时集成了编解码处理器,在16纳米级别加入了GPU之后,完成了从FPGA器件到平台ACAP的蝶变,也将开启赛灵思的新征程。

 

Versal的功力

 

被寄与厚望的Versal平台究竟有何“功力”担当重任?

 

先来看其硬件。赛灵思产品及技术营销高级技术总监Kirk Saban指出,异构计算平台必须要有多个不同类型的处理引擎,以应对不同的工作负载。Versal平台整合了三种类型的可编程处理器即标量引擎双Arm Cortex-A72和Cortex-R5处理器、自适应引擎PL、智能引擎即AI引擎和DSP引擎,以及前沿的存储器、高速收发器和多种接口技术等。

 

image.png

 

这些引擎形成一个紧密集成的异构计算平台,并且各司其职。Kirk Saban介绍,Arm处理器通常用于控制应用、操作系统、通信接口等;PL执行数据操作和传输、非基于向量的计算和连接;AI引擎为基于向量的算法提供了高达五倍的计算密度。同时,这一切与片上网络 (NoC) 连通,提供对所有三种处理单元类型的存储器映射访问,从而比任何一种单独架构都支持更高的定制和性能提升。

 

值得一提的是,赛灵思独创的AI引擎是一种新型硬件模块,包括用于定点和浮点运算的向量处理器、标量处理器、专用程序和数据存储器、专用AXI 数据移动通道以及 DMA 和锁止。它针对计算和DSP进行了优化,可满足高吞吐量和高性能计算要求。相对于业界领先的GPU,AI 推断性能预计能提升3-8倍,功耗降低 50%。

 

在软件层面,Kirk Saban提到,Versal平台引入革新性的软件堆栈即NoC平台管理控制器,提供了无缝连接的功能,可直接通过软件进行编程和配置。同时,符合业界标准设计流程的一系列工具、软件、库、IP等助力,使得Versal ACAP 的硬件和软件均可由开发者进行编程和优化,而这在赛灵思的历史上也是绝无仅有的。

 

由此,硬件和软件的共同创新成就了Versal ACAP 这一颠覆性的异构计算平台,实现了显著的性能提升。Kirk Saban举出了具体数字,其速度超过当前最高速的FPGA 20倍、比当今最快的CPU快100倍,同时可实现低于2ms的时延,相信数据中心、有线网络、5G无线和ADAS等应用将乐见其成。

 

据悉,Versal平台组合包括Versal基础系列(Versal Prime)、Versal旗舰系列(Versal Premium)和HBM系列,提供不同的性能、连接性、带宽和集成功能。此外,还包括Versal AI系列,包括AI核心(AI Core)系列、AI边缘系列和AI射频系列。Versal Prime 系列和AI Core 系列将于2019年下半年上市。前者具广泛的适用性,用于在线加速和各种工作负载;后者提供高计算性能和最低时延,实现突破性的 AI 推断吞吐量和性能。

 

同时,赛灵思还公布了发展路线图,2020年将推出Premium和AI边缘系列,下半年将上市AI射频系列,而HBM将于2021年下半年面世。

 

其他架构自求多福?

 

Versal横空出世,其它选手如CPU、ASIC等如何应对?

 

毕竟它们各有“苦衷”。Kirk Saban认为,标量处理单元(例如 CPU)在具有不同决策树和广泛库的复杂算法中非常有效,但在性能扩展方面受到限制。而在先进制程后摩尔定律已经不再有效,CPU已无法适应最先进的应用了。

 

而矢量处理单元(如GPU)在并行计算上效率更高,但由于存储器层级结构不灵活,它们会受时延和效率的影响。它们可能在某一个功能领域的加速性能不错,但灵活度不够,无法适应创新的速度。

 

并且,通用AI芯片不是正确的方向。Kirk Saban分析说,ASIC针对某个CNN、DNN来优化形成固定功能,一旦有新的算法或者框架就需要重新设计,在目前发展态势下对于变量少的行业ASIC相对适用,如果变化快ASIC很快就会过时,实际上连谷歌的TPU也概莫能外。

 

虽然GPU等有着相对完善的生态系统,但Versal作为新兴势力,在生态的构建上也在大张旗鼓,一方面Versal可软硬件编辑,开发便利;另一方面,在着力与合作伙伴一起互惠共赢。 “Versal不会取代所有的GPU,但肯定会有越来越多的应用采用灵活应变的平台。”这是Victor Peng的判断也是寄望。

 

为何着重AI推断?

 

需要指出的是,Versal看重的是AI推断市场。

 

Salil Raje指出,AI有训练和推断两大阶段。对于训练来说海量数据非常重要,但延迟和功耗都不那么重要。而无论是在边缘端还是云端的推断,数据量很少,实时响应的性能非常重要,对延迟要求极高,而且对功耗也极为看重。

 

“AI训练和推断的要求是不一的,不能把训练的解决方案直接应用到推断上。在过去几年,全球关注的主要是AI训练,这是因为众多新的AI应用需要应用AI模型,但今后AI模型将大量应用在云端和边缘端,因而未来的模式更多的是AI推断,而不是训练。”

 

由此亦带来了新的挑战。Salil Raje指出,挑战在于一是AI创新的速度,就像要追随移动的靶子一样。二是需要低时延、高带宽和高性能,最大的挑战是功耗。三是要实现整体的应用加速,而不仅是机器学习的加速。

 

当然,AI训练也是非常重要的市场。Salil Raje表示,赛灵思也在研发训练用FPGA方案,不排除进入这一市场的可能性。

 

中国AI初创企业不应热衷于造芯

 

Versal平台染指AI应用,也预示着赛灵思要直面国内火爆的AI造芯厂商的竞争,对于这一点,赛灵思也有自己的见解。

 

“中国有大量AI初创企业,也有很多厂商在投入造芯,但赛灵思认为他们其实不一定要热衷于造芯。因为设计AI芯片目前要采用16纳米甚至7纳米的工艺,所需的投入是巨大的,风险也很大。” Victor Peng提出了建议,“其实他们可在算法和框架方面深入研究,从这些层面来创造更多的价值;或者采用Versal平台开发具体应用,而不是投资几亿元去做芯片。”

 

“就像深鉴科技,两年前就基于赛灵思产品做AI方面的开发,因此在被收购后其成果可迅速应用到Versal平台上,深鉴科技最为核心的就是DPU及神经网络压缩编译技术,应用此技术的Versal平台可适应不同精度不同位宽,并且时延大幅降低。”Salil Raje提及。

 

而对于华为、阿里都在打造属于自有AI芯片的情形,Victor Peng表示,这表明目前正处于AI革命的早期,大家都在寻找不同的解决方案,这带来了众多机遇。可能有一些领域是适用于固定功能的芯片,但绝大多数应用还将使用灵活平台作为解决方案。

 

为何还要推出加速器卡?

 

除了打造Versal平台之外,赛灵思也意识到在云端和数据中心的服务器中,FPGA作为一种服务即FaaS的部署正在加快。Victor Peng介绍说,FaaS最初是从亚马逊开始部署,现已有8个国家在采用,今年赛灵思已培训超过14000名的开发者,实现了36个应用。在XDF大会上,亚马逊就面向中国开发者宣布AWS F1覆盖区域数量翻番,并正式落地中国。

 

与之相呼应的是,据分析,全球加速器卡的市场将达到120亿美元,而中国市场占据半壁江山。

 

为此,赛灵思还推出了功能强大的加速器卡——Alveo,它的优势在于客户可对硬件进行重配置,针对工作负载、新标准和新算法进行调整和优化,并且更加易用,同时性能更加出色。

 

就机器学习而言,Alveo U250实时推断吞吐量比高端 CPU高出20 倍,相对于高端GPU等,能让2毫秒以下的低时延应用性能提升4倍以上,堪称全球最快的数据中心加速卡。

 

image.png

 

而且,目前Alveo得到了合作伙伴和 OEM 厂商生态系统的广泛支持,有14 家合作伙伴开发完成的应用可立即投入部署,国内如华为、阿里云、浪潮等都已在合作,推出基于赛灵思的加速方案。此外,部分OEM芯片厂商将和赛灵思进入更深入合作,认证采用Alveo加速器卡的多个服务器SKU,包括Dell EMC、Fujitsu和IBM等。这些关键应用涵盖AI/ML、视频转码、数据分析、金融风险建模、安全和基因组学等。

 

阿里云FPGA异构计算研发总监张振祥宣称,阿里集团采用Faas提升发效率,节省了成本,阿里集团X项目每千片FPGA三年节约TCO成本40%。华为IT智能计算产品线副总裁张小华也提到,华为云与赛灵思紧密合作,实现了线上线下协同的FPGA加速解决方案,以视频编解码为例,在在线视频广播业务场景下可节约40%的带宽和存储空间,为客户带来了极大的价值。

 

 

 

 


关键字:Versal  FPGA 引用地址:英特尔、英伟达的隐形对手显现,赛灵思的Versal问市

上一篇:10nm工艺难产 Intel股票又遭降级
下一篇:超越了CPU束缚,三星推出基于赛灵思技术的 SmartSSD 解决方案

推荐阅读最新更新时间:2024-05-03 03:20

基于FPGA的系统易测试性的研究
引言 现代科技对系统的可靠性提出了更高的要求,而FPGA技术在电子系统中应用已经非常广泛,因此FPGA易测试性就变得很重要。要获得的FPGA内部信号十分有限、FPGA封装和印刷电路板(PCB)电气噪声,这一切使得设计调试和检验变成设计中最困难的一个流程。另一方面,当前几乎所有的像CPU、DSP、ASIC等高速芯片的总线,除了提供高速并行总线接口外,正迅速向高速串行接口的方向发展,FPGA也不例外。每一条物理链路的速度从600Mbps到10Gbps,高速I/O的测试和验证更成为传统专注于FPGA内部逻辑设计的设计人员所面临的巨大挑战。这些挑战使设计人员非常容易地将绝大部分设计时间放在调试和检验设计上。 本文就调试FPGA系统时遇
[测试测量]
基于<font color='red'>FPGA</font>的系统易测试性的研究
基于FPGA的扩频测距快速捕获仿真研究
  距离测量是测试技术中的一项基本测试技术,其几乎贯穿于工程实践的每个领域。在军事航天领域,由于其特殊的需求,对测距系统的量程、实时性和精度要求越来越高,而扩频测距由于其抗干扰能力强、精度高、作用范围广、隐蔽性好、适应性强、全天候等优势,在测距系统中得到了重视。   扩频测距也称伪码测距,它是采用一个较长周期的PN码序列作为发射信号,将它与目标反射或转发回来的PN码序列的相位进行比较,即比较两个码序列相差的码片数,从而看出其时间差,换算出发射机与目的地之间的距离。如果码片选得很窄,即码速率做得很高,那么就可以完成高精度的测距。但随着码速率的提高和码周期的加长,传统的捕获时间将达到不可容忍的地步,所以需要考虑快速捕获算法。   
[嵌入式]
基于<font color='red'>FPGA</font>的扩频测距快速捕获仿真研究
ARM与FPGA沟通的桥梁—米尔PYNQ开发板
前言:PYNQ全称为Python Productivity for Zynq,即在Zynq全可编程ARM&FPGA融合处理架构的基础上,添加了对Python的支持。 PYNQ希望能够借助Python语言本身易用易学、扩展库多而全、社区活跃贡献度高等特性,有效降低Zynq嵌入式系统的开发门槛,并为人工智能,ADAS,机器视觉等高拓展性/高复杂度应用需求提供更好支撑。PYNQ将ARM处理器与FPGA器件的底层交互逻辑完全封装起来,顶层封装使用python,只需要import对应的模块名称即可导入对应的硬件模块,即可进行底层到上层数据的交互或者为系统提供硬件加速。 PYNQ突出优点在于:可直接调用Python库和FPGA硬
[嵌入式]
ARM与<font color='red'>FPGA</font>沟通的桥梁—米尔PYNQ开发板
赛灵思FPGA:面向动态应用的灵活操作系统
利用赛灵思 FPGA 的动态重配置功能,同构多线程执行模型可同时兼得软件灵活性和硬件性能。 一台在未知的土地上行进的自动机器人;一部能够根据信号强度改变解压缩格式的视频解码器;一套宽带电子对抗系统;一种用于机动车辆的自适应图像跟踪算法……这些都属于大量涌现的随环境瞬变做出快速响应的新兴嵌入式或者关键任务应用。在过去,静态决策最坏情况分配曾为严格的实时约束提供了解决方案,而现在灵活性也成为一项要求。法国某研究项目建议使用的解决方案是一种分布在 FPGA 资源上,对软硬件线程进行管理的操作系统。 我们的目标是设计一种支持新的系统分区类型的架构,让软/硬件组件遵循同一执行模型。这就要求高度灵活的可扩展操作系统。 近年来,特别是在嵌入式
[嵌入式]
赛灵思<font color='red'>FPGA</font>:面向动态应用的灵活操作系统
利用FPGA在汽车、通信及AI领域创新
在当今快速发展的技术格局中,汽车、通信和工业市场处于数字化转型的最前沿。 由人工智能和机器学习驱动的先进技术开创了一个创新的新时代,技术先进的车辆重新定义了驾驶体验,5G 连接实现了无与伦比的处理速度,智能制造设施通过自动化彻底改变了工业工作流程。 在这些动态变化中,现场可编程门阵列 (FPGA) 已成为一项关键技术,为塑造自动化未来的创新解决方案提供支持。 FPGA 通过提供现场可重编程性、安全性、低功耗运行、高性能和实时网络来推动这场革命,以确保组织能够保持在数字化的前沿。 随着汽车、通信和工业组织中数字化的不断采用,利用 FPGA 功能和应用来释放创新的全部力量至关重要。下面,我们将详细分析技术进步如何增加这三个行业
[嵌入式]
利用<font color='red'>FPGA</font>在汽车、通信及AI领域创新
莱迪思Nexus技术平台:重新定义低功耗、小尺寸FPGA
物联网AI、嵌入式视觉、硬件安全、5G通信、工业和汽车自动化等新兴应用正在重新定义开发人员设计网络边缘产品的硬件要求。为了支持这些应用,网络边缘设备的硬件方案需要具备下列特征: •低功耗 •高性能 •高稳定性 •小尺寸 莱迪思的研发工程师几年前就开始着手FPGA开发工艺的创新,旨在为客户提供具备上述特性的硬件平台。最终莱迪思成为业界首个支持28nm全耗尽型绝缘体上硅(FD-SOI)工艺的低功耗FPGA供应商。该工艺由三星研发,与如今大多数半导体芯片采用的bulkCMOS工艺有些类似,但优势更为显著,能在显著降低器件尺寸和功耗的同时,大幅提升性能和稳定性。 除了支持全新的制造平台,莱迪思还依托其低功耗、小尺寸
[嵌入式]
莱迪思Nexus技术平台:重新定义低功耗、小尺寸<font color='red'>FPGA</font>
MPEG-2编码复用器中的FPGA逻辑设计
    摘要: 简要介绍了现场可编程门阵列(FPGA)的特性,并结合MPEG-2编码复用器开发过程中的经验,给出了在MAX+ PLUS II提供的设计环境下FPGA逻辑设计的一些方法和技巧。设计的逻辑电路通过了验证和硬件仿真,并在复用器的使用中运行正常,达到了设计要求。     关键词: FPGA  MAX+ PLUS II  逻辑设计  MPEG-2标准  编码复用器     MPEG-2编码复用器主要由DSP(数字信号处理器)和FPGA两大部分组成。其中,DSP作为整个系统的主控单元,而FPGA则完成相应的辅助逻辑功能。用FPGA实现的编码复用器,具有设计,升级都非常方便,快速的特点,提高了工作
[半导体设计/制造]
利用FPGA的新功能保证视频设计安全性
越来越多的消费应用开始在设计中集成流式视频,结果引入了许多标准和专有的加密算法。但是加密方案以及实现方法不统一导致视频接收设备在设计和支持方面存在巨大的挑战。DeviceDNA作为FPGA的一项新功能,可保证视频接收机的设计安全,同时还可为测试和验证流程提供支持,从而提供成本经济的高质量安全解决方案,支持多种不同的视频流加密协议。 视频越来越多地应用在我们生活中,除了在电视上的应用,还被应用在计算机、汽车、PDA/PMP、iPod和手机上。现在,甚至冰箱上可能也应用视频! 消费者希望能够随时随地享有视频所带来的便利,但是如此广泛的视频需求产生了大量不同的流式视频压缩标准,以满足对不同屏幕尺寸分辨率以及高带宽的
[嵌入式]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved