用于密集型在轨边缘计算 的微处理器和FPGA

发布者:真诚的友谊最新更新时间:2022-03-04 关键字:边缘计算  微处理器  FPGA 手机看文章 扫描二维码
随时随地手机看文章

image.png


Rajan Bedi博士是Spacechips公司的首席执行官和创始人。该公司设计和制造L到k波段的一系列先进超高吞吐量星载处理器、应答机和OBC,用于电信、地球观测、导航、互联网和M2M/物联网卫星。该公司还提供空间电子设计咨询、航空电子测试、技术营销、商业情报和培训服务。


Spacechips的设计咨询服务开发定制卫星和航天器子系统,为客户提供如何使用和选择正确的组件,如何设计、测试、组装和制造空间电子产品等方面的建议。我们在空间应用FPGA培训课程中讲授半导体存储器。


背景和引言


随着卫星运营商在轨获取的数据越来越多,他们更愿意在载荷上处理这些数据并提取有价值的信息,而不是将大量数据下行传送到地面的云上进行后处理。现有宇航级半导体技术和/或射频带宽限制了可实时处理的数据量。我知道一些客户由于下行链路的需求违反了ITU的规定,而不得不降低他们的项目预期。


另一方面,尽可能接近原始数据源(即边缘)的局部处理基于对来自多个传感器的大量信息的实时计算,可通过使用低延迟的确定性接口和满足特定散热和可靠性要求的小型低功耗形状因数实现。在轨提取分析显著减少了延迟和RF下行带宽 – 我们正有效地将数据中心移动到原始数据的源头!


在这篇文章中,我想探讨和比较用于边缘密集型星载处理的微处理器和FPGA。一些应用需要从不同带宽的多个传感器(如RF、LIDAR、成像和GNSS)获取大量数据,同时需要实时做出关键决策,如用于航天器态势感知的物体识别和分类(即敌我识别)、避免空间碎片碰撞、高清视频地球观测、空间原位探测和资源利用等。利用机器学习技术在轨提取分析的自主星载处理的应用也呈上升趋势。

 

现有解决方案和局限性


目前的星载处理基于微处理器或FPGA,而这两种方案都没有对目标的人工智能的在轨特征进行优化。前者有利于控制、复杂决策并支持操作系统,后者可以处理各种高计算要求的算法,擅长数据传输、自定义加速、面向位的函数和接口。然而,现有解决方案不能有效地处理线性代数、矩阵或矢量处理,也不能利用低功耗的并行性来进行自主机器学习、人工智能推理以及用于特征检测和分类的神经网络实现。


在商业领域,最初为游戏玩家开发的GPU,正被用于加速加密、金融建模、网络和人工智能等众多计算任务。GPU使用多核和并行处理来同时执行数千个线程,运行速度比微处理器更快,更具成本效益,能够对来自多个传感器的密集型数据进行分析计算,时间为毫秒级,而不是秒、分钟或小时。GPU经过优化,可以基于大量的存储信息快速地执行相同的操作,而CPU则倾向于经常跳转。


尽管市面上有接近30款宇航级微控制器、微处理器、FPGA和专用DSP引擎,但其中只有一小部分可以用于在轨边缘应用。许多现有设备没有足够的计算能力或低延迟的内存/I/O接口。有些会消耗太多电力,需要庞大而昂贵的散热管理解决方案。之前我探讨过如何保证宇航级半导体的良好散热,以确保其安全运行和最大限度的可靠性。表1列出了我考虑过的传统标准处理产品。对于下面列出的FPGA,标出的性能值是基于资源数和时钟频率的理论峰值。标准的V5QV不包含微处理器IP。


image.png

表1:现有的宇航级星载处理解决方案。 


随着星载数据量预计呈指数增长,我们应该使用哪种类型的处理器来进行密集型星载边缘计算?微处理器和FPGA哪个更好?欧洲航天局最近的星载数据处理研讨会探讨了当前的问题、趋势和未来的需求。


阻碍在轨边缘处理的基本技术限制是:


1. 缺乏高容量、低延迟、低功耗、宇航级的存储器。目前,高速宇航级存储器仅限于易失性的DDR3/DDR4 SDRAM。此前我解释了,实现1Tb星载存储需要64片16Gb芯片,消耗总计17瓦功率,需要152.3立方厘米物理空间和468,060英镑经济成本。这非常难以实现。另一方面,宇航级的非易失性内存速度很慢


2. 缺乏为空间应用提供所需处理能力的低功耗微处理器或FPGA。在过去十年中,基于65和20纳米SRAM的FPGA提供了功耗为20瓦的有效载荷处理,而基于28纳米闪存的器件提供了更低功耗的解决方案。超深亚微米性能、逻辑密度和资源会导致功耗的增加。具有处理原始数据的性能的宇航级微处理器的功耗超过30瓦。


3. 现有的宇航级微处理器或FPGA无法有效融合和处理来自多个传感器的输入。在处理器之间移动大量的信息会造成数据密集型计算的性能瓶颈。


4. 现有的宇航级微处理器或FPGA无法有效地实现针对目标识别和分类的深度学习算法


针对边缘处理的新型解决方案


对于那些需要在轨边缘星载处理的应用,最新的FPGA和微处理器正努力解决上述局限:


1. 我在之前的一篇文章中介绍过小形状因数的4GB高速(高达2400MT/s)宇航级DDR4内存,并对该SDRAM的硬件设计进行了讨论。


2. 低功耗的28纳米闪存FPGA降低了功耗,更节能的微处理器提高了GFlops/W值。


3. 2020年以来,Teledyne e2v推出的耐辐射、QLS1046-4GB计算密集型微处理器引入了数据路径加速架构(DPAA),以提高数据包解析、队列管理、硬件缓冲区管理和加密,支持IEEE 1588精确时间协议。自2020年以来,Xilinx的XQRKU060也改善了信息流和吞吐量,优化了数据路径、I/O和内存接口以降低延迟。


4. 新一代7纳米FPGA包含专门用于处理线性代数的人工智能芯片,以提高深度学习算法的性能。QLS1046-4GB包含四个核心,每个核心都集成了本地矢量协处理器e.NEON。


表2包含最新的宇航级FPGA和微处理器:前者结合了可配置逻辑和微处理器,新一代的器件将集成用于高效矢量处理的人工智能芯片。对于以绿色显示的FPGAs/MPSoCs,标称的性能是基于资源数和时钟频率的理论峰值。实际的计算水平将会更低,这取决于其使用和实现方式、内存和I/O使用情况。表2提供了包括软核、RISC CPU在内的有用的比较信息。KU060和Versal器件的高度并行特性反映在它们较大的TOPS值上。


image.png

表2:宇航级星载处理解决方案的比较。


随着星载数据量的显著增加,使用人工智能和机器学习技术,为时间关键型和非实时型应用进行在轨分析的自主有效载荷处理呈现出增长趋势。例如,一个在地面站覆盖范围之外的空间碎片回收航天器无法收到迟来的避免碰撞的指令。从多个传感器获取的星载态势感知加上随后的目标检测和分类,将使这种时间关键决策能够在不受人类干预的情况下实时做出。类似地,高分辨率SAR图像会产生大量的地球观测数据,在轨人工智能推理和神经网络技术将允许特征识别、场景分割和特征描述,而不是阻塞宝贵的RF下行链路。


Teledyne e2v推出耐辐射的Qormino QLS1046-4GB四核处理器,包含4个ARM® Cortex® A72核(最高运行频率为1.8GHz) 和4GB高速DDR4 SDRAM,形状因数为44x26毫米,如下图所示。它将CPU和片外存储器集成到单个基板上,无需设计复杂耗时的接口,并具有显著的尺寸、重量和功率(SWaP)优势,可用于在轨边缘处理。该器件的计算性能为30000 DMIPS或超过45000 CoreMarks。


四个MPU包含ARMv8-A架构,每个都有自己的一级32KB数据缓存和48KB指令缓存,并共享一个公共的2 MB二级缓存,如图2所示。在核心频率为1.2GHz,供电电压为1伏,DDR速率为1.6GT/s时,QLS1046-4GB的总功耗范围为6.5到12瓦(不含外围设备),具体取决于允许的最大结温。在1.8GHz,供电为1伏,DDR4速率为2.1GT/s时,器件的功耗为9.3到19.4瓦。QLS1046-4GB的卓越计算性能和可以突破I/O瓶颈限制的内存带宽,以及较小的形状因数,使其与表1中列出的解决方案相比更加优秀。


image.png

图1:Qormino® QLS1046A-4GB处理器和内存[Teledyne e2v]。

image.png

图2:Qormino® QLS1046A-4GB方框图。 


去年9月,Xilinx宣布将发布其Versal ACAP(自适应计算加速平台)的耐辐射版本。该器件包含一个由VLIW SIMD高性能核心组成的人工智能引擎阵列,包含用于固定和浮点操作的矢量处理器、标量处理器、专用程序和数据内存、 专用AXI通道并支持DMA和锁定。


人工智能芯片提供高达6路的并行指令,包括每个时钟周期的2/3个标量操作、2个矢量读取和1个矢量写入以及1个固定或浮点矢量操作。数据级并行性是通过矢量级操作实现的,在矢量级操作中,可以在每个时钟周期的基础上操作多个数据集。与最新的FPGA和微处理器相比,人工智能引擎将机器学习算法的性能分别提高了20倍和100倍,而功耗仅为50%。与表1中列出的现有的处理解决方案相比,人工智能芯片是实现智能、自主的在轨边缘处理的关键区别性特征。


image.png

图3:Xilinx的Versal ACAP框图[Xilinx]。


总结


对于正在研发的应用,哪种类型的星载处理器更好?FPGA,微处理器还是ACAP?这很大程度上取决于算法是如何实现的,例如芯片内缓存的使用、外部内存访问的数量和频率、流水线、并行化和缓冲。最新的宇航级器件性能优于商用GPU,性价比也更高。


对于高分辨率SAR视频,QLS1046-4GB的原始计算性能、高速内存接口和小形状因数,使其非常适合从地球观测成像数据中提取实时信息。高达2.1GHz的DDR4速率突破了传统的I/O瓶颈。


对于态势感知,例如识别敌我或避免空间碎片碰撞,KU060等最新的FPGA能够低延迟实时接收和处理来自多个传感器的高达Tbps的数据,从而实现ASIC级的系统级性能。对于空间原位探测和资源利用也同样如此。FPGA可以处理各种高计算要求的算法,擅长数据移动、自定义加速、面向位的函数和接口。


在目标分类、人工智能推理和自主决策方面,Xilinx的ACAP可帮助实现高效的边缘矢量计算解决方案,为碎片回收航天器或基于实时流量需求的可重构认知应答器的后期指挥提供特征识别。神经网络的实现需要TeraOPS的性能和Versal提供的特定领域的并行性。这些7纳米器件可能非常耗电,所以需在项目前期进行功耗预测,以确保它们满足功率的分配预算。QLS1046-4GB能以更低的功耗和更低的成本提供深度学习。


宇航级微处理器、FPGA和ACAP是互补的星载处理技术,各自具有独特的优势。在轨边缘处理需要对从数据源处的多个传感器获取的大量信息进行实时计算,要求低延迟的确定性接口,具有包含独特散热和可靠性要求的小型低功耗形状因数。


在为密集型在轨边缘计算选择最合适的星载处理器时,还需要考虑投向市场的时间、实现和采购方面的因素,例如FPGA通常需要比微处理器更多的电源,这意味着需要更多的稳压器,因此需要更大的印刷电路板来满足这些需求。FPGA还以设计难度大而著称。对于一些项目,投向市场的时间可能非常短,OEM会坚持使用来自熟悉供应商的现有设备,以加快硬件设计。一些制造商没有学习新开发工具或不同编程语言的技能或时间。最新的超深亚微米的宇航级FPGA价格高达六位数,这对许多OEM来说也是一大障碍,尤其是那些以低成本的新空间应用为目标的厂商。


新一代在轨边缘处理将结合微处理器、FPGA和智能计算,形成一个紧密集成的异构平台。这需要多种引擎类型,因为没有一种引擎能够以最佳方式执行应用所需的所有任务。标量微处理器是进行控制、复杂决策和支持操作系统的理想选择,可重新配置的FPGA增加了处理各种高要求算法的灵活性,智能引擎则为机器学习和AI推理优化了线性代数和矢量算法的计算。


以下雷达图(图4)比较了QLS1046-4GB、最新的超深亚微米宇航级FPGA和在轨边缘处理ACAP: 


image.png

image.png

关键字:边缘计算  微处理器  FPGA 引用地址:用于密集型在轨边缘计算 的微处理器和FPGA

上一篇:在有限的时间内打造高质量的FPGA项目
下一篇:两位重量级人物加盟,这家独立FPGA技术公司要快速做大

推荐阅读最新更新时间:2024-11-06 23:03

基于FPGA的LED显示屏控制方案
LED(Light Emitting Diode)大屏幕作为现代信息发布的重要媒体,正受到社会各界尤其是商业界和广告界的极大重视,被广泛应用于工业、交通、商业、广告、金融、体育比赛、模拟军事演习、电子景观等领域。随着科技的进步,全彩LED显示屏(RGB三基色)逐渐得到普及应用。   本方案采用Actel的FPGA实现对彩色LED屏的控制,对于系统的可靠性大大增强,而且低成本的单芯片大大减轻了系统的成本。    1.概述   (1)功能概述   选择FPGA实现LED全彩屏的控制,主要考虑系统的性能需求,系统的升级需要以及系统的设计成本等因素。现代社会对信息显示效果的高要求,以及视频数据量的加大,对显示控制器提
[电源管理]
基于<font color='red'>FPGA</font>的LED显示屏控制方案
DSP完成的实时信号模拟器
前言   在通信、雷达等数字信号处理系统的设计中,信号模拟器发挥着至关重要的作用。模拟器用来模拟实际工作过程中信号处理系统的各种输入信号,从而方便了系统调试。可以利用现有仪器模拟这些信号,也可以设计专门的模拟器。这两种方法各有特点:仪器模拟省去了模拟器的设计和调试过程,比较方便;但有时现有仪器并不能完全满足系统测试的要求,另外有些仪器的价格相当昂贵(专用的信道仿真设备一般在24000到500000美元之间 )。因此,在信号模拟的方法上应视实际情况而定:对于ADC这样输入信号比较简单的的系统,可以利用任意波形发生器这些测试仪器进行测试;而对需要多输入或输入信号种类比较多的系统一般需要设计专用的模拟器。一般来说,能用容易得到仪器完成
[应用]
Fusion混合信号FPGA推出扩展温度等级型款
美高森美公司(Microsemi Corporation)宣布提供100% 通过 -55°C至 +100°C温度范围测试的Fusion混合信号FPGA器件。这一项性能提升使美高森美能够将Fusion器件独特的混合信号综合优势带至必须在极端温度下保持高可靠性运作的军事、航空和防御行业。设计人员能够利用Fusion器件固有的可重编程、高可靠性和非易失性等特性,以及固件错误免疫能力的附加优势。另外,Fusion混合信号FPGA在单芯片中集成了模拟和数字部件,更能显著减少电路板空间。 Fusion FPGA器件扩展温度范围型款已通过-55°C至+100°C的整个温度范围的完全测试,并备有60万和150万等效系统门两种密度,以
[嵌入式]
关于边缘计算的十一大误区,也许你要重新认识一下这项技术了
NXP边缘处理业务线软件工程研发副总裁 Robert Oshana 日前撰文,围绕边缘计算常见的十一个误区给予了解答。 1. 物联网边缘设备存在安全风险,因为边缘设备只能承载基本的安全措施。 安全是边缘设备的基本要求,可以实施一系列数字安全措施来确保完整性、机密性、真实性和不可否认性等基本安全特性。现代物联网安全解决方案越来越多地基于信任根 (RoT) 技术,其中托管加密安全算法并在强化环境中保护免受物理攻击。 在某些情况下,这些安全功能的计算开销被卸载到嵌入式专用安全芯片或可信平台模块 (TPM)。在其他情况下,该功能可以托管在多核 MPU 的专用核心中。 这种硬件和软件安全子系统的组合可确保在应用程序的整个生命
[嵌入式]
关于<font color='red'>边缘计算</font>的十一大误区,也许你要重新认识一下这项技术了
首创集成硬核浮点DSP Altera取得FPGA新突破
近日,Atera发布了其在FPGA浮点DSP性能方面取得的突破。据Altera公司首席DSP产品规划经理Michael Parker介绍,Altera公司在FPGA中集成了硬核浮点DSP模块,能够自然支持IEEE 754单精度浮点,属业界首创。产品适用于密集型应用的计算,比如军用雷达、搜索引擎、安防以及科学和医疗成像等。“这一硬核浮点的DSP,能够让Altera公司带来性能最优的DSP和性能最好的FPGA。除了性能上面的提升之外,对我们的客户来说,可以加快他们产品上市的时间。”Michael Parker说道。 据悉,这一硬核浮点DSP模块集成在了所有Altera的20nm 的Arria 10系列以及14nm的Strat
[嵌入式]
基于FPGA的频谱分析仪的设计与研制
频谱分析仪是微电子测量领域中最基础、最重要的测量仪器之一,是从事各种电子产品研发、生产、检验的重要工具。高分辨率、宽频带数字频谱分析的方法和实现一直是该领域的研究热点 。现代频谱分析仪是基于现代数字信号处理理论的频谱分析仪,信号经过前置预处理、抗混叠滤波、A/D变换、数字频谱分析等环节而得到信号中的频率分量, 达到与传统频谱分析仪同样的结果。 本设计完全利用FPGA实现FFT,在FPGA上实现整个系统构建。其中CPU选用Altera公司的Nios II软核处理器进行开发, 硬件平台关键模块使用Altera公司的EDA软件QuartusIIV8.0完成设计。整个系统利用Nios II软核处理器通过Avalon总线进行系统的控制。全
[测试测量]
基于<font color='red'>FPGA</font>的频谱分析仪的设计与研制
IC Insights:2022年微处理器销售额将增长12%
根据 IC Insights 更新的数据,尽管今年经济困难重重,但由于平均售价(ASP)的提高,预计2022年微处理器(MPU)总销售额将增长近12%,达到创纪录的1148亿美元。今年MPU总出货量仅增长3%,继2021年和2020年分别增长6%和5%之后,这将推动近250万个处理器销量的历史新高。 第二季度更新表示,继去年平均价格增长7%和2020年增长10%之后,预计2022年MPU收入将受到ASP 增长(8%)的推动。 2021年,五家最大的微处理器供应商的市场份额合计达到全球1027亿美元MPU销售额的86%。接下来的五家最大的MPU供应商(英伟达、三星、紫光展锐、海思和恩智浦)合计占4.3%。 值得注意的是,
[嵌入式]
IC Insights:2022年<font color='red'>微处理器</font>销售额将增长12%
FPGA在演化硬件中的应用
    摘要: 介绍了FPGA的新应用一演化硬件(EHW)的进展和现状,其中主要包括EHW的概念、工作原理、存在问题和应用领域。阐述了EHW在电路与系统学科中的科学意义及对新兴电子信息产业将产生的深远影响。     关键词: 演化硬件 遗传算法 FPGA 二十世纪70年代初出现了可编程逻辑器件(PLD),发展至今已出现简单PLD(SPLD)、复杂PLD(CPLD)和现场可编程门阵列(FPGA)等各类器件。自1985年叛国Xilinx公司推出第一片FPGA以来,以今已有多家公司开发销售自己的FPGA产品。FPGA有更高的集成度、更复杂的布线结构和逻辑实现,它与以往的PLD之间的差别有于PLD一般是通过修改内连电路
[应用]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved