利用Virtex-5 SXT 的高性能DSP解决方案

发布者:SereneSpirit最新更新时间:2008-12-05 来源: 电子工程世界关键字:Virtex  FPGA  DSP 手机看文章 扫描二维码
随时随地手机看文章

  二十多年来,FPGA 为世人提供了最灵活、适应性极强、快速的设计环境。早期的 DSP 设计人员发现,可将一种可再编程的门海用于数字信号处理。如果把内置到 FPGA 架构中的乘法器、加法器和累加单元结合起来,就可以利用大规模并行计算实现有效的滤波器算法。

  在未加工频率性能方面的损失,通过并行计算得到了弥补,而且得远大于失,可谓“失之东隅,收之桑榆”;由此获得的 DSP 带宽完全可与替代方案媲美。随着时间的推移,乘法器和加法器的实施越来越高效。1998 年,Xilinx 顺理成章推出了第一个集成于 Virtex-II FPGA 系列产品中的嵌入式乘法器。Xilinx Virtex-II 和 Virtex-II Pro 系列产品深得人心,推动基于 FPGA 的 DSP 更上层楼,打破了每秒十亿次 MAC 运算的壁障。

  在数字通讯、军事、国防、视频和图像市场需求的助推下,Xilinx 进一步做出调整,成功应对了一系列独特挑战,使极大规模并行实施方式跨上又一个新台阶。随着乘法器和加法器性能和数量的增长,对功耗进行管理也变得越来越困难。

  Xilinx 的工程师们设计出了 DSP48 Slice,使这一难题迎刃而解。DSP48 Slice是一种超低功耗、高性能、全方位的数字信号处理元件,可方便地实现级联,而不占用任何 FPGA 架构资源。此元件在 Virtex-5 器件中得到进一步加强,并重新命名为 DSP48E Slice,能支持更高的精度、SIMD(单指令多数据)操作、集成模式检测电路和逻辑单元。

  对快速数据输入和系数存储器的需求促使 Xilinx 构建起一个数字信息处理平台,其中的 DSP48E Slice 含有率之大前所未见,并且拥有极其充裕的 Block RAM 和分布式 RAM。作为画龙点睛之笔,Xilinx 在此平台中使用了运行速度高达 3.125 Gbps 的集成高速串行通道,在芯片上移入和移出数据变得更为快捷。风云际会,这些元件组合在一起,Virtex-5 SXT 平台由此应运而生。

  Virtex-5 SXT 引擎 – DSP48E Slice

  想要理解 FPGA 中数字信号处理的演变过程,必须回顾一下 DSP48E Slice(见图 1),及其设计的三个主要方面。

  集成乘法器和第二阶段。利用集成的二级加法器/减法器/累加器扩展乘法器的运算。现在,在单独一个 DSP48E Slice 中,就可以执行最常见的 DSP 运算组合了。

  紧缩实施。为了提高性能、降低功耗,各个 DSP48E Slice 被设计成独立元件,然后通过接口像积木块一样连接到一起,而每一个 DSP48E Slice 都包含独立于 FPGA 架构的专用路径和缓冲。

  全方位定制设计。Xilinx 很早就确定,要实现高性能和低功耗,一个按照最新工艺尺寸度身打造的全方位定制设计是必不可少的。Xilinx 设计团队与 Arithmetica 通力协作,将乘法器和加法器电路 MathIP 库加以集成,进一步提高了效率。

  以这种设计为依托,DSP48E Slice 的实施在性能和低功耗效率方面达到了前所未有的水平。Virtex-5 器件中的 DSP48E Slice 分别以高速 550 MHz、中速 500 MHz 和低速 450 MHz 运行。无论您单独使用一个 DSP48E Slice 还是将所有 640 个 DSP48E Slice 汇集到最大的 Virtex-5 SXT 器件中,都可以达到这一性能(使用专用的级联逻辑实现每秒 3520 亿次乘法累积运算)。而且,实现这一令人叹为观止的性能,仅仅使用了 DSP48E Slice,完全没有消耗逻辑或 FPGA 路径资源。

  这种专用的级联逻辑意味着能耗的计算是基于每一个 DSP48E Slice 的,也即其运行速度和输入的翻转率。单个 DSP48E Slice 的实测典型功耗为 1.38 mW/100 MHz。不难算出,假定 Virtex-5 SX95T 器件中所有 640 个 Slice 均以 550 MHz 运行,而翻转率为通常的 38%,则所有 DSP48E Slice 的总体动态功耗为 4.92W。

  低功耗、高性能设计技术

  为了充分利用独特的 Virtex-5 SXT 架构进行数字信号处理,建议遵循如下的简易指南:

  实施能最大化使用 DSP48E Slice 的滤波器算法。每一个 25 x 18 位的 DSP48E Slice 都等同于 500 个以上可编程逻辑 Slice,功耗为同等逻辑实施的 1/10,单独或链接运行速度高达 550 MHz。

  利用 DSP48E Slice 的所有功能。每一个 DSP48E Slice 都可配置成独立的 25 x 18 乘法器,一个 25 x 18 位乘法器兼加法器/减法器/累加器,或者一个 48 x 48 位加法器或减法器。每一个 DSP48E Slice 都支持 SIMD 运行以及对称或收敛圆整。

  实施定点或浮点运算。DSP48E Slice 不仅对于定点 FIR、FFT 或复杂的过滤器运算而言是理想的产品,25 x 18 的输入大小和级联路径还使我们可以使用两个 DSP48E Slice 来实现高效的 24 x 24 无符号浮点运算。

  在数字信号应用中使用 DSP48E Slice

  Virtex-5 SXT 平台中 DSP48E Slice、Block RAM、逻辑和数千兆位级收发器的独特结合,为 DSP 过滤器的应用提供了高成本效益、高性能、低功耗的解决方案。为了说明这一点,让我们看看 Virtex-4 SX 和 Virtex-5 SXT 器件平台中无线卡的应用,对比一下两种情况下的功耗差别。 

  WiMAX 数字前端 (DFE) 集成了以下内容:数字上变频 (DUC) /数字下变频 (DDC)、振幅因数缩小 (CFR) 和自动增益控制 (AGC)。本设计中要求的过滤功能正好与一个 Virtex-4 SX25 FPGA 或一个 Virtex-5 SX35T FPGA 所能提供的 DSP48E Slice 相匹配。本设计运行频率为 276 MHz,消耗 Virtex-4 SX25 FPGA 中 73% 的 DSP48 资源(128 个中的 95 个),或者 Virtex-5 SX35T FPGA 中 48% 的 DSP48E 资源(196 个中的 95 个)。

  尽管单看 WiMAX DFE 方案的表现和用于其实施的资源已令人惊叹,真正堪称一绝的还是其功耗效率。本设计主要使用 DSP48 或者 DSP48E Slice,但也消耗 Block RAM 和逻辑。表 1 对这些方案进行了对比,并展示由 Virtex-4 到 Virtex-5 器件的实测功耗和降低水平。

  结论

  对数字信号处理的要求在不断提高,提供可扩展高性能 DSP 的呼声日益响亮,因此,在每秒几百 GMAC 甚至更高的水平上管理功耗的难题也愈见急迫。Xilinx Virtex-5 SXT FPGA 平台提供了独特的单芯片解决方案,充分利用大规模并行计算达到超高性能,同时将功耗降到最低。

关键字:Virtex  FPGA  DSP 引用地址:利用Virtex-5 SXT 的高性能DSP解决方案

上一篇:基于FPGA的直接数字频率合成器的设计和实现
下一篇:基于DSP/FPGA的超高速跳频系统基带设计

推荐阅读最新更新时间:2024-05-02 20:43

软件无线电设计中ASIC、FPGADSP的选择策略探讨
ASIC、FPGA和DSP的应用领域呈现相互覆盖的趋势,使设计人员必须在软件无线电结构设计中重新考虑器件选择策略问题。本文从可编程性、集成度、开发周期、性能和功率五个方面论述了选择ASIC、FPGA和DSP的重要准则。 软件无线电(SDR)结构一直被认为是基站开发的灵丹妙药,而随着其适应新协议的能力不断增强,软件无线电结构已被一些设计人员视为在单个基础架构设计中支持多种无线协议的重要解决方案。直到最近,软件无线电仍然只是大多数通信系统设计人员的规划蓝图而已,但这一局面正迅速得到改观。随着3G无线业务的日趋临近,设计人员又对在基础架构设计中实现软件无线电结构产生了浓厚的兴趣。 实现软件无线电 传统的无线基础架构设计可采用ASIC、D
[嵌入式]
软件无线电设计中ASIC、<font color='red'>FPGA</font>和<font color='red'>DSP</font>的选择策略探讨
基于FPGA的高压交联电缆测试电源的研制
摘要:分析了串联谐振的原理并通过推导得出谐振电容两端电压的关系式,结合目前国内高压电缆耐压测试的发展现状,证明了变频串联谐振试验方法的优越性。对于控制部分,利用现场可编程门阵列(FPCA)实现了自动频率跟踪,使得整套系统的控制精度得以提高。经测试结果表明,研制的耐压测试电源样机具有操作简单、控制方便、体积小、重量轻等优点,在输出功率为6 kW的情况下,可以使电缆试品上承受的电压稳步升高到18 kV,满足了18 kV以下交联聚乙烯(XLPE)电缆的耐压测试要求。 关键词:电源;耐压测试;串联谐振;自动频率跟踪 1 引言     近年来,XLPE绝缘电力电缆已经取代油纸绝缘电力电缆,并逐步取代PVC绝缘电力电缆和充油电力电缆,且电压等
[电源管理]
基于<font color='red'>FPGA</font>的高压交联电缆测试电源的研制
一种基于ARM-Linux的FPGA程序加载方法
  1、引言   FPGA在系统上电时,需要从外部载入所要运行的程序,此过程被称为程序加载。多数情况下,FPGA从外部专用的 EPROM读入程序。这种方式速度慢,而且只能加载固定的程序。显然,当系统需要容量大而且 FPGA要加载的程序可以根据需要有选择的加载时不能采用这种方法。本文实现了一种基于外部处理器的加载方法,速度快,而且可以根据设置给FPGA加载相应的程序。   对于 Xilinx公司的 FPGA芯片,有五种加载方式:JTAG模式,串行从模式,串行主模式,并行从模式和并行主模式。JTAG模式常用于调试时,将主机综合好的程序加载到FPGA,优先级高于其他几种模式。其他加载模式取决于 FPGA上加载模式管脚(M0,M1,M
[单片机]
一种基于ARM-Linux的<font color='red'>FPGA</font>程序加载方法
FPGADSP的高速通信接口设计与实现
在雷达信号处理、数字图像处理等领域中,信号处理的实时性至关重要。由于FPGA芯片在大数据量的底层算法处理上的优势及DSP芯片在复杂算法处理上的优势,DSP+FPGA的实时信号处理系统的应用越来越广泛。ADI公司的TigerSHARC系列DSP芯片浮点处理性能优越,故基于这类。DSP的DSP+FPGA处理系统正广泛应用于复杂的信号处理领域。同时在这类实时处理系统中,FPGA与DSP芯片之间数据的实时通信至关重要。 TigerSHARC系列DSP芯片与外部进行数据通信主要有两种方式:总线方式和链路口方式。链路口方式更适合于FPGA与DSP之间的实时通信。随着实时信号处理运算量的日益增加,多DSP并行处理的方式被普遍采用,它们共享总线
[应用]
选用CEVA DSP,展讯开发3G TD-SCDMA基带处理器
来自西班牙巴塞罗纳3GSM大会的消息,无线IC和软件解决方案供应商展讯通信(Spreadtrum Communications)已获得面向半导体行业的DSP核心、多媒体、GPS和存储平台的授权厂商CEVA两项子系统授权,包括CEVA-X1620 DSP和CEVA-XS1200子系统,将用于展迅3G无线基带处理器系列,计划于2007年大量上市。据介绍,展讯通信正利用这种DSP开发中国国产TD-SCDMA 3G标准的芯片集,是中国首家开发符合这些标准的基带解决方案的IC设计公司。 展讯通信与CEVA拥有长期成功的合作历史。展讯通信此前曾获得CEVA-TeakLite和CEVA-TeakDSP核心的授权,用以开发基带解决方案。由CEV
[焦点新闻]
基于DSP的最小图像采集处理系统设计
  引言   在以DSP为核心的视频处理系统中,视频采集的方法通常可以分为两大类:自动的视频采集和基于DSP的视频采集。前者通常采用CPLD/FPGA控制视频解码芯片,通过FIFO或者双口RAM向DSP传送数据,特点是数据采集模块独立运行,占用DSP资源少,但实现相对复杂,成本偏高;后者通常由DSP控制视频解码芯片并同步各种时序,将视频数据读入。其特点是实现相对简单,成本有所降低,但对视频解码芯片的控制较为复杂,占用DSP处理时间。   如果通过适当的逻辑电路让数字图像传感器芯片直接接入DSP,则可省去视频控制解码芯片、CPLD/FPGA、FIFO或双口RAM,在不增加DSP软件开销的情况下,大大降低系统的复杂程度和成本,缩短
[嵌入式]
一种基于Petri网的并行控制器的VHDL实现
  摘 要: Petri网是离散事件系统建模的重要工具,本文使用硬件描述语言VHDL实现了基于Petri网的并行控制器。文中通过一个液位控制系统实例具体介绍了这一方法,并通过仿真波形证明了该方法的正确性。这对于离散事件系统并行控制器的设计具有十分重要的意义。   Petri网是异步并发系统建模与分析的一种重要工具,1962年由德国科学家C.A.Petri博士创立。40多年来,Petri网理论得到了很大的丰富和发展,其应用领域也在不断扩大,越来越受到国际同行的重视,已成为计算机、自动化和通信领域的热门研究课题。Petri网既有直观的图形表示,又有深厚的数学基础;既是层次化的结构模型,又能反映系统的动态性能 。用硬件描述语言进行电
[嵌入式]
一种基于Petri网的并行控制器的VHDL实现
采用数字信号处理器TMS320C6201构成的视频跟踪警戒装置
    摘要: 介绍了一种以高速数字信号处理器TMS320C6201为核心器件构成的视频跟踪警戒装置。该视频跟踪警戒装置,即可自成一个小系统,独立进行工作;也可作为一个子系统,装在其它光电测量跟踪系统中工作。     关键词: 电视跟踪 匹配跟踪 图像处理 数字信号处理器     在光电测量跟踪系统的实际应用中,对其视频器量跟踪部分,提出了越来越高的要求。例如,有越来越多的应用场合,要求光电测量跟踪系统对更大区域的视频图像具有实时匹配跟踪(相关跟踪)的功能。在匹配跟踪(相关跟踪)过程中,如果需要匹配处理的图像区域较大,则运算量非常可观。在视频跟踪当中,为了能够在有限的时间(如20毫秒时间内)实现大量的运算处理
[测试测量]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved