利用Virtex-5 SXT 的高性能DSP解决方案

发布者:GoldenDream最新更新时间:2007-07-18 来源: DSP杂志关键字:编程  带宽  乘法  存储 手机看文章 扫描二维码
随时随地手机看文章

SXT 平台实现 DSP 的带宽最大化、功耗最小化

作者:Brent Przybus
Xilinx 公司
高级产品部
高级营销经理
brent.przybus@xilinx.com

二十多年来,FPGA 为世人提供了最灵活、适应性极强、快速的设计环境。早期的 DSP 设计人员发现,可将一种可再编程的门海用于数字信号处理。如果把内置到 FPGA 架构中的乘法器、加法器和累加单元结合起来,就可以利用大规模并行计算实现有效的滤波器算法。

在未加工频率性能方面的损失,通过并行计算得到了弥补,而且得远大于失,可谓“失之东隅,收之桑榆”;由此获得的 DSP 带宽完全可与替代方案媲美。随着时间的推移,乘法器和加法器的实施越来越高效。1998 年,Xilinx 顺理成章推出了第一个集成于 Virtex-II FPGA 系列产品中的嵌入式乘法器。Xilinx Virtex-II 和 Virtex-II Pro 系列产品深得人心,推动基于 FPGA 的 DSP 更上层楼,打破了每秒十亿次 MAC 运算的壁障。

在数字通讯、军事、国防、视频和图像市场需求的助推下,Xilinx 进一步做出调整,成功应对了一系列独特挑战,使极大规模并行实施方式跨上又一个新台阶。随着乘法器和加法器性能和数量的增长,对功耗进行管理也变得越来越困难。

Xilinx 的工程师们设计出了 DSP48 Slice,使这一难题迎刃而解。DSP48 Slice是一种超低功耗、高性能、全方位的数字信号处理元件,可方便地实现级联,而不占用任何 FPGA 架构资源。此元件在 Virtex-5 器件中得到进一步加强,并重新命名为 DSP48E Slice,能支持更高的精度、SIMD(单指令多数据)操作、集成模式检测电路和逻辑单元。

对快速数据输入和系数存储器的需求促使 Xilinx 构建起一个数字信息处理平台,其中的 DSP48E Slice 含有率之大前所未见,并且拥有极其充裕的 Block RAM 和分布式 RAM。作为画龙点睛之笔,Xilinx 在此平台中使用了运行速度高达 3.125 Gbps 的集成高速串行通道,在芯片上移入和移出数据变得更为快捷。风云际会,这些元件组合在一起,Virtex-5 SXT 平台由此应运而生。

Virtex-5 SXT 引擎 – DSP48E Slice

想要理解 FPGA 中数字信号处理的演变过程,必须回顾一下 DSP48E Slice(见图 1),及其设计的三个主要方面。

 集成乘法器和第二阶段。利用集成的二级加法器/减法器/累加器扩展乘法器的运算。现在,在单独一个 DSP48E Slice 中,就可以执行最常见的 DSP 运算组合了。

 紧缩实施。为了提高性能、降低功耗,各个 DSP48E Slice 被设计成独立元件,然后通过接口像积木块一样连接到一起,而每一个 DSP48E Slice 都包含独立于 FPGA 架构的专用路径和缓冲。

 全方位定制设计。Xilinx 很早就确定,要实现高性能和低功耗,一个按照最新工艺尺寸度身打造的全方位定制设计是必不可少的。Xilinx 设计团队与 Arithmetica 通力协作,将乘法器和加法器电路 MathIP 库加以集成,进一步提高了效率。

以这种设计为依托,DSP48E Slice 的实施在性能和低功耗效率方面达到了前所未有的水平。Virtex-5 器件中的 DSP48E Slice 分别以高速 550 MHz、中速 500 MHz 和低速 450 MHz 运行。无论您单独使用一个 DSP48E Slice 还是将所有 640 个 DSP48E Slice 汇集到最大的 Virtex-5 SXT 器件中,都可以达到这一性能(使用专用的级联逻辑实现每秒 3520 亿次乘法累积运算)。而且,实现这一令人叹为观止的性能,仅仅使用了 DSP48E Slice,完全没有消耗逻辑或 FPGA 路径资源。
这种专用的级联逻辑意味着能耗的计算是基于每一个 DSP48E Slice 的,也即其运行速度和输入的翻转率。单个 DSP48E Slice 的实测典型功耗为 1.38 mW/100 MHz。不难算出,假定 Virtex-5 SX95T 器件中所有 640 个 Slice 均以 550 MHz 运行,而翻转率为通常的 38%,则所有 DSP48E Slice 的总体动态功耗为 4.92W。

低功耗、高性能设计技术

为了充分利用独特的 Virtex-5 SXT 架构进行数字信号处理,建议遵循如下的简易指南:

 实施能最大化使用 DSP48E Slice 的滤波器算法。每一个 25 x 18 位的 DSP48E Slice 都等同于 500 个以上可编程逻辑 Slice,功耗为同等逻辑实施的 1/10,单独或链接运行速度高达 550 MHz。

 利用 DSP48E Slice 的所有功能。每一个 DSP48E Slice 都可配置成独立的 25 x 18 乘法器,一个 25 x 18 位乘法器兼加法器/减法器/累加器,或者一个 48 x 48 位加法器或减法器。每一个 DSP48E Slice 都支持 SIMD 运行以及对称或收敛圆整。

 实施定点或浮点运算。DSP48E Slice 不仅对于定点 FIR、FFT 或复杂的过滤器运算而言是理想的产品,25 x 18 的输入大小和级联路径还使我们可以使用两个 DSP48E Slice 来实现高效的 24 x 24 无符号浮点运算。

在数字信号应用中使用 DSP48E Slice

Virtex-5 SXT 平台中 DSP48E Slice、Block RAM、逻辑和数千兆位级收发器的独特结合,为 DSP 过滤器的应用提供了高成本效益、高性能、低功耗的解决方案。为了说明这一点,让我们看看 Virtex-4 SX 和 Virtex-5 SXT 器件平台中无线卡的应用,对比一下两种情况下的功耗差别。

WiMAX 数字前端 (DFE) 集成了以下内容:数字上变频 (DUC) /数字下变频 (DDC)、振幅因数缩小 (CFR) 和自动增益控制 (AGC)。本设计中要求的过滤功能正好与一个 Virtex-4 SX25 FPGA 或一个 Virtex-5 SX35T FPGA 所能提供的 DSP48E Slice 相匹配。本设计运行频率为 276 MHz,消耗 Virtex-4 SX25 FPGA 中 73% 的 DSP48 资源(128 个中的 95 个),或者 Virtex-5 SX35T FPGA 中 48% 的 DSP48E 资源(196 个中的 95 个)。

尽管单看 WiMAX DFE 方案的表现和用于其实施的资源已令人惊叹,真正堪称一绝的还是其功耗效率。本设计主要使用 DSP48 或者 DSP48E Slice,但也消耗 Block RAM 和逻辑。表 1 对这些方案进行了对比,并展示由 Virtex-4 到 Virtex-5 器件的实测功耗和降低水平。

结论

对数字信号处理的要求在不断提高,提供可扩展高性能 DSP 的呼声日益响亮,因此,在每秒几百 GMAC 甚至更高的水平上管理功耗的难题也愈见急迫。Xilinx Virtex-5 SXT FPGA 平台提供了独特的单芯片解决方案,充分利用大规模并行计算达到超高性能,同时将功耗降到最低。欲了解 Xilinx DSP 解决方案详情,请访问 www.xilinx.com/cn/dsp


图 1 – Virtex-5 FPGA 中 DSP48E Slice 的结构图

表 1 – 真实应用情况下的实测功耗

关键字:编程  带宽  乘法  存储 引用地址:利用Virtex-5 SXT 的高性能DSP解决方案

上一篇:利用Virtex-5 FPGA 降低功耗
下一篇:利用Virtex-5 SXT 的高性能DSP解决方案

推荐阅读最新更新时间:2024-05-02 20:36

基于LabVIEW环境下编程实现手机翻盖耐久性测试系统的设计
手机翻盖耐久性测试即将待测翻盖手机重复开合预设的次数,然后观察手机的各部分性能是否完好,这在翻盖手机的生产过程中是相当重要的一环。以往采用气动方式的系统运行速度较慢(约为每2秒1次)且操作界面不够友好。本文介绍的基于虚拟仪器技术的手机翻盖耐久性测试系统采用NI Motion 控制模块控制伺服电机进行驱动,运行速度可达到原来的4倍多且同时可对4部手机进行测试,而采用National Instruments公司的虚拟仪器(LabVIEW)进行开发,使操作界面非常友好。 在测试过程中操作人员针对每批不同型号的手机在初次测试时可使用微调功能将各个参数调整至理想值,并且可将这些参数存成相应的配置文件以备以后测试同样型号手机时使用,这样大
[测试测量]
基于LabVIEW环境下<font color='red'>编程</font>实现手机翻盖耐久性测试系统的设计
参与收购东芝存储,希捷有望翻身
存储系统供应商希捷科技(Seagate Technology)前一季端出亮眼业绩,本季展望亦看俏,与此同时,希捷也深信投资东芝(Toshiba)将带来长远的好处。 希捷9月底偕同由贝恩资本(Bain Capital)领军的美日联盟投资者与东芝签约,总投资金额达180亿美元,希捷将提供其中的12.5亿美元。希捷表示,该公司投资东芝将有助于稳固旗下NAND Flash事业,并且强化产品组合。 执行长Dave Mosley在分析师会议上表示,希捷入股东芝将为旗下NAND Flash事业挹注潜在的营收成长动能,同时为客户提供显著的价值。 根据华尔街日报(WSJ)报导,希捷是全球最大硬碟制造商,近年来为了因应个人电脑(PC)市场
[嵌入式]
国产铁电存储器PB85RS2MC助力汽车安全气囊系统提供智能
目前汽车安全气囊系统引入了两项主要的创新技术:第一,安全气囊系统增加了“智能性”,新系统是根据事故和乘客的具体参数来决定气囊的展开力度,这些参数可能包括碰撞的严重程度、乘客的体重和座椅相对气囊的位置等,将有助于用户省下相当可观的维修和保险成本。第二,越来越多的车辆安装了事故数据记录仪(EDR),用来收集碰撞相关的信息,EDR功能一般被包含在安全气囊电子控制单元(ECU)中。 这两种安全气囊的存储应用对存储器的要求都相当高,在“智能安全气囊”系统上,ECU设计人员希望针对具体的事故采用合适的展开力。这就不仅需要加速度信息同时也需要乘客信息。新型的智能安全气囊系统对存储器有独特的要求,即需要把直到事故发生前的乘客信息都记录下来,其
[嵌入式]
国产铁电<font color='red'>存储</font>器PB85RS2MC助力汽车安全气囊系统提供智能
长江存储首批32层 3D NAND年内量产
长江存储于2016年7月26日在武汉新芯集成电路制造有限公司的基础上正式成立,公司主要股东包括大基金和紫光集团、湖北省科投以及湖北国芯产业投资基金等,目前为清华紫光集团的子公司。该公司被视为中国在存储领域赶超并挑战诸如三星电子,东芝,SK海力士,美光和英特尔等市场领导者的希望,这几家市场领导者垄断了2017年全球NAND闪存市场。 作为国家级存储项目基地,长江存储总投资金额达240亿美元。预计项目一期建成后总产能将达到30万片/月,年产值将超过100亿美元。 据悉,长江存储首批400万美元的精密仪器已于4月5日抵达武汉,未来两年内将从全球多地进口近3万吨精密仪器至汉。今日,长江存储武汉基地芯片生产机台正式进场安装,这标志着
[半导体设计/制造]
单片机有啥用?现在用的还多吗?
在刚开始工作的时候,当时也没想这么远,一心只想学习一门技术,然后找到一份不错的工作。 至少比去工地搬砖,做普工要强的就可以。 早期在做单片机开发的时候,我一直认为单片机是上个时代的产品,也是属于很传统的行业。 那个时候应该很少人听过单片机,到底是个什么东西? 最近这几年,我明显感觉变化地很快,可能是更多智能产品的带动下,比如说机器人、无人机、智能家居、充电桩,让越来越多人认识到单片机。 另外一个角度就是工资,在这几年都有明显地上涨。 记得我在5年前,当时公司研发岗位缺人,一时半会也招不到合适的。 就计划从公司内部找人来培养,后面找了一个在产线做公司产品维修的小伙子。 他也比较会做人,也聊得来,领导让我们带一下他,我们很爽快也就答应
[单片机]
基于单片机的自动血压监控系统设计原理
  0 引 言   目前医院使用的自动血压监控系统大多为进口设备,价格昂贵,就医成本高。本文所讨论的系统价格低廉,测量准确,有其独特之处,具有很高的实用价值。   1系统功能和构成   该系统由一台PC机实现数据接收和数据管理,再配合每个病房单独使用的自动血压监测仪(在自动血压计内部加装单片机测控板改装而成),构成完整的自动血压监控系统。如图1所示。   管理用PC机设置在护士站,在PC机上可设定各病房使用的血压监测仪启动和测量的时间,并按设定的时间控制血压监测仪工作,然后接收血压监测仪传回的测量数据;最终将各病房24小时传回的数据绘制成图形或表格,供医生参考。   市场上能完成自动测量的血压计种类繁多,但只能完成单
[医疗电子]
基于单片机的自动血压监控系统设计原理
视频监控中的通用可编程SoC潮流
  由于数字视频监控系统不仅包含适于DSP的视频压缩编解码处理,还有大量适于CPU的控制、管理、存储和网络功能,于是,更高的集成度将通过SOC来实现。业界所普遍认可的SOC具有两个或两个以上处理器核心的单片集成系统,而且其中即可有CPU主处理器,同时也可有DSP和协处理器类的软核,后者是ASIC类的硬核,甚至也可包含其它的专用处理子系统,并且集成有丰富的外设接口。   众所周知,通用可编程DSP引领众了数字视频监控的兴起,然而同数字视频产品不断产业化的进程一样,当某一阶段技术趋于成熟之后,就会有众多的定制器件参与竞争,这也就是使得可编程平台在持续提高的基础上还要不断推陈出新,甚至要有新理念的突破才能立于不败之地。由于数字视频监控
[安防电子]
视频监控中的通用可<font color='red'>编程</font>SoC潮流
一种简单实用的STC89C52RC编程器设计方案
  1 引言   STC(宏晶科技)公司推出的STC 89C/S 51XX/52XX 等系列单片机,具有价格便宜、无法解密、低功耗、高速、高可靠、强抗静电、强抗干扰等优点,其指令代码完全兼容传统8051 单片机,片内资源非常丰富,且均内置可反复擦写的Flash 存储器,并提供了ISP(In-System Programming)编程模式。STC89C52RC 作为STC 89C/S51XX/52XX 系列单品机的一个典型代表,其特征主要有,8K 字节可编程闪烁存储器、1000 次写/ 擦循环寿命、10 年的数据保留时间、三级程序存储器锁定、512 内部RAM、32 可编程I/O 线、两个16 位定时器/ 计数器、5 个中断源、可
[电源管理]
一种简单实用的STC89C52RC<font color='red'>编程</font>器设计方案
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved