利用Virtex-5 FPGA实现更高性能的方法

发布者:绿意盎然最新更新时间:2007-01-31 来源: 电子设计技术关键字:存储  模块  逻辑  计数 手机看文章 扫描二维码
随时随地手机看文章
在FPGA系统设计中,要达到性能最大化需要平衡具有混合性能效率的元器件,包括逻辑构造(fabric)、片上存储器、DSP和I/O带宽。在本文中,我将向你解释怎样能在追求更高系统级性能的过程中受益于Xilinx 的Virtex-5 FPGA构建模块,特别是新的ExpressFabric技术。以针对逻辑和算术功能的量化预期性能改进为例,我将探究ExpressFabric架构的主要功能。基于实际客户设计的基准将说明Virtex-5ExpressFabric技术性能平均比前一代Virtex-4 FPGA要高30%。

利用新的逻辑构造(在里面你可以实现诸如计数器、累加器和RAM/ROM存储)和可用的硬IP模块、存储器及DSP(经最优化以运行在高达550MHz的时钟速率),Virtex-5 FPGA无疑是针对高性能设计的平台选择。

  ExpressFabric的性能


自从上世纪80年代中期第一颗FPGA问世以来,大多数FPGA的逻辑构造一直是基于相同的基本四输入查找表(LUT)架构。Virtex-5家族是第一个提供完全独立输入(不共享)的真正6输入LUT(6-LUT)构造的FPGA平台(图1)。向6-LUT构造架构转移为65nm的Virtex-5 FPGA家族提供了在关键路径延迟—决定逻辑构造性能的因素—与裸片面积之间的最有效折衷。

       
图1:Virtex-5可配置逻辑模块(CLB)构成两个逻辑片,每逻辑片利用4个提供更少逻辑级好处的独立6-LUT。

随着工艺技术的进步,互连时间延迟能占关键路径延迟的50%以上。赛灵思已经为Virtex-5 FPGA开发了新的互连模式,通过较少的跳跃(hops)到达更多的地方来增强性能。新的模式增加了两到三跳之内可以到达的逻辑互连的数量。此外,更为有序的路由模式使Xilinx ISE?软件更容易找到最优化的路由。所有互连功能对FPGA设计工程师都是透明的,但是,将转变为更高的整体性能和更容易设计的可路由性。本质上,Virtex-5模式根据距离提供快速可预测的路由。

通过把新的6-LUT构造与进位链、专用多路选择器和触发器(与把这些单元连接起来的独特方法)这样的特殊功能相结合,创造了非常卓越的性能和实现逻辑及算术功能的效率。

多路选择器(MUX)就是清楚地说明ExpressFabric技术好处的例子之一。在Virtex-4架构中实现一个4:1 MUX需要两个4输入LUT和一个MUXF模块;同样的4:1 MUX现在可以在Virtex-5器件中用一个LUT来实现。类似地,在Virtex-4架构中实现一个8:1 MUX需要四个LUT和三个MUXF模块;而新的Virtex-5架构仅仅需要两个6-LUT,因此,性能更高且逻辑利用更佳,如图2所示。

       
  图2: Virtex-5 FPGA与Virtex-4 FPGA在8:1多路选择器实现上的比较。

与过去的Xilinx FPGA家族一样,Virtex-5 Slice L(逻辑片)利用专用的进位链可以实现逻辑功能、寄存器和算术功能。稍微更复杂的Slice M(存储器片)提高了在LUT(SRL)内部实现分布式RAM及移位寄存器的性能。

由ExpressFabric架构所提供的各种各样改进当中,新的进位链结构(carry chain structure)当被用于实现算术运算时实质上产生了更高的性能,其对关键路径延迟的影响可以在表1中的若干例子容易地看到。

表1:Virtex-5 FPGA与Virtex-4 FPGA在实现算术功能上的比较。

    

分布式存储器功能如LUT RAM或ROM也以若干方式从较大的LUT构造获益。新的宽高比容许更为密集地包装小的存储器功能,从而引向重大的性能好处,如表2所描述。

表2:Virtex-5 FPGA与Virtex-4 FPGA在实现基于LUT的RAM/ROM上的比较。

    

由已改进的具有6-LUT架构的逻辑构造和互连结构所提高的性能是有重大价值的,但是,这仅仅是开端。

大多应用需要的片上RAM比基于LUT的RAM能提供的要多。利用增强的Virtex-5模块RAM,你可以实现更高的片上存储器性能。

  模块RAM性能

随着向65nm的转移,Virtex-5模块RAM的时钟速度获得了10%的提升,达到550MHz。然而,为了实现目前大多应用所渴望的性能,模块RAM需要的不仅仅是速度更快,而是需要规模更大。

Virtex-5模块RAM 的规模已经加倍到36 kb。这个较大的模块规模(由两个18kb存储器构成)在简单的双口模式中将支持72位数据字,因此,把模块RAM的带宽提高了一倍。此外,Virtex-5 FPGA提供专用的连接,使你能够在模块RAM行中把两个相邻的36kb模块RAM级联起来,因此,实现一个运行在最大550MHz 速率的72kb存储器。

不断加大的FPGA的实用性已经加速了把更多子系统集成到单一器件之中的趋势,使得对多个时钟域进行接口的必要性更为普遍。Virtex-5器件通过提供集成逻辑来简化灵活和有效的FIFO的实现来适应这种趋势。

通过这种增强的组合,Virtex-5模块RAM提供更多片上存储器,更容易构建FIFO,并获得更高的带宽。

  DSP性能


作为一种针对高性能DSP应用的可行解决方案,FPGA的认知度日益增加是理所当然的。无论作为一种协处理器或一种针对更为苛刻应用要求的单机解决方案,FPGA都不断提供最佳的性能、功率和成本组合。

为了满足对更高DSP性能看来贪得无厌的需求,赛灵思的Virtex-5 DSP性能在时钟速率和精度两个方面都居于领先地位;时钟速率已经提高到550MHz,而精度已经从18 x 18 位提高到25 x 18位。

赛灵思也针对累计器链实现而优化了Virtex-5 DSP48片,其强大的性能使创建非常有效的高性能滤波器成为可能。在每一个DSP48片输入和输出上的专用路由资源允许在一行内把任意数量的片链接起来。这种专用的路由确保在链中的每一个DSP48片将以全速运行而不消耗任何构造路由或逻辑资源,因为其它FPGA需要。综合起来看,这些改进把实现通用高精度功能所需要的资源数量减少了一半。例如,对于35 x 25位乘法,采用Virtex-4 FPGA就需要四个DSP48片;在Virtex-5 FPGA中具有更宽的DSP模块可用,实现这种乘法功能只要采用一半的DSP48片。

  I/O带宽性能


随着性能基准的进展,FPGA能处理数据的速度与器件I/O带宽的前后使用情况有关,它就是大量数据能被搬移到器件上及从器件上卸下所用的速度。当利用外部存储缓冲器时,接口必须比数据处理率至少快两倍,因为数据既要写出也要读回FPGA之中。

通过既提高每一个引脚的数据率,又利用更大的封装来增加可用I/O的数量,Virtex-5 FPGA提高了Virtex-4的带宽。例如,对于流行的存储器接口如DDR2 SDRAM,每一个引脚的带宽已经从534 Mbps提高到了667 Mbps;数据I/O的数量—当考虑SSO要求时—已经从32增加到了576。

  客户设计基准


为了进一步评估由Virtex-5 FPGA逻辑构造所提供的性能改进,我们利用赛灵思的ISE软件实现了一组客户设计。

这些设计完全采用VHDL或Verilog编写。我们利用库组件或综合参考的直接调用方法实现了一些像存储器和FIFO那样的特殊设计单元,但是许多是利用由CORE Generator?软件生成的EDIF模块实现的。

对于这些基准,我们采用Synplicity公司的Synplify Pro工具以时序驱动方式执行综合,并利用严紧和现实的约束来有效地测量性能。完成这一点就确保所有特殊优化和逻辑复制获得了使用。

在ISE软件中的实现是把布局和路由努力设置到“high”来完成的。时钟被以5%的增量反复增加,直到该设计不能满足设计约束。

结果是—与利用Virtex-4 FPGA实现的设计相比—平均性能提高了30%,如图3所示。

       
图3:根据利用ISE 8.2i软件实现的一套74个客户设计的比较。

这些改进最多的设计具备大的逻辑锥体;关键路径常常实现大的复杂逻辑等式。例如,ASIC原型设计的关键路径中的大量逻辑通常将具有非常少的寄存器。这些类型的设计展示了采用Virtex-5 ExpressFabric技术的重大改进。

在展示适度改进的设计中,要么具有较少的逻辑级,要么为使用硬IP模块或改进性能的进位链结构提供很少的机会。

图4通过把Virtex-5 FPGA对前一代Virtex-4 FPGA的性能改进进行分类做了总结。

      
      图4:Virtex-5 FPGA性能的改进。

  结论


利用其新的ExpressFabric技术和对其它高性能硬IP及I/O的紧密耦合,与前一代架构相比,Virtex-5 FPGA家族表现了重大的性能提升。

关键字:存储  模块  逻辑  计数 引用地址:利用Virtex-5 FPGA实现更高性能的方法

上一篇:青睐无工厂模式 德州仪器退出数字逻辑开发
下一篇:TMS320F28xx DSP中内部Flash的应用研究

推荐阅读最新更新时间:2024-05-02 20:27

GPRS数据传输模块的设计与实现
   1 引 言   随着市场上对无线数据业务的需求日益增多,运营商纷纷大力发展自身领域内的数据服务,力求在激烈的竞争中占得先机。传统的GSM网络仅能支持9.6 kb/s速率的数据传输业务,这远远不能满足用户对高速无线数据业务的需求。通用分组无线业务(General Packet RadioService,GPRS)是构架在传统GSM网络之上的一种标准化的分组交换数据业务,他可以提供高达115 kb/s速率的分组数据业务,从而使得包括图片、话音和视频的多媒体业务在无线网络中的传输成为现实。   GPRS被认为是第二代移动通信系统向第三代移动通信演进的重要一步。相对原来GSM的拨号方式的电路交换数据传送方式,GPRS是分组交换技术
[单片机]
GPRS数据传输<font color='red'>模块</font>的设计与实现
视频压缩系统中大容量存储器的应用设计
O 引言   随着航空航天航海等技术的发展,无论是星载还是舰载方面的技术要求,都迫切希望有一种能够在恶劣环境(高温、低温、振动)下正常工作,并且易于保存的大容量视频记录设备,以满足数据管理系统方面的要求。   早期的海量数据记录主要是使用磁带机,但存放在磁带机中的数据保存条件较高,它容易受到天气和湿度等环境的影响。而使用半导体存储芯片作为存储介质则具有存储密度高、无转动部件、可靠性高、体积小、重量轻等特点,因此,半导体存储芯片逐渐成为高可靠性数据记录器的主流方案。   基于半导体存储芯片K9WBG08UlM的大容量存储器,可以很好的满足工业控制或军事领域等恶劣环境下的使用要求。 1 大容量存储器的应用设计   1.1
[家用电子]
视频压缩系统中大容量<font color='red'>存储</font>器的应用设计
爱特梅尔推出面向高容量USB应用的8051微控制器
爱特梅尔公司 (Atmel Corporation) 宣布为其标准 8051 USB 微控制器系列新增三款ROM 器件,新器件与现有的闪存型款产品相辅相成,特别适合着重成本、灵活性要求不高、而代码不变的高容量应用。 全新的AT83C5134、AT83C5135 和AT83C5136器件以8051 X2 处理器核为基础,在6个时钟周期内执行一条指令,分别备有8Kb、16Kb和32Kb ROM代码存储器。此外,爱特梅尔还提供两种 32Kb 型款的产品AT83EC5136和AT83EI5136,分别具有512K 和32 Kb的EEPROM,适用于数据存储。这些产品都具有USB全速控制器、UART、SPI 和双线接口,可以轻易连接至共享
[新品]
Vitesse开放以太网存储研讨会注册
全新面向对象的范式可在一种开放环境中实现存储虚拟化。 美国加州卡马里奥,2014年7月7日 –为电信网、企业网和物联网(IoT)网络提供先进芯片解决方案的领先供应商Vitesse Semiconductor公司(纳斯达克股票代码:VTSS)日前宣布:其首届以太网存储(SOE)技术研讨会现已可供注册。 存储网络正在向千兆以太网过渡,从而为数据中心设计中的虚拟化存储创造了新的可能性。本届专门为设计工程师和系统架构师而制定的技术研讨会,将涵盖如何设计基于以太网的存储网络等内容,该类存储网络能够提供低功耗优势、端口灵活性、长生命周期、高确定性性能以及严格的可靠性。 “存储网络正在改变的事实,受到了数据中心朝着面向对象的存储这一
[其他]
长江存储NAND闪存芯片生产机台进场安装
    国家存储器基地项目芯片生产机台正式进场安装,这标志着国家存储器基地从厂房建设阶段进入量产准备阶段。长江日报记者了解到,设备搬入、调试将耗费3个月左右的时间,然后开始小规模试产,如顺利,今年四季度,中国首批拥有完全自主知识产权的32层三维NAND闪存芯片有望在光谷实现量产。   去年9月,国家存储器基地项目(一期)一号生产及动力厂房提前一个月实现封顶;如今,又提前20天实现了芯片生产机台搬入。紫光集团董事长兼长江存储董事长赵伟国介绍,生产机台搬入对生产环境的要求很高,必须放在无尘室中并且提供相应的保障支持。因此,机台搬入说明厂房内部的洁净室、电气设备等内部装修已经陆续完成,这比厂房封顶的技术含量更高,难度更大。   9个月建
[半导体设计/制造]
车身控制模块设计要求及解决方案
    随着人们对汽车的操控性及舒适性需求不断升高,汽车车身中的电子设备越来越多,如电动后视镜、中控门锁、玻璃升降器、车灯乃至其它更多的高级功能等。   图1:典型车身控制模块(BCM)的系统架构 电源要求及方案选择     典型车身控制模块(BCM)设计重要的一步是确定电源要求,以及选择合适的电源方案。一般而言,BCM要求的输入电压在-0.5 V至32 V之间,输出电压为5 V或3.3 V。       值得一提的是,汽车内的用电设备越来越多,如果电池直接供电的设备静态电流不够低,而汽车连续停泊较长时间,车内蓄电池可能因为过度放电而使汽车无法重新启动,故BCM设计需要考虑静态电流。此外,汽车应用中可能会常常面对高温环境,
[电源管理]
车身控制<font color='red'>模块</font>设计要求及解决方案
单片机——AT89C51——外中断、定时/计数器初始化
1.外中断 #代表0或1 必选: IT# = # // 选择触发方式,0为电平触发方式,1为跳沿触发方式 EX# = 1 // 外中断允许 EA = 1 // 总中断允许 可选: P# = # // 再设一级优先级 2.定时/计数器 必选: // 以T0为例: TMOD=0x01; //选择使用T0还是T1;设为定时器还是计数器(c/t);选择工作方式;选择开启限制 TH0=0xee; TL0=0x00; //设置初值 TR0=1; // 开启使用(gate为0下,只由此处控制) 可选: ET0=1; // 中断允
[单片机]
单片机——AT89C51——外中断、定时/<font color='red'>计数</font>器初始化
长江存储、长鑫存储加速扩产,国内封测厂商喜提业绩新增长点?
2021年下半年,原本应该进入传统的消费电子产品的拉货旺季,但由于前期终端库存量增加而需求并未跟上,导致时至今日产业链都处于去库存的阶段,半导体行业作为上游产业也进入了较为低迷的行情阶段,其中半导体封测厂商从满产满销到订单大幅下滑,感受尤为明显。 同时,包括苏州、深圳、东莞、上海、昆山等国内半导体封测供应链重镇都陆续暴发疫情,对企业的生产运营、物流运输也产生了不小的影响。可以说,现阶段多数国内半导体封测厂商都面临来自供需两端的双重压力。 值得一提的是,虽然整体并不乐观,但仍有部分细分应用领域处于高速发展的状态,而存储器就是其中的代表领域,当前国内存储器国产化率较低,但整体产业链已经有了非常大的进展,进入快速放量和持续扩产的阶段,
[手机便携]
长江<font color='red'>存储</font>、长鑫<font color='red'>存储</font>加速扩产,国内封测厂商喜提业绩新增长点?
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved