浅谈降低功耗的设计技巧

发布者:疯狂小马最新更新时间:2011-11-26 关键字:降低功耗  FPGA 手机看文章 扫描二维码
随时随地手机看文章
    使用这些设计技巧和ISE功能分析工具来控制功耗

  新一代 FPGA的速度变得越来越快,密度变得越来越高,逻辑资源也越来越多。那么如何才能确保功耗不随这些一起增加呢?很多设计抉择可以影响系统的功耗,这些抉择包括从显见的器件选择到细小的基于使用频率的状态机值的选择等。

  为了更好地理解本文将要讨论的设计技巧为什么能够节省功耗,我们先对功耗做一个简单介绍。

  功耗包含两个因素:动态功耗和静态功耗。动态功耗是指对器件内的容性负载充放电所需的功耗。它很大程度上取决于频率、电压和负载。这三个变量中的每个变量均在您的某种控制之下。

  动态功耗 = 电容×电压2×频率

  静态功耗是指由器件中所有晶体管的泄漏电流(源极到漏极以及栅极泄漏,常常集中为静止电流)引起的功耗,以及任何其他恒定功耗需求之和。泄漏电流很大程度上取决于结温和晶体管尺寸。

  恒定功耗需求包括因终接(如上拉电阻)而造成的电流泄漏。没有多少措施可以采用来影响泄漏,但恒定功耗可以得到控制。

 

  尽早考虑功耗

 

  您在设计的早期阶段做出的功耗决定影响最大。决定采用什么元件对功耗具有重大意义,而在时钟上插入一个

  BUFGMUX 则影响甚微。对功耗的考虑越早越好。

 

  恰当的元件

 

  并不是所有元件都具有相同的静止功耗。根据普遍规则,器件工艺技术尺寸越小,泄漏功耗越大。但并不是所有工艺技术都一样。例如,对于 90 nm 技术来说,Virtex-4 器件与其他 90 nm FPGA 技术之间在静止功耗方面存在显著差异,

  然而,在静止功耗随工艺技术缩小而增加的同时,动态功耗却随之减小,这是由于较小的工艺有着更低的电压和电容。考虑好哪种功耗对你的设计影响更大——待机(静止)功耗还是动态功耗。

  除通用切片逻辑单元外,所有Xilinx器件都具有专门逻辑。其形式有块 RAM、18×18 乘法器、DSP48 块、SRL16s,以及其他逻辑。这不仅在于专门逻辑具有更高的性能,还在于它们具有更低的密度,因而对于相同的操作可以消耗较少的功率。评估您的器件选项时,请考虑专门逻辑的类型和数量。

  选择适当的 I/O 标准也可以节省功耗。这些都是简单的决定,如选择最低的驱动强度或较低的电压标准。当系统速度要求使用高功率 I/O 标准时,计划一个缺省状态以降低功耗。有的 I/O 标准(如 GTL/+)需要使用一个上拉电阻才能正常工作。因此如果该 I/O 的缺省状态为高电平而不是低电平,就可以节省通过该终接电阻的直流功耗。对于 GTL+,将50Ω终接电阻的适当缺省状态设置为 1.5V,可使每个 I/O 节省功耗 30 mA。

 

  数据使能

 

  当总线上的数据与寄存器相关时,经常使用片选或时钟使能逻辑来控制寄存器的使能。进一步来说,尽早对该逻辑进行“数据使能”,以阻止数据总线与时钟使能寄存器组合逻辑之间不必要的转换,如图 1 所示。红色波形表示原设计;绿色波形表示修改后的设计。

  

  另一种选择是在电路板上而不是在芯片上进行这种“数据使能”。以尽可能减小处理器时钟周期。此概念是使用 CPLD 从处理器卸载简单任务,以便使其更长时间地处于待机模式。

  让我们来看一个在状态 7 和状态 8 之间频繁进行状态转换的状态机。如果您为该状态机选择二进制编码,将意味着对于每次状态 7 和状态 8 之间的状态转换,将有四位需要改变状态,如表 1 所示。如果状态机采用格雷码而不是二进制码来设计,则这两个状态之间的转移所需的逻辑转换的数量将降至仅一位。另外,如果将状态 7 和 8 分别编码为 0010 和 0011,也可以达到同样的效果。

 

  时钟管理

 

  在一个设计的所有吸收功耗的信号当中,时钟是罪魁祸首。虽然一个时钟可能运行在 100 MHz,但从该时钟派生出的信号却通常运行在主时钟频率的较小分量(通常为 12% ~ 15%)。此外,时钟的扇出一般也比较高——这两个因素显示,为了降低功耗,应当认真研究时钟。

  如果设计的某个部分可以处于非活动状态,则可以考虑使用一个 BUFG-MUX 来禁止时钟树翻转,而不是使用时钟使能。时钟使能将阻止寄存器进行不必要的翻转,但时钟树仍然会翻转,消耗功率。不过采用时钟使能总比什么措施也没有强。

  隔离时钟以使用最少数量的信号区。不使用的时钟树信号区不会翻转,从而降低该时钟网络的负载。仔细布局可以在不影响实际设计的情况下达到此目标。

  对 FPGA 显然也可以使用同一概念。虽然 FPGA 不一定拥有待机模式,但使用一个 CPLD 中途栏截总线数据并有选择地将数据馈送到 FPGA 也可以省去不必要的输入转换。

  CoolRunner-II CPLD 包含一种称为“数据门控”的功能,可以禁止引脚上的逻辑转换到达 CPLD 的内部逻辑。该数据门控使能可通过片上逻辑或引脚来控制。

 

  状态机设计

 

  根据预测的下一状态条件列举状态机,并选择常态之间转换位较少的状态值。这样,您就能够尽可能减少状态机网络的转换量(频率)。确定常态转换和选择适当的状态值,是降低功耗且对设计影响较小的一种简单方法。编码形式越简单(一位有效编码或格雷码),使用的解码逻辑也会越少。

 

  功耗估算工具

 

  赛灵思提供了两种形式的功耗估算工具:一种叫做 Web Power Tools 的设计前工具和一种叫做 Xpower 的设计后工具。Web Power Tools 可通过 www.xilinx.com/cn/power 获得,它提供了根据逻辑利用率大概估计做出的功耗估算。利用它,您可以仅凭设计利用率估计就能获得功耗评估,而无需实际设计文件。

  XPower 是一种设计后工具,用于分析实际器件利用率,并结合实际的适配后 (post-fit) 仿真数据(VCD 文件格式),给出实际功耗数据。利用 Xpower,您可以在完全不接触芯片的情况下分析设计改变对总功耗的影响。

 

  基于 Web 的功耗工具

 

  基于 Web 的功耗估计是在设计流程的早期获得器件功耗情况的最快捷和最方便的方法。这些工具每个季度都会发布新版本,因此信息总是最新的,且不需要安装或下载,只需要拥有互联网连接和 Web 浏览器即可。您可以指定设计参数并保存和加载设计设置,免去了通过交互使用重新输入设计参数的麻烦。只要有对设计行为的估计并选定目标器件即可开始。

  

  Xpower:集成的设计专用功耗分析

  Xpower 是所有 Xilinx ISE设计工具的一个免费组件,您可以利用它对您的基于设计的功耗需求进行详细得多的估计。XPower 是在映射或布局和布线后设计的基础上对器件功耗进行估计的。

  对于成熟的投产的 FPGA 和 CPLD,XPower 计算出的功耗估计的平均设计批量误差 (suite error) 小于 10%。它将把器件数据与您的设计文件结合起来综合考虑,并按照您的专门设计信息给出估计器件功耗的高精度报告。

  XPower直接集成在 ISE 软件中,可提供层次化的详细的功耗显示、详细的总结报告和功耗向导,即使是新用户也可轻易上手。XPower 可接受仿真的设计活动数据,并可以 GUI 模式和批处理模式运行。

  XPower 将考虑设计中的每个网络和逻辑元素。ISE 设计文件提供准确的资源使用情况;XPower 交叉参考布线信息以及特性化电容数据。于是物理资源针对电容进行特性化。设计特性化将对新器件持续进行,以给出最精确的结果。Xpower 使用了网络翻转速率和输出负载。然后 XPower 计算功耗和结温,还可以显示单个网络的功耗数据。

 

  结论

 

  对更便宜和更简单的热管理以及与前沿 FPGA 不断提高的功耗需求相匹配的电源的不断增长的需求,将低功耗设计的概念提升到一个全新的高度。赛灵思最新器件 Virtex-4 FPGA 提供了 90 nm 工艺技术的高性能,却避免了预想中静态功耗的显著增大。使用赛灵思功耗估算工具并遵循低功耗设计考虑事项,满足您的功耗目标将比以往任何时候都更加容易。

关键字:降低功耗  FPGA 引用地址:浅谈降低功耗的设计技巧

上一篇:基于FPGA的高速流水线浮点乘法器设计与实现
下一篇:基于MAXII570的高精度同步时钟信号在分布式录波器中的实现

推荐阅读最新更新时间:2024-05-02 21:44

基于FPGA的I2C SLAVE模式总线的设计方案
  0 引言   由于在嵌入式系统开发中越来越多的应用到FPGA,而一些嵌入式CPU,比如STM32 为了降低成本,减小封装尺寸,没有外接专门的CPU 读写总线,而只提供了一些如SPI 和I2C 的接口。而且在应用中经常有数据要配置到FPGA 中,如FPGA 中的应用配置寄存器,和配置表项等,都需要CPU 配置。这些数据的数据量不大,速度也不要求很高,很适合用I2C 总线来配置。   I2C 总线是Philips 公司设计的一种控制和配置内部IC 双向两线的串行总线。主要特点是接口信号线较少,但是其数据的传送速率不是很高,其高速模式下为3.4Mb/s.应用于配置FPGA 比较适合。在通常的应用中嵌入式CPU 作为MASTE
[嵌入式]
XtremeDSP视频入门套件(VSK)加速FPGA上的视频
随着下一代视频压缩标准问世,行业从基本视频处理向更复杂的集成处理解决方案转移,这使得系统的要求超越了独立DSP力所能及的视频性能。FPGA以不到30美元的价格提供20GMACs以上的DSP性能,从而为成本敏感型军事、汽车、医疗、消费、工业和安全应用填补了这一空白。只有FPGA能够为整套端对端视频解决方案提供逻辑、嵌入式处理、OS支持和驱动器。 妨碍开发人员将FPGA用于视频应用的因素并非他们缺乏对FPGA性能优势的了解,而是缺乏使用其设计流程的经验,对于那些习惯于用C语言编程的传统DSP程序开发人员来说尤为如此。 开发人员可以利用FPGA的灵活性来配置针对特定应用而优化的硬件架构,以此发挥该器件的性能优势。这种灵活性为开发过程
[模拟电子]
基于DSP的高性能通用并行弹载计算机设计实现
0 引 言 随着技术的发展,在导弹控制和通信等领域,需要处理的任务规模越来越大。虽然随着VLSI技术的发展,已产生了运算能力达每秒几十亿次的处理器,但还远远不能满足这些领域的需求。而VLSI技术的发展已受到其开关速度的限制,进一步提高处理器主频遇到的困难越来越大。为此,把用于大型计算机的并行处理技术应用到信号处理中来,在信号处理系统中引入并行多处理器技术是必然趋势。传统弹载计算机一般针对特定场合,先确定算法,再根据算法确定系统结构,由于系统结构与算法严格相关,因此通用性较差。随着一些标准技术(标准板型、接口、互联协议等)在弹上控制系统中的应用,设计标准化、模块化的通用型计算机成为了可行。而且所设计的还要可扩展、可重构,进而根
[嵌入式]
基于FPGA和ARM的视频采集处理系统
近年来,视频技术的飞速发展,使得视频产品越来越普及。视频信号采集是整个视频应用的前端部分,扮演着极其重要的作用。传统的图像采集卡面向计算机应用,体积大,可靠性有待进一步提高,于是便产生了一些新的视频采集方法,这些方案有的基于FPGA和DSP,有的基于ARM和编码芯片,在实时性、灵活性、 可维护性方面各有千秋。本文针对FPGA在数字信号处理速度上的优势以及ARM在控制方面的长处,设计了一种全数字化的实时视频采集系统,具有很实用的参考价值。 1 系统构成 本系统的结构框图如图1所示,图像传感器模块负责图像采集,FPGA产生I2 C时序控制CMOS图像传感器芯片,并将采集到的图像数据进行相应处理后送到压缩芯片ZR36060进行压
[单片机]
基于<font color='red'>FPGA</font>和ARM的视频采集处理系统
基于FPGA的相检宽带测频系统的设计
在电子丈量技术中,频率丈量是最基本的丈量之一。常用的测频法和测周期法在实际应用中具有较大的局限性,并且对被测信号的计数存在 1个字的误差。而在直接测频方法的基础上发展起来的等精度测频方法消除了计数所产生的误差,实现了宽频率范围内的高精度丈量,但是它不能消除和降低标频所引进的误差。本文将先容的系统采用相检宽带测频技术,不仅实现了对被测信号的同步,也实现了对标频信号的同步,大大消除了一般测频系统中的 1个字的计数误差,并且结合了现场可编程门阵列(FPGA),具有集成度高、高速和高可靠性的特点,使频率的丈量范围可达到1Hz~2.4GHz,测频精度在 1s闸门下达到10-11数目级。 测频原理 本测频系统中采用的测
[测试测量]
基于<font color='red'>FPGA</font>的相检宽带测频系统的设计
FPGA在洗片机控制系统中的应用
洗片机作为一种用于X射线透射胶片和CT胶片的显影、定影、清洗和烘干的仪器,在当今各行业都有着广泛的应用。传统的洗片机由于自动化程度不高,所以对操作人员有严格的技术要求,药液日积月累也会对人体造成一定的伤害,并且社会的发展也对洗片机的精度提出了越来越高的要求,所以新型的高自动化,高精度的洗片机日益成为研究的重点。本文重点介绍了FPGA在这样一种新型洗片机控制系统中的应用。 洗片机工作原理及实现方案 洗片过程主要由显影、定影、冲洗和烘干四部分组成。胶片先后经由滚轴传送至显影及定影箱的药液中,然后再经过冲洗槽由清水冲洗,最后烘干,整个洗片即完成。四个过程对显影、定影温度,胶片传送速度均有严格的要求。 该控制系统主要
[工业控制]
Altera发售业界唯一的20 nm SoC FPGA
Altera第二代Arria 10 SoC是业界唯一的20 nm SoC FPGA 2015年2月25号,北京 Altera公司(Nasdaq: ALTR)今天开始发售其第二代SoC系列,进一步巩固了在SoC FPGA产品上的领先地位。Arria 10 SoC是业界唯一在20 nm FPGA架构上结合了ARM 处理器的可编程器件。与前一代SoC FPGA相比,Arria 10 SoC进行了全面的改进,支持实现性能更好、功耗更低、功能更丰富的嵌入式系统。Altera将在德国纽伦堡举行的嵌入式世界2015大会上展示其基于SoC的解决方案,包括业界唯一的20 nm SoC FPGA。 Altera的SoC产品市场资深总监C
[嵌入式]
FPGA基互联网系统的设计
    信息高速公路增长迅猛,变化迅速,并遇到了严峻挑战。互联风基础结构市场上的激烈竞争,使产品日见复杂,而开发窗口又越来越窄。更为甚者,网络系统开发才必须遵守种种不断发展变化垢标准和协议。在这种严峻的市场条件下,难怪实现可编程硬件会受到互联网基础结构设计者的欢迎。目前的现场可编程门阵列(FPGA)和可编程逻辑器件(PLD),结构上达到数百万门,可支持极为复杂的系统设计。在蓬勃发展中的互联网市场上,热衷于提供服务的PLD厂商又不断地丰富着预定义的组网和通信系统库。     这些预先存在的设计内容,加上有现货的现场可编程器件,将传统的定制集成电路开发周期缩短数月之多。对于组网与互联网支持提供者,可编程性有另一重大优点:
[半导体设计/制造]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved