嵌入式DSP访问片外SDRAM的低功耗设计研究

发布者:calmrs最新更新时间:2013-11-04 来源: eefocus关键字:存储系统  嵌入式DSP  外部SDRAM 手机看文章 扫描二维码
随时随地手机看文章
DSP有限的片内存储器容量往往使得设计人员感到捉襟见肘,特别是在数字图像处理、语音处理等应用场合,需要有高速大容量存储空间的强力支持。因此,需要外接存储器来扩展DSP的存储空间。

在基于DSP的嵌入式应用中,存储器系统逐渐成为功耗的主要来源。例如Micron公司的MT48LC2Mx32B2-5芯片,在读写时功耗最大可以到达924 mW,而大部分DSP的内核功耗远远小于这个数值。如TI的TMS320C55x系列的内核功耗仅仅为0.05 mW/MIPS。所以说,优化存储系统的功耗是嵌入式DSP极其重要的设计目标。本文主要以访问外部SDRAM为例来说明降低外部存储系统功耗的设计方法。

1 SDRAM功耗来源

SDRAM内部一般分为多个存储体,通过行、列地址分时复用,系统地址总线对不同存储体内不同页面的具体存储单元进行寻址。SDRAM每个存储体有2个状态,即激活状态和关闭状态。在一次读写访问完毕后,维持存储体激活状态称为开放的页策略(open-page policy),页面寄存器中保存已经打开的行地址,直到它不得不被关闭,比如要执行刷新命令等;访问完毕后关闭存储体称为封闭的页策略(close-page pol-icy)。

为了更好地决定选择哪种策略,需要熟悉SDRAM功耗的特点。SDRAM的功耗主要有3个来源:激活关闭存储体、读写和刷新。在大部分程序中,激活关闭存储体引起的功耗占到访存操作的总功耗的一半以上。图1给出了对同一SDRAM行进行读写时,采用开放的页策略和封闭的页策略的功耗比较(假设激活关闭存储体一次消耗功耗为1),经计算可知,若连续的几个读写操作在同一行,采用开放的页策略可以节省功耗。


图1 开放的页策略和封闭的页策略的功耗比较

根据上面对SDRAM功耗的特点的分析可知,尽量减少激活/关闭存储体引起的附加功耗开销,是优化SDRAM存储系统功耗的根本,另外不能忽视一直处于激活状态的存储体带来的功耗。

2 访问SDRAM的低功耗优化设计方案

为更好的管理外部SDRAM,大部分嵌入式DSP片上集成和外部存储器的接口EMIF(External Memory Interface),DSP的片内设备通过EMIF访问和管理存储器。由EMIF将对同一行的读写尽量归并到一起进行,减少激活/关闭存储体引起的附加功耗开销。图2为基于总线监测的读写归并设计方案的框图。


图2 基于总线监测的读写归并设计方案的框图

1)采用块读的方法取指令。加入简化的指令Cache(I-Cache),将对SDRAM的读程序读操作按块进行。只有在Cache错过时,由Cache通过EMIF对SDRAM进行块读,每次读16个字节。

2)加入写后数据缓冲区(WPB,Write PoST Buffer),将数据总线上的请求发往WPB,由WPB对SDRAM进行块写、读写归并。

3)动态监测EMIF总线的利用率,块读和读写归并时采用开放的页策略,当总线利用率较低时,采用封闭的页策略,当总线利用率很低时,将SDRAM进入休眠模式。

3 访问SDRAM的低功耗设计

3.1 采用块读的I-Cache

对于程序总线的读操作,根据程序的局部性原理,下一次要取得指令和当前要取指的指令在空间上很可能相邻,因此对于读程序采用块读的方法,每次读一个块,而不是一个字,并采用开放的页策略,因此对同一行的读写操作不需要额外的激活/关闭操作,可以较快的完成。[page]

当指令放在片外存储器里时,可以将CPU最近使用的指令放在I-Cache中,鉴于改善整个系统的性能和低功耗设计的需求。DSP的I-Cache大小设计为8 KB,包括2块存储器,其结构相同,每一块结构如下:

1)数据队列,每个队列包含256行,每行16个字节。当I-Cache错过时,会采用最近最少使用算法(LRU)替换掉最长时间没有使用的行。

2)行有效位队列,每行有一个行有效位,一旦一行装满数据。就置位该行有效位。

3)标签队列,每一行有一个标签域,表明该行的数据的起始地址。当一行填满,相应的标签将存到该行的标签域中。

如果要取的指令字在I-Cache中(命中),I-Cache会直接将其送给DSP。如果要取的指令字不在I-Cache中(错过),I-Cache会通过EMIF从外部存储器接口读取4个32 b的代码块。一旦这个指令字被读到I-Cache中,就送给CPU。

3.2 写后缓冲区的设计

数据在存储器中的存放位置可能不像程序空间那么连续,而且数据空间有读写,对数据空间读写SDRAM进行优化的基本思想是,归并对SDRAM同一行的读写操作。具体来说,包括归并对同一行的多个读操作、归并对同一行的多个写操作,归并对同一行的多个读写操作3种情况,文献提出了这种设计方法,其基本思想是:系统从预取缓冲区(FB,Fetch Buffer)中取数据;写数据时,先写到写归并缓冲区(WCB,Write Combine Buffer);对在FB或WCB中的同一行的读写请求进行归并。但此设计方法是针对有一级Cache的通用微处理器系统,过于复杂,实现代价过高,不适合于本文研究的没有一级数据Cache的DSP,因此这里采用写后缓冲区(Write Post Buffer)的方法,具体设计方法如下:

1)在EMIF中设立一个写后缓冲区,所有对SDRAM的读写请求均送到写后缓冲区,写后缓冲区立即给CPU响应,CPU可以不用等待写操作的结束而继续执行程序。

2)每当写后缓冲区接受到一个新的写请求后,首先判断写后寄存器中是否存在和该写操作在SDRAM同一行的写操作,若有,将这两个写操作归并后同时向SDRAM进行写。

3)当CPU读数据时,首先检查写后缓冲区,若存在要读的数据,直接从写后缓冲区读数据;若不存在,则从写后缓冲区中挑选和当前读操作在同一行的写操作归并后,对SDRAM进行读、写操作。

设计写后缓冲区不仅可以提高程序的执行效率,还可以节省功耗。综合考虑系统的性能与功耗要求,这里DSP写后缓冲区设计为8 KB,采用和I-Cache类似的结构。

3.3 动态监测总线利用率

SDRAM在所有的行都打开,等待读写操作时的功耗是所有行都关闭时的2倍多,因此SDRAM为了低功耗的需要,设计时都加入了休眠模式。当对同一行有大量的读写时,又需要采用开放的页策略,维持这些行打开。考虑到SDRAM的这些特点,单独采用开放的页策略或封闭的页策略是不合适的,需要结合运用。动态监测EMIF总线的利用率,块读、块写和读写归并时采用开放的页策略,当总线利用率较低时,采用封闭的页策略,当总线利用率很低时,将SDRAM进入休眠模式,需要时再澈活。

以MT48LC2M32P2为例进行功耗估算,假设前后两次访问命中同一行的概率是90%,当总线利用率(每个周期内总线被平均利用的次数)高于25%时。采用开放的页策略比采用封闭的页策略节省功耗,当总线利用率在25%~20%之间时,采用两种策略差别不大,维持当前采用的策略,当总线利用率低于20%时,采用封闭的页策略比采用开放的页策略节省功耗,当总线利用率低于10%时,在采用封闭的页策略的同时,每次访问结束后都将SDRAM进入休眠模式,比单纯采用封闭的页策略更节约功耗。

文献统计了通用处理器中不同程序的总线的利用率,如表1所示。可见,对于不同的程序,总线利用率差别较大。根据当前总线的利用率来决定采用何种策略访问SDRAM是比较合适的。
表1

4 优化后的EMIF的性能分析

对采用的总线监测的读写归并方案进行计算,假设前后命中同一行的概率是90%,根据Micron数据手册计算,归并两个写操作功耗减少24%,对不同的总线利用率的计算结果如图3所示。


图3 基于总线监测的读写归并方案功耗计算

5 结束语

在基于DSP的嵌入式应用系统中,存储系统的功耗占据系统功耗的大部分。当外部存储器采用SDRAM时,降低SDRAM的换行访问可以节约大量的功耗。本文设计的基于总线监测的读写归并方案,不仅降低了外部存储系统的功耗,而且可以在一定程度上提高存储系统的性能。加入的I-Cache可以使程序总线更快地读指令,加入的写后缓冲区(WPB)可以使CPU不用等待缓慢的外部写操作的结束而直接继续执行指令。

关键字:存储系统  嵌入式DSP  外部SDRAM 引用地址:嵌入式DSP访问片外SDRAM的低功耗设计研究

上一篇:基于Linux平台的网络广告机的设计
下一篇:嵌入式系统电源管理软件比较

推荐阅读最新更新时间:2024-03-16 13:30

DSP器件为核心的嵌入式系统技术分析
嵌入式系统的目的是提供一个以多任务和网络为信心,易于开发的复杂数字系统。从数字技术和信息技术的角度看,嵌入式系统已成为现代信息网络技术应用的基础技术,已成为现代工控领域的基本技术。 使用嵌入式系统技术,不仅可以实现硬件和软件的优化集成,更主要的是提供了使用“数字基因技术”的基本工具。从计算机和信息网络技术发展的角度看,嵌入式系统标志着网络化计算机时代的到来,标志着计算机应用进入了“通用元素”化和“数字基因”化发展的新阶段,因此,嵌入式系统在计算机应用具有里程碑的意义。 本文将讨论DSP内核嵌入式系统或芯片的基本技术特征,以及这种嵌入式系统的应用技术特点。 以 DSP 为核心的嵌入式系统   嵌入式系统实际上就是一个集
[嵌入式]
以<font color='red'>DSP</font>器件为核心的<font color='red'>嵌入式</font>系统技术分析
STM32学习之:FMC-扩展外部SDRAM
参考资料:《STM32F4xx 参考手册 2》、《STM32F4xx 规格书》、库帮助文档《stm32f4xx_dsp_stdperiph_lib_um.chm》。 关于 SDRAM 存储器,请参考前面的“常用存储器介绍”,实验中 SDRAM 芯片的具体参数,请参考其规格书《IS42-45S16400J》来了解。 1、 SDRAM 控制原理   STM32 控制器芯片内部有一定大小的 SRAM 及 FLASH 作为内存和程序存储空间,但当程序较大,内存和程序空间不足时,就需要在 STM32 芯片的外部扩展存储器了。   STM32F429 系列芯片扩展内存时可以选择 SRAM 和 SDRAM,由于 SDRAM 的“容量/价格”比较
[单片机]
STM32学习之:FMC-扩展<font color='red'>外部</font><font color='red'>SDRAM</font>
基于PCI Express接口的数据采集存储系统设计
  引言   数据采集与存储系统是信号与信息处理系统的重要组成部分。随着雷达对抗技术和软件无线电技术的发展,很多应用都需要对数据进行高速采集和大容量实时存储,而目前市场上同时具备上述两种功能的采集系统还不多见,为此,本文提出了一种基于PCI Express总线接口的、具备可扩展性能、并可大容量存储数据的采集系统。该系统的最高采样速率可达80 MHz,利用计算机并通过PCI Express总线和采集卡、Raid磁盘阵列相连后,便可通过主机软件界面实现对硬件设备的控制。   1 系统结构   方案总体上分为三个部分:高速信号采集卡、主机、Raid磁盘阵列,他们之间可通过PCIExpress总线连接。其系统结构如图1所示。
[嵌入式]
基于DSP嵌入式技术的智能刹车控制系统研究
1 引言  赛车刹车系统是赛车系统上具有相对独立功能的子系统,其作用是承受赛车的静态重量、动态冲击载荷以及吸收赛车刹车时的动能,实现赛车的制动与控制。其性能的好坏直接影响到赛车的快速反应、安全制动和生存能力,进而影响赛车的整体性能。本文设计了赛车全电防滑刹车控制器的硬件和软件,最后研究了适合于赛车刹车的控制律。  2 系统硬件电路设计  本赛车刹车控制器是由防滑控制器和电机驱动控制器组成。两个控制器都是以DSP芯片为核心。防滑控制器主要是以滑移率为控制对象,输出给定的刹车压力,以DSP芯片为CPU,外加赛车和机轮速度信号调理电路等。电机驱动控制器主要是调节刹车压力大小,并且控制电动机电流大小,也是以DSP芯片为CPU,再
[嵌入式]
MCU、嵌入式DSP企业无须因经济萧条烦恼
  根据市场研究机构Semicast的报告,尽管目前动荡的经济情势使美国、欧洲和日本等地市场信心受到冲击,但32/64位微控制器(MCU)、嵌入式微处理器(eMPU)和通用讯号处理器(DSP)市场将继续稳步成长。该机构预测,上述产品的整体销售额在2008年将达86亿美元,高于2007年的81亿美元,并以10%的年复合成长率在2013年达到142亿美元。 “这些产品的应用广泛,而且依赖工业、医疗、汽车和通讯基础设备等发展稳定的市场,将使它们成为未来处境艰难的 半导体 产业中,为数不多的亮点。”撰写上述报告的Semicast首席分析师ColinBarnden表示。 该报告指出,2009年消费性电子产业可能出现严
[单片机]
CEVA 和FLEX LOGIX宣布成功推出首款具有嵌入式 FPGA 的 DSP 芯片
CEVA 和FLEX LOGIX宣布成功推出首款具有嵌入式 FPGA 的 DSP 芯片以支持灵活/可更改的指令集架构 Flex Logix® EFLX嵌入式 FPGA 为 CEVA-X2 DSP 指令扩展实现可重构计算功能,以支持要求严苛且不断变化的工作负载 可重构计算解决方案、架构和软件的领先供应商Flex Logix Technologies, Inc.与全球领先的无线连接和智能传感技术及集成IP解决方案的授权许可厂商CEVA, Inc.(纳斯达克股票代码:CEVA)宣布成功推出世界上第一个集成CEVA-X2 DSP指令扩展接口的 Flex Logix EFLX® 嵌入式FPGA (eFPGA)芯片
[嵌入式]
CEVA 和FLEX LOGIX宣布成功推出首款具有<font color='red'>嵌入式</font> FPGA 的 <font color='red'>DSP</font> 芯片
基于嵌入式DSP系统的低功耗优化设计
无线系统及有线系统设计师均必须重视电源效率问题,尽管双方的出发点不尽相同:对于移动设备而言,更长的电池使用寿命、更长的通话时间或更长的工作时间都是明显的优势,降低电源要求意味着使用体积更小的电池或选择不同的电池技术,这在一定程度上也缓解了电池发热问题;对于有线系统而言,设计师可通过减小电源体积、减少冷却需求以及降低风扇噪声来提高电池效率。人们很少会提到这样一个事实:提高电源效率还可节省空间,而节省的空间可以用来增加能够提高系统性能的组件,尤其是设计小组希望添加一个以上处理器时,这一点非常重要。   设计嵌入式DSP处理器或系统功耗要求严格的系统时,采用DSP专用技术、操作系统及其支持软件可以降低功耗。超越传统技术的DSP或双处理器设
[模拟电子]
基于<font color='red'>嵌入式</font><font color='red'>DSP</font>系统的低功耗优化设计
日产推出新能源存储系统 特斯拉情何以堪?
日本汽车厂商 日产 近日宣布,将会面向市场推出名为xStorage的家用能源存储产品平台。 据悉,日产与Eaton公司合作打造的xStorage与特斯拉之前发布的Powerwall类似,通过电池的形式为普通家庭提供能源储备。xStorage可以连接到普通家庭电源或太阳能等再生能源,并且将电能保存起来,在需要的时候使用。另外,用户还可以在非用电高峰期为xStorage进行充电,来节省一些电费。   xStorage还可以减少用户对于传统能源的依赖,将太阳能或其它可再生能源产生的电能储存起来,并且还可以将多余的电量返回到电网使用。而这样做的好处就是在电力系统发生故障的时候,xStorage可以作为应急电源使用。 日
[汽车电子]
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
设计资源 培训 开发板 精华推荐

最新单片机文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved