Cache结构的低功耗可重构技术分析-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

在分析Cache性能的基础上介绍了当前低功耗Cache的设计方法，提出了一种可重构Cache模型和动态可重构算法。Cache模型能够在程序运行过程中改变相联度和大小，动态可重构算法能够在运行时针对不同的应用程序对可重构Cache进行配置。通过对Cache的动态配置，不仅可以提高Cache命中率，还能够有效降低处理器的功耗。

关键词 Cache 低功耗可重构体系结构

引言

　　随着集成电路的工作速度和芯片集成度不断提高，芯片的功耗问题变得越来越突出，高性能低功耗设计已经成为当前集成电路领域的一个重要课题。在以微处理器为核心部件的VLSI系统中，Cache是系统取得高数据传输率的关键部件。在现代CPU中，Cache的功耗约占处理器总功耗的30%~60%[1]，有效降低这部分的功耗，对芯片的低功耗设计有着重大的意义。

1 Cache低功耗相关研究

　　Cache平均访问功耗是Cache性能表现的一个重要因素。Cache平均访问功耗由Cache命中时的访问功耗、失效时的访问功耗和失效率三者决定。失效时的访问功耗又包括两部分：一部分是Cache失效时Cache电路的功耗，另一部分则是下一级存储系统的访问功耗。因此降低Cache功耗可以从三个方面考虑：一是降低Cache的失效率，二是降低Cache访问能量，三是降低主存访问能量。

　　为了达到低功耗的目的，对Cache结构做了一些改进：Phaselookup Cache[2]结构，应用两级查询的机制，即先访问tag array，只有命中的那一路data 才会在第二相去访问，这样就降低了组相联Cache 中数据array 部分的功耗，但增加了Cache 访问的时间；Way predictive 组相联Cache结构，在默认情况下只访问一个tag array 和一个data array，只有在默认访问失效时才会去访问其他的tag 和data array，这种方法也以增加Cache 访问时间的代价来换取低功耗；伪组相联Cache 结构，是具有多个命中时间的Cache结构，Cache 中的每一路可以被顺序读取，从而可以比传统的同时读取结构节省一部分功耗；另外还有基于压缩方法方面的研究\[3\],针对高频值的局部性，在读写Cache的过程中，对高频出现的数据值进行压缩存储，用较少存储空间保存编码后的数据，在一定程度上减少了Cache的访问功耗。

　　低功耗可重构的Cache研究在最近几年得到关注，通过改变Cache的结构参数，不管是用硬件实现还是用软件实现，针对不同的程序来配置优化的Cache结构，尽可能地关闭不使用的Cache，兼顾了系统的性能和功耗。Cache的结构参数很多，主要的参数有容量大小、相联度、块大小、替换算法、写回策略等。一般而言，系统中的Cache替换算法和写策略是固定的，如果改变也可以在软件层面上实现。所以主要关注Cache的硬件结构是否可重构，仅研究其中几个参数（如Cache容量、块大小和相联度）对访问功耗的影响。在设计芯片之前可以使用CAD工具来确定对命中时间和功耗的影响。CACTI程序是一个可以评估CMOS微处理器各种Cache结构访问时间和功耗的CAD工具。对于一个给定的最小特征值，可以改变Cache容量、相联度和读/写端口的数目，以估计各种情况的Cache命中时间和功耗[3]。可重构Cache结构需要综合考虑Cache的命中率、平均访问时间和访问能量等性能，合理选择Cache的配置参数。

2 可重构Cache的体系结构

　　要实现可重构Cache，首先 Cache的结构要支持运行过程中的动态划分，其次要有检测Cache命中率的硬件或者软件机制，并且有相应的动态配置算法。

2.1 可重构Cache系统设计

　　文献[4]提出了一种可重构的数据Cache结构。该Cache的数据区被平均分为4个子分区（subarray），每个子分区又分为4组。在Cache访问时，只有一个子分区打开，其他子分区的线路不被激活，从而节省了功耗。图1给出了整个Cache体系结构及功能模块。

按此在新窗口浏览图片
图1 可重构Cache体系结构模型

　　与传统Cache结构相比，图1中增加了Cache配置动态选择器（Cache Configuration Dynamic Selector, CCDS），CCDS用来更新内部状态机，并决定合适的Cache配置。通过配置CCDS，可以使整个子阵列无效，或者使有效子阵列中的某些路无效。对于无效的子阵列或者路，局部自选线（Local Word Line）、预充电（Precharge）和读出放大器（Sense Amplifier）都无激励。通过这些改进使得传统的固定划分的Cache具备了动态配置能力。

　　改进后的Cache外在表现为一个虚拟的两级Cache：L1/L2。这种分级方式同传统的L1/L2两级Cache结构不同，L1 Cache由激活的不同子分区以及子分区内不同的路数构成，未激活的部分为L2，在L1未命中时激活以进行访问，L1和L2在物理实现上表现为同一级。Cache的地址划分仍为三部分：标志位、索引位和块内地址。

按此在新窗口浏览图片
图2 Cache地址划分

　　图2给出了Cache的地址划分情况，可分为块地址（Block Address）和块内偏移（Block offset）。块地址可以进一步分为标志字段（Tag）和索引字段（Index）。其中Tag的后两位SS用来做子分区的选择位。访问Cache时，首先访问L1，当L1命中时就直接返回，只有在L1访问失效时才会将所有数据区打开。对不同的应用程序，L1和L2大小的划分不同，其访问时间和运行功耗也会有较大差异。

2.2 动态重构算法

　　在程序运行过程中，通过软件监测自动选择优化的Cache结构。一般采用启发式算法，即根据程序过去执行的状况预测未来的运行情况，并为其配置相应的优化结构。重构流程是：在程序运行的时候，CPU按固定的时间间隔检查一系列的硬件计数器；这些计数器记录上一时间段内的Cache缺失率和分支跳转的发生频率，如果改变的程度超过设定阈值则进入重构过程，否则程序继续运行。

　　图3是可重构算法的状态图。RESET为程序开始运行时的初始状态；UNSTABLE为非稳定状态，该状态下进行结构的搜索与重构；STABLE为选择好优化的Cache结构进入稳定运行的状态；TRANS1,TRANS2为状态相互切换时的中间状态。图4是在UNSTABLE状态下的搜索流程。首先根据统计将各种配置的Cache结构按照失效率进行排序。进入重构搜索状态后，如果引起重构的原因是失效率的上升，则沿着排序表开始，朝失效率降低的方向依次搜索新的Cache结构。如果引起重构的原因是程序分支频率的改变，则需要搜索所有的Cache结构。

按此在新窗口浏览图片
图3 可重构算法的状态转换图

按此在新窗口浏览图片
图4 搜索算法

2.3 可重构Cache中问题

（1）数据重名问题

　　Cache中的数据重名问题是指主存中同一地址的数据同时出现在Cache中两个不同的位置。实地址Cache中本来不存在数字重名问题，但引入可重构概念的同时，也带来了数据重名问题。解决这一问题的简单办法是在Cache重构的时候让Cache中的内容全部无效，需要写回的内容都进行写回。但这样会导致Cache性能下降，特别是在Cache重构比较频繁的时候。但是如果动态重构的指令片段较大，则影响比较小。

（2）映射错误问题

　　Cache在重构时，其组数量会变化，从而导致需要比较的Tag位的数量也发生变化，这会导致映射错误的出现。为了保证处于任何一种状态的时候都有足够的Tag来做比较，按照Tag位最长的一种配置来保存Cache地址结构，也就是组数量最少的情况。这样做虽然会增加一些无用的比较，但却能避免刷新Cache带来的性能损失。

结论

　　本文在传统Cache结构的基础上分析了一种可重构Cache的体系结构及其动态重构的配置算法，指出了可重构Cache可能会遇到的问题。通过对传统Cache结构的改进，在嵌入式处理器上实现Cache可重构技术，这对嵌入式处理器的存储器体系结构功耗优化有着重要意义。可重构Cache的设计方法具有非常好的低功耗潜力，也是目前计算机体系结构方面的研究热点之一。

编辑：神话引用地址：Cache结构的低功耗可重构技术分析

上一篇：电源管理芯片的低功耗OMAP系统设计方案
下一篇：500W以下的三相VF变频器设计

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂