SoC 设计中的时钟低功耗技术

最新更新时间:2011-12-24来源: chinaaet关键字:SoC  时钟  低功耗 手机看文章 扫描二维码
随时随地手机看文章

  1 概述

  SoC 芯片设计的复杂度日益增加,其内部时钟设计越来越复杂,一个SoC 芯片内部通常存在若干个时钟域,由时钟网络引起的系统动态功耗成为近年来的研究热点。时钟网络引起的系统动态功耗分为2 个方面:(1)由于时钟网络的作用是为芯片内部所有时序单元提供时钟信号,因此时钟频率的快慢决定了时序单元和与之相连的逻辑单元的动态功耗,关断时钟将消除电路的动态功耗。(2)时钟网络自身的特点将导致巨大动态功耗的产生:1)时钟网络是芯片内规模最大的互连线网络,其负载巨大,负载来自因为互连线电容和平衡时钟树的偏差而插入的大量延时单元;2)时钟网络是芯片内翻转率最高的互连线网络,翻转率的高低直接决定了互连线动态功耗和互连线驱动的标准单元的动态功耗。

  针对由时钟网络引起的2 种系统动态功耗,本文研究并实现3 种时钟低功耗技术。

  2 动态时钟管理

  一颗SoC 芯片的工作状态变化很大,一些应用需要用到芯片内部的所有模块,而另一些应用只要用到部分模块;在某些应用中,芯片需要全速运行,而在其他应用中,则可以运行在很低的工作频率[1]。综合以上2 点,动态管理芯片的时钟可以分为2 个方面:动态地开关芯片内部模块的时钟,动态地配置芯片内部模块的时钟频率。

  本文以音视频解码SoC 芯片——rsthu1 为例,介绍在系统级设计时采用的动态时钟管理技术。

  为了实现rsthu1 的动态时钟管理,在芯片系统级设计时定义了4 种工作模式,见表1,其中,实心圆表示开启此模块;空心圆表示关闭此模块。

 

  

  当芯片工作在正常模式时,采用高速时钟HCLK 供给Risc0, Risc1, Decoder, BE(Bit Engine)这4 个系统内的主要模块,此时系统全速运行,进行音视频解码。当芯片工作在低速模式时,采用低速时钟VCLK 供给上述4 个模块,此时系统可以运行简单的应用程序,保证了系统的持续工作,且降低了时钟频率,即降低了系统的动态功耗。当芯片工作在闲置模式时,只保留操作系统的运行,采用低速时钟VCLK 供给Risc0,关断其余模块的时钟供给,消除了除Risc0 以外其余模块产生的动态功耗。当芯片工作在睡眠模式时,关断所有模块的时钟供给,消除系统不工作时产生的动态功耗。

  采用Synopsys 公司的功耗分析工具Prime Power,在RTL级基于4 种工作模式的仿真波形进行功耗分析,结果见表2。

 

  

 

  可以看出,在系统级设计时采用动态时钟管理技术后,正常、低速、闲置、睡眠4 个工作模式下,系统动态功耗逐级递减,功耗优化效果明显。

 

  3 门控时钟

 

  RTL 代码中经常会出现以下语句:

  @posedge (CLK)

  begin

  if (EN == 1)

  Data_out = Data_in;

  end

  如果直接对上述代码进行逻辑综合将生成如图1 所示的电路结构。控制寄存器状态更新的控制信号被置于寄存器的输入端之前,通过控制是否接收新数据来控制寄存器状态是否更新。在该结构的电路中,寄存器状态不更新时的寄存器时钟端仍然在不停翻转,会浪费系统动态功耗。

 

  

 

  采用图2 的结构,将控制信号置于寄存器的时钟端之前,通过控制寄存器是否翻转来控制寄存器状态是否更新。与图1 的电路结构相比,图2 的电路结构在寄存器状态不进行更新时,时钟信号将不翻转,消除了由此带来的系统动态功耗的浪费。由于多个MUX 被替换为一个门控时钟单元,因此进一步降低了功耗。

 

  

 

  门控时钟单元可以通过Synopsys 公司的功耗优化工具Power Compiler 在逻辑综合时插入,其优点在于[3]:(1)不需要对RTL 级代码进行修改,Power Compiler 将自动检测出RTL 代码中可以插入门控时钟的语句;(2)门控时钟单元将在逻辑综合时自动插入门级网单中。

  采用Power Compiler 对rsthu1 进行门控时钟综合,并采用Prime Power 进行功耗分析,结果如表3 所示。可以看出,在逻辑综合时采用门控时钟技术,总功耗下降了34.52%,功耗优化效果明显。

 

  

 

  4 低功耗时钟树综合

 

  观察时钟树的生长过程,可以发现时钟树的生长分为横向扩张和纵向延伸,如图3 所示,其中,Arrow1 和Arrow3为纵向延伸;Arrow2 为横向扩张。

 

  

 

  普通的时钟树综合以降低时钟偏差为目标,加大纵向延伸,减小横向扩张,将投入较多buffer,更细粒度地调整每条时钟路径的延时,从而得到较小时钟偏差。上述方式以增大时钟树规模为代价,它综合得到的时钟树如图4(a)所示。

 

  

 

  出于功耗的考虑,希望能减小时钟树的规模。通过减小时钟树纵向延伸,加大横向扩张可以有效减小时钟树的规模,如图4(b)所示。但由于buffer 数量的减少,较之纵深结构的时钟树,扁平结构的时钟树将粗粒度地调整每条时钟路径的延时,得到的时钟偏差较大。可见,以降低时钟树规模为目标,进行低功耗时钟树综合是以增加一定的时钟偏差为代价的。

  后端工具在进行时钟树综合时,能通过综合参数对时钟树结构进行约束,见表4。

 

  

 

  对rsthu1 的快速时钟HCLK 进行时钟树综合时,采用以降低时钟树规模为目标的低功耗时钟树综合,结果如表5 所示。分别加大最大扇出,减小路径总延时和每一级缓冲器数量上限。加大最大扇出后,时钟树规模减小了20.21%,而时钟偏差只增加了0.023 ns,因此,由减小时钟树规模而带来的偏差结果的变差是可以接受的。

 

  

  5 结束语

  目前已有很多时钟低功耗技术,在SoC 芯片的设计中可以进一步降低由时钟网络引起的功耗。在以后的研究工作中,需要进行更广泛而深入的探索。

关键字:SoC  时钟  低功耗 编辑:探路者 引用地址:SoC 设计中的时钟低功耗技术

上一篇:浅谈降低功耗的设计技巧
下一篇:嵌入式系统的能耗动态管理方案

推荐阅读最新更新时间:2023-10-18 16:16

s3c2440的时钟详解
s3c2440 cpu的默认工作主频有两种12MHz和16.9344MHz,也就是我们的晶振的频率,但一般12MHz的晶振用的比较多,Fin就是指我们接的晶振频率。大家都知道s3c2440上电正常工作后频率是远远大于12MHz和16.9344MHz的,我们的s3c2440的cpu正常工作时的频率就是405MHz,因此这就需要一个电路来提升频率,在s3c2440的datasheet中找到了这个电路,下面这个就是PLL电路: 由图中可以看出,Fin进去后,经过PLL电路,最终输出两个PLL信号频率即MPLL和UPLL,这两个又是什么呢 UPLL是专用于USB设备的,MPLL是用于CPU及外围电路的,不清楚,还是得找s3c2440的
[单片机]
s3c2440的<font color='red'>时钟</font>详解
三星宣布量产第2代10nm SoC
消息,三星今天宣布,已经开始量产基于第二代10nm工艺制程的SoC。第二代10nm工艺即LPP相比较前代,其性能提升了10%,功耗降低了15%,首款商用产品将于明年推出。 三星宣布量产第2代10nm SoC(图片来自baidu)   三星位于华城(Hwaseong)的S3工厂也为量产做好了准备,他们将和S1工厂以及德州奥斯汀的S2工厂一起为10nm以及后续的7nm服务。   虽然三星没有透露这款10nm LPP工艺SoC的名字,但其实Exynos 9810早已经通过官宣的形式呼应。另外,Engadget、ZDNet都报道称,骁龙845应该也是跑不了,它们都有望共同用在明年1月的Galaxy S9/S9+上。   另外,由于在晶
[手机便携]
联发科技智能音响SoC支持 Google Cast
MT8507提供最人性化的操作接口,让消费者可以简易连接 Google Cast Ready接收设备,且支持多种音乐串流服务 (北京讯)2015年1月6日──联发科技今日宣布旗下智能音响 (Connected Audio) 系统单芯片解决方案 MT8507,率先支持Google为全球音乐爱好者打造的在线音乐串流应用架构 - Google Cast for audio ,让消费者简易连接家中娱乐系统中的各种设备,轻松播放喜爱的在线音乐。 MT8507让消费者在个人手持设备上点选内置Google Cast for audio的应用程序(包括Google Play Music、YouTube、Pandora、Rhapsody
[手机便携]
低功耗控制电路和程序思路设计总结
  一:首先了解芯片的内部功耗   开发一个手持设备,有一个设计重点问题是必须要重视和解决的。那就是在待机状态下如何做到最省电,即在待机状态下如何做到尽可能的低功耗,比如用芯唐科技的Cortex-M0内核的NUC100做手持电台的开发,那么   1、首先要了解的就是该芯片在深度休眠或睡眠模式下功耗是多少(即该模式下的工作电流时多大,注一般的芯片都是uA级别的)。   通过查看NUC100芯片资料(在每个芯片手册电气特性或DC电气特性一节会有说明)了解到该芯片的工作最大电流(即最大功耗)和深度休眠模式下的最低功耗 (最低功耗有Ipwd1,Ipwd2,Ipwd3,Ipwd4,表示NUC100内部的模块工作需要外部提供四
[电源管理]
<font color='red'>低功耗</font>控制电路和程序思路设计总结
AMD为主流台式机推三核Phenom芯片
  AMD周三发布了新台式机微处理器。   AMD称,Phenom X3为三核处理器,与同时钟频率的双核处理器相比,它的性能提高了30%。   AMD在2007年首次公布了Phenom X3制造计划。不过公司当年净亏损达到22.8亿美元。AMD称,亏损的部分原因是它的Barcelona服务器芯片设计出了问题。   Phenom X3针对目标为主流PC市场,不过AMD也备有高端的Phenom Black版本芯片给游戏玩家,用户可以超频这款处理器。   Enderle Group分析师Rob Enderle说:“AMD正在逐步见重点放在主流PC市场,我认为他们在这一市场将很有竞争力。”
[新品]
赛普拉斯推出集成了2.4GHz收发器和Flash微控制器的低功耗可编程片上射频系统
单芯片 PRoC TM LP 前所未有地节省了板级空间和设计时间 2006 年 12 月 20 日   北京讯 赛普拉斯半导体公司( Cypress Semiconductor Corp. )日前宣布推出其下一代可编程片上射频系统。 PRoC TM LP 把经过验证的可靠 WirelessUSB TM LP 2.4GHz 收发器与获奖的低成本 enCoRe TM II 8 位 Flash 微控制器( MCU )集成在了一颗单芯片上。 PRoC LP 简化了编码和电路板布局,旨在缩减设计时间,并降低诸如鼠标、演示工具和 RF 遥控器等创
[新品]
英飞凌65纳米手机芯片问世,集成3000万个晶体管
英飞凌科技股份公司日前宣布推出第一批采用其65纳米CMOS工艺生产的手机芯片。在德国杜伊斯堡、慕尼黑和印度班加罗尔进行的测试表明,该芯片从始至终运行良好。采用该芯片的手机能顺利拨入各GSM网络并实现无障碍连接。这种新技术具有高性能、低功耗的特点,据称是英飞凌目前准备进行量产的逻辑电路所采用的最先进的半导体技术。采用该新工艺生产的第一批产品预计于2006年年底上市。 英飞凌管理委员会成员兼通信解决方案部总裁Hermann Eul博士表示,““现有数据表明我们的联盟战略拥有诸多优势,通过集中研发资源和充分利用知识财产,使我们在产品上市时间、质量因素和制造灵活性方面处于领先地位,我们得益于这种突破性工艺,证明了我们创新集成产品的战
[新品]
安捷伦新推超小型测试头,瞄准消费电子SoC测试需求
安捷伦科技公司日前宣布针对数字和混合信号消费器件测试推出93000超小型测试头(CTH),藉此进入低成本自动测试设备(ATE)市场。安捷伦在93000可扩充平台中最新增加了这一产品,满足了制造商对测试复杂的高性能系统级芯片(SOC) 不断增长的低成本解决方案需求。目前,这些SOC正广泛用于大批量低成本消费电子器件中。 93000超小型测试头灵活性高,进一步保护了制造商在自动测试设备中的投资。它体积小,可以有效用于供应链及一系列环境中,包括工程设计、晶片筛选和最终测试。它满足了一系列SOC应用的测试需求,如LCDTV控制器、DVD、光驱、便携式媒体播放器中使用的嵌入式存储器、高速通信接口和优质音频/视频接口。 “在购买自
[焦点新闻]
小广播
最新电源管理文章
换一换 更多 相关热搜器件
随便看看
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved