32位嵌入式CPU中系统控制协处理器的设计

发布者:芳华逝水最新更新时间:2014-10-10 来源: eefocus关键字:高速缓存  协处理器  虚实地址转换 手机看文章 扫描二维码
随时随地手机看文章

MIPS体系结构中的系统控制协处理器简称CP0,它提供指令正常执行所需的环境,进行异常/中断处理、高速缓存填充、虚实地址转换、操作模式转换等操作。单从硬件的角度而言,系统控制协处理器对指令集的作用就相当于操作系统对应用程序的作用一样。
 

异常处理

CPU运行过程中常常需要中断正常执行的指令流程,跳转去执行某段特殊的指令段,接着再恢复原来的指令序列。MIPS体系结构中称这样的过程为异常(Exception)。所有的异常都采用统一的机制处理。

对于异常情况,需要采取以下3方面的措施:

1) 异常检测:CPU需要及时检测出哪个部件发生了什么异常;一般而言,异常检测由各个模块进行,如加法溢出由加法器在运算过程中产生,并在相应的流水段被系统控制协处理器CP0读入。因此这部分功能不属于CP0的设计范围。

2) 异常处理:CPU按照优先级选择哪个异常被处理,并进行必要的上下文切换(Context Switch),为进入异常服务子程序做准备,保证与该种异常对应的服务程序被执行,并且能够从中断处完全恢复原来的指令执行现场。

3) 异常服务:执行异常服务子程序,这部分主要由软件(操作系统)来完成。
 

对异常处理机制的要求

与传统的异常/中断处理机制相比,在MIPS 4Kc体系结构下的异常处理需要特别考虑3个因素。

流水线的划分

本设计采用五段流水线设计,即每条指令的执行一般都经过IF(取指)、DE(指令译码)、EX(指令执行)、MEM(访问存储器)和WB(数据写回R.F.)五个步骤。因为指令动作被分割,所以异常源也被分割到各个流水线段。例如:加法溢出异常只能在EX被检测到。

精确异常处理机制

精确异常处理是指在发生异常时,仅仅对发生异常的指令或其后面的指令进行异常处理;而其前面的指令要保证能够正常结束。所谓“精确”,是指受到异常处理影响的只有产生异常条件的那条指令,所有在此之前的指令在异常被处理前都将被执行完成。异常处理结束后仍将从发生异常的指令开始继续执行。

操作模式切换

对于多进程操作系统,至少要区分两种进程:有特权的操作系统“核心”进程和一般程序的“用户”进程。当CPU检测到异常发生时,指令执行的正常顺序会被暂停,处理器进入核心模式。当异常服务子程序执行完后,CPU从断点中恢复现场,继续执行原指令序列。
 

异常处理流水线

根据上述分析可以确定,硬件异常处理流水线的主要任务有3个:更新相应的CP0寄存器,即写CP0寄存器;保存发生异常的指令地址,或当异常指令在延迟槽时,保存引起延迟槽的跳转指令地址;选择异常服务子程序的入口地址。

CP0寄存器记录了CPU当前的状态,因此,对CP0寄存器的写就是对CPU状态的改变,需要进行严格的控制。而且对寄存器的写是影响关键路径的主要因素。因此本文主要论述对CP0寄存器写操作的设计。

每个寄存器或寄存器某些位的写操作都是由一个或一组异常事件是否发生而决定的。为此每一个流水段产生并被接收的异常都将被编码,称为异常编码,并在段与段之间进行传递,直到MEM段。在MEM段,异常编码被用于产生对CP0寄存器的写使能信号,需要进行复杂的解码使MEM段变长,这成为提高整个CPU速度的瓶颈。为了减少这个瓶颈,可增加专门用于产生写使能信号的逻辑。每一级流水线产生的异常直接产生写使能,并经过简单的优先级比较,不管它是由哪个异常类型产生的,均产生1位的写使能信号。那么,在MEM段就可以避免复杂的解码,直接产生对相关CP0寄存器的写使能信号。这一方案采用了以空间换时间的方法:纵向的执行时间减少了,而横向则需要增加写使能判别逻辑。增加逻辑功能意味着需要占用更多的芯片面积,考虑到CP0模块处于整个CPU的边缘,而且全定制物理设计可以大大缩减芯片面积,因此该方案具有可行性。
 

系统控制协处理器的全定制物理设计

在深亚微米级的集成电路芯片里,器件(晶体管)本身对时延的贡献已越来越小,主要延迟在于连线延迟。由于CP0功能的特殊性,它和存储管理单元MMU、指令计数单元PC都有很多连线,这些连线很可能处于全芯片的关键路径上;而且由于CP0逻辑比较复杂,按照标准单元法自动布局布线生成的模块自身面积就很大,某些连线在CP0内部就要走很多弯路,可能造成很大的延时。所以决定采用全定制方法设计CP0的数据通路,以方便控制连线的走向和布局。
 

控制通路与数据通路的划分

数字电路系统的正常运作过程中存在数据流(包括一般意义上的数据、指令和地址)和控制流。而数据流和控制流是相对独立的:数据流实现的逻辑相对简单,但有很多位数据并行;而控制流的逻辑较复杂,绝大多数是1位或几位的控制信号。因此,控制通路一般不采用全定制设计;而数据通路的全定制设计就具有高性能、低功耗、低成本的优势。

协助TLB进行虚实地址转换是CP0的主要功能之一。TLB属于系统的特权资源,只有CP0有权对其进行访问,因此CP0与TLB之间的连线较多,数据交换的时延也比较关键。同时,PC模块与CP0的数据交换也非常重要。因此,CP0单元在版图上最好同时靠近TLB和PC模块。本设计将CP0中与TLB相关的逻辑与寄存器独立为CP0T,放在MMU与PC模块之间;CP0的其余部分归为CP0E,放在PC下部,也就是整块芯片的最下端。如图1所示。[page]
 

图1. CP0单元与临近单元的连接示意图
 

电路设计

本设计中使用的电路输入工具为Cadence公司的Composer。设计时,将HDL描述转化为电路描述后输入到Composer中。然后,通过形式验证来确保所设计的电路与RTL代码一致。电路设计的好坏很大程度上要取决于设计者的经验和技巧。

电路的定制设计主要指的是,在Composer环境中手工设计晶体管级的电路。电路参数的确定由Synopsys的电路仿真工具Hspice协助完成。将从设计好的电路中抽出的网表输入到Hspice中,仿真计算出电路的时延,再根据时延来修改电路MOS管的参数。

为了减少全定制设计的工作量,电路设计要建立模块的微体系结构。其中CP0的基本单元确定如下:基本的CP0寄存器(时钟上沿同步寄存器) ;32位比较器;32位加法器;多选一选择器(包括2选1、3选1和4选1 MUX);驱动器(即反相器;其尺寸参数化以适应不同驱动要求)。

加法器基本采用了超前进位加法器的思想,然后在整体上分成两个16位加法器的模块,模块间采用进位选择加法器的思想,从而大大提高了整个电路的速度。但其面积比全部采用超前进位加法器时要大20%左右。

设计出来的电路逻辑是否正确,时延是否满足要求,分别需要做功能验证和电路仿真。在验证了各个小模块的正确性之后,需验证小模块之间的逻辑连接正确性,最后对整个模块进行验证,进一步分析电路找出模块中的最长路径,通过仿真、更改电路、再仿真的过程,来确定该模块是否能达到预期的逻辑设计要求。
 

版图的全定制设计

版图设计是根据电路功能和性能的要求以及工艺条件的限制(如线宽、间距、制版设备所允许的基本图形等),设计集成电路制造过程中必需的光刻掩膜版图。版图设计与集成电路制造工艺技术紧密相连,是集成电路设计的最终目标。

在设计过程中,为了降低设计的复杂度,采用混合设计模式,即全定制和标准单元设计相结合的设计方法。这样既有利于保证电性能的要求,又能减小设计周期,是一种较为理想的设计模式。

在全定制版图中,设计过程分为两步完成,每个大单元电路总是由各种基本电路组合而成,所以第一步是绘制基本电路的版图,画完后做DRC和LVS,保证基本电路的正确性。第二步用这些基本电路来组合成大的单元。


全定制芯片设计可以根据数据通路电路的规则手工设计出合理的版图。版图设计中尽量保证各个部分的规整和对称,使其易于扩展。版图的布局中使联系较多的单元尽量靠近,从而缩短互连线的长度,减小每个单元的面积和时延,降低器件的负载电容,采取的具体措施如下:

1) 增加地与衬底、电源与阱的接触,在没有器件和走线的空白处多打接触孔,并且将其与电源或地连接,有利于收集噪声电流、稳定电位、减小干扰和被干扰;
2) 形成网状的电源地线网络;
3) 避免同层或上下两层中长金属线的平行走线,对噪声敏感的线尽量布得短;
4) 避免首尾循环的走线;
5) 在满足设计规则的前提下,尽量减小MOS管的有源区面积,以减小寄生电容,提高工作速度;
6) 在数据通路设计中,要为金属连线留下一些备用位置。
 

控制通路与数据通路的集成设计及验证

逻辑层次

控制部分直接用行为级的RTL代码,数据通路部分由从全定制电路导出的结构化RTL代码,得到全模块的逻辑描述。
可采用向量进行验证,与采用RTL(或C模型)进行验证的结果(trace文件)进行比对。

电路层次

电路层次控制通路与数据通路的集成可以借助Composer顺利完成。

对于延时信息的获取,数据通路或控制通路内部的路径分别采用Hspice仿真及综合来获得,分析内部是否存在关键路径。

涉及数据通路与控制通路之间的关键路径,可以由全定制部分提交数据通路部分接口的输入/输出时延信息,即该路径在其内部需要的时间。以这些信息作为外部约束,再对相关模块进行综合(按模块综合),结果文件中将得到集成后的关键路径。

版图层次

要保证版图与电路的一致性,需要做LVS验证。即将控制通路的门级网表导入Composer,与数据通路的全定制电路合成总电路,并由此提取电路级的Spice网表进行LVS验证。LVS采用的工具为Mentor Graphics 的Calibre工具。
 

结语

本文主要研究了基于MIPS 4Kc体系结构的系统控制协处理器的设计和实现,包括精确异常处理的实现方式和全定制的物理设计。在对精确异常处理机制的过程中通过增加写使能判别逻辑达到了缩减关键路径时延的目的,降低了控制逻辑的复杂性,同时增加了全芯片的可靠性。本文的设计通过了逻辑、电路验证,应用于32位CPU的设计中,并采用中芯国际的1P6M 0.18mm工艺成功流片。

关键字:高速缓存  协处理器  虚实地址转换 引用地址:32位嵌入式CPU中系统控制协处理器的设计

上一篇:基于CMSIS标准的Cortex-M3应用软件开发
下一篇:嵌入式系统设计师考试笔记之基础知识篇

推荐阅读最新更新时间:2024-03-16 13:42

ARM汇编指令集之九——协处理器指令
1、CDP指令 CDP指令的格式为: CDP{条件} 协处理器编码,协处理器操作码1,目的寄存器,源寄存器1,源寄存器2,协处理器操作码2。 CDP指令用于ARM处理器通知ARM协处理器执行特定的操作,若协处理器不能成功完成特定的操作,则产生未定义指令异常。其中协处理器操作码1和协处理器操作码2为协处理器将要执行的操作,目的寄存器和源寄存器均为协处理器的寄存器,指令不涉及ARM处理器的寄存器和存储器。 指令示例: CDP P3,2,C12,C10,C3,4 ;该指令完成协处理器P3的初始化 2、LDC指令 LDC指令的格式为: LDC{条件}{L} 协处理器编码,目的寄存器, LDC指令用于将源寄存器所指向的存
[单片机]
新型语音协处理器提升快速精确语言识别及处理能力
iPhone 4S的siri应用催生了语音识别市场的发展,随着这一市场热度的不断提升,语音协处理器分担主处理器的负担也逐渐成为一种趋势。日前,Spansion公司就推出一款语音协处理器,它由定制型逻辑和高速存储器构成,号称业界首款支持语音控制系统接口的人机接口(HMI)协处理器。该产品目标市场为汽车、游戏和消费电子领域的语音识别系统,预计今年第三季度开始提供设计样片。 协处理器在语音、图形、加密、数字信号处理器、高速通信等诸多领域都有应用,都在利用专门的硬件为主处理器卸载工作负担。而随着信息娱乐系统OEM厂商围绕高速互联网接入、高清视频、3D导航和语音识别等应用展开激烈竞争,嵌入式系统更加需要高性能的处理能力。Spansion
[嵌入式]
ARM协处理器及指令
ARM 微处理器可支持多达 16 个协处理器,用于各种协处理操作,在程序执行的过程中,每个协处理器只执行针对自身的协处理指令,忽略 ARM 处理器和其他协处理器的指令。ARM 的协处理器指令主要用于 ARM 处理器初始化 ARM 协处理器的数据处理操作,以及在ARM 处理器的寄存器和协处理器的寄存器之间传送数据,和在 ARM 协处理器的寄存器和存储器之间传送数据。 ARM 协处理器指令包括以下 5 条: CDP 协处理器数操作指令 LDC 协处理器数据加载指令 STC 协处理器数据存储指令 MCR ARM 处理器寄存器到协处理器寄存器的数据传送指令 MRC 协处理器寄存器到ARM 处理器寄存器的数据传送指令 1、CDP 指令
[单片机]
ARM CP15协处理器说明
访问CP15寄存器指令的编码格式及语法说明如下: 31 28 27 24 23 21 20 19 16 15 12 11 8 7 5 4 3 0 cond 1 1 1 0 opcode_1 L cr n rd 1 1 1 1 opcode_2 1 crm 说明: :协处理器行为操作码,对于CP15来说,永远为0b000,否则结果未知。 :不能是r15/pc,否则,结果未知。 :作为目标寄存器的协处理器寄存器,编号为C0~C15。 :附加的目标寄存器或源操作数寄存器,如果不需要设置附加信息,将crm设置为c0,否则结果未知。 :提供附加信息比如寄存器的版本号或者访问类型,用于区分同一个
[单片机]
ARM指令协处理器处理指令
ARM支持16个协处理器,在程序执行过程中,每个协处理器忽略属于ARM处理器和其他协处理器指令,当一个协处理器硬件不能执行属于她的协处理器指令时,就会产生一个未定义的异常中断,在异常中断处理程序中,可以通过软件模拟该硬件的操作,比如,如果系统不包含向量浮点运算器,则可以选择浮点运算软件模拟包来支持向量浮点运算 ARM协处理器指令包括如下三类: 1用于ARM处理器初始化ARM协处理器的数据操作 2:用于ARM处理器的寄存器和ARM协处理器的寄存器间的数据传送操作 3:用于在ARM协处理器的寄存器和内存单元之间传送数据 这些指令包括如下5条 CDP协处理器数据操作指令 LDC协处理器数据读入指令
[单片机]
曝:苹果启用全新R1协处理器
既然新一代iPhone在创新上没有太多的看点,那么A13处理器会不会给我们带来一些惊喜呢?   据外媒最新报道称,苹果将为2019款iPhone增加全新协处理器,代号为Rose(玫瑰)或R1。还不清楚苹果是否会使用“玫瑰”或R1进行宣传,或者根据A13的命名方式,直接使用R13这个名字。   从曝光的资料看,R1将比运动协处理器集成的传感器更多,所以其会取代M系列的地位,同时还支持IMU、蓝牙5.1、超宽带(UWB)和相机(包括运动捕捉和光学追踪)传感器数据。   这也意味着,R1协处理器加入后,苹果预计会为iPhone推出防丢贴类产品。从之前曝光的细节看,A13处理器可能还是六核设计,单核提升相比A12提升幅度大,而多核提
[手机便携]
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
设计资源 培训 开发板 精华推荐

最新单片机文章
  • 学习ARM开发(16)
    ARM有很多东西要学习,那么中断,就肯定是需要学习的东西。自从CPU引入中断以来,才真正地进入多任务系统工作,并且大大提高了工作效率。采 ...
  • 学习ARM开发(17)
    因为嵌入式系统里全部要使用中断的,那么我的S3C44B0怎么样中断流程呢?那我就需要了解整个流程了。要深入了解,最好的方法,就是去写程序 ...
  • 学习ARM开发(18)
    上一次已经了解ARM的中断处理过程,并且可以设置中断函数,那么它这样就可以工作了吗?答案是否定的。因为S3C44B0还有好几个寄存器是控制中 ...
  • 嵌入式系统调试仿真工具
    嵌入式硬件系统设计出来后就要进行调试,不管是硬件调试还是软件调试或者程序固化,都需要用到调试仿真工具。 随着处理器新品种、新 ...
  • 最近困扰在心中的一个小疑问终于解惑了~~
    最近在驱动方面一直在概念上不能很好的理解 有时候结合别人写的一点usb的例子能有点感觉,但是因为arm体系里面没有像单片机那样直接讲解引脚 ...
  • 学习ARM开发(1)
  • 学习ARM开发(2)
  • 学习ARM开发(4)
  • 学习ARM开发(6)
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved