TMS320C5000性能介绍-数字信号处理器-电子工程世界

TMS320C54x是目前普遍使用的定点DSP芯片。它的特点是功耗很低（在100MIPS时为60mW)，可用于数字蜂窝通信、个人通信系统、寻呼机、个人数字助理(PDA)、ATM（异步传输模式）交换机、数字无线通信、调制解调器等领域。图1表示了C54x的发展过程及应用领域。

图1 TMS320C5000性能发展状况及应用领域

TMS320系列的同一代芯片具有相同的CPU结构，但根据市场的不同需要，形成新的存储器与外设的不同组合，产生了多种派生器件。

TMS320C54x关键特性

图2是C54x功能结构图，它的主要性能如下：

图2 TMS320C54x功能结构框图

⒈ CPU

先进的多总线结构：一组程序总线（PAB、PB），三组数据总线（CAB、CB，DAB、DB，EAB、EB）

40位的数学逻辑单元（ALU）：包括40位的桶形移位寄存器和两个独立的40位累加器

17 17位并行乘法器和40位专用加法器，单周期完成乘法/累加(MAC)

适于Viterbi运算的比较、选择、存储单元（CSSU）
指数编码器，可在单周期内计算（40位）累加器中数值的指数
两个地址产生器，包括八个辅助寄存器和两个的算术单元

⒉ 存储器

可寻址存储空间达192K字（程序、数据及I/O各64 64bit），C548还可扩展程序存储器（8兆字）

典型C5400芯片存储器

⒊ 片内外设

软件可编程等待状态产生器

可编程的块交换

片内锁相环时钟产生器

禁止外部总线的控制机制

⒋ 指令集

重复单条指令与重复指令块

存储器块移动指令

32位数运算指令

可同时读取2或3个操作数的指令

具有并行保存和并行加载的算术指令

条件保存指令

⒌ 功耗控制

IDLE1、IDLE2和IDLE3指令可控制其进入降功耗模式

可控制是否输出CLKOUT信号

⒍ IEEE标准的1149.1边界扫描逻辑接口

TMS320C54x结构概述

'C54x由中央处理器CPU、存储器和片内外设组成，采用哈佛结构，有独立的程序空间、数据空间和I/O空间。图3是'C54x的内部硬件框图。

对所有的'C54x器件来说，图中下半部所示的中央处理单元（CPU）是通用的。

总线结构

一组程序总线（PAB、PB）和三组数据总线CAB、CB，DAB、DB，EAB、EB）将内部各部件联系起来。

图3 TMS320C54x内部硬件框图

PB- 程序总线，传送程序代码或存在程序空间的数据；

CB、DB、EB- 数据总线，连接CPU、数据地址产生逻辑、程序地址产生逻辑、片内外设及存储器等各部件；

CB和DB- 传送从存储器读出的数据，即“读”操作使用的数据总线；
EB-传送向存储器写入的数据，即"写"操作使用的数据总线；
PAB、CAB、DAB、EAB- 各对应的地址总线；

图4 ALU功能框图

中央处理单元（CPU）

ALU：算术逻辑运算单元

主要由40位ALU和两个40位累加器(ACCA和ACCB)组成，如图4所示。

ALU和两个累加器用来完成40位二进制补码的算术运算，也能完成布尔运算。当状态寄存储器ST1的C16位置1时，可做两个16位ALU，同时完成两个16位运算。

输入：

16位立即数；

来自数据存储器的16

位数；

来自暂存器T的16位

数；

来自数据存储器读出

的两个16位数；

来自数据存储器读出

的一个32位数；

来自累加器（A和B）

的40位数；

图5 桶形移位器功能框图

输出：ALU的40位输出被送往累加器A或B。

图6 乘/加模块功能方框图

桶形移位器：将输入数据左移0～31位或右移0～16位，经常用作数字定标、位提取、扩展算术和溢出保护等操作。输入40位：来自累加器或经DB、CB的数据存储器；

输出40位：连到ALU或经EB连到数据存储器；

所移位数由指令中移位字段、ST1的ASM字段或T寄存器指定移位位数决定。

图7 比较、选择与保存单元（CSSU）功能框图

乘/加模块：由乘法器、加法器、输入数据的符号控制逻辑、小数控制逻辑、零检测、舍入、溢出/饱和逻辑和16位暂存寄存器T等组成。乘法器和ALU在一个指令周期内共同完成(17 17补码)乘/加（40位）运算，且可并行地作ALU运算，这些功能可用来做Euclidean距离及LMS滤波等复杂运算。乘/加模块功能方框图如图6所示。

比较、选择与保存单元(CSSU)：可以完成累加器的高位字和低位字之间的最大值比较(CMPS指令）。另一功能是利用优化的片内硬件资源完成数据通信、模式识别等领域中经常用到的Viterbi蝶形运算。

图8 指数编码器

指数编码器：用于支持单周期指令EXP的专用硬件，如图8所示。

累加器中数值的指数值，以二进制补码形式(-8～31)存放于暂存器T中；

CPU状态和控制寄存器：

'C54x共有3个16位状态和控制寄存器（PMST、ST0、ST1）它们都是存储器映象寄存器，可以方便地写入数据、或由数据存储器对它们加载。

内部存储器

·'C54x的存储器分为三个可独立选择的空间：程序空间、数据空间和I/O空间；

·'C54x的片内存储器包括ROM和RAM，其中RAM又可分为SARAM和DARAM：SARAM为单寻址寄存储器，DARAM为双寻址寄存储器(一周期内可以访问两次)。

ROM一般配置成程序存储空间，用于存放要执行的指令、系数表等固定操作数。也可以部分地安排到数据存储空间，由PMST的状态位和DROM决定；RAM 一般安排到数据存储空间，存放执行指令所要用的数据。但也可以安排到程序空间，由PMST的状态位OVLY决定。不同'C54x系列内部存储器配置各不相同。

'C54x的寻址方式

TMS320C54x的指令可能含有1个存储器操作数（指令说明中用Smem表示），也可能有2个存储器操作数（指令说明中用Xmem、Ymem表示），分别称为单存储器操作数和双存储器操作数。单存储器操作数有7种寻址方式，它们是：

立即寻址：操作数(常数)含在指

令中；

绝对寻址：指令中含有操作数

的16位地址；

累加器寻址：操作数地址在累加器

中(A)；

直接寻址：指令中含有操作数

地址的低7 位；

间接寻址：操作数的地址在辅

助寄存器中，支持倒

位序寻址、循环寻址

等功能；

存储器映像的寄存器寻址：

访问存储器映像寄存器，

又不影响DP或SP；

堆栈寻址：访问堆栈；

双存储器操作数支持一些特殊指令：

如MAC、FIR等复杂

指令。

'C54x的六级指令流水线

'C54x CPU的指令流水线有六级，每个周期有六条指令在工作，它们处于整个执行过程的不同阶段，如图9所示。

图9 流水线不同工作阶段操作内容

流水线的工作全部为单字指令连续执行时（理想情况）如图10 所示。

图10 流水线正常工作时做业情况

第二部分：TMS320C54xx性能介绍（二）

TMS320C55是TI公司最新推出的定点DSP芯片系列，它比'C54x的性能有很大提高，而且功耗大大降低，是目前TI公司推出的功率最小的DSP芯片，适用于便携式超低功率场合。

TMS320C55x主要特点：

图1是'C55x的功能结构图，它的主要特点如下：

图1 TMS320C55x功能结构框图

超低功耗设计：

在硬件结构中采用双MAC，有4个40bit的累加器，因而在一个周期内可完成更多的任务。

有更多的"自动并行"指令。为发挥附加的硬件功能，有的指令隐含或装有并行化的能力；另一些指令通过'C55x DSP核的最佳汇编器和C编译器自动安排成并行运行。

用户可自行编程达到并行操作，以便充分利用'C55x DSP芯片的性能。

附加新的指令，扩展硬件处理能力。例如双16位的算术运算、双MAC、条件移位、条件加或减、比例并选择极值、偶或奇对称的FIR滤波、并行移位和存储、寄存器比较或交换等一系列新的指令。

先进的高级功率管理能力。其一是自动断电能力，'C55x DSP核连续的对内存、外设和核心功能单元进行监视，自动的对不工作单元断电；其二是用户可以自己配置IDLE休闲域，'C55x有64种休闲方式，通过改变休闲域寄存器对应的状态位就可以改变对应部件电源的通断。

通过增加硬件和操作的并行性，极大的提高了处理器的处理能力。

可变指令长度增加代码密度：指令长度为8/16/24/40/48 bit，选择不同长度可使编码密度达到最佳和有效地利用总线；指令预取由16 bit增加到32 bit；片上指令缓存单元自动的不包装指令，以便最有效地利用每一周期。

附加总线和扩充地址增加数据流量：'C55x有一组程序总线，3组读总线，2组写总线，每组总线中的地址线有24 bit,因而极大的扩充了寻址能力。

外部存储器接口性能比'C54x有很大提高：采用双字宽（32 bit）及高速低价格同步存储器，使存储器操作与CPU操作具有相同的速率。同时有自动断电功能，电源只在使用时接通。

指令高速缓存减少外部存储器访问：'C55x是第一个采用指令高速缓存的器件，允许几条指令同时加载到高速缓存器中，CPU不必对每条指令都去访问存储器，并且在时钟速率下利用指令，增加速度，降低功耗。

改进的控制代码，改善了控制代码的密度：'C55x 增加了几个控制代码的附件，包括新的指令缓存单元、数据存储器和ALU。对条件执行的两种可能性都有准备，使得一旦条件出现，DSP立即响应。

高级仿真缩短调试周期：代码与'C54x兼容，维护消费者的软件投资。

TMS320C55x结构概述

'C55x结构主要由下列各部分组成：

图2 指令缓冲单元（1单元）框图

一个32×16－bit 指令缓冲队列：缓冲可变长度指令和实现块重复操作。

两个17－bit×17－bit MAC：在单周期内实现双MAC操作。

一个40－bit ALU：执行高精度算术和逻辑运算。

一个40－bit 桶形移位寄存器：可以把40－bit结果左移31 位或右移32位。

一个16－bit ALU：和主ALU并行执行简单算术运算。

图3 程序流单元（P单元）框图

四个40－bit 累加器：保持计算结果和减少所需存储器数量。

十二条独立总线：并行地对不同操作单元同时提供处理指令和操作数。

图4 地址数据流单元（A单元框图）

指令缓冲单元功能

它对应用程序的指令进行缓存和解码，包含了解释'C55x可变长度指令的解码逻辑。指令缓存单元使各种计算单元的任务流量维持一个常数, 以便增加DSP的效率。(见图2)

程序流单元功能

当程序执行时，这个单元用来保存执行点的轨迹。此单元包括使循环有效的硬件以及用于预测转移、条件执行、流水线保护的专用硬件。当程序的控制发生变化时，例如转移和调用子程序时，这个硬件能使处理器所需周期数减少，从而可提高处理效率。（见图3）

地址数据流单元功能

在程序执行期间，这个单元提供数据访问的地址指针。此单元可以使'C55x 实现有效的寻址模式。管理五条数据总线的专用硬件用来保持各个计算单元有恒定的数据流。由于有一个通用的ALU作简单的算术运算，使得地址数据流单元可进一步增加'C55x 结构的指令并行性。（见图4）

数据计算单元功能

这个单元是CPU的心脏，完成对被处理数据的算术运算。它包括两个MAC（乘法累加器）、主ALU（40－bit）、4个40－bit的累加寄存器，其附加的功能部件有桶形移位寄存器、舍入与饱和控制以及有效完成Viterbi计算的专用硬件。由此单元给出的指令的并行性是'C55x处理效率高低的关键。（见图5）

TMS320C54x和TMS320C55x性能比较

关键字：定点 DSP CPU 引用地址：TMS320C5000性能介绍-数字信号处理器

上一篇：实时DSP系统设计开发流程和DSP处理器开发工具简介
下一篇：数字信号处理器在多媒体通信中的应用

推荐阅读最新更新时间：2024-05-13 18:11

黄仁勋狂怼CPU:摩尔定律已死未来属于GPU

今天上午，GPU芯片厂商NVIDIA在北京召开了GTC技术大会。会上，NVIDIA声称要开启AI时代的计算新纪元，不仅重磅发布了首款可编程推理加速平台NVIDIA TensorRT 3、自动驾驶开放平台NVIDIA DRIVE、首款自主机器处理器Xavier，同时宣布，NVIDIA Tesla V100 AI平台已经被包括BAT在内的大多数中国巨头采用。 | 摩尔定律已终结，GPU将引领计算革命黄仁勋声称，摩尔定律已经终结，设计人员无法再创造出可以实现更高指令集并行的GPU架构，晶体管数量每年增长50%，但CPU的性能每年仅增长10%。接着，黄仁勋介绍了基于Volta的全新系统的核心NVIDIA V100数据中心GPU。该G

[半导体设计/制造]

基于双DSP的磁轴承数字控制器容错设计

摘要：分析并提出了应用于磁轴承的双DSP热备容错控制方案，本方案采用时钟同步技术，由总线表决模块实现系统的容错处理，由硬件判决实现硬件故障判断。再根据以上两个判决模块的结果由中心仲裁模块进行复杂的仲裁，并完成切换和完善的报警逻辑，从而实现容错功能，较大地提高了磁轴承控制系统的可靠性。以上所有逻辑均由VHDL语言在CPLD上实现。关键词：容错磁轴承控制器 CPLD DSP 电磁轴承（AMB）是利用可控电磁吸力将转子悬浮起来的一种新型高性能轴承，由于其具有无接触、无摩擦、高速度、高精度、不需润滑和密封等一系列的优良品质，在交通、超高速超精密加工、航空航天等高科技领域有着广泛的应用。由于磁悬浮系统本征不稳定，控制

[嵌入式]

基于DSP和FPGA的机载总线接口板研究

　　目前国内对民用飞机机载数据总线ARINC429接口板的设计一般都是基于HARRIS公司的HS3282芯片完成的，它的缺点是路数有限、非常不灵活。因此对ARINC429总线接口板的研制，实现多通道ARINC429总线数据的接收和发送，成为目前对飞机机载总线接口研究的重点，具有非常重要的现实意义和应用前景。　　 1 ARINC429总线简介　　在现代民用飞机上，系统与系统之间、系统与部件之间需要传输大量信息。ARINC规范就是为了在航空电子设备之间传输数字数据信息而制定的一个航空运输的工业标准。　　ARINC429（以下简称429）总线协议是美国航空电子工程委员会（Airlines Engineering Commit

[嵌入式]

基于DSP的模块化教育机器人硬件系统方案

　　智能机器人作为一个高新科技的综合体，直接反应了一个国家信息技术的发展水平，受到了社会各界的高度重视。智能机器人涉及了信息技术的几乎所用内容，可以让学生接触并看到信息技术的全景，并且智能机器人是信息技术的开放平台，学生可以充分发挥想象力去开发各种智能装置，从而培养学生对信息技术的开发能力，在开发过程中，培养各种能力，激发学生的兴趣。　　本文设计的以智能小车为载体的基于TMS320LF2407A教育机器人硬件平台，包括电源模块和电机驱动模块电路设计，并集成了红外和光敏传感器和无线数据传输模块，通过软件设计可实现寻迹、避障及寻迹避障相结合的功能，达到了理论课程学习与动手实践相结合的目的，巩固了知识并进一步提高了学习者的兴趣。　

[嵌入式]

基于<font color='red'>DSP</font>的模块化教育机器人硬件系统方案

多片DDC芯片HSP50214B与DSP接口电路方案设计

笔者在多通道无源雷达信号处理机的设计中，采用了DSP芯片 TMS320VC5409 控制4片DDC芯片HSP50214B的接口电路，研究了同步控制多片HSP50214B等关键技术。　　DDC芯片HSP50214B 　　数字下变频器HSP 50214B是一个非常灵活的数字调谐器,是INTERSIL公司为了满足一个宽范围的通信商业标准要求而设计的,主要用于软件无线电中A/D后的处理。HSP50214B 的下变频处理功能是将被抽样的中频信号转变成基带数字抽样信号,完成该功能的模块包括本振产生器(NCO),积分梳状滤波器(CIC),多级半带滤波器(HB)以及可编程有限脉冲响应滤波器(FIR),具有重复抽取,自动增益控制

[嵌入式]

多片DDC芯片HSP50214B与<font color='red'>DSP</font>接口电路方案设计

基于FPGA实现DSP与RapidIO网络互联

１．引言　　随着通讯系统的数据处理量日益增大，过去总线形式的体系结构逐渐成为约束处理能力进一步提升的瓶颈。本文首先简单介绍了嵌入式设计中总线结构的演化过程，从而引出新一代点对点串行交换结构RapidIO。　　在密集型实时信号处理应用中，DSP 由于其本身结构特点具有不可替代的位置。但是遗憾的是目前很多DSP不具有RapidIO 接口，而且也没有ASIC 能够为这些DSP提供RapidIO接口。为了在RapidIO 网络中充分利用DSP 数据处理的优势，我们采用FPGA 做一个转接桥逻辑，将DSP 的总线连接到一个RapidIO 的IP 核，从而实现DSP 和RapidIO 网络的互联。２．总线结构概述　　2.1

[嵌入式]

ARM 和DSP的地震加速度信号处理系统设计

1 系统构成及工作原理地震加速度计由传感探头、光电转换及信号处理系统构成．传感探头由采用基于3x3耦合的光纤M z干涉仪和相关机械部分组成．如图1所示，干涉仪的输入端是一只2x2耦合器，输出端是一只3x3耦合器，被测信号加在干涉仪的传感臂上．干涉仪的两臂光纤分别缠绕在传感头中的上下两个力臂圆筒上，当外部施加振动时，简谐振子施加给信号臂光纤一个纵向的应力，光纤的长度产生变化 △L (应变效应)、光纤芯的直径d产生变化 △d(泊松效应)、纤芯折射率n产生变化 △n(光弹效应)，这些变化将导致光纤中光波的相位发生变化．泊松效应相对应变效应和光弹效应造成的相位变化非常小，可以忽略不计，从而即完成加速度信号对光信号的相位调制．参考臂

[单片机]

ARM 和<font color='red'>DSP</font>的地震加速度信号处理系统设计

基于TMS320C60000DSP的视频解码器设计及其硬件实现方案

摘要：一种基于TMS320C6000 DPS芯片的视频解码器的设计。该解码器能脱离计算机而独立运行，且能高效实时地实现视频解码功能。因系统需要软件和硬件协同工作，故硬件实现分两步进行，以确保软件的可靠性。关键词： DSP 视频解码器 PLD 图像的编/解码系统有两种基本的实现方法，一种是基于微机实现，图像处理系统通过PCI总线以插卡形式集成在微机系统中，数据通过PCI总线或卡上所带的接口进行交换和传输；另一种脱离了微机而独立运行，利用微处理器芯片对图像进行编/解码处理来实现。这种脱机的图像处理系统由于体积小和灵活简便而受到广泛关注。微处理器芯片可以采用专用图像编/解码芯片。虽然这些

[嵌入式]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！