TMS320C62X DSP的混合编程研究-电子工程世界

摘要：目前，Ｃ语言和汇编语言的混合编程已经在ＴＩ公司的ＴＭＳ３２０Ｃ６２Ｘ上成为一种最流行的编程方法。阐述了基于ＴＭＳ３２０Ｃ６２Ｘ的Ｃ语言和汇编语言混合编程应遵循的接口规范以及并行汇编代码的编写。给出了一个基于ＴＭＳ３２０Ｃ６２Ｘ的运动补偿的混合编程设计实例。关键词：DSP Ｃ语言并行汇编混合编程ＴＭＳ３２０Ｃ６２Ｘ是美国德州仪器公司ＴＩ的新一代高性能定点数字信号处理器（ＤＳＰ）芯片。基于ＤＳＰ的软件设计问题，就是采用编程语言进行算法实现并使程序效率尽量满足实时性要求。ＴＩＤＳＰ的软件设计可以采用汇编语言、高级语言Ｃ／Ｃ＋＋以及Ｃ语言与汇编语言的混合编程。完全采用汇编语言编程复杂性高、开发周期长，而完全采用Ｃ语言编程则程序的执行效率相对较低，不能满足实时性的要求。为了设计出性价比最好、开发周期较短、比较复杂的ＤＳＰ系统，可以采用混合语言编程，把Ｃ语言和汇编语言的优点有效地结合起来。Ｃ语言和汇编语言的混合编程有三种形式：在编写Ｃ语言代码中插入汇编语句只需在汇编语句两边加上双引号和括号，在括号前面加上标识ａｓｍ，如ａｓｍ“汇编语句”；在编写Ｃ代码的过程中调用内联函数ＴＭＳ３２０Ｃ６２Ｘ中有一些直接映射为内联的Ｃ６０００指令的特殊函数，内联函数用前下划线＿表示，使用时同调用Ｃ语言的库函数一样调用它，如ｂ＝＿ｎａｓｓｅｒｔＮ＞＝１０；汇编代码以Ｃ代码可以调用的函数出现。本文采用第三种形式。为了使程序代码的执行具有尽可能高的执行效率，本文将着重点放在并行汇编代码的编程，而不是线性汇编代码的编程。１Ｃ语言与汇编语言混合编程的接口规范和标准用Ｃ语言编写的代码中核心代码常常只是整个程序代码的５％，但是却占用了整个程序约９５％的执行时间。对这些核心代码采用汇编语言编写，可以大大提高代码的执行效率，而Ｃ语言程序可以象调用Ｃ程序的一个函数那样去调用这个汇编函数。为了实现Ｃ语言和汇编语言的混合编程，需要注意一些规定的接口规范和标准。（１）采用Ｃ语言和汇编语言混合编程时，ＴＭＳ３２０Ｃ６２Ｘ定义了一套严格的寄存器规则。这个寄存器规则表明了编译器如何使用这些寄存器以及在函数调用过程中如何保护这些寄存器。调用函数保护了寄存器Ａ０～Ａ９和Ｂ０～Ｂ９，这就使得在编写汇编程序的时候可以任意的使用这几个寄存器而不需保护它们。但当使用到寄存器Ａ１０～Ａ１５或Ｂ１０～Ｂ１５的时候，则必须自行对它们进行保护。长型、双精度型或者是长双精度型的数据对象要放在一个奇／偶寄存器对（如Ａ１：Ａ０）里，奇数寄存器存放着数据的符号位、指数位和最高有效位，而偶数寄存器则存放着低有效位。在默认情况下，Ａ３用作返回结构指针寄存器，Ｂ３用作被调用函数返回地址寄存器，Ａ１５用作帧指针寄存器，Ｂ１４用作数据页指针寄存器，Ｂ１５用作堆栈指针寄存器。这些寄存器在被调用的汇编函数中用到时都要进行保护。（２）调用函数将参数传递到被调用函数中，前十个参数将被从左到右依次放入寄存器Ａ４、Ｂ４、Ａ６、Ｂ６、Ａ８、Ｂ８、Ａ１０、Ｂ１０、Ａ１２和Ｂ１２，如果传递的参数是长型、双精度型或者是长双精度型，则将参数依次放入寄存器组Ａ５：Ａ４、Ｂ５：Ｂ４、Ａ７：Ａ６等，并将剩下的变量按相反的顺序放在堆栈里。注意，如果传递的参数是一个结构类型的参数，则传递的是该结构类型的地址。（３）如果在Ｃ／Ｃ＋＋调用函数中做了正确的函数返回声明，则被调用的汇编函数可以返回有效值。如果返回值是整型或３２位的浮点型，则放在寄存器Ａ４中返回；如果返回值是双精度或是长双精度型，则放在Ａ５：Ａ４中返回；如果返回值是一个结构类型，则将其结构的地址放在Ａ３中返回。（４）编译器为所有的外部对象指定一个链接时的名字。当写汇编语言代码时，必须用与这个名字相同的名字。对于只在汇编语言模块中用到的变量的标识符，不能从下划线开始。任何一个在汇编语言中声明的对象都要使其在Ｃ／Ｃ＋＋中是可访问的，那么在汇编语言中必须用．ｄｅｆ或．ｇｌｏｂａｌ将其声明为外部变量。同样在汇编语言中要引用Ｃ／Ｃ＋＋函数或对象时，必须用．ｒｅｆ或．ｇｌｏｂａｌ将Ｃ／Ｃ＋＋对象声明，这将产生一个在汇编语言函数中没有定义的由链接器辨识的外部引用。还有一些细节也需要注意，如中断子程序必须把该子程序将要用到的所有寄存器进行入栈处理；除了全局变量的初始化外，汇编语言的模块不得因为任何目的而使用．ｃｉｎｉｔ段；汇编代码的结束需用指令Ｂ．ｓ２Ｂ３将程序执行从被调用函数返回到Ｃ语言调用函数中。２并行汇编代码的编写Ｃ６０００的汇编代码格式如下：标号：并行标记 条件寄存器指令助记符功能单元操作数；注释。如：ＬＤＷ　．Ｄ２ Ｂ４，Ｂ２｜｜ Ａ１ＳＨＬ．Ｓ２ＸＡ４，Ｂ４；用到了交叉数据通道ＴＭＳ３２０Ｃ６２Ｘ片内有８个并行的处理单元，分为相同的两组。其体系结构采用超长指令字（ＶＬＩＷ）结构，一个指令包里的８条并行指令可同时分配到８个处理单元并行运行。这种一个指令包里有８条指令并行执行也给并行汇编代码的编写带来很多要考虑的问题具体如下：　（１）ＴＭＳ３２０Ｃ６２Ｘ指令的执行可以用延迟间隙来说明。延迟间隙在数量上等于从指令的源操作数被读取到执行的结果可以被访问所用的指令周期。如对于乘法指令（ＭＰＹ），源操作数从第ｉ个周期被读取，则其计算结果在第（ｉ＋２）个周期才可用。（２）使用相同功能单元的两条指令不能被安排为并行指令。（３）使用同一条交叉通路的两条指令不能被安排在同一个执行指令包中，这是因为从寄存器组Ａ～Ｂ或者从Ｂ～Ａ都只有一条交叉通路。　　 ４将数据读入到（或存储自）相同寄存器组的两条读（写）指令不能被安排在同一个执行包中。 ５每一个执行包里只能允许每一寄存器组处理一个长定点类型数据。 ６在一个指令周期内对同一寄存器读取多于四次是不允许的，但条件寄存器不在此限制之列。在一个指令周期内，不能同时存在两条写入同一寄存器的指令，只有在写操作不是在同一个指令周期发生时，才可以将具有同一目的地址的两条指令安排并行。３基于ＴＭＳ３２０Ｃ６２Ｘ的运动补偿的混合编程设计实例运动补偿是ＭＰＥＧ－４标准中的一种重要算法。运动补偿是指根据运动矢量在参考帧中找出参考块。如果运动矢量的Ｘ分量和Ｙ分量都是整象素长度，则直接在参考帧中找出参考块。如果为半象素长度，则需要通过内插运算计算出参考块，计算出的参考块需要加上解码得出的误差块才能得到当前参考块。本文给出了运动矢量的Ｘ分量和Ｙ分量都是整象素长度时的运动补偿方法。根据运动矢量可直接在参考帧中找到参考块（８%26;#215;８）。完成此功能的Ｃ语言函数如下：ｖｏｉｄｍｃ＿ｃａｓｅ＿ａ２ｕｎｓｉｇｎｅｄｃｈａｒ ｐＳｒｃ ｓｈｏｒｔＳｒｃＯｆｆｓｅｔ ｓｈｏｒｔＳｒｃＷｉｄｔｈ ｕｎｓｉｇｎｅｄｃｈａｒ ｐＤｓｔ ｓｈｏｒｔＲｏｕｎｄＣｔｒｌ  　　…… ｆｏｒ ｉ＝０ ｉ＜８ ｉ＋＋  ｔｍｐ＿Ｐ＿Ｄｓｔ＋ｉ ＝ ｔｍｐ＿Ｐ＿Ｓｒｃ＋ｉ ．．．．．． } } 参数运动矢量ＳｒｃＯｆｆｓｅｔ对４（４个字节为一个字，长３２位）的余数可能是０、１、２、３。当余数是０的时候，编译后执行代码是按字读取（ＬＤＷ）的，这充分体现了ＴＭＳ３２０Ｃ６２Ｘ的优点，也使程序的运行效率比较高。而当余数不为０的时候，则可能是按字节读取（ＬＤＢ）或是按半字读取（ＬＤＨ），这使程序的运行效率较低。视频的编码和解码都要用到运动补偿来重构图像，这是一个很费时的操作，而且其代码也是图像处理中的核心代码，这样就要求编写高效的程序来完成此操作。为了使代码的运行效率更高，且结合ＴＭＳ３２０Ｃ６２Ｘ的硬件特点，希望对于不同的运动矢量，做运动补偿的时候都能采用按字读取和存储的方式。这需要对运动矢量参数除以４，根据余数调整指针，使指针始终指向字对齐方式而在Ｃ程序中当前块是ｃｈａｒ型的以字节方式存储的，对其进行移位处理只能是一个字节一个字节地进行移位，这就使得在Ｃ程序中不能用和汇编程序同样的方法来对程序进行优化，如运动矢量除以４以后的余数为１，为了使要取的８个象素对准字访问方式，则要按图１进行操作。

根据运动矢量参数进行移位使其对准字访问的核心代码的程序为：ＭＶＫ．Ｓ２　０ｘＦＦＦＣｔｅｍｐ　；获得地址的ＬＳＢ位ＡＤＤ　．Ｌ１ＸｐＳｒｃｏｆｆｓｅｔｐＳｒｃ；参考块第一个元素的地址ＡＮＤ　．Ｌ２Ｘ　ｐＳｒｃｔｅｍｐｔｍｐ＿ｐＳｒｃ；字对准访问的地址ＡＮＤ　．Ｓ１　０ｘ０００３ｐＳｒｃｒｓｈｉｆｔＡ　；用两个ＬＳＢ位得；到了需右移几个字ＳＵＢ　．Ｌ１　０ｘ０４ｒｓｈｉｆｔＡｌｓｈｉｆｔＡ；需左移几个字ＭＰＹ　．Ｍ１　ｒｓｈｉｆｔＡ８ｒｓｈｉｆｔＡ　；需右移的＃ｂｉｔ数ＭＰＹ　．Ｍ１　ｌｓｈｉｆｔＡ８ｌｓｈｉｆｔＡ　；需左移的＃ｂｉｔ数作为一个说明Ｃ语言与汇编程序混合编程的设计例子，采用并行汇编实现了这个函数的优化。这里只给出部分汇编程序：．ｔｅｘｔ　　；将该段汇编代码安排在．ｔｅｘｔ段，当然通过在Ｃ语言中用＃ｐｒｏｇｒａｍ＿ｓｅｃｔｉｏｎ也可以将其安排在其它自己命名的段中。．ｇｌｏｂａｌｍｃ＿ｃａｓｅ＿ａ　；函数名，用．ｄｅｆ或．ｇｌｏａｌ对其进行声明，使得Ｃ代码调用该函数＿ｍｃ＿ｃａｓｅ＿ａ　；标号，是Ｃ调用函数和汇编被调用函数的接口处 …… ．ａｓｇＢ１０，ｏｃｓｒ．ａｓｇＢ１１，ｒｗ＿４　　　ＳＴＷ．Ｄ２ｏｃｓｒ，ｓｔａｃｋ－－１　；被调用函数用到了Ｂ１０～Ｂ１５，Ａ１０ＳＴＷ．Ｄ２ｒ＿ｗ４，ｓｔａｃｋ－－１　；～Ａ１５的寄存器，则需对它们保护ＭＶＣ．Ｓ２ＣＳＲ，ｏｃｓｒＡＮＤ．Ｓ２－２，ｏｃｓｒ，ｏｃｓｒ　　ＭＶＣ．Ｓ２ｏｃｓｒ，ＣＳＲ；关闭某些中断 …… ｌｏｏｐ ＬＤＷ．Ｄ２ ｔｍｐ＿ｐＳｒｃ＋＋ｓｒｃ＿ｗｉｄｔｈ１，ｒ＿ｗ１；读取第一个字ＬＤＷ．Ｄ１ ｐＳｒｃ＋＋１，ｒ－ｗ２；读取第二个字ＬＤＷ．Ｄ１ ｐＳｒｃ＋＋ｓｒｃ＿ｗｉｄｔｈ２，ｒ－ｗ３；读取第三个字　ＳＨＲＵ．Ｓ２ｒ＿ｗ１，ｒｓｈｉｆｔＢ，ｒ－ｗ１ＳＨＬ．Ｓ１ｒ＿ｗ３，ｌｓｈｉｆｔＡ，ｒ＿ｗ３ＳＨＬ　　．Ｓ２Ｘｒ＿ｗ２，ｒｓｈｉｆｔＢ，ｒ＿ｗ４ＳＨＲＵ．Ｓ１ｒ＿ｗ２，ｒｓｈｉｆｔＡ，ｒ＿ｗ２ＯＲ．Ｌ２ｒ＿ｗ１，ｒ＿ｗ４，ｒ＿ｗ１ＯＲ．Ｌ１ｒ＿ｗ１，ｒ＿ｗ３，ｒ＿ｗ２　；这几步作了图ａ中的操作过程ＳＴＷ．Ｄ２ｒ＿ｗ１，ｐＤｓｔ＋＋２ ＳＴＷ．Ｄ１ｒ＿ｗ２，ｔｍｐＤｓｔ＋＋２ ；存储取得的两个字Ｂ．Ｓ２ｌｏｏｐ；延迟跳转到标号ｌｏｏｐ处，实现循环 …… ＬＤＷ．Ｄ２Ｔ２ ＋＋ｓｔａｃｋ１，ｒ＿ｗ４ＬＤＷ．Ｄ２Ｔ２ ＋＋ｓｔａｃｋ１，ｏｃｓｒ；对被调用函数中自己保护的寄存器作恢复处理ＭＶＣ．Ｓ２ｏｃｓｒ ＣＳＲ　；恢复中断环境Ｂ　　．Ｓ２Ｂ３　　　　　；返回到调用函数处 …… 在ＴＩＣＣＳ上用其库函数ＣＬＯＣＫ（）对这个算法的Ｃ语言程序和并行汇编程序分别进行了性能测试。在纯Ｃ语言中，运动矢量对４的偏移量的余数为０时约为３３个指令周期 余数为１时约为９３个指令周期 余数为２时约为５１个指令周期余数为３时约为９３个指令周期平均约耗时６７个周期。而将其用并行汇编代码编写其周期数恒定为３３个指令周期。３３个指令周期的执行时间，对于这个函数基本上是达到了函数的最大优化。由此可见，程序的核心算法的代码用并行汇编程序编写，而主体的Ｃ语言程序则以函数调用的形式调用这些核心算法的并行汇编函数，是提高程序代码执行效率的一种有效方法。

引用地址：TMS320C62X DSP的混合编程研究

上一篇：基于DSP的蓄电池充放电装置的设计
下一篇：用单片机实现DSP在线调试的一种方法

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂