DSP在自动目标识别中的应用-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

　　自动目标识别（ATR）算法通常包括自动地对目标进行检测、跟踪、识别和选择攻击点等算法。战场环境的复杂性和目标类型的不断增长使ATR算法的运算量越来越大，因此ATR算法对微处理器的处理能力提出了更高的要求。由于通用数字信号处理芯片能够通过编程实现各种复杂的运算，处理精度高，具有较大的灵活性，而且尺寸小、功耗低、速度快，所以一般选择DSP芯片作为微处理器来实现ATR算法的工程化和实用化。

　　为了保证在DSP处理器上实时地实现ATR算法，用算法并行化技术。算法并行化处理的三要素是：①并行体系结构；②并行软件系统；③并行算法。并行体系结构是算法并行化的硬件基础，并行算法都是针对特定的并行体系结构开发的并行程序。根据DSP处理器的数目，ATR算法的并行实现可以分为处理器间并行和处理器内并行。处理器间并行是指多个DSP处理器以某种方式连接起来的多处理器并行系统，ATR算法在多个处理器上并行招待。根据处理器使用存储器的情况，多处理器并行系统又可分为共享存储器多处理器并行系统和分布式多处理器并行系统。处理器内并行是指在单个DSP处理器内通过多个功能单元的指令级并行（ILP）来实现ATR算法的并行化。本文分别对在共享存储器多处理器并行系统、分布式多处理器并行系统和指令级并行DSP处理器上并行实现ATR算法进行了探讨。

　　1 在共享存储器多处理并行系统上实现ATR算法

　　在共享存储器多处理器并行系统中，各个处理器通过共享总线对所有的存储器进行操作，实现各个处理器之间的数据通信。而在任一时刻，只允许一个处理器对共享总线进行操作。所以处理器对存储器进行读/写操作时就必须先获得对共享总线的控制权，这通过总线仲裁电路实现。然而，由于所有的处理器只能通过一条共享总线对存储器进行访问，这在处理器数目比较多或者处理器之间频繁交换数据的情况下容易引起总线冲突和等待而降低整个并行系统的运行速度。共享存储器多处理器并行系统的优点是结构简单，当处理器的数目较少时，可以达到较高的加速比。

　　ADSP2106x处理器支持最为常用的共享存储器多处理器并行系统，组成多处理器系统的每一片ADSP2106x的片内存储器统一编址，任一ADSP2106x可以访问其它任何一片ADSP2106x的片内存储器。由于片内SRAM为双口存储器，因而这种访问并不中断被访问处理器的正常工作。每个处理器片内SRAM既是该处理器的局部存储器，又是共享存储器的部分。在不增加辅助电容的情况下，通过外部总线接口直接相连的处理器数量最多为6个。由于每个处理器的工作程序放在其片内的双口SRAM中，因此各个处理器可以实现并行处理，这是ADSP2106x的存储器结构所决定的。

　　ATR算法在共享存储器多处理器并行系统中实现时，在编写并行算法程序方面应当重点考虑的问题包括：

　　（1）均衡地把任务分配给各个处理器

　　ATR算法在共享存储器多处理器并行系统中实现任务级并行，因此必须把ATR算法划分为计算量均衡的多个任务，把各个任务分配给多个处理器，才能发挥多处理器并行系统的最大并行效率。

　　（2）尽量减少多处理器之间数据通信

　　由于多处理器只能通过一条共享总线对存储器进行访问，这在多处理器之间频繁交换数据的情况下容易引起总线竞争而降低整个并行系统的运行速度。

　　（3）利用单个处理器的并行编程特性

　　充分应用单个处理器的并行编程特性，有利于缩短各个处理器上任务的运行时间。例如，ADSP2106x的32位浮点运算单元包含一个乘法器、一个加法器和移位逻辑电路，它们并行工作；比特倒转寻址在傅立叶变换运算时非常有用；循环寻址在作卷积、数字滤波运算时经常用到等。

　　2 在分布式多处理器并行系统上实现ATR算法

　　在分布式多处理器并行系统中，多处理器有各自独立的存储器，多个处理器通过通信口相连构成分布式多处理器并行系统。分布式多处理器并行系统的加速比和处理器的数目呈线性关系，所以只要增加处理器的数目，分布式多处理器并行系统的处理能力就能够成比例地增加。分布式多处理器比较适合于构成大规模并行系统。

　　目前，计算量过大仍然是制约许多有效的ATR算法实时实现的个主要因素。ATR算法在分布式多处理器并行系统上实时实现是一个很有潜力的研究领域，特别在地基和天基雷达信号处理系统中有广阔的应用前景。分布式多处理器并行系统的连接方式有线形、树形、星形、网孔和超立方体结构等。树形和星形网络的优点是网络管理容易、数据通信进寻径简单；缺点是树形网络的根节点处理器和星形网络的中央节点处理器的输入/输出吞吐量大，易造成通信瓶颈。所以树形和星形网络不适合ATR算法各个任务数据通信量较大的应用场合。

　　在分布式多处理器并行系统中并行实现ATR算法目前还处于研究的初始阶段，在编写并行算法程序应当重点考虑两个方面：

　　（1）各处理器任务的均衡分配

　　在分布式多处理器并行系统中处理器的数目通常较多，只有合理地对众多的处理器均衡地分配任务，才能最大地发挥并行系统的总体性能，提高并行系统的加速比。

　　（2）处理器节点间的高效通信

　　在分布式多处理器并行系统中数据通信都是点对点通信。即两个相邻的处理器之间通过通信口通信。因此需要合理安排各个处理器节点在网络结构中的位置，尽可能地缩短处理器节点间的通信路径长度，从而实现处理器节点间的高效数据通信。

　　3 在指令级并行DSP处理器上实现ATR算法

　　在单片DSP处理器内通过多个功能单元的指令级并行（ILP）实现ATR算法的并行化处理，目前适合ATR算法实时处理的指令级并行芯片是TI公司的TMS320C6x系列DSP。TMS320C6x系列DSP处理器是第一个使用超长指令字（VLIW）体系结构的数字信号处理芯片。下面以TMS320C62x定点系列DSP为例说明指令级并行的原理和ATR并行算法软件开发方法。

　　3.1 VLIW体系结构

　　TMS320C62x的内核结构如图1所示。内核中的8个功能单元可以完全并行运行，功能单元执行逻辑、位移、乘法、加法和数据寻址等操作。内核采用VLIW体系结构，单指令字长32位，取指令、指令分配和指令译码单元每周期可以从程序存储器传递8条指令到功能单元。这8条指令组成一个指令包，总字长为256位。芯片内部设置了专门的指令分配模块，可以将每个256位的指令分配到8个功能单元中，并由8个功能单元并行运行。TMS320C62x芯片的最高时钟频率可以达到200MHz。当8个功能单元同时运行时，该芯片的处理能力高达1600MIPS。

　　3.2 基于TMS320C62x的并行算法软件开发方法

　　基于TMS320C62x的并行编译系统支持C语言和汇编语言开发并行程序代码。通常，开发ATR并行算法按照代码开发流程的三个阶段进行并行程序设计：第一阶段是开发C代码；第二阶段是优化C代码；第三阶段是编写线性汇编代码。以上三个阶段不是必须的，如果在某一阶段已经实现了ATR算法的功能和性能要求，就不必进入下一阶段。

　　（1）开发C代码

　　开发C代码需要考虑的要点包括：

　　①数据结构

　　TMS320C62x编译器定义了各种数据结构的长度：字符型（char）为8位，短整型（short）为16位，整型（int）为32位，长整形（long）为40位，浮点型（float）为32位，双精度浮点型（double）为64位。在编写C代码时应当遵循的规则是：避免在代码中将int和long型作为同样长度处理；对于定点乘法，应当尽可能使用short型数据；对循环计数器使用int或者无符号int类型，避免不必要的符号扩展。

　　②提高C代码性能

　　应用调试器的Profile工具可以得到一个关于C代码中各特定代码段执行情况的统计表，也可以得到特定代码段招待所用的CPU时钟周期数。因此可以找出影响软件程序总体性能的C代码段加以改进，通常是循环代码段影响软件程序总体性能。

　　③数据的定标

　　由于TMS320C62x是定点系列芯片，不支持浮点操作。在程序编写过程中，应当尽量采用定点的数据结构。而实际处理的数据通常都是浮点的，所以需要把浮点数据通过定标转化为整型数据处理，提高程序的处理速度。数据的定标是十分关键的步骤，既要使数据处理精度满足性能要求，又要防止在数据处理过程中出现溢出。

　　（2）优化C代码

　　优化C代码包括向编译器指明不相关的指令、循环展开、循环合并、使用内联函数、使用字访问短整型数据和软件流水等方法。

　　①向编译器指明不相关的指令

　　为使指令并行操作，编译器必须确定指令间的相关性，只有不相关的指令才可以并行执行。如果编译器不能确定两条指令是不相关的，则认为是相关的，安排它们串行招待。用户可通过如下方法指明相关的指令：

　　·关键字const可以指定一个目标，const表示一个变量或者一个变量的存储单元保持不变，使用const可以提高代码的性能和适应性。

　　·一起使用-pm选项和-03选项可以确定程序优先级。在程序优先级中，所有源文件都被编译成一个模块，从而使编译器更有效地消除相关性。

　　·使用-mt选项向编译器说明在代码中不存在存储器相关性，即允许编译器在无存储器相关性的假设下进行优化。

　　②循环展开

　　循环展开就是把循环计数小的循环展开，成为非循环形式的串行程序，或者把循环计数大的循环部分展开，减少循环迭代次数，增加单个循环内的代码，使得循环内的操作可以均匀分布在各个功能单元上，保持DSP处理器的各个功能单元满负荷运行。

　　③循环合并

　　如果两个循环计数差不多、循环执行互不相同的操作，可以把它们合并在一起组成一个循不。当两个循环的负荷都不满时，这是非常有用的。

　　④使用内联函数

　　TMS320C62x编译器提供的内联函数是直接映射为内联指令的特殊函数，内联函数的代码高效、代码长度短。用户可以使用内联函数并行优化C代码。

　　⑤使用字节访问短整型数据

　　内联函数中有些指令是对存储在32位寄存器的高16位和低16位字段进行操作的。当有大量短整型数据进行操作时，可以使用字（整型数）一次访问两个短整型数据。然后使用内联函数对这些数据进行操作，从而减少对内存的访问。

　　⑥软件流水

　　软件流水是用来安排循环指令，使这个循环多次迭代并行执行的一种技术。在编译时使用-o2和-o3选项，编译器可对循环代码实现软件流水；使用-o3和-pm选项，使优化器访问整个程序，了解循环次数；使用_nassert内联函数，防止冗余循环产生；使用投机执行（_mh选项）消除软件注流水循环的排空，从而减少代码尺寸。

　　在嵌套循环中，编译器仅对最里面的循环执行软件流水，因此对招待周期很少的内循环作循环展开，外循环进行软件流水，这样可以改进C代码并行执行的性能。使用软件流水还应当注意：尽管软件流水循环可以包含内联函数，但是不能包含函数调用；在循环中不可以有条件终止指令；在循环体中不可以修改循环控制变量。

　　（3）编写线性汇编代码

　　编写线性汇编代码是并行算法软件开发流程的第三个阶段。了提高并行算法软件代码的性能，对影响并行程序速度的关键C代码可以用线性编重新编写。编写线性汇编代码不需要指明使用的寄存器、指令的并行与否、指令的延迟周期和指令使用的功能单元，汇编优化器会根据情况确定这些住处。优化线性汇编代码的方法包括：为线性汇编指令指定功能单元，使得最后的汇编指令并行执行；使用字访问短整型数据；使用软件流水对循环进行优化。编写线性汇编代码的工作量非常大，需要很长的开发周期，而且开发后的汇编代码不能像C代码那样移植在其它的DSP平台上。

　　应用上述并行程序开发方法，在TMS320C6201 EVM板上实现了宽带毫米波雷达目标时延神经网络识别算法。经过实际测试，并行算法程序执行时间为0.850ms，满足了目标识别算法的实时性需求。

关键字：DSP ATR 引用地址：DSP在自动目标识别中的应用

上一篇：Avago在40nm上达到20Gbps效能表现
下一篇：现代数字DSP的结构划分

推荐阅读最新更新时间：2024-05-02 20:41

多波形雷达回波中频模拟器方案

　引言　　在各型雷达导引头的研制开发中，经常需要多次试验以检验雷达对目标回波信号的分析处理性能。然而一般外场试验虽然是最真实的实战模拟，但需要耗费大量的人力物力，试验成本昂贵，不适于研制阶段的性能考核，通常只作为导弹整体研制完成后的最终性能考核验证。因此，能够在实验室为雷达导引头工作提供一个模拟真实工作状态的电磁环境就显得格外重要。雷达回波模拟器正是为适应上述需求研制出现的，它不仅为设计者节省大量的研制费用，而且可以缩短研制周期，提高工作效率。　　从实现方法上，雷达回波模拟器一般分为两大类：存储回放式和自主产生式。存储回放式是基于接收待测雷达产品的频率合成器的发射信号调制脉冲，并对发射信号进行下变频、采样存储、完成目标

[嵌入式]

基于DSP和CPLD的光纤陀螺信号采集系统设计

0 引言光纤陀螺作为一种新型的惯性器件，近年来得到越来越多的关注，因为它有许多其他陀螺无法比拟的优越性，比如结构简单，精度高，动态范围大，抗电磁干扰，无加速度引起的漂移且成本低，可靠性好等。陀螺可以为载体提供准确的角速度和角位移等信号，完成对运动体的姿态和运动轨迹控制。其优良的品质使自身能够满足军工和民用对惯性器件苛刻的要求，并得到广泛的应用。惯性器件的性能直接影响到控制系统本身的稳定性能，所以光纤陀螺被应用到空空导弹中时，需要对陀螺的特性有充分的了解，为此构建了一个陀螺采集系统，以实现对陀螺信号的采集及特性分析。 1 光纤陀螺的工作原理光纤陀螺是激光陀螺的一种，其基本原理基于Sagnac效应，即用光纤绕制成环柱形

[单片机]

基于<font color='red'>DSP</font>和CPLD的光纤陀螺信号采集系统设计

辰芯科技获得CEVA DSP授权

CEVA，全球领先的智能和互联设备信号处理平台和人工智能处理器IP授权许可厂商 (纳斯达克股票交易所代码：CEVA) 宣布中国信息通信科技集团 (CICT)旗下子公司辰芯科技有限公司(MorningCore Technology Co. Ltd)已经获得授权许可，在其软件定义无线电(SDR)处理器和平台系列中部署使用CEVA-XC DSP，瞄准高性能4G/5G无线和蜂窝网络车到一切(C-V2X)应用。 CICT是专注于电信领域创新研发的高科技企业集团。成立于2017年的辰芯科技有限公司是大唐集团的一部分，是CICT旗下重要企业，负责集成电路(IC)和系统级芯片(SoC)的开发和创新，以推动实现5G终端和蜂窝V2X调制解调器及网

[汽车电子]

基于DSP的主动磁轴承数字控制器的设计与实现

摘要：介绍了基于DSP的径向四自由度磁轴承数字控制器的总体结构，A/D和D/A转换电路，PID控制算法和控制软件的结构，调试方法和实验结果。实验表明：设计的数字控制器硬件和软件系统，参数实调试方便，工作性能稳定可靠，满足了磁轴承控制性能要求。研究结果对开发数控磁轴承系统具有参考和应用价值。关键词：磁轴承控制器数字信号处理器（DSP）硬件软件主动磁悬浮轴承（简称磁轴承）系统主要由被悬浮物体（即转子）、位移传感器、控制器和功率放大器等组成。位移传感器检测转子偏移参考点（平衡位置）的位移量，控制器将检测到的位移变换成控制信号，功率放大器将控制信号转换成控制电流，控制电流在执行磁铁中产生

[应用]

“一帧影像，动用两块芯片”，OPPO Find X5 Pro为何要如此劳师动众？

手机ISP这个赛道越来越热闹了，此前除了联发科和高通等手机厂商之外，鲜有其他公司涉足这一产品。而在2021年，包括OPPO、小米以及VIVO都陆续推出自己的“ISP”类芯片，而华为海思则是于近期推出了应用于物联网智能终端的ISP。影像计算也需要DSA 为什么大家都瞄准ISP这一风口？此前，OPPO芯片产品高级总监姜波曾在马里亚纳X的发布会时表示，影像将成为手机重要差异化的特性，而马里亚纳X正是OPPO“ 计算影像探索的第一步 ”。摩尔定律的发展至今，无论是对PC、服务器还是手机而言，常规处理器在功耗、算力等各方面已经遇到了不少瓶颈，于是DSA架构开始变得愈发流行（DSA，即针对应用领域做优化的处理器架构，区别于通

[手机便携]

“一帧影像，动用两块芯片”，OPPO Find X5 Pro为何要如此劳师动众？

PD快充+I2S输入内置DSP数字功放IC组合助推两节串联锂电为电源的蓝牙音箱性能升级

PD快充+I2S输入内置DSP数字功放IC组合助推两节串联锂电为电源的蓝牙音箱性能升级引言随着生活水平的提高，大家都想从生活压力中释放出来，越来越多的人向往户外运动、露营等，在大自然的拥抱中释放压力，解放自我，从而成为户外旅行火热的原因之一。因此，很多音箱厂商都开始推出针对户外的户外蓝牙音箱。但是市面上的蓝牙音箱普遍存在续航短、音质差等诸多痛点。深圳市永阜康科技有限公司一直专注于耕耘音频市场，现针对两节锂电串联供电的户外蓝牙音箱应用，推出PD2.0/QC2.0快充+I2S输入内置DSP数字功放音频升压充电组合方案。该方案有三个组合级：（一）整体方案设计电源采用两节锂电串联供电，充电芯片采用M3033;M3

[电源管理]

PD快充+I2S输入内置<font color='red'>DSP</font>数字功放IC组合助推两节串联锂电为电源的蓝牙音箱性能升级

基于DSP/FPGA高精度测量系统中多电源可靠性设计

由于高精度测量系统工作频率高，数据处理量大，功耗也相对较高，而供电系统的好坏直接影响到系统的稳定性和系统的精度，所以设计高效率、高可靠性的供电系统具有极其重要的现实意义。本文主要叙述了一个实际高精度测量系统的电源设计。　　1 DSP和FPGA的电源要求　　系统采用Altera公司的Cyclone系列EPIC12型号FPGA和TI公司的TMS320C6713B型号DSP均需要两种电源：外围I/O电压为3.3V及内核电压分别为1.5V和1.2V。因此必须考虑它们的配合问题：(1)在加电过程中，要保证内核先得到供电，外围I/O后得到供电，内核最晚也应该与周边I/O接口电源同时加电。否则可能会导致DSP和FPGA的输出端出现大电流

[电源管理]

基于<font color='red'>DSP</font>/FPGA高精度测量系统中多电源可靠性设计

基于DSP的过采样技术

在使用DSP进行数字信号处理时，应用过采样技术可以增加其内置模数转换器的分辨率。讨论了应用过采样技术的原理、如何使用 TMS320LF2407 来实现过采样，以及在软件上的实现方法。关键词：过采样，抗混叠滤波器，抽取，数字信号处理器 1　引　言　　模数（AD）转换通常是数字信号处理应用中的第一步，依据应用的不同，对模数转换器（ADC）也有不同的要求，衡量模数转换器的最重要的标准是它的转换速率、分辨率和精度。应用过采样技术，再加上适当的数字滤波和抽取，就可以得到比原有的ADC更高的分辨率。　　在数字信号处理器（DSP）中应用过采样技术需要快速ADC以非常快的速度来采样模拟信号，并且需要快速DSP来执行数字低通滤波

[工业控制]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■TI 有奖直播 | 使用基于 Arm 的 AM6xA 处理器设计智能化楼宇

■Follow me第二季第3期来啦！与得捷一起解锁高性能开发板【EK-RA6M5】超能力！

■报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

■30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~