基于基于DSP的并行信号处理系统设计方案的并行信号处理系统设计方案-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

自数字计算机问世以来，计算机的处理能力已经增长了100 k倍以上。然而，现有性能最高的计算机的计算能力仍远远不能满足人类对计算速度无止境的追求。

　　在科学计算、地质分析、气象预测、仿真模拟、图像处理以及实时信号处理领域，对计算机处理速度的要求尤为迫切。随着半导体技术的迅速发展，采用超大规模集成电路设计的处理单元功能越来越强，然而单处理器性能的提高受到了诸多限制。因此，满足对运算速度的巨大需求目前只能通过并行处理技术来实现。

　　1 概述

　　本文中设计了一种并行信号处理系统，其主要特点是：

　　（1）具有强大的处理能力，可以完成多种信号处理模式。

　　（2）信号处理功能通过大量信号处理芯片（DSP）的并行计算完成。

　　（3）信号处理功能的改变通过软件实现。

图1所示的是动目标检测雷达信号处理机的主要组成部分，虚线中的处理模块是本文要完成的工作。

　　2 幅相计算、CFAR检测、M/N检测

　　2.1 幅相计算

　　幅相计算指从复数据计算其幅度和相位，假使：

　　2.2 CFAR检测和M/N检测

　　雷达信号的检测总是在干扰背景上进行的，为了在强干扰中提取信号，不仅要求有一定的信噪比，而且必须有恒虚警处理设备，恒虚警处理的目的是保持信号检测时的虚警率恒定，这样才能使处理机不致因虚警太多而过载。

　　（1）单元平均恒虚警（CFAR）检测器

　　已经知道，在低分辨率的脉冲雷达中，海浪和雨雪等分布杂波可以看作很多独立照射单元回波的迭加，因而杂波包络的分布服从瑞利分布，如果检测背景中存在此类杂波，检测门限可以通过计算杂波的均值得到，但是由于杂波在空间分布的未知性，求杂波均值只能从被检测目标邻近单元来获得，这就是比较常用的单元平均CFAR检测器。为了减少这类检测器在杂波边缘内侧虚警显着增大问题，一般采用其改进电路-两侧单元平均选大电路，如图2所示。在被检测单元的两边，为了防止目标本身对门限值的影响各空出了一个保护单元。

　　（2）二维CFAR检测器

　　当雷达工作于FFT方式时，CFAR检测器的输入数据包括距离和频率2个变量，所以需要采用二维CFAR,如图3所示。除0# 滤波器输出送杂波图处理外，其他多卜勒滤波器输出各接一个单元平均CFAR检测器。各CFAR检测的结果合起来作为目标判断。

　　（3）M/N检测

　　M/N检测在CFAR检测后进行，其中，N为积累脉冲数，M为小于N的值。我们设定M/N检测的准则为2/3,即相同距离门的信号在3个脉冲重复周期里至少2次过门限判定有目标。

　　2.3 杂波图

　　杂波图技术就是将雷达周围的二维平面分成许多方位距离单元，把方位距离单元的接收信号存入一个存储器中，每个存储单元对应一个方位距离单元，并且随着天线的扫描，每个单元存储的信号进行递推更新：

　　其中：K是一个小于1的因子，xn和yn分别代表输入、输出。

　　所以天线多圈扫描以后，杂波图中存贮的是相应方位距离单元的杂波均值。检测门限H根据式

　　（5）计算，如果被检测信号xn大于门限H,我们就判为有目标，否则就判无目标。

　　H=Cyn（5）

　　其中：C为一个门限乘子，C的大小决定着检测概率的虚警概率。

　　3 系统的设计

　　并行处理的目的是通过采用多个处理单元同时对任务处理来减少任务的执行时间，如何能以最短的时间完成任务成为并行处理机设计者最关心的问题，对这一问题的反映表现在处理机的2个基本性能指标：加速比和并行效率。而并行处理机的这2个基本性能决定于组成并行处理机的3个要素：处理单元、并行处理机网络结构、并行算法程序和任务分配方法。三者之间紧密联系，互相依赖。

　　3.1 处理单元的选择

　　处理单元的性能可以说是决定处理机性能最基本的因素，高性能的处理单元可以提高系统性能、减少系统体积和功耗、降低结构复杂性和提高软件可维护性。处理单元按应用范围大致可分为中央处理单元、专用ASIC芯片、FPGA/EPLD、数字信号处理器。在实时数字信号处理应用上，DSP仍具备明显优势。

　　在并行处理中，更强调DSP是否具有适于构成并行处理机的特殊功能，如高速通信口的通信能力、共享存贮器的接口功能等。TMS320C40和ADSP21060在结构功能上有很多相似之处，相比较而言，综合性能较好地并行DSP是ADSP21060,他的运算速度、数据吞吐能力、片内存贮器容量都远优于TMS320C40,相对于其他类型DSP.他的突出特点是：FFT速度快、片内存贮器容量大，很好地共享存贮器接口。各种兼容型号ADSP2106X的选择余地也较大，他还与最新推出的ADSP21160代码兼容，结构与接口形式也类似。

　　3.2 并行处理机互联结构

　　并行处理机互联网络的主要功能是为各处理单元提供数据交换的通路并负责子任务传送和控制调度信号的传递。处理单元之间的网络结构大致可分成2类：

　　（1）共享总线（共享存贮器）系统，称为紧耦合式并行系统。

　　（2）处理单元有各自独立的数据存贮器而通过通信口相连的分布式并行系统，又称松耦合式系统。紧耦合式的共享总线系统在处理单元个数较少的情况下，以其无需数据通信而能获得较高的加速比。当处理单元个数很多时，共享总线将造成频繁的总线冲突和等待，而且共享总线结构的可扩充性和灵活性不及分布式系统，不适于大规模并行处理系统，可重构能力和容错能力都远不如分布式系统。

　　通用并行DSP的通信口速度在30~60 MHz,这为在处理单元数目很多的大规模并行处理采用分布式系统设计创造了条件。TMS320C40或ADSP21060提供的多达6个高速通信口的总通信能力与其指令速度或平均运算能力相当，而同时TMS320C40或ADSP21060都提供了共享数据总线的接口，TMS320C40有2套独立的总线，其中一套可以用于和其他TMS320C40共享数据，而ADSP21060的片内具有共享总线仲裁逻辑，可以在无需添加外部控制电路的情况下，将不多于6个ADSP21060直接相连。

　　以上分析表明，分布式并行系统更适合于大规模并行系统，而共享总线式系统在小规模的并行处理机上可以得到较高的性能。以ADSP21060为例，当处理单元小于5时共享总线系统的效率较高；反之，分布式并行系统将更好。

3.3 并行算法、任务分配和软件编程

　　并行算法的好坏主要以其并行度高低来衡量，并行算法和并行程序的设计复杂度远大于传统的串行算法和串行程序设计，他更多地依赖于处理机结构，现有的并行算法远不能满足并行处理的需要，而且目前还缺乏一种有效的并行开发系统和并行设计语言，但对于雷达信号处理这一领域来说，信号处理任务的类型基本上是确定的，这就缩小了设计者的设计范围，从而大大减少了程序设计的难度。

　　采用上文所述的并行DSP作为处理单元构成的信号处理机将是完全可编程和软件可重载的，根据需要可以对不同并行子模块重新进行功能定义。算法软件以标准模块存放在DSP的RAM或ROM中，当处理单元的功能改变时，可调用相应的软件模块。

　　任务分配和调度仍是并行处理系统设计的一个难题，至今尚无实用的任务自动分配方法，而任务分配所带来的成本又太高。根据雷达信号处理固有的特点，可以将其定义成带有输入参数的软件模块，每个模块随着其输入参数的不同，其输出参数如运算时间、数据通信时间、数据通信路径都将不同。[page]

采用数据流全驱动的方式是将处理过程中的全部数据分割成一定大小的数据包，在每个数据包中，除了实际数据还包括有如下信息：数据包长度、处理方式、数据描述、校验码。处理方式中含有足够的处理信息，用于指示DSP或子模块如何处理此包数据，即选择多普勒滤波、MTI、CFAR等。数据描述信息详细地给出了此包数据的特点，包括距离门起止号、多普勒号、通道号等。DSP接收到一个数据包后，如果此包数据的处理相对于其他数据包是独立的，他就立即进行处理，否则等待其他包数据到齐或者向其他DSP转发。

　　4 系统的实现

　　首先估计一下单元平均恒虚警检测的运算量：整个距离（最大120 km,7 MHz采样率）数据量为5.6 k个复数，1片ADSP2106X处理需要的时间大约是3.6 ms,由于相干处理周期为1 ms,因而我们在距离上分成4段，分别用4片ADSP2106X处理，这样还有0.1 ms的空闲时间。这里为了每片DSP处理数据方便，需要每段处理相互独立，因此段间要有重叠，以保证每一段CFAR的左右单元平均可以独立进行。

　　（1）对于恒虚警检测的处理来说，只有2种工作方式：MTI和MTD,分别对应单元平均恒虚警检测和二维恒虚警检测。

　　（2）系统内各部分均采用数据流方式驱动，数据包的格式为：先是4个字的模式控制字，然后是实际数据。每一种工作方式及相应参数由每一数据包前面的模式控制字给出，对应于模式控制字中的工作方式及参数等各共用部分，我们在所有运算单元中对其进行解释，以便转入相应的子程序。

　　（3）系统初始化方式有两种，一种是EPROM加载方式，此方式有利于在整个系统调试或固定雷达工作方式后，脱开计算机进行。另一种加载方式就是通过计算机接口以Link口加载方式进行加载。为了使用时调整雷达信号处理方式，采用计算机加载方式。

　　4.1 系统硬件

　　根据运算量和恒虚警检测所需的存储量，估计出设备量为5片DSP,如图4所示。

　　由于雷达信号处理流水进行的特点，可以按处理流程将整个系统划分成若干功能块，所以拟采用分布式并行处理系统。分布式并行处理系统由标准的并行子模块构成，恒虚警检测子模块由4个单元构成，M/N检测汇总子模块为1个单元，并行子模块之间由高速通信口相连，每对通信口间数据传输速率可达40 Mb/s.所有DSP都有通信口通过电路板插座连接到外部，利用数据流格式和相应的软件配置在邻近电路板间建立数据通路，这样减少了电路板间信号耦合。

　　4.2软件处理及实现分析

　　程序部分完成：CFAR、幅相计算、M/N检测等功能，需要5片DSP.

　　整个距离分4段，分别在4片DSP中进行CFAR、幅相计算等处理。段间有重叠，以保证每一段CFAR的左右单元平均可以独立进行。最后将4段的结果在下一片DSP进行合并、M/N检测，把目标信息后送。

　　（1）CFAR,幅相计算

　　杂波图恒虚警检测的主要功能是利用相应方位的杂波图输出作为门限，对零号滤波器各距离单元进行检测。其他滤波器输出采用单元平均CFAR处理方法对每个距离单元进行检测，同一个距离门的N-1个多卜勒通道检测结果选大作为CFAR检测结果，并与杂波图检测输出经或门后作为最终检测结果。检测结果有目标输出时，保留其幅值、相位信息。

　　程序流程分别从LINKX接收各自段的数据，先对数据作CFAR处理，检测到目标后，保存对应距离/多普勒单元信息，等到所有数据都处理完后，把结果通过LINKX送往下一级，主程序流程如图5所示。

　　其中IRQ0是相干处理周期的起始信号，模式字的有效性通过校验码实现，高速通信口LINKX工作在DMA方式。

　　输入与输出的数据格式输入数据先是4个字的模式，接着是实、虚部交替的复数，个数同模式有关，每个复数对应一个距离/多普勒单元。CFAR检测结果格式，先是以4个字的模式，逐个字地检测到目标的个数，接着是各目标单元信息。

　　由于这一级在最不利的32点FFT情况下存储量大约为90 k个复数，所以DSP芯片选取了内存较大的ADSP21060.

　　（2）汇总与M/N检测

　　这一级的汇总任务是把4段的CFAR检测结果合并到一起，只要把各段中各个目标单元依据距离门的位置加以修整，然后搬到另一处缓冲区即可。这时目标信息排列的顺序是按距离门号依次递增的，先搬整个距离段上距离门号最小的第1段，再搬第2,3,4段。

　　M/N检测在相干处理周期间进行，其准则是相邻3个相干处理周期内至少有2次在同一个距离门上检测到目标，确认为相对应距离单元上有目标输出，这时保留相应单元上最新的幅值作为检测结果。

　　程序流程如图6所示。分别从LINK2,LINK3,LINK1,LINK5接收4个距离段上的检测结果，把4段的结果合并在一起，形成整个距离段完整的结果。然后和以前2次检测的结果进行M/N检测，最后把M/N检测的结果通过LINK0发往接口板。

　　四段的输入数据格式相同先是4个字的模式，逐个字地检测到目标的个数，接着是各目标单元信息。存储量不大，选取了内存较小的ADSP21062.

　　4.3 运算量、内存、通讯资源占用情况

　　在CFAR检测中，包括零多卜勒通道各距离门利用相应波位的杂波图作为门限进行检测，剩余滤波器在距离上的单元平均恒虚警检测。其运算量主要集中在单元平均恒虚警中，这里除了第1个距离单元两端各项需经L个数据平均外，在第2个距离门后的其余距离单元检测时，前后各L个数平均只需加上1个新移进的值，减去移出的值即可，这样对每个距离门检测来说只需约8条指令。汇总部分运算量不大。由于汇总要处理前一级众多DSP芯片数据，因此此处数据通信充分利用互连网络的各通讯支路进行数据转发，其前一级运算部分在缓存及时间上要给此部分留有一定余量。

　　CFAR一级在32点MTD模式下存储压力较大，因此采取了以下措施：输入/输出以及中间结果都是短字定点格式，在开始CFAR检测前要先转换成长字的浮点格式进行各种运算，最后把CFAR结果经过定浮点转换作为16 B定点格式保存下来，其余部分的运算也需要先把CFAR结果转换成32 B浮点格式，不过是在所调用的子程序内部完成的。作为运算的中间结果，目标单元幅值的存储使用了循环寻址方式，因为一批数据在一边被进行处理的同时一边会被新来的数据覆盖掉，这一过程是以距离门的顺序进行的，而CFAR检测也是沿着距离门滑动的，在对第18号距离门检测时，第0号距离门的数据就没有任何用途了，这样就可以把第18号距离门的幅值存到第0号距离门的位置。同样地第19号距离门的幅值也可以存到第1号距离门的位置，从而构成了循环寻址存储方式。其他一些中间结果也采用了这种存储方式，有效地节省了内存资源。

　　CFAR一级包括单元平均恒虚警检测和幅相计算2部分，运算量主要集中在前一部分，占90%左右，到后面的数据量已经大大减少了。汇总一级的运算量主要集中在M/N检测部分，但总的运算量不大。

　　5 结语

　　本文讨论了一种恒虚警检测的并行处理系统的设计，选取通用并行DSP作为核心处理单元，通过高速数据通信口构成了松耦合的分布式并行系统，在处理单元数目较多的情况下获得了很高的性能。结合雷达信号处理的特点对任务进行分配，运用数据流驱动方式增强了信号处理系统的通用性和易维护性，整个系统具有良好的可编程、可扩展和升级能力。

关键字：并行信号处理系统 DSP 引用地址：基于基于DSP的并行信号处理系统设计方案的并行信号处理系统设计方案

上一篇：新思科技公司推出其Synopsys HAPS®-70系列基于FPGA的原型验证系统
下一篇：基于DSP在射频识别系统中的应用

推荐阅读最新更新时间：2024-05-02 22:26

分布式温度采集记录仪的设计与实现

随着现代信息技术的飞速发展，分布式温度测量控制系统在工业、农业及人们的日常生活中扮演了一个越来越重要的角色。因此，对温度采集控制系统的设计与研究就具有十分重要的意义。系统总体设计方案 TMS320F2812是TI公司推出的150MHz高速处理能力的高精度定点数字信号控制器。本设计采用TMS320F2812作为数据处理与控制单元，以Maxim公司的单线数字温度计DS28EA00为基础，通过DSP控制温度传感器顺序采集各个测量点的温度，经处理送LED显示并暂存到外扩RAM中，当满足特定的要求时，将数据存储到U盘或SD卡以便于以后分析处理。温度采集记录仪的硬件电路主要包含6个部分：DS28EA00温度测量模块、USB接口模块、SD卡

[嵌入式]

电量测量装置的高精度校验实现方案

本文叙述在进行电量测量装置的高精度校验中，采用数字信号处理器TMS320F206及其与工业控制PC机（IPC）的ISA总线、双口SRAM、高精度A/D转换器等接口电路的实现方法。在进行常规电量测量装置的校验中，作为校验装置，一定要对电压、电流的幅值、频率、相位等进行高精度测量，在校验装置中采用TI公司DSP器件TMS320F206控制A/D转换、数据采集和数字滤波处理，并把滤波处理后的数据传送给微机进行数据的进一步处理，实现了高精度电表校验的要求。测量单元的组成及其功能测量单元是作为系统的高精度“标准表”，要完成对交/直流电压、电流的多个电量测量，测量的精度小于0.05级，测量单元采取插卡式设计，直接插入IPC（

[测试测量]

基于CPCI接口DSP板的雷达目标模拟器

　提出一种基于 CPCI 接口DSP板的C波段雷达目标模拟器。探测回波模拟，采用软硬件相结合的方法。由主控计算机根据雷达工作参数预先设定并计算目标数据，然后将数据加载到硬件电路中。硬件电路实时合成雷达回波信号并输出。利用DSP/FPGA的高速计算性能、直接数字合成(DDS)技术和数字射频存储(DRFM)技术，可以实现相位编码、线性调频、非线性调频等多种复杂方式下的目标回波信号的实时模拟，检测雷达的跟踪精度、角精度等指标。　　1 功能及系统组成　　所设计的多目标雷达模拟器为配合某型宽带雷达系统进行设备调试和功能检查。模拟器将雷达发射波形经延迟、幅度相位调制和多普勒频移等形成模拟目标回波，通过天线发送或直接注入给试验

[嵌入式]

基于CPCI接口<font color='red'>DSP</font>板的雷达目标模拟器

CS4235在DSP嵌入式系统的应用研究

引言　　　　目前，由于采用的录放音芯片结构简单、采样率过低而使得嵌入式系统中的音质效果比较差，远远满足不了人们对高档生活、学习用嵌入式系统的要求。如果能将声卡技术应用到嵌入式系统中，由于声卡的强大功能，必将使整个系统的声音质量上升一个新的台阶。通过分析，WSS（Windows Sound System）兼容声卡和PC机ISA总线的接口原理，我们将其中的声效芯片CS4235应用到基于DSP的嵌入式系统中。不用现成的声卡而利用其上的声效芯片是因为这样做设计起来更灵活方便，可根据系统需要增删相应的功能；不用MCS51系列而采用DSP，是因为对声卡操作需要太多的系统资源，MCS51并不具备此能力，否则硬件接口电路将相当复杂。

[模拟电子]

CS4235在<font color='red'>DSP</font>嵌入式系统的应用研究

采用DSP免提开发平台的车载信号处理与音频系统

回声消除(AEC)可实现汽车内舒适的全双工免提通话，本文介绍的Clarity CVC-HFK可提供集成的单扩音器解决方案(OMS)噪声抑制算法，它支持自适应噪声消除功能，可降低麦克风(传入)信号中的环境噪声，并提取所需的语音，还可向远端用户传输清晰的话音(传出)。两个因素决定了使用免提蜂窝电话系统的必要性，首先是由于目前的蜂窝电话系统的终端多为手持的，这就给司机造成了不便。司机常常要放下手机两只手驾驶，如转弯等，然后在转回谈话。电话交谈的中断很不方便，甚至还会造成经济成本损失，因为移动电信收费相当高。再一个重要因素就是安全性。不妨设想一下只用一只手操纵方向盘、打着手机的司机。既然司机不能双手操纵方

[嵌入式]

基于DSP的电力线载波OFDM调制解调器

　　利用电力线作为信道进行通信是解决最后一公里问题的一个很好的方法。然而电力线作为通信信道，存在着高噪声、多径效应和衰落的特点。ＯＦＤＭ技术能够在抗多径干扰、信号衰减的同时保持较高的数据传输速率，在具体实现中还能够利用离散傅立叶变换简化调制解调模块的复杂度，因此它在电力线高速通信系统中的应用有着非常乐观的前景。文中给出一种基于正交频分复用技术（ＯＦＤＭ技术）的调制解调器的设计方案。　　１ＯＦＤＭ原理　　ＯＦＤＭ全称为正交频分复用（ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅｘｉｎｇ），其基本思想是把高速数据流经过串／并变换，分成几个低比特率的数据流，经过编码、交织，它们之间具有一定的

[应用]

DSP编程技巧-使用代码优化时必须考虑的五大问题

　　1. 小心使用汇编表达式　　在 C/C++ 代码中，有时候一些操作难免会对某些CPU寄存器进行操作，此时要使用内嵌的汇编表达式，例如asm("EALLOW")，或者重置某个中断的掩码寄存器等。在优化代码时，编译器会重新调整某些代码段的顺序，自己决定使用某些寄存器(例如AR0-AR7这样的辅助寄存器)，甚至删除某些编译器认为无用的变量、函数等，但是编译器一般情况下并不会对内嵌的汇编代码进行任何优化(除非这段汇编代码被编译器认为是永远不会执行到的无用代码)，这就造成了编译器的优化效果在这段汇编代码和它的上下文代码中无法进行有效的优化，特别是汇编代码和 C/C++ 代码直接存在变量调用的情况下。所以非必要的情况下，要尽量避免C

[嵌入式]

用单片机实现DSP在线调试的一种方法

通常情况下，进行DSP系统开发调试时，都要配备一片SRAM芯片作为片外程序RAM。调试时，使用相应的仿真板将程序下载到SRAM中，这样DSP系统通过运行SRAM中的程序代码来实现相应的操作。可以看到，DSP系统调试时，关键是要将程序下载到SRAM中，因此如果能将程序代码通过单片机写入 SRAM中，则同样可以完成对DSP系统的调试。下面具体介绍在不使用仿真板的情况下，如何运用单片机AT89S5l对DSP芯片 TMS320LF2407进行在线调试。 1 硬件设计 1.1 TMS320LF2407在线调试的实现过程　　完成DSP系统的调试，首先要将程序的源代码写入片外SRAM中。此时，单片机与SRAM组成一个系统，单片机可将分离出来

[嵌入式]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂