基于四核DSP的视频交通检测系统设计

发布者:创新火箭最新更新时间:2009-11-02 来源: 微型机与应用关键字:视频检测  数字信号处理器  并行系统 手机看文章 扫描二维码
随时随地手机看文章

  交通信息视频检测系统是通过图像分析的方式获取交通信息数据的设备,是智能交通系统ITS(Intelligent Transportation Systems) 的重要组成部分[1-2]。此系统以道路上方架设的摄像机作为传感器,将路面交通图像传到交通信息视频检测系统,对图像进行实时分析,提取出车辆运行交通信息数据(包括车流量、车速度、车辆密度等),通过一定的通信链路发给交通信息控制中心。此类系统具有准确度高、寿命长、易维护等优点。另外,大量的交通图像数据和不断发展的处理算法以及各种现实需求对硬件系统性能的要求越来越高,单一处理器必将不能满足需要,并行、通用且处理能力强大的多处理器系统逐渐受到重视和应用。本文提出一种新型的基于四核DSP并行体系结构的交通信息视频检测系统的设计方案,采用4个DSP处理器并行处理图像数据,极大提高了系统数据处理能力和传输性能。

  1视频检测系统整体方案

  目前交通信息视频检测系统较为复杂,而且稳定性不高、价格昂贵、实时性不强,需要专人管理,操作较为繁琐。本设计系统框图如图1所示采用4核DSP结构,通过4个系统单元间通信接口的连接,将4个数字信号处理器DSP相结合,体现了4微处理器系统的优势。系统单元实现检测算法并与外部设备交换数据。系统工作时,CCD摄像头采集车流图像信号经模数转换得到数字视频数据,数字视频数据存入视频缓冲器FIFO中,存满一行后向4×DSP系统发出中断请求信号;DSP中断CPU,将数字视频数据传输到内部存储器SDRAM中,完成数字视频图像的采集和YUV变量分离,合成一帧完整的数字图像数据;然后产生中断通知算法处理程序对图像进行处理,结果存储在DSP地址空间约定好的缓冲区里,等待外部设备取走检测结果,以作后续处理。

系统框图

  2 DSP简介

  DSP(数字信号处理器)自从1982年诞生以来,获得了飞速的发展。本文采用4颗TI(Texas Instrument)公司高端DSP-TMS320C6416所设计,具有主频高、双套外部地址和数据总线等特点,非常适用于图像处理等领域。有关该芯片的特点如下,详细资料可见参考文献[3]。

  (1) DSP内核采用超长指令字(VLIW)体系结构,有8个功能单元、64个32   bit通用寄存器。一个时钟周期同时执行8条指令,运算能力可达到 4800MIPS(每秒百万条指令),支持8/16/32/64 bit的数据类型。两个乘法累加单元一个时钟周期可同时执行4组16×16 bit乘法或8 组8×8bit乘法,每个功能单元在硬件上都增加了附加功能,增强了指令集的正交性。除此之外还增加了一些指令用以削减代码长度和增加寄存器的灵活性;

  (2)为使数据能保持对超快速DSP内核的供给,TMS320C6416采用了两级超高速缓存器,即16 KB的一级数据Cache、16 KB的一级程序Cache和1 024 KB的数据和程序统一内存。为了达到更大的扩展,1 024 KB内存中的256 KB存储空间可设置用作二级Cache;

  (3)TMS320C6416的存储器接口提供了到SDRAM、SBSRAM、异步器件如SRAM/ROM等存储器的无终端接口,也可连接到外部I/O器件;

  (4)在TMS320C6416 中,增加了一个PCI接口,支持32bit宽的地址和数据复用总线,工作频率最高为33MHz;

  (5)DSP器件比通用CPU家族的动辄几十瓦而言,其功耗一般在数瓦甚至毫瓦量级,这在各种功耗敏感场合显示出独特的优势,同时省去了繁杂的散热系统。本文采用C6416,I/O电压为3.3 V,内核电压为1.2 V。当时钟频率为600 MHz时,DSP的最大功耗小于1.6 W。

  2.1 4×DSP的并行图像处理系统

  使用4个TI公司高端数字信号处理器TMS320C6416构建一种新型的并行图像处理系统。该系统通过一个同步4口SRAM和系统总线构成互连结构,兼有紧耦合并行系统和松耦合并行系统的优点[4]。

  2.2 4×DSP并行系统结构

  图像处理算法灵活多样,而且还在不断地迅速发展,为满足日益复杂的图像处理算法和逐渐变大的图像规模,出于通用性考虑,系统中处理器之间需要灵活的、高带宽的通信和握手机制。图2给出了所设计的并行系统框图,采用4颗TMS320C6416芯片,能较快完成以前一台计算机需要长时间才能完成的任务。

  从图2可以看出,该系统以紧耦合系统和松耦合系统为基础构架而设计的,结合了两者的优点。紧耦合系统通过共享的存储器来实现处理器之间的通信,处理器之间的联系比较紧密。松耦合系统中每个处理器节点带有存储器[5],处理器之间通过消息传递的方式来相互通信。该系统每个节点即是一台完整的DSP处理器并且带有SDRAM存储器,属于松耦合系统;而所有节点共享一个同步4口SRAM存储器,构成的整体是一个单一计算资源,属于紧耦合系统。因此,该系统具有紧耦合系统和松耦合系统的优点,相比于前面两者具有增强的可用性和更好的性能。

4

  2.3同步4口SRAM通道划分

  将容量为128 KB的同步4口SRAM划分为7个区域(见图3),除一个公共区域外,其余6个区域用于DSP之间的互相通信。根据同步4口SRAM的特点,这6个区域可以同时使用,即这6个区域为DSP之间的通信构建了独立“通道”,通道之间相互独立、互不干扰并可以同时使用。同步4口SRAM的总线频率工作为133 MHz,数据宽度为16bit,其带宽为266 MB。由于设计的对称性,无论采用乒乓法还是热土豆法来测量点到点的通信开销,其结果都是一样的。

同步4口SRAM通道划分

  2.4系统工作原理和性能分析

  数字视频数据存入视频缓冲器FIFO,这一速度可达266Mb/s。在DSP-1的DMA控制器作用下,前端数据缓冲FIFO中的数据被不断地转移到同步四口SRAM中,然后各个DSP分别或者同时读取要处理的数据。因为前端FIFO和同步四口SRAM都挂接在DSP-1的独立接口上,因此数据分配过程不会打扰到DSP-1本身算法的执行,甚至不会干扰到DSP-1对其外接的SDRAM存储器的读写操作。各个DSP协同完成整个图像处理算法,过程中可能会存在相互之间的通信或者数据交换,这同样通过同步四口SRAM完成。初始化时,各个DSP将程序分别下载到各自的代码空间和数据空间;对数据处理完成后,再不断地通过PCI总线将处理的结果分别送出。此外,系统上留有足够的扩展接口,方便对系统的进一步扩展。

  采用4个TI公司高端数字信号处理器TMS320C6416的并行图像处理系统。单个的数字信号处理器TMS320C6416的频率为600MHz,处理器的运算能力4800MIPS,处理器的本地SDRAM为32 MB。现在的4×DSP系统,具有处理器的最高性能19 200 MIPS,系统具有总SDRAM为128 MB+128 KB。另外,考虑加速比和效率[6-7]。加速比指对某个特定的应用,使用并行算法的执行速度相对于串行算法的执行速度所快的倍数;并行系统的效率则指加速比与处理器个数之比。根据Amdahal定律[4],加速比会随着处理器数目的增加而提高,但是存在极限,而且这一极限是由问题本身所决定的,因为随着处理器数目的增加,额外开销会越来越大。对一幅1024×2048像素,每个像素1B的图像进行FFT运算,单一处理器运算时间为82 715.020 ms,4个处理器运算时间为20 703.770 ms,可得加速比为3.995,并行系统的效率为99.88%。可见,系统性能得到大幅提升。

  随着数字信号处理器的飞速发展,图像处理算法更加复杂,多个DSP并行协同工作的构架将越来越多地被采用,应用会更加广泛。为满足日益复杂的图像处理算法和不断增加图像规模,采用4颗TMS320C6416芯片,设计了一套通用的高性能并行图像处理系统,能较快完成以前1台计算机需要长时间才能完成的任务。该系统可以作为一个通用的视频检测的硬件平台,实现多种检测算法,具有很好的可扩展性,容易在此基础上进行二次开发。实验和应用结果表明,该系统能够实时地计算交通信息参数,并实现图像和数据的网络传输,具有强大的视频处理能力和网络功能。总之,该方案灵活、简单,能够满足实时性的要求,实践证明可应用于车流量检测系统中以提高了系统的整体性能。

关键字:视频检测  数字信号处理器  并行系统 引用地址:基于四核DSP的视频交通检测系统设计

上一篇:一个针对FPGA的完全可配置嵌入式32位RISC处理器
下一篇:低成本FPGA集成收发器,市场应用大幅拓展

推荐阅读最新更新时间:2024-05-02 20:54

ARM、MCU、DSP、FPGA、SOC你知道是什么吗?
ARM ARM处理器是Acorn计算机有限公司面向低预算市场设计的第一款RISC微处理器。更早称作Acorn RISC Machine。ARM处理器本身是32位设计,但也配备16位指令集,一般来讲比等价32位代码节省达35%,却能保留32位系统的所有优势。 ARM历史发展: 1978年12月5日,物理学家赫尔曼·豪泽(Hermann Hauser)和工程师Chris Curry,在英国剑桥创办了CPU公司(Cambridge Processing Unit),主要业务是为当地市场供应电子设备。1979年,CPU公司改名为Acorn计算机公司。 起初,Acorn公司打算使用摩托罗拉公司的16位芯片,但是发现这种芯片太慢也
[单片机]
ARM、MCU、<font color='red'>DSP</font>、FPGA、SOC你知道是什么吗?
基于TMS320C6678 DSP的电源设计方案
TMS320C6678 DSP是TI最新发布的一款基于KeyStone架构的DSP,芯片内有8个内核,工作速度可达10 GHz.随着这款产品各方面的性能指标增加,对电源供应也提出了很高的要求,普通的稳压电源早已不能满足。由于现在的信号处理板上大多需要多片DSP协同工作,所以在本设计中,以两片6678DSP电源方案为例,将UCD9244作为电源的主要控制芯片,设计出的电源可同时满足这两片DSP的供电需求。   1 电源硬件电路设计与计算   1.1 系统总体方案设计   图1是系统的组成框图。采用统一的12 V电源进行供电,DSP的内核电压由一片UCD9244和两片UCD7242组成;经过TPS54620产生的3.3 V电
[嵌入式]
基于TMS320C6678 <font color='red'>DSP</font>的电源设计方案
新兴WiMax和家用基站市场起飞,多核DSP厂商奔向IPO
英国多核DSP供应商picoChip日前宣布,在其第四轮融资中共融得2,700万美元的新投资,至此该公司获得的总投资达到7,050万美元。这家2000年成立的无线基站芯片供应商表示,这也是其上市前最后一轮融资,随着WiMax基站和家用基站市场起飞,此轮融资将让picoChip公司在未来18-24个月内实现赢利,并按计划上市(IPO)。 Highland Capital Partners领导了此轮融资,并与未公开的重要战略投资商共同进行了投资。picoChip公司目前的投资者包括Atlas Venture、Pond Venture Partners Ltd.、Scottish Equity Partners、Rothschild、
[焦点新闻]
基于DSP的一体化水轮发电机控制系统设计与实现
电能由于其生产、使用方便,输送安全经济的优点逐渐成为了世界第一能源。并且,电能相较于其他能源具有可再生性,能够广泛运用于社会生产生活,对社会发展具有重要意义。电能如此重要,所以我们才需要对其加以控制,使电能更好地方便人们的日常生活、维护社会的和谐以及国家的稳定。我们都知道任何电产品都有关于额定电压、电流、功率等相关指标,这也就是说明我们所提供给用户的电能也应该有详细的指标,即是电能质量指标。因此,控制发电源头,使生产出来的电不断趋近于合格指标然后再并入电网,可以使可用电能得到极大的优化。 1 目前水力发电现状 从我国的地域资源来看,河流众多的情况为水利发电带来了巨大的潜力,尤其是小型水利发电。但目前小型水电站综合自动化程度
[嵌入式]
Altera彻底改变基于FPGA的浮点DSP
Alter公司昨日宣布在FPGA浮点DSP性能方面实现了变革。Altera是第一家在FPGA中集成硬核IEEE 754兼容浮点运算功能的可编程逻辑公司,前所未有的提高了DSP性能、设计人员的效能和逻辑效率。硬核浮点DSP模块集成在正在发售的Altera 20 nm Arria 10 FPGA和SoC中,也集成在14 nm Stratix 10 FPGA和SoC中。集成硬核浮点DSP模块结合先进的高级工具流程,客户可以使用Altera的FPGA和SoC来满足越来越高的大计算量应用需求,例如高性能计算 (HPC)、雷达、科学和医疗成像等。 含在Arria 10和Stratix 10器件中的硬核单精度浮点DSP模块基于Altera创
[嵌入式]
Altera彻底改变基于FPGA的浮点<font color='red'>DSP</font>
DSP与CAN总线的测速和远程传送一体化
  测量是控制工程的基本问题之一。在许多情况下,测速信号需要远距离传送。实现这个问题的一个主要方法是使用SoC(片上系统)芯片。它所带的丰富外设改变了关于硬件和软件的观念。搭建硬件系统变为对硬件结构的理解掌握,软件的编程也从算法编制为主变为部件设置为主,具有简捷、完整的特点,体现了芯片的技术优势。SoC类的TMS320LF2407DSP芯片在测速和远程传送应用中的简捷一体化设计也体现了这一点。   1 相关系统结构   TMS320LF2407所带有的事件管理器和CAN控制器模块为测速和远程传送提供了便利。 TMS320LF2407有2个事件管理器EVA和EVB,各有3个捕获单元。对应6个捕获输入引脚CAPX(对EVA,X=1,
[嵌入式]
基于USB与DSP的指纹识别系统的设计实现
摘要:介绍一种以高速的DSP芯片TMS320VC5402为平台对指纹图像进行实时处理的指纹识别系统,用USB接口芯片与主机进行通信。介绍了系统的硬件、固件、设备驱动程序和应用软件四个方面的设计与实现方法。 关键词:USB 指纹识别 图像处理 指纹的不变性和唯一性使指纹识别技术成为目前应用最广泛的身份验证。近年来随着最新信息处理技术的发展、算法理论的研究以及计算机硬件的高集成和低成本,指纹识别的可靠性不断提高,实用范围不断扩大。由于识别系统数据量较大且要求尽快传入上位机进行处理,所以合理设计数据传输通道成为设计的一个重点。 通用串行总线USB(Universal Serial Bus)是一种新型接口技术。它是由Intel、M
[嵌入式]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved