嵌入式可重构的多DSP图像并行处理系统

发布者:tony520最新更新时间:2009-02-27 来源: 单片机与嵌入式系统 关键字:图形并行处理  可重构  DSP  FPGA 手机看文章 扫描二维码
随时随地手机看文章

引 言

      随着多媒体图像处理应用的迅速发展,体积小、重量轻、结构灵活、处理能力强的嵌入式数字图像处理系统在工业、医学等方面都有越来越广泛的需求。实时性高、计算复杂、数据量大是图像处理系统面临的重大挑战。并行计算是提高处理速度最有效的技术之一,图像并行处理技术为提高图像处理效率提供了广阔的空间。图像并行处理包括并行算法和多处理器并行硬件系统,图像处理并行算法的执行效率依赖于多处理器系统的硬件结构。通常,一种并行结构只适合于一类并行算法的映射。

      20世纪90年代至今,图像并行处理技术一直是图像处理领域研究的热点之一。参考文献分别对并行处理结构及其实现方法进行了探讨,提出了流水结构、分列并行等很有价值的硬件并行结构框架。目前,图像并行处理结构设计面临的主要问题可以概括为两个方面:

      ①图像并行处理硬件结构复杂,在实际应用中图像处理结构的开发周期长、成本高;

      ②面向图像处理算法的硬件结构针对性设计方法导致图像处理平台的可重用性差,调整、扩展和升级困难。

      本文构建的可重构并行计算系统可以通过配置可重构处理单元来满足不同应用的计算要求。这样的系统使图像处理结构设计与图像处理的算法设计分离,具有很高的性能并且结构灵活,能大大提高图像处理并行算法的执行效率和加速比。

1 传统图像并行处理技术

1.1 图像并行处理系统概述

      目前,用于嵌入式图像处理系统的高速器件主要是DSP和FPGA。处理核心的合理选用是影响并行系统处理能力的一个关键因素。

      并行处理的目的是通过采用多个处理单元同时处理输入信息来缩短任务的执行时间。在任务和算法确定的情况下,Amdahl定律可表明:加速比与任务并行度和处理单元个数密切相关。在任务并行度一定的情况下,增加处理单元所获得的加速比有一个极限值,任务的并行度制约着并行处理机的性能。

      在实际应用中,还必须考虑各个处理单元之间的数据交换和同步时间。由于比串行程序执行增加了数据通信和同步等待等开销,因此当加速比Sp

      如图1所示,在增加处理单元和任务细粒度化的同时将带来总通信量的增加,影响了Sp的增加并导致Eff呈下降趋势。

1.2 并行计算硬件体系结构

      并行计算处理单元之间的网络结构大致可分为2种:一种是共享总线或共享存储器系统,称为“紧耦合式并行系统”,如图2所示;另一种是各处理单元有独立的数据存储器而通过通信口相连的分布式并行系统,称为“松耦合式系统”,如图3所示。

      两种并行计算体系结构的比较如表1所列。

1.3 并行算法到并行结构的映射

      一个任务要在多处理机系统上得到处理,首先必须将其分解成一些子任务,再由多处理系统中的各处理机分别处理这些子任务,协同完成该任务。如图4所示,并行算法在并行硬件系统上的应用是一个映射过程。一类并行算法依赖于适合的并行网络结构才能高效率地运行。

      导致并行算法与并行结构不匹配的原因主要有2个:一是欲把一个系统上开发的并行算法用于另一个系统上;二是由于问题内在的并行性,使并行算法与并行结构不匹配。

      常用图像处理算法的特点及适用的并行处理结构分析如表2所列。

      综上所述,传统的共享总线系统与分布式并行系统分别适用于不同的图像并行处理算法。分布式并行系统的不同连接方式之间也有较大的差异。并行算法的高效率运行依赖于并行硬件拓扑结构的支持,某种硬件结构只适合一类并行算法。一般情况,一个图像处理任务是多个算法的集合,并行系统单靠某种固定结构无法适应所有的并行算法,这就给图像处理系统带来了问题。当并行硬件拓扑结构不适合并行算法时,系统的性能和算法执行效率都会受到影响,需要对并行硬件结构做出改进和完善。

[page]

2 可重构数字图像并行处理系统

2.1 可重构处理系统的组成

      可重构计算是指基于可改变(可动态改变)的硬件,以硬件适应算法(即可重构特性)、硬件定制和硬件并行的方式实现计算。可重构处理系统结合了可重构硬件处理单元和软件可编程处理器,系统允许对可重构处理单元进行配置以满足不同应用的具体计算要求。

      如图5所示,可重构处理系统的组成基本相同,即通用处理器(阵列)、可重构资源(阵列)、存储器(阵列)、公用存储器、系统接口等。面向图像处理的可重构系统在器件选用上通用处理器可采用适合图像处理的高性能DSP阵列。

2.2 可重构数字图像并行处理系统的优点

      可重构数字图像并行处理系统有以下优点:

      ①FPGA内部的逻辑功能可以在系统运行过程中动态重载,使系统可以实现多DSP之间拓扑的灵活改变以适应各种并行算法的需求,使算法执行效率达到最高。静态重构和动态重构使系统相比传统固定系统具有很强的通用性和适应性。

      ②系统的“多DSP+FPGA”结构能将系统任务划分成适合FPGA处理的低层信号处理和图像预处理部分及适合DSP处理的算法,便于发挥两者的优势;且FPGA可通过软件适应不同时序格式的数字图像,使得系统具有很高的性能和灵活性。

3 系统设计实例

3.1 系统硬件结构

      基于TI公司C6000系列DSP和Xilinx公司Spartan一3系列FPGA,构建基于图像的点源目标识别系统,对在线可重构数字图像并行处理系统的可实现性和性能进行验证。

      硬件结构如图6所示。图像输入FPGA—P,各DSP分别外扩一片双口RAM,且将总线EMIFA接到FPGA—P。FPGA—P可用来完成图像时序处理、图像数据的转换、图像滤波等预处理工作,且可以灵活地将处理后的图像数据保存到大容量公用数据存储器SRAM中,并将各DSP访问的仲裁逻辑或分配保存到各DSP外扩的双口RAM中。这种结构使系统可以轻松地适应多路图像输入。

      DSP阵列可以并行完成各种图像处理算法。FPGA-C建立起DSP间的通信链路且暂存各DSP的处理结果。构建通信链路的方法有:用FPGA—C在两DSP之间构造FIF0或小容量双口RAM,构建EMIF—HPI通路等。DSP-M可以根据算法需求通过McBSP在线配置FPGA—C,FPGA—C的配置文件存放在DSP—M外扩的Flash中,这样就实现了DSP对FPGA的在线可重构。同时,DSP-M扩展了USB、PCI、McBSP等多种接口用来输出图像处理结果。

3.2 实验及结果分析

      系统用于实现4路分辨率为256×256、帧频为50 Hz的8位图像(如图7所示)的移动点源目标识别。

      处理过程包括图像时序采集、转换,图像滤波,去除噪声,姿态融合和目标识别等环节。图像分配和算法执行所需平均时间仅为9.5 ms。

      若用共享总线系统来实现,则多路图像数据的存储和分配以及处理器之间的通信将消耗大量时间,大大降低系统效率。若用分布式并行系统来实现,则姿态和多路图像的综合处理会给某一个处理器带来很大的通信量和运算量。将实验中的图像处理任务在同等规模的3种系统上分别实现,执行时间如图8所示。

      如图9所示,这些不同形式的计算系统是性能和通用性的不同折衷。可重构算系统代表了介于ASIC和通用处理器之间的计算途径,在通用性和性能上都优于传统的硬件系统。图像处理中数据量大、算法复杂,与其他计算技术相比,可重构计算能充分发挥出效率优势。可重构系统具有很多优点,但重构延迟和软硬件划分问题是应用中需要重点考虑的问题。

结 语

      传统固定结构并行图像处理系统不能适应多种图像处理并行算法。而可重构数字图像并行处理系统数据流和结构组织灵活,适于模块化设计,能大大提高并行算法的执行效率;有较强的通用性,同时其开发周期较短,易于维护和扩展。可重构数字图像并行处理系统为多媒体图像处理提供了一个非常有价值的发展方向。

关键字:图形并行处理  可重构  DSP  FPGA 引用地址:嵌入式可重构的多DSP图像并行处理系统

上一篇:Douglas全球企业部署微软POSReady 2009
下一篇:基于Linux的Gameboy模拟器移植和优化研究

推荐阅读最新更新时间:2024-05-02 20:46

售价低至30美分:AGM FPGA系列超值型1K/3K全新面世
电子报道:AGM FPGA系列1K/3K超值FPGA,批量订货价格低至30美分。以超值功能、超值成本、超值工具和超值服务提供超值应用的开发首选。无与伦比的超值特性在业界再次刷新高性价比FPGA纪录。 2017年6月15日— 日前,业界领先的FPGA供应商AGM(遨格芯)为进一步扩大CPLD/FPGA的低功耗和容量的选择范围,正式推出多个系列超值型FPGA新品。 AGM FPGA系列提供了多达52个产品型号,包括LQFP100, LQFP144, LQFP176, QFN48, WLCSP, BGA36, BGA256等7种封装类型选择。并持续以前所未有的设计灵活性和高兼容度轻松应对飞速发展的智能和高性能应用挑战。  AGM
[手机便携]
如何由单片机升级到DSP
  在过去的几十年里,单片机的广泛应用实现了简单的智能控制功能。随着信息化的进程和计算机科学与技术、信号处理理论与方法等的迅速发展,需要处理的数据量越来越大,对实时性和精度的要求越来越高,低档单片机已不再能满足要求。近年来,各种集成化的单片DSP的性能得到很大改善,软件和开发工具也越来越多,越来越好;价格却大幅度下滑,从而使得DSP器件及技术更容易使用,价格也能够为广大用户接受;越来越多的单片机用户开始选用DSP器件来提高产品性能,DSP器件取代高档单片机的时机已经成熟。   本文将从性能、价格等方面对单片机和DSP器件进行比较,在此基础上,以TI的TMS320C2XX系列DSP器件为例,探讨DSP器件取代单片机的可行性。  
[嵌入式]
TMS320C6678处理器的VLFFT演示
简介 本白皮书探讨了TMS320C6678处理器的VLFFT演示。通过内置8个固定和浮点DSP内核的TMS320C6678处理器来执行16K-1024K的一维单精度浮点FFT算法样本,检测其分别在采用1,2,4或8核时各自的运行时间。演示的结果证明了C66X DSP内核的优异性能,以及TMS320C6678处理器跨多核平行化执行性能与内核数量成正比的特性。本文的演示采用FFT算法,该算法在诸如医学成像、通信、军事和商业雷达以及电子战(干扰器、抗干扰器)等领域中被频繁应用。本文演示结果显示,在运行速率为1 GHz,DSP内核为8个时,用TMS320C6678处理器执行1024K的FFT算法样本只需要6.4毫秒。
[嵌入式]
TMS320C6678处理器的VLFFT演示
基于FPGA的LDPC编码器设计与实现
引言 低密度奇偶校验(Low Density Parity Check Code,LDPC)码是一类具有稀疏校验矩阵的线性分组码,不仅有逼近Shannon限的良好性能,而且译码复杂度较低, 结构灵活,是近年信道编码领域的研究热点,目前已广泛应用于深空通信、光纤通信、卫星数字视频和音频广播等领域。LDPC码已成为第四代通信系统(4G)强有力的竞争者,而基于LDPC码的编码方案已经被下一代卫星数字视频广播标准DVB-S2采纳。 编码器实现指标分析 作为前向纠错系统的重要部分,设计高速率低复杂度LDPC码编译码器成为提高系统性能的关键。对LDPC码来说,其编码复杂度相对较大,编码器的设计与实现是首要任务,也是译码器设计与实现的前提
[嵌入式]
基于FPGA+ DSP的实时图像处理系统设计与实现
摘 要: 针对图像处理系统计算量大、实时性高和体积小的要求, 研制了一种以DSP为主处理器FPGA 为辅处理器的高性能实时图像处理系统。利用这两种芯片的各自特点, 将算法分成两部分分别交由FPGA 和DSP处理, 大大提高了算法的效率。系统具有结构简单易于实现和运用方便灵活的特点, 加载上相应的程序之后能实现对所获取的图像跟踪、识别和匹配等处理方法。详细说明了系统的设计思路和硬件结构, 并在硬件系统上进行了算法仿真及实验验证。实验结果表明: 该系统实时性高, 适应性好, 能够满足设计要求。 1 引 言 图像处理系统的处理算法复杂, 计算量大, 处理实时性要求高, 同时系统的体积也有严格的限制。 因此在设计系统时必须综合
[嵌入式]
基于<font color='red'>FPGA</font>+ <font color='red'>DSP</font>的实时图像处理系统设计与实现
赛特斯:基于FPGA的vBRAS实现
在此次世界移动通信大会—上海站的站台上,赛特斯联合英特尔、联想和中国电信北京研究院发布了vBRAS产品。 如图所示,四家公司分别处于整个系统的四个层面,对于赛特斯来说,聚焦的就是边缘计算领域。 赛特斯研发总经理李晏介绍道,赛特斯的FlexBNG是基于NFV架构的虚拟化BRAS设备,通过云计算平台创建一套自主、灵活的网络,实现网络资源的随需调用和弹性共享,减少业务上线时间及快速响应新的业务需求。目前FlexBNG支持三层全解耦部署,目前已完成了与电信北研院的TeleNOS系统的对接与测试,以及联想ThinkCloud VFVI平台的对接和深度优化。 赛特斯研发总经理李晏 “联想提供的NFVI平台,不仅可以支持传统
[嵌入式]
赛特斯:基于<font color='red'>FPGA</font>的vBRAS实现
ALTERA FPGA在微处理器系统中的在应用配置
摘要:ALTERA公司SRAM工艺可编程器件应用广泛,专用配置器件比较昂贵。在具有微处理器的系统中,使用微处理器系统的存储器来存储配置数据,并通过微处理器配置FPGA,这种方法几乎不增加成本。微处理器根据不同的程序应用,采用不同的配置数据对FPGA进行配置,使FPGA实现与该应用有关的特定功能。详细介绍了微处理器系统中连接简单的被动串行配置方法和被动并行异步配置方法。 关键词:在应用配置 FPGA配置 被动串行 被动并行异步 可编程逻辑器件(PLD)广泛应用在各种电路设计中。基于查找表技术、SRAM工艺的大规模PLD/FPGA,密度高且触发器多,适用于复杂的时序逻辑,如数字信号处理和各种算法的设计。这类器件使用SRAM单元存
[半导体设计/制造]
实时DSP系统设计开发流程和DSP处理器开发工具简介
DSP系统设计开发流程 在设计需求规范,确定设计目标时,其实要解决二个方面的问题:即信号处理方面和非信号处理的问题。 信号处理的问题包括:输入、输出结果特性的分析,DSP算法的确定,以及按要求对确定的性能指标在通用机上用高级语言编程仿真。 非信号处理问题包括:应用环境、设备的可靠性指标,设备的可维护性,功耗、体积重量、成本、性能价格比等项目。 算法研究与仿真这是DSP应用实际系统设计中重要的一步。系统性能指标能否实现,以何种算法和结构应对需求,都是在这一步考虑的。这种仿真是在通用机上用高级语言编程实现的,编程时最好能仿DSP处理器形式运行,以达到更好的真实性。 DSP芯片选择中通常有下列几条应注意的: (1)精度:表数格式(定
[应用]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved