DSP FPGA 实时信号处理系统

发布者:caoda143最新更新时间:2006-11-23 来源: 电子技术应用关键字:ASIC  卷积  SRAM 手机看文章 扫描二维码
随时随地手机看文章
实时信号处理系统要求必须具有处理大数据量的能力,以保证系统的实时性;其次对系统的体积、功耗、稳定性等也有较严格的要求。实时信号处理算法中经常用到对图象的求和、求差运算,二维梯度运算,图象分割及区域特征提取等不同层次、不同种类的处理。其中有的运算本身结构比较简单,但是数据量大,计算速度要求高;有些处理对速度并没有特殊的要求,但计算方式和控制结构比较复杂,难以用纯硬件实现。因此,实时信号处理系统是对运算速度要求高、运算种类多的综合性信息处理系统。

  1 信号处理系统的类型与常用处理机结构

根据信号处理系统在构成、处理能力以及计算问题到硬件结构映射方法的不同,将现代信号处理系统分为三大类:

  ·指令集结构(ISA)系统。在由各种微处理器、DSP处理器或专用指令集处理器等组成的信号处理系统中,都需要通过系统中的处理器所提供的指令系统(或微代码)来描述各种算法,并在指令部件的控制下完成对各种可计算问题的求解。

  ·硬连线结构系统。主要是指由专用集成电路(ASIC)构成的系统,其基本特征是功能固定、通常用于完成特定的算法,这种系统适合于实现功能固定和数据结构明确的计算问题。不足之处主要在于:设计周期长、成本高,且没有可编程性,可扩展性差。

  ·可重构系统。基本特征是系统中有一个或多个可重构器件(如FPGA),可重构处理器之间或可重构处理器与ISA结构处理器之间通过互连结构构成一个完整的计算系统。

  从系统信号处理系统的构成方式来看,常用的处理机结构有下面几种:单指令流单数据流(SISD)、单指令流多数据流(SIMD)、多指令流多数据流(MIMD)。

  ·SISD结构通常由一个处理器和一个存贮器组成,它通过执行单一的指令流对单一的数据流进行操作,指令按顺序读取,数据在每一时刻也只能读取一个。弱点是单片处理器处理能力有限,同时,这种结构也没有发挥数据处理中的并行性潜力,所以在实时系统或高速系统中,很少采用SISD结构。

  · SIMD结构系统由一个控制器、多个处理器、多个存贮模块和一个互连网络组成。所有“活动的”处理器在同一时刻执行同一条指令,但每个处理器执行这条指令时所用的数据是从它本身的存储模块中读取的。对操作种类多的算法,当要求存取全局数据或对于不同的数据要求做不同的处理时,它是无法独立胜任的。另外,SIMD 一般都要求有较多的处理单元和极高的I/O吞吐率,如果系统中没有足够多的适合SIMD 处理的任务,采用SIMD 是不合算的。

  · MIMD结构就是通常所指的多处理机,典型的MIMD系统由多台处理机、多个存储模块和一个互连网络组成,每台处理机执行自己的指令,操作数也是各取各的。MIMD结构中每个处理器都可以单独编程,因而这种结构的可编程能力是最强的。但由于要用大量的硬件资源解决可编程问题,硬件利用率不高。

  2 DSP+ASIC结构

  随着大规模可编程器件的发展,采用DSP+ASIC结构的信号处理系统显示出了其优越性,正逐步得到重视。与通用集成电路相比,ASIC芯片具有体积小、重量轻、功耗低、可靠性高等几个方面的优势,而且在大批量应用时,可降低成本。

  现场可编程门阵列(FPGA)是在专用ASIC的基础上发展出来的,它克服了专用ASIC不够灵活的缺点。与其他中小规模集成电路相比,其优点主要在于它有很强的灵活性,即其内部的具体逻辑功能可以根据需要配置,对电路的修改和维护很方便。目前,FPGA的容量已经跨过了百万门级,使得FPGA成为解决系统级设计的重要选择方案之一。

  DSP+FPGA结构最大的特点是结构灵活,有较强的通用性,适于模块化设计,从而能够提高算法效率;同时其开发周期较短,系统易于维护和扩展,适合于实时信号处理。

  实时信号处理系统中,低层的信号预处理算法处理的数据量大,对处理速度的要求高,但运算结构相对比较简单,适于用FPGA进行硬件实现,这样能同时兼顾速度及灵活性。高层处理算法的特点是所处理的数据量较低层算法少,但算法的控制结构复杂,适于用运算速度高、寻址方式灵活、通信机制强大的DSP芯片来实现。

  3 线性流水阵列结构

  在我们的工作中,设计并实现了一种实时信号处理结构。它采用模块化设计和线性流水阵列结构(图1)。

  这种线性流水阵列结构具有如下特点:

  ·接口简单。各处理单元(PU)之间采用统一的外部接口。

  ·易于扩充和维护。各个PU的内部结构完全相同,而且外部接口统一,所以系统很容易根据需要进行硬件的配置和扩充。当某个模块出现故障时,也易于更换。

  ·处理模块的规范结构能够支持多种处理模式,可以适应不同的处理算法。

  每个PU的核心由DSP芯片和可重构器件FPGA组成,另外还包括一些外围的辅助电路,如存储器、先进先出(FIFO)器件及FLASH ROM等(图2)。可重构器件电路与DSP处理器相连,利用DSP处理器强大的I/O功能实现单元电路内部和各个单元之间的通信。从DSP的角度来看,可重构器件FPGA相当于它的宏功能协处理器(Co-processor)。

  PU中的其他电路辅助核心电路进行工作。DSP和FPGA各自带有RAM,用于存放处理过程所需要的数据及中间结果。FLASH ROM中存储了DSP的执行程序和FPGA的配置数据。先进先出(FIFO)器件则用于实现信号处理中常用到的一些操作,如延时线、顺序存储等。每个PU单独做成一块PCB,各级PU之间通过插座与底板相连。底板的结构很简单,主要由几个串连的插座构成,其作用是向各个PU提供通信通道和电源供应。可以根据需要安排底板上插座的个数,组成多级线性阵列结构。这种模块化设计的突出优点在于,它使得对系统的功能扩充和维护变得非常简单。需要时,只要插上或更换PU电路板,就可以实现系统的扩展和故障的排除。每一级PU中的DSP都有通信端口与前级和后级PU电路板相连,可以很方便地控制和协调它们之间的工作。

  4 应用实例

  我们应用上述线性流水阵列结构实现了一个实时目标检测系统,该系统的任务主要是接收摄像头输出的灰度图象,经预处理、编码、直线拟合和目标识别后,输出结果到PC机显示。在这个任务中,预处理模块包括抽样、卷积和编码等步骤,属于低层的处理,其运算数据量大,但运算结构较规则,适于用FPGA进行纯硬件实现;而直线拟合及目标识别等高层图象处理算法,所处理的数据量相对较少,但要用到多种数据结构,其控制也复杂得多,我们用DSP编程来实现。

  重构处理模块采用的是Xilinx公司的XC5200系列FPGA芯片。这是一种基于SRAM的现场可编程门阵列。表1给出了XC5200 系列FPGA的一些参数。

表1 XC5200系列FPGA的一些参数

 

  XC5200系列FPGA逻辑功能的实现由内部规则排列的逻辑单元阵列(LCA)来完成,它是FPGA的主要部分。LCA的核心是可重构逻辑块(CLB),四周是一些输入/输出块(IOB)。CLB和IOB之间通过片内的布线资源相连接。LCA由配置代码驱动,CLB和IOB的具体逻辑功能及它们的互联关系由配置数据决定。整个FPGA模块的设计实现在Xilinx公司的Foundation 2.1i开发平台上完成。该系统支持设计输入、

逻辑仿真、设计实现(设计综合)和时序仿真等系统开发全过程。

  在选用DSP芯片时,主要应考虑性能能否满足快速判读算法的要求,具体说就是要求选择那些指令周期短、数据吞吐率高、通信能力强、指令集功能完备的处理器,同时也要兼顾功耗和开发支持环境等因素。表2列出了一些常用微处理器的性能参数。

  我们选择的是应用广泛、性价比较高的TMS320C40芯片。它是美国TI公司推出的为满足并行处理需求的32位浮点DSP。主要特性如下:

表2 常用微处理器对照表

 

  ·外部时钟40MHz,内部时钟20MHz,所有指令均单周期完成,处理器内部采用高度并行机制,可同时进行多达11项各类操作。

  ·两套相同的外部数据、地址总线,支持局部存储器和全局共享存储器。

  ·6个高速并行通信口,采用异步传输方式,最大速率可达20Mb/s。通过令牌传递可灵活实现数据双向传输,这种结构很适合C40之间的互连。

  ·6个DMA通道,每个通道的最大速率可达20Mb/s。DMA内部总线与CPU的地址、数据、指令总线完全分开,避开了总线使用上的瓶颈。

  从结构和功能上看,C40很适合与可重构器件互相配合起来构成高速、高精度的实时信息处理系统,并完全可以胜任图像信息的实时处理任务;此外,C40的开发系统也比较完备,支持C语言和汇编语言编程,能够方便地进行算法移植和软/硬件的协同设计。

  衡量系统的整体性能不仅要看所使用的器件和所能完成的功能,还要看器件之间采用怎样的互连结构。XC5200可以完成模块级的任务,起到DSP的协处理器的作用。它的可编程性使它既具有专用集成电路的速度,又具有很高的灵活性。C40内部结构的主要优势是:所有指令的执行时间都是单周期,指令采用流水线,内部的数据、地址、指令及DMA总线分开,有较多的寄存器。这些特征使它有较高的处理速度。FPGA具有硬件的高速性,而C40具有软件的灵活性,从器件上考察,能够满足处理复杂算法的要求。同时,C40的6个通信口和6个DMA通道使其能够在不被中断的情况下比较从容地应付与外界大量的数据交换。

  从PU内部互连来看,C40使用了专用的通信口完成与FPGA的互连,能够保证在任何情况下FPGA与C40的数据通道的畅通。另外,FPGA和C40各自都有输入端口,使得系统的处理结构多样化。比如,FPGA可以作为处理流程中的一个模块,独立完成某项功能,也可以作为C40的协处理器,通过C40的调用来完成特定的子函数。底板将互连性延伸到PU之间,使得多个电路板能够组成多处理机系统。前级的C40既可以与下一级的C40通信,也可以将数据发送到下一级的FPGA。

  综上所述,本文提出的基于DSP+FPGA的线性流水阵列结构,为设计中如何处理软硬件的关系提供了一个较好的解决方案。同时,该系统具有灵活的处理结构,对不同结构的算法都有较强的适应能力,尤其适合实时信号处理任务。

关键字:ASIC  卷积  SRAM 引用地址:DSP FPGA 实时信号处理系统

上一篇:在FPGA中基于信元的FIFO设计方法
下一篇:结合FPGA与结构化ASIC进行设计

推荐阅读最新更新时间:2024-05-13 18:15

人工智能飞速发展,预计2025年深度学习芯片销量达到29亿
GPU和CPU目前在市场份额中处于领先地位,但到2022年ASIC将占据领先地位,SoC加速器和FPGA的机会也在增长。 在当今的人工智能市场,硬件是解决该行业许多挑战的关键,而芯片组是该硬件解决方案的核心。考虑到AI的广泛使用,几乎可以肯定的是未来的每个应用程序都需要使用AI芯片组进行某种加速,无论是在数据中心还是在边缘。加速可以采取多种形式,从在CPU上运行的简单AI库到更复杂的定制硬件。 Tractica预测,AI市场的这种增长和演变将推动深度学习芯片组的出货量从2018年的1.649亿增长到2025年的29亿单位以上。届时,深度学习芯片组的全球市场将达到726亿美元。到2025年,专用集成电路(ASIC)将占
[物联网]
人工智能飞速发展,预计2025年深度学习芯片销量达到29亿
时钟芯片的低功耗设计研究
   时钟 芯片广泛地应用于各种需要记录特定时间的设备中。对于 便携式 设备,时钟芯片的功耗对维持整个系统的正常时间记录是非常重要的。芯片具有较低的功耗,可以满足更长的工作时间要求。在 嵌入式系统 中,时钟芯片是工作频率较高的电路,降低其功耗,对于整个系统的功耗降低有着显著的作用。   在低功耗AS IC设计 中,前端的逻辑设计和后端的物理设计结合得越来越密切。系统的低功耗设计必须从设计的各个层次上加以考虑,以实现整体优化设计。在前端逻辑设计中,从分析功耗物理特性入手,进行功耗估计,为低功耗的整体设计提供理论依据,然后在后端的电路实现上加以控制,这样就可以更好地达到降低芯片功耗的目的。而且还可以降低设计成本,缩短设计周期。
[电源管理]
时钟芯片的低功耗设计研究
BaySand以EfinixTMQuantumTM可编程加速器技术
  加利福尼亚州圣克拉拉市及圣何塞市-可配置标准单元 ASIC 解决方案的领导者, BaySand  Inc.宣布与Efinix合作,以Efinix的Quantum可编程加速器技术平台提供 ASIC /SoC设计服务。下面就随嵌入式小编一起来了解一下相关内容吧。    BaySand 金属可配置标准单元(MCSC)的功耗、性能、面积属性非常接近标准单元 ASIC , 同时为客户的设计降低了光罩成本并缩短了进入市场的时间。   Efinix的Quantum可编程加速器技术之功耗、性能、面积,明显优于传统的可编程技术四倍以上。这一突破性优势使Efinix的硅产品能够在可编程逻辑、深度学习以及计算加速等高速增长的市场拥有竞争力。   
[嵌入式]
ATmega128 SRAM数据存储器
SRAM 数据存储器 ATmega128 支持两种不同的SRAM 配置,如Table 1 所示。 Figure 9 说明了ATmega128 的SRAM 存储器是如何组织的。 ATmega128是一个复杂的微处理器,其支持的外设要比预留的64个I/O(通过IN/OUT指令访问) 所能支持的要多。对于扩展的I/O 空间$60 - $FF,只能使用ST/STS/STD 和LD/LDS/LDD 指令。当ATmega128 工作于ATmega103 兼容模式时,扩展的I/O 将无法访问。 在普通模式下,前4352 个数据地址包含寄存器文件, I/O 存储器,扩展的I/O 存储器以 及内部数据SRAM。起始的32 个地址为寄存器
[单片机]
ATmega128 <font color='red'>SRAM</font>数据存储器
基于SRAM芯片立体封装大容量的应用
静态随机存储器(static RAM),简称SRAM。在电子设备中,常见的存储器有SRAM(静态随机访问存储器)、FLASH(闪速存储器)、DRAM(动态存储器)等。其中不同的存储器有不同的特性,SRAM无需刷新电路即能保存它内部存储的数据。而DRAM每隔一段时间,要刷新充电一次,否则内部的数据即会消失。与SDRAM相比,SRAM不需要时钟信号,即可保持数据不丢失。 1、VDMS16M32芯片介绍 VDSR16M32是一款工作电压3.3V,16Mbit,32位数据总线的立体封装SRAM模块芯片,由4个256K x 16bit的SRAM芯片堆叠而成。整个模块采用立体封装堆叠技术,它们之间的互相连接线非常短,寄生电容小。 1.1
[单片机]
基于<font color='red'>SRAM</font>芯片立体封装大容量的应用
豪威科技采用新型高性能OAX4000 ASIC图像信号处理器 降低汽车摄像头设计复杂度
豪威科技,全球排名前列的数字图像解决方案开发商,当日发布了新品OAX4000。这款配套图像信号处理器(ISP)可为下一代汽车单摄像头和多摄像头架构提供设计灵活度,使OEM厂商可以随着市场需求的变化,保持设计永不过时,实现更多功能。结合豪威科技全面的传感器产品组合,OAX4000提供了终极解决方案。 OAX4000完美适用于多种汽车应用,包括环视系统、电子后视镜、车内和自动驾驶摄像头,是一种高性能专用集成电路(ASIC),能够处理多达四个300万像素摄像头或一个800万像素摄像头产生的数据流。该产品支持多种滤色器阵列(CFA)模式,并为机器视觉和人类视觉管道独立提供输出流选项。此外,成像管道已经升级,可以提供优异的图像质量。该产
[汽车电子]
豪威科技采用新型高性能OAX4000 <font color='red'>ASIC</font>图像信号处理器 降低汽车摄像头设计复杂度
基于FPGA的RISC微处理器的设计与实现
20世纪80年代初兴起的RISC技术一直是计算机发展的主流,RISC微处理器的一些基本理论则是计算机领域的重要基础常识,但具体实现仍有难度。电子设计自动化(Electronic Design Automation,简称EDA)是现代电子设计的核心技术。利用EDA技术进行电子系统设计的主要目标是完成专用集成电路(ASIC)的设计,而现场可编程门阵列(FPGA)和复杂可编程逻辑器件(CPLD)是实现这一途径的主流器件。现场可编程通用门阵列(Field Program mableGateArray,简称FPGA)的内部具有丰富的可编程资源。FPGA外部连线很少、电路简单、便于控制。FPGA目前已达千万门标记(10million-gatem
[应用]
炬力采用S2C的第四代快速SoC/ASIC原型验证系统
中国, 上海 – 2011年2月16日 – S2C公司宣布炬力公司购买了S2C的第四代基于Stratix IV FPGA的S4 TAI Logic Module。 炬力从2009年起已成功地应用S2C的快速SoC / ASIC原型验证系统。基于这一成功,经过仔细和全面的评估,炬力决定扩大使用S2C的产品来加速SoC/ASIC设计过程,大量订购了双核S4 820E TAI Logic Module。 “我们在设计流程中采取S2C的快速SoC原型解决方案已经有很长时间,包括基于Xilinx FPGA的V5 TAI Logic Module硬件和TAI Player Pro软件。V5的可靠性,强大的可扩展性,以及TAI
[半导体设计/制造]
小广播
最新应用文章

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 安防电子 医疗电子 工业控制

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved