如何充分利用数字信号处理器上的片内FIR和IIR硬件加速器

发布者:EEWorld资讯最新更新时间:2020-06-22 来源: EEWORLD关键字:数字信号处理器  IIR硬件加速器 手机看文章 扫描二维码
随时随地手机看文章

摘要

 

有限脉冲响应(FIR)和无限脉冲响应(IIR)滤波器都是常用的数字信号处理算法---尤其适用于音频处理应用。因此,在典型的音频系统中,处理器内核的很大一部分时间用于FIR和IIR滤波。数字信号处理器上的片内FIR和IIR硬件加速器也分别称为FIRA和IIRA,我们可以利用这些硬件加速器来分担FIR和IIR处理任务,让内核去执行其他处理任务。在本文中,我们将借助不同的使用模型以及实时测试示例来探讨如何在实践中利用这些加速器。

 

简介

 

Figure 1. FIRA and IIRA system block diagram.

 

图1.FIRA和IIRA系统方框图

 

图1显示了FIRA和IIRA的简化方框图,以及它们与其余处理器系统和资源的交互方式。

 

FIRA和IIRA模块均主要包含一个计算引擎(乘累加(MAC)单元)以及一个小的本地数据和系数RAM。

 

 为开始进行FIRA/IIRA处理,内核使用通道特定信息初始化处理器存储器中的DMA传输控制块(TCB)链。然后将该TCB链的起始地址写入FIRA/IIRA链指针寄存器,随后配置FIRA/IIRA控制寄存器以启动加速器处理。一旦所有通道的配置完成,就会向内核发送一个中断,以便内核将处理后的输出用于后续操作。

 

 从理论上讲,最好的方法是将所有FIR和/或IIR任务从内核转移给加速器,并允许内核同时执行其他操作。但在实践中,这并非始终可行,特别是当内核需要使用加速器输出进一步处理,并且没有其他独立的任务需要同时完成时。在这种情况下,我们需要选择合适的加速器使用模型来达到最佳效果。.

 

在本文中,我们将讨论针对不同应用场景充分利用这些加速器的各种模型。

 

实时使用FIRA和IIRA

 

Figure 2. Typical real-time audio data flow.

 

图2.典型实时音频数据流

 

图2显示了典型实时PCM音频数据流图。一帧数字化PCM音频数据通过同步串行端口(SPORT)接收,并通过直接存储器访问(DMA)发送至存储器。在继续接收帧N+1时,帧N由内核和/或加速器处理,之前处理的帧(N-1)的输出通过SPORT发送至DAC进行数模转换。

 

加速器使用模型

 

如前所述,根据应用的不同,可能需要以不同的方式使用加速器,以最大限度分担FIR和/或IIR处理任务,并尽可能节省内核周期以用于其他操作。从高层次角度来看,加速器使用模型可分为三类:直接替代、拆分任务和数据流水线。

 

直接替代

 

内核FIR和/或IIR处理直接被加速器替代,内核只需等待加速器完成此任务。

 

此模型仅在加速器的处理速度比内核快时才有效;即,使用FIRA模块。

 

拆分任务

 

FIR和/或IIR处理任务在内核和加速器之间分配。

 

当多个通道可并行处理时,此模型特别有用。

 

根据粗略的时序估算,在内核和加速器之间分配通道总数,使二者大致能够同时完成任务。

 

如图3所示,与直接替代模型相比,此使用模型可节省更多的内核周期。

 

数据流水线

 

内核和加速器之间的数据流可进行流水线处理,使二者能够在不同数据帧上并行处理。

 

 如图3所示,内核处理第N个帧,然后启动加速器对该帧进行处理。内核随后继续进一步并行处理加速器在上一迭代中产生的第N-1帧的输出。该序列允许将FIR和/或IIR处理任务完全转移给加速器,但输出会有一些延迟。

 

 流水线级以及输出延迟都可能会增加,具体取决于完整处理链中此类FIR和/或IIR处理级的数量。

 

图3说明了音频数据帧如何在不同加速器使用模型的三个阶段之间传输---DMA IN、内核/加速器处理和DMA OUT。它还显示了通过采用不同的加速器使用模型将FIR/IIR全部或部分处理转移到加速器上,与仅使用内核模型相比,内核空闲周期如何增加。

 

Figure 3. Accelerator usage models comparison.

 

图3.加速器使用模型比较

 

SHARC处理器上的FIRA和IIRA

 

以下ADI SHARC®处理器系列支持片内FIRA和IIRA(从旧到新)。

 

ADSP-214xx (例如, ADSP-21489)

 

ADSP-SC58x

 

ADSP-SC57x/ADSP-2157x

 

ADSP-2156x

 

这些处理器系列:

 

计算速度不同

 

基本编程模型保持不变,ADSP-2156x处理器上的自动配置模式(ACM)除外。

 

FIRA有四个MAC单元,而IIRA只有一个MAC单元。

 

ADSP-2156x处理器上的FIRA/IIRA改进

 

ADSP-2156x是SHARC处理器系列中的最新的产品。它是第一款单核1 GHz SHARC处理器,其FIRA和IIRA也可在1 GHz下运行。ADSP-2156x处理器上的FIRA和IIRA与其前代ADSP-SC58x/ADSP-SC57x处理器相比,具有多项改进。

 

性能改进

 

计算速度提高了8倍(从SCLK-125 MHz至CCLK-1 GHz)。

 

由于内核和加速器借助专用内核结构实现了更紧密的集成,因此减少了内核和加速器之间的数据和MMR访问延迟。

 

功能改进

 

添加了ACM支持,以尽量减少进行加速器处理所需的内核干预。此模式主要具有以下新特性:

 

允许加速器暂停以进行动态任务排队。

 

无通道数限制。

 

支持触发生成(主器件)和触发等待(从器件)。

 

为每个通道生成选择性中断。

 

实验结果

 

在本节中,我们将讨论在ADSP-2156x评估板上,借助不同的加速器使用模型实施两个实时多通道FIR/IIR用例的结果

 

用例1

 

图4显示用例1的方框图。采样率为48 kHz,模块大小为256个采样点,拆分任务模型中使用的内核与加速器通道比为5:7。

 

表1显示测得的内核和FIRA MIPS数量,以及与仅使用内核模型相比获得的节约内核MIPS结果。表中还显示了相应使用模型增加的额外输出延迟。正如我们所看到的,使用加速器配合数据流水线使用模型,可节约高达335内核MIPS,但导致1块(5.33 ms)的输出延迟。直接替代和拆分任务使用模型也分别可节约98 MIPS和189 MIPS,而且未导致任何额外的输出延迟。

 

Figure 4. Use case 1 block diagram.

 

图4.用例1方框图

 

用例2

 

图5显示用例2的方框图。采样率为48 kHz,模块大小为128个采样点,拆分任务模型中使用的内核与加速器通道比为1:1。

 

与表1一样,表2也显示了此用例的结果。正如我们所看到的,使用加速器配合数据流水线使用模型,可节约高达490内核MIPS,但导致1模块(2.67 ms)的输出延迟。拆分任务使用模型可节约234内核MIPS,而没有导致任何额外输出延迟。请注意,与用例1中不同,在用例2中内核使用频域(快速卷积)处理,而非时域处理。这就是为何处理一个通道所需的内核MIPS比FIRA MIPS少的原因,这可导致直接替代使用模型实现负的内核MIPS节约。

 

Figure 5. Use case 2 block diagram.

 

图5.用例2方框图

 

结论

 

在本文中,我们看到如何利用不同的加速器使用模型实现所需的MIPS和处理目标,从而将大量内核MIPS转移到ADSP-2156x处理器上的FIRA和IIRA加速器。

 

作者

 


Mitesh Moonat

 

Mitesh Moonat

 

Mitesh Moonat目前在印度班加罗尔(ADBL)处理器应用团队担任应用工程师。他从事前/后晶片验证、外设驱动器开发和SHARC处理器支持工作。在ADI就职期间,他还从事Blackfin和21xx处理器工作。他的工作领域包括处理器架构、数字信号处理算法优化、模块以及嵌入式系统的系统级调试。Mitesh于2006年加入ADI公司。他毕业于印度瓦朗加尔国家技术学院,获得电子和通信工程学士学位。

  

Sanket Nayak

 

Sanket Nayak

 

Sanket Nayak是印度班加罗尔(ADBL)处理器应用团队的产品应用工程师。他于2016年加入ADI公司,一直从事汽车DSP的前/后晶片验证、驱动器/FuSa ROM设计、开发和测试工作。他获得班加罗尔PES技术学院电子和通信工程学士学位。

关键字:数字信号处理器  IIR硬件加速器 引用地址:如何充分利用数字信号处理器上的片内FIR和IIR硬件加速器

上一篇:为紧凑型设计显着削减成本,Nordic 蓝牙5.2芯片级系统问市
下一篇:苹果自研芯片时代到来,首推Mac系列

推荐阅读最新更新时间:2024-10-29 18:48

基于DSP的高低速CAN总线汽车控制系统设计
    随着现代汽车性能的不断提升,新的控制功能不断增加,如中央门锁、灯光控制、玻璃升降、后视镜调节、天窗控制、座椅调节和点火延时控制等。     传统的控制系统多采用继电器和独立模式控制,使得车内线束过多且布线复杂,从而造成了严重的电磁干扰,导致系统的可靠性下降。目前,很多汽车采用CAN总线将整个汽车控制系统联系起来统一管理,实现数据共享和相互之间协同工作,使车内线束布线方便可靠,提高了汽车整体的安全性和性价比,增强了自身的竞争力。而各个控制单元对系统的响应时间要求不一样,如防抱死制动系统(ABS)、驱动防滑系统(ASR)、电控行驶平稳系统(ESP)、安全气囊(SRS)等对系统实时性要求较高;照明控制、空调控制等对系统的响应时
[嵌入式]
MATLAB与DSP使用RTDX的实时数据交换
摘要:采用MATLAB辅助DSP程序的开发和调试,能加快DSP应用程序的开发。实时数据交换(RTDX)为设计、验证DSP算法提供了一个快速、方便的解决方案。本文对RTDX的工作原理进行了分析,讨论了MATLAB与DSP使用RTDX插件实现双向数据传输的实现方式,并通过一个简单的实例说明RTDX的具体实现过程。 引言 在传统的DSP(Digital Signal Processor)应用程序开发过程中,涉及的算法一般先用MATLAB语言进行仿真,仿真结果满意后,再进入产品的实现阶段。仿真实现后的算法用 C/C++或汇编语言实现,首先在硬件DSP目标板上调试,将中间结果通过DSP开发工具保存到PC机的硬盘上,然后调用到MATL
[嵌入式]
MATLAB与<font color='red'>DSP</font>使用RTDX的实时数据交换
TI 高性能多核 DSP 的线性代数库
为高性能计算设备开发人员带来更低功耗系统与更快应用开发的优势 日前,德州仪器 (TI) 与德州大学奥斯汀分校 (UT Austin) 成功将该校科学计算高密度线性代数库(libflame 库)移植至 TI TMS320C6678 多核数字信号处理器 (DSP),成为多内核创新的又一里程碑。该移植可带来所有 libflame 功能,能够为油气勘探、金融建模以及分子动力学等众多高性能计算 (HPC) 应用提供基本软件构件组块。这一成果不仅展示了 C6678 多核 DSP 可高效实施这些算法的基本特性,也展示了这些库移植至 TI DSP 的便捷性。TI C6678 DSP 具有业界领先的 16 GFLOPs/W 单精度性能,加上 l
[嵌入式]
DSP的多路视频监控系统设计
摘要:采用两片TI公司的专用视频处理芯片TMS320DM642设计了一种多路视频监控系统。其中,DSP1与视频采集芯片SAA7113共同完成多路视频的采集,并拼接成一路视频图像输出;DSP2完成对DSP1输出图像的采集、压缩和视频传输。该方案结构灵活、拓展性强,可以实现4路视频的实时采集与传送。 关键词:视频监控系统;TMS320DM642;双DSP;BT.656 引言 在钢铁冶炼加工等高温高危行业中,有许多场合不适合工人长时间在现场监控设备运行,因此需要在现场建立隔离工作室,利用视频监控系统将现场的实时视频采集和传输至工作室中。为了实现全方位的设备监控,往往需要多路视频监控系统,本文针对实际情况,采用TI公司的专用视频
[嵌入式]
双<font color='red'>DSP</font>的多路视频监控系统设计
基于双DSP的磁轴承数字控制器容错设计
摘 要:本文介绍了应用于磁轴承的双DSP热备容错控制方案,该方案采用时钟同步技术,由总线表决模块实现系统的容错处理,硬件判决模块实现硬件故障判断。由中心仲裁模块根据两判决模块的结果进行复杂的仲裁,并完成切换和完善的报警逻辑,从而提高了磁轴承控制系统的可靠性。 关键词:容错;磁轴承; 控制器; CPLD; DSP 引言 电磁轴承(AMB)是利用可控电磁吸力将转子悬浮起来的一种新型高性能轴承,具有无接触、无摩擦、高速度、高精度、不需润滑和密封等一系列特点,在交通、超高速超精密加工、航空航天等高科技领域有着广阔的前景。 由于磁悬浮系统本征不稳定,控制系统的好坏将会直接决定磁轴承的性能。近年来国内外在数字控制方面发展很快,
[应用]
基于DSP的智能电机保护器设计
前言   由于生产自动化及各种自动控制、顺序控制设备的出现,要求电机经常运行在频繁的起动、制动、正反传、间歇以及变负荷等各种方式。电机的运行要求越来越高。同时,由于电机与配套机械连在一起,当电机发生故障时,经常波及生产系统。因此,对电机实行有效的保护是保证生产系统正常工作的一项重要任务。   随着科学技术的发展,电机保护装置中逐渐使用了电子保护装置。在国外,目前电子保护装置已在电力系统和电机保护装置中获得了广泛应用,国内也开始推广 。电子保护装置的优点是:基本上由静止元件组成。它动作速度快,不存在机械位移和磨损,精度和寿命一般均比有触点继电器高,耐冲击和振动,可靠性好。另外,电子电路动作功率小,灵敏度高。   数字信号处理
[嵌入式]
基于DSP和ARM9的汽车纵向碰撞预警系统设计
  引言   利用图像传感器感知前方道路交通环境与障碍物位置,实现安全车距测量,对处于碰撞危险的汽车及时报警有利于减少交通事故,提高道路交通安全。由于理论计算的安全车距首先要以保障安全为前提,经常与驾驶员在行驶过程中认可的安全车距有较大的出入,导致驾驶员对预警系统的不信任感,不利于系统的推广使用。同时,作为安全辅助驾驶系统的处理平台,PC机的体积、成本及功能的冗余性是应用在车载系统中难以克服的瓶颈。   本文以图像方式测量本车与前车的车距为基础,建立汽车纵向碰撞预警模型,解决理论计算的安全距离与驾驶员认可的习惯距离不相一致的矛盾;考虑嵌入式系统处理的实时性与体积小巧性等特点,采用嵌入式方法完成汽车纵向碰撞预警系统的设计。
[单片机]
基于<font color='red'>DSP</font>和ARM9的汽车纵向碰撞预警系统设计
CEVA推出高性能及低功耗DSP平台
硅产品知识产权 (SIP) 平台解决方案和数字信号处理器 (DSP) 内核授权厂商CEVA公司宣布面向使用CEVA-X DSP内核系列的开发人员,推出下一代DSP子系统平台。全新性能稳健的解决方案以CEVA的功能强大的复杂多功能通信产品为基础,提供全面且经过验证的方案,可将其内核有效地集成在复杂的系统级芯片 (SoC) 上。该平台有两个版本:CEVA XS-1100A针对无线基带应用而优化;CEVA XS-1200A则瞄准多媒体及其它需要高性能信号处理能力的应用。 这些可配置的高效硬件平台可减少开发工作量,降低成本高昂的重新流片的风险,并最终缩短嵌入式处理器应用产品的上市时间。它采用业界标准系统总线,让设计人员能够
[嵌入式]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved