嵌入式多媒体应用的多处理器核软件设计框架-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

深入理解某个应用的数据访问方式，可以充分利用处理器潜在架构中的存储器和系统资源，从而开发可扩展的并行应用。

基于单核结构的嵌入式处理器越来越不能满足日益增长的嵌入式多媒体处理应用方面的要求，多核嵌入式结构已成为解决这一问题的有效途径，同时也为如何开发充分利用多核结构的应用软件带来挑战。目前，需要将编译技术和开发工具更多的结合起來，才能使多核结构的应用获得成功。而大多数并行软件都是通过手工转换方式将顺序程序转换为并行程序来实现的。由于缺乏具有多核意识的开发工具，使得软件难以进行性能评估。因此，如果没有预先有效可靠的工程规划，将不得不面对应用软件的效率低下，以及延迟产品上市时间等问题。

软件框架为多核应用软件的开发提供了一个很好的起点，可以帮助缩短开发时间。本文将详细说明嵌入式多媒体应用软件的设计框架，同时，本文的数据流模型也可扩展到许多其它应用中。该框架综合了多媒体应用软件固有的数据并行结构，还说明了如何通过有效使用潜在架构来有效管理数据流。

在设计并行软件的过程中有两大挑战：一是开发一个有效的并行算法，二是有效利用存储器，如DMA（直接存储访问）通道和互连网络等共享资源。在这过程中，顺序运行的应用程序的性能可根据可用处理器核的数目进行扩展。

通常实现应用程序的并行处理有多种方法。有些应用程序表现为固有的并行，而有的则具有相当复杂且不规则的数据存取模式。但总的来讲，科学应用程序和多媒体应用程序的并行通常易于实现，因为它们的数据存取模式比那些控制类应用程序相对容易预测。本文重点讨论针对多媒体算法的并行技术，这类算法需要很高的处理开销，且常用于嵌入式系统应用中。

多媒体应用程序中存在数据的并行级别。一组数据帧和数据帧中的一个宏块之间的并行粒度有很大差别。通常来讲，粒度越小，在共享单元——例如处理器核和DMA通道——之间所需的同步级别越高。粒度越小，并行程度也就越高，而网络通信量也越小。相反，大的粒度则要求较低的同步性，但也使网络通信量增大。因此，基于应用的不同类型和系统需求，软件框架也定义了不同的并行级别。

需要说明的是，对可扩展并行软件的开发还依赖于对互连网络、分级存储器体系，以及外设/DMA资源的有效利用。系统严格的低功耗和低成本的需求对所有这些要素都会构成约束。多核环境下的设计要求改革资源的有效利用方式。本文介绍了几种在ADI公司的Blackfin ADSP-BF561双核处理器上对资源进行有效管理的方法。

多媒体数据流分析

为了实现数据并行，需要在数据流中找到这样一个或一组数据块：能够独立处理并将结果馈送给另外的处理部件。独立的数据块可以降低同步开销并简化并行算法。要找到这种数据块，重要的是要清楚数据流模式，或者一个应用的数据存取模式。

对于大多数多媒体应用，可以将数据存取模式看成是2-D（空间域）和3-D（时间域）操作模式。在2-D模式中，独立的数据块被限制在单个数据帧内，而在3-D模式中，独立数据块可以跨越多帧。在空间域中，可以将帧划分用N个连续行和视频帧宏块组成的片段，而在时间域中，可以对数据流进一步细分到帧级或图片组（GOP）级。

采用片段或宏块的数据存取模式的算法对同步性要求很高，但需要较少的网络传输量，这是因为分级的存储器体系只需存储图像数据的一部分。对于帧或图片组类型的数据访问模式，分级的存储器体系则需要存储大量数据，但对同步性的要求则相对低得多。这是因为系统的并行粒度增大了的缘故。图1说明了多媒体应用软件中的并行级别，同时对四个级别中相关的同步性和网络通信量做了对比。

图2说明了ADSP-BF561的结构，该结构的组成中包括独立的指令和数据存储器，分别属于两个处理器核专有。该结构还包括共享的L2存储器和外部存储器，用户利用可配置的仲裁方案将所有的外围设备和DMA资源连接到任一处理器核上。ADSP-BF561 有两个DMA处理器，每个都由两组MDMA（存储器-DMA）通路组成。L2存储器和每个处理器核之间都通过独立的总线连接，而外部存储器和两个处理器核之间则由一条共享总线连接。

所有架构都利用DMA方式将数据流送入分级的存储器体系。作为另外一种选择的高速缓存并不处理任何数据。只要清楚所设计的目标应用的数据访问模式，则可以利用DMA引擎对数据进行有效的管理。而使用高速缓存需要忍受不确定的访问时间，高速缓存失配的代价，以及需要较高的外部存储器带宽。利用DMA引擎，可以在处理器核需要数据之前就将数据送入L1存储器，系统在后台执行传输操作，而不会因为没有操作数据使处理器核暂停工作。[page]

由于每个DMA控制器上都有两组MDMA通路，系统设计时，可以将MDMA通路在处理器核上平均分配，从而可以对称地进行并行操作。

对于具有较小粒度数据访问模式的应用，可以轻松的利用对L1和L2存储器的快速访问，也可以直接将独立的数据块从外围设备传送到L1和L2存储器，而不需要通过慢速的外部存储器访问，这样可节省宝贵的外存储器带宽和MDMA资源，还可以缩短数据传输时间。

对于某些采用较高层级粒度的数据访问模式的应用，存储器就可能成为访问瓶颈，因为较小的L1和L2存储器层级不能容纳大量的数据帧。然而，大量数据帧之间虽然会出现数据关联性，但这种关联通常也仅存在于跨数据帧的较小数据块。如果能将所有关联的数据帧存放在一个较大的存储空间（外存储器）中，就可以将每一帧中的独立数据块相继送入空闲的处理器核进行处理。如果这些独立的数据块比数据帧小得多，以至于符合L1和L2存储器的容量，就可减少存储器存取延迟从而高效地处理数据。

虽然L2和外存储器都有独立的总线连接，两个处理器核仍共享这些存储器接口总线。因此，应当尽量避免利用两个处理器核同时对同一级别的存储器进行存取操作，以免造成因线路争用引起延迟。为了减少线路争用状态，程序架构应考虑目标程序代码和数据的映射，要让一个处理器核主要访问L2存储器核，而另一处理器核则主要访问外部存储器。在这种情况下，虽然处理器核完成多数外部存储器访问会出现较大的访问延迟，但总的访问延迟仍然要比存在线路争用状态下的情况小。

该结构能将所有的输入外设接口配置在一个处理器核上，所有的输出外设接口分配到另一处理器核上。BF561体系结构中有两个PPI（并行外设接口），通过PPI视频输入/输出接口，可以实现输入或输出视频帧的独立操作。

如果中断处理时间比数据流的处理时间要短，还可将所有的外设接口分配到一个处理器核上以便于编程，较短的中断处理时间不会影响两个处理器核的负载平衡。

建议的软件框架模型

基于数据访问模式的粒度，您可以定义四种软件框架：行处理（空域），宏块处理（空域），帧处理（时域）以及GOP处理（时域）。如果某个应用程序的数据访问模式适于这四种模型中的任何一种，就可以采用相应的软件结构，如果对同一数据流有两种或多种处理算法，还可以将这几种软件结构结合起来，实现非对称的并行处理。

在行处理模式中，只在行级有相关性——也就是说，只在两个相邻像素之间存在相关性。每行数据形成一个数据块，这样两个处理器核都独立处理，图3说明了行处理软件架构的数据流模型。图中，处理器核A控制视频输入，处理器核B控制视频输出。处理器核A和B之间的数据有独立的MDMA通道进行管理。L1存储器使用多个缓冲器，可以避免处理器核与外设DMA数据访问之间出现的线路争用状态。两个处理器核之间每行数据的同步，则通过一个计数信号量实现。在行处理模式中，采用单处理器核方式将数据直接存入L1存储器也具有优势，可以节省外部存储器带宽和DMA资源。行处理软件架构的应用实例包括色彩变换，直方图均衡化，滤波，以及采样。

图4说明了宏块数据访问模式的数据流模型，可以将交替的宏块在两个处理器核之间传送。L2存储器保持多个数据缓冲区，宏块从L2存储器传输到每个处理器核的L1存储器都有独立的MDMA通道。L1存储器也保持多个数据缓冲区，以避免在DMA和处理器核数据访问过程中产生线路争用。与行处理结构类似，该结构中处理器核A仍控制输入视频接口，处理器核B控制输出接口，计数信号量实现两个处理器核之间的同步。这种软件架构的应用实例包括边缘检测，JPEG/MPEG的编/解码算法，以及卷积编码。

在帧级处理模式中，外部存储器存储相关的数据帧。根据数据帧（宏块或行）之间相关性的粒度，系统将数据帧的子块传送到L1或L2存储器。图5说明了帧级处理软件架构数据流模型。在这种情况下，假定某个宏块在不同帧间存在相关性，系统则将数据帧的宏块传送至L1存储器。与其他软件架构类似，处理器核A仍控制输入视频接口，处理器核B则控制输出接口，计数信号量实现两个处理器核之间的同步。该软件架构已应用于运动检测算法。[page]

在GOP级处理架构中，每个处理器核都处理多个顺序的数据帧。帧级处理结构和GOP处理结构之间的区别在于帧级处理结构是在帧间完成空域划分，而GOP级结构则通过时域（帧序列）划分实现并行处理。对于GOP数据访问模式，相关性存在于一组数据帧内部。在两组数据帧之间不存在数据相关性，因此处理器核可以相互独立地对每组数据帧进行处理。图6说明了该结构的数据流模型，与帧级处理结构类似，系统可将多帧数据块传送至处理器核的L1处理器。为了有效利用外部存储器的交叉存储组结构，系统在处理器核间均衡的划分存储区。ADSP-BF561的每一个外部存储区都支持多至四个的内部SDRAM存储器组。这一结构的应用实例有编/解码算法，如MPEG-2/4。

在实际的应用中，系统可能运用多种算法来处理数据流，而每种算法都可能用到不同的数据访问模式。这种情况下，则可以将这几种软件结构结合起来完成一个特殊的应用。为利用多核结构，可采用流水处理来实现算法的并行操作，但这种并行操作是不对称的，因为不同处理器核上可能执行的计算是不同的。然而，系统可以分配一些其它的任务到处理器核的空闲指令上，在保持灵活性的同时也达到了处理器核的工作量平衡。图7说明了行级处理和宏块处理相结合的处理结构中的数据流模型。

在某些其他应用中，多个数据块之间也会存在数据相关性，数据访问模式仍然是可预测的，但它扩展到了一个宏块或一个行的粒度之外。例如，运动窗口搜寻就可能使用几个相邻的宏块。虽然数据访问模式仍然是可预测的，但系统在算法迭代过程中要访问多个数据块。在这种情况下，您可以对软件框架进行修正，以实现有效的并行操作。例如，如果多行间存在相关性，可以通过调整行处理结构将N个连续行的帧单元传送到每个处理器核的L1存储器中。利用类似的方法，还可以对宏块处理结构进行扩展，从L2存储器中将不止一个宏块送入内部L1存储器。

软件框架分析

为了对双核处理的软件框架进行评估，AD公司利用数据流模型率先开发了一款单核应用软件，并与双核实现进行了对比。参考文献讨论了单核模型的更多细节。Blackfin独有的系统优化技术完全可以有效的使用可用带宽。为了分析简单，公司只对基本软件架构的处理速度做了对比，而没有考虑几种组合的软件架构。

所谓周期是指为了满足NTSC（国家电视系统委员会）视频输入的实时需要，用于处理数据流的处理器核计算周期。对于一个以600MHz运行的处理器核，为了满足实时约束条件，处理每一像素可用的周期数为44核周期/像素。任何处理器核访问流数据都只需一个单内核周期，因为所有的数据访问都是对L1存储器的访问。该周期数没有包括中断引起的延迟。

如表1所示，双核处理结构将所有软件结构的处理速度都有效提高了两倍。表中还说明了L1存储器对于每个处理器核的可用容量，以及每种软件架构所需的共享存储空间。这些软件架构应用ADi公司的DD/SSL（设备驱动程序/系统服务库）实现对外设和数据的管理。

关键字：多处理器核多媒体框架嵌入式软件设计引用地址：嵌入式多媒体应用的多处理器核软件设计框架

上一篇：高性能32位内核与基于微控制器存储架构的集成
下一篇：利用硬件加速器提高处理器的性能

推荐阅读最新更新时间：2024-03-16 13:59

最小的多线程框架

引言因为资源和成本的原因，前后台系统是8位MCU上的主流，本文介绍的方法可以在8位MCU上进行任务切换，代码编译后大约100字节，这100字节也会从原来纯前后台系统改到这种框架下节约的代码来补偿，也就是说，提高了性能，而没有增加代码长度，同时也不需要改变原来的编程方式，只是对原有的函数进行调度。可以在1K ROM,64BYTE的RAM上运行。一、调度原理： 1、用一个字节变量的每一位代表一个任务是否就绪，1为就绪，0为休眠。 2、这个字节从高位到低位代表的任务，优先级也从高到低。 3、通过查表从就绪的任务中找出最高优先级的任务并执行，同时清就绪标志。就绪表ActObjReadySet

[单片机]

07-S3C2440驱动学习（一）嵌入式linux字符设备驱动-LED字符设备驱动

一、嵌入式linux字符设备驱动框架写应用程序的人不应该去看电路图，但是如何操作硬件呢：调用驱动程序里的open，read，write等来实现。 C库里实现了 open 、read、write上层函数调用open等：swi val—引发一个异常中断，进入内核异常处理函数。系统调用接口：根据发生中断的原因，调用处理函数（sys_open，sys_read等sys_open等函数会执行与open相关各种初始化函数，通知调用自己写好的open函数，这里注意应用程序的open不仅仅是调用驱动中的open，其他函数类似，是调用sys_open，sys_open里包含了驱动中实现的open）。 sys_open：根据调

[单片机]

07-S3C2440驱动学习（一）<font color='red'>嵌入式</font>linux字符设备驱动-LED字符设备驱动

FPGA如何改变嵌入设计格局

　由于经济下滑损及开发预算减少，嵌入系统设计者正在转向FPGA(现场可编程门阵列)技术，以缩减开发周期、对抗设备老化以及简化产品升级。通过采用数量庞大且不断增加的FPGA开发工具、可重用逻辑单元以及市售商用模块，设计者可以构思出高性能嵌入系统，并且能够根据需求变化作重新配置，从而尽量减少对工程和制造的影响。过去，电路板设计者使用这些器件作系统元件之间的互连，但最新的高密度产品也可以替代一个典型嵌入项目中的处理器、内存、定制逻辑及很多外设。尽管它有能力改变嵌入架构，设计者仍应分析性能、功率和成本局限，以确定FPGA技术最适用的地方。　　自20世纪70年代可编程逻辑阵列出现以来，FPGA技术已发展成为一个兴旺的市场。尽管每家供

[嵌入式]

在嵌入式开发中软件抗干扰有哪些问题？如何解决？

关于软件抗干扰问题和策略,如果在实际应用中能很好的遵循这些原则,再配合硬件电路的抗干扰措施,基本上可以消除干扰影响。但有时往往因为程序本身的复杂度和芯片资源的限制,再加上编程人员本身的能力限制,不能做到十分完善。所以我们只能给出一些建议,至于具体的实现,就需要各位在平时的项目实践中不断的摸索和积累经验。以下是之前有关软件抗干扰的问题答复,谨供参考：防止干扰最有效的方法是去除干扰源、隔断干扰路径,但往往很难做到,所以只能看单片机抗干扰能力够不够强了。单片机干扰最常见的现象就是复位;至于程序跑飞,其实也可以用软件陷阱和看门狗将程序拉回到复位状态;所以单片机软件抗干扰最重要的是处理好复位状态。一般单片机都会有一些标志寄存器,可以

[单片机]

基于双核OMAP5910的嵌入式系统及其应用

引言　　随着物联网概念的提出及相关技术的发展，网络化测量控制已成为测控系统发展的必然趋势。然而，当前国内外工业控制领域普遍使用且技术相当成熟的PLC(Programable Logic Controller)基本都不支持网络，也不能简单升级具有网络功能，且模式较为单一。因而，设计与实现了一种网络化通用测控系统平台，以实现网络化测控需求且具有一般平台的通用性能。本文主要介绍了ARM嵌入式系统与ZigBee无线技术相结合的通用网络测控平台的硬件设计。　　1 系统硬件总体设计　　基于ARM的通用网络测控系统硬件架构如图1所示，本系统在测控端采用基于ARM的CPU，通过网络接口与Internet相连，外围扩展有数字量输入／输

[工业控制]

27-ARM指令集与寻址方式

[嵌入式]

PC－Based PLC嵌入式控制器及其实际应用策略

1 PC-Based PLC的概念 PC-Based PLC也称嵌入式控制器，是近几年随着嵌入式CPU、嵌入式操作系统和IEC-61131-3（LD、SFC、FBD、IL、ST）标准化编程语言的发展而发展的，它不再像IPC那样以机箱加主板为主体结构，再搭配诸如A/D、D/A、DI/DO等功能I/O板卡的组合产品，也不想PLC那么封闭，而是一个独立的基于嵌入式PC技术的开放式的控制系统，适合应用于小型的SCADA系统。如泓格的I-8000系列、Advantech的ADAM5510系列, 其主机内部是40MHz主频的80188 CPU，操作系统为兼容DOS的MiniOS7（I-8000系列）或者ROMDOS（ADAM5510），

[嵌入式]

嵌入式Linux下IC卡接口设计与驱动开发

引言随着现代工业社会逐步向信息社会的过渡，信息将扮演愈来愈重要的角色，成为现代经济生活中的成功要素。IC卡作为卡基应用系统中的一种卡型，是利用安装在卡中的集成电路(IC)来记录和传递信息的；具有存储量大、数据保密性好、抗干扰能力强、存储可靠、读写设备简单、操作速度快、脱机工作能力强等优点，其应用范围极为广泛。我们基于公用电话IC卡的应用，开发了多媒体信息终端产品，在传统公用IC卡电话功能的基础上增加了上网、邮件、电子支付、信息浏览等各种多媒体功能，统一采用公用电话IC卡进行收费。目前设计的IC卡读写器和驱动软件已经应用于我们的多媒体终端产品中。 1 嵌入式Linux下设备驱动模块简介 Linux系统将设备分成三种

[应用]