嵌入式多媒体应用的多处理器核软件设计框架

2015-04-22来源: eechina关键字:多处理器核  多媒体  框架  嵌入式  软件设计
深入理解某个应用的数据访问方式,可以充分利用处理器潜在架构中的存储器和系统资源,从而开发可扩展的并行应用。

基于单核结构的嵌入式处理器越来越不能满足日益增长的嵌入式多媒体处理应用方面的要求,多核嵌入式结构已成为解决这一问题的有效途径,同时也为如何开发充分利用多核结构的应用软件带来挑战。目前,需要将编译技术和开发工具更多的结合起來,才能使多核结构的应用获得成功。而大多数并行软件都是通过手工转换方式将顺序程序转换为并行程序来实现的。由于缺乏具有多核意识的开发工具,使得软件难以进行性能评估。因此,如果没有预先有效可靠的工程规划,将不得不面对应用软件的效率低下,以及延迟产品上市时间等问题。

软件框架为多核应用软件的开发提供了一个很好的起点,可以帮助缩短开发时间。本文将详细说明嵌入式多媒体应用软件的设计框架,同时,本文的数据流模型也可扩展到许多其它应用中。该框架综合了多媒体应用软件固有的数据并行结构,还说明了如何通过有效使用潜在架构来有效管理数据流。

在设计并行软件的过程中有两大挑战:一是开发一个有效的并行算法,二是有效利用存储器,如DMA(直接存储访问)通道和互连网络等共享资源。在这过程中,顺序运行的应用程序的性能可根据可用处理器核的数目进行扩展。

通常实现应用程序的并行处理有多种方法。有些应用程序表现为固有的并行,而有的则具有相当复杂且不规则的数据存取模式。但总的来讲,科学应用程序和多媒体应用程序的并行通常易于实现,因为它们的数据存取模式比那些控制类应用程序相对容易预测。本文重点讨论针对多媒体算法的并行技术,这类算法需要很高的处理开销,且常用于嵌入式系统应用中。

多媒体应用程序中存在数据的并行级别。一组数据帧和数据帧中的一个宏块之间的并行粒度有很大差别。通常来讲,粒度越小,在共享单元——例如处理器核和DMA通道——之间所需的同步级别越高。粒度越小,并行程度也就越高,而网络通信量也越小。相反,大的粒度则要求较低的同步性,但也使网络通信量增大。因此,基于应用的不同类型和系统需求,软件框架也定义了不同的并行级别。

需要说明的是,对可扩展并行软件的开发还依赖于对互连网络、分级存储器体系,以及外设/DMA资源的有效利用。系统严格的低功耗和低成本的需求对所有这些要素都会构成约束。多核环境下的设计要求改革资源的有效利用方式。本文介绍了几种在ADI公司的Blackfin ADSP-BF561双核处理器上对资源进行有效管理的方法。

多媒体数据流分析

为了实现数据并行,需要在数据流中找到这样一个或一组数据块:能够独立处理并将结果馈送给另外的处理部件。独立的数据块可以降低同步开销并简化并行算法。要找到这种数据块,重要的是要清楚数据流模式,或者一个应用的数据存取模式。

对于大多数多媒体应用,可以将数据存取模式看成是2-D(空间域)和3-D(时间域)操作模式。在2-D模式中,独立的数据块被限制在单个数据帧内,而在3-D模式中,独立数据块可以跨越多帧。在空间域中,可以将帧划分用N个连续行和视频帧宏块组成的片段,而在时间域中,可以对数据流进一步细分到帧级或图片组(GOP)级。

采用片段或宏块的数据存取模式的算法对同步性要求很高,但需要较少的网络传输量,这是因为分级的存储器体系只需存储图像数据的一部分。对于帧或图片组类型的数据访问模式,分级的存储器体系则需要存储大量数据,但对同步性的要求则相对低得多。这是因为系统的并行粒度增大了的缘故。图1说明了多媒体应用软件中的并行级别,同时对四个级别中相关的同步性和网络通信量做了对比。



图2说明了ADSP-BF561的结构,该结构的组成中包括独立的指令和数据存储器,分别属于两个处理器核专有。该结构还包括共享的L2存储器和外部存储器,用户利用可配置的仲裁方案将所有的外围设备和DMA资源连接到任一处理器核上。ADSP-BF561 有两个DMA处理器,每个都由两组MDMA(存储器-DMA)通路组成。L2存储器和每个处理器核之间都通过独立的总线连接,而外部存储器和两个处理器核之间则由一条共享总线连接。



所有架构都利用DMA方式将数据流送入分级的存储器体系。作为另外一种选择的高速缓存并不处理任何数据。只要清楚所设计的目标应用的数据访问模式,则可以利用DMA引擎对数据进行有效的管理。而使用高速缓存需要忍受不确定的访问时间,高速缓存失配的代价,以及需要较高的外部存储器带宽。利用DMA引擎,可以在处理器核需要数据之前就将数据送入L1存储器,系统在后台执行传输操作,而不会因为没有操作数据使处理器核暂停工作。[page]

由于每个DMA控制器上都有两组MDMA通路,系统设计时,可以将MDMA通路在处理器核上平均分配,从而可以对称地进行并行操作。

对于具有较小粒度数据访问模式的应用,可以轻松的利用对L1和L2存储器的快速访问,也可以直接将独立的数据块从外围设备传送到L1和L2存储器,而不需要通过慢速的外部存储器访问,这样可节省宝贵的外存储器带宽和MDMA资源,还可以缩短数据传输时间。

对于某些采用较高层级粒度的数据访问模式的应用,存储器就可能成为访问瓶颈,因为较小的L1和L2存储器层级不能容纳大量的数据帧。然而,大量数据帧之间虽然会出现数据关联性,但这种关联通常也仅存在于跨数据帧的较小数据块。如果能将所有关联的数据帧存放在一个较大的存储空间(外存储器)中,就可以将每一帧中的独立数据块相继送入空闲的处理器核进行处理。如果这些独立的数据块比数据帧小得多,以至于符合L1和L2存储器的容量,就可减少存储器存取延迟从而高效地处理数据。

虽然L2和外存储器都有独立的总线连接,两个处理器核仍共享这些存储器接口总线。因此,应当尽量避免利用两个处理器核同时对同一级别的存储器进行存取操作,以免造成因线路争用引起延迟。为了减少线路争用状态,程序架构应考虑目标程序代码和数据的映射,要让一个处理器核主要访问L2存储器核,而另一处理器核则主要访问外部存储器。在这种情况下,虽然处理器核完成多数外部存储器访问会出现较大的访问延迟,但总的访问延迟仍然要比存在线路争用状态下的情况小。



该结构能将所有的输入外设接口配置在一个处理器核上,所有的输出外设接口分配到另一处理器核上。BF561体系结构中有两个PPI(并行外设接口),通过PPI视频输入/输出接口,可以实现输入或输出视频帧的独立操作。

如果中断处理时间比数据流的处理时间要短,还可将所有的外设接口分配到一个处理器核上以便于编程,较短的中断处理时间不会影响两个处理器核的负载平衡。

建议的软件框架模型

基于数据访问模式的粒度,您可以定义四种软件框架:行处理(空域),宏块处理(空域),帧处理(时域)以及GOP处理(时域)。如果某个应用程序的数据访问模式适于这四种模型中的任何一种,就可以采用相应的软件结构,如果对同一数据流有两种或多种处理算法,还可以将这几种软件结构结合起来,实现非对称的并行处理。

在行处理模式中,只在行级有相关性——也就是说,只在两个相邻像素之间存在相关性。每行数据形成一个数据块,这样两个处理器核都独立处理,图3说明了行处理软件架构的数据流模型。图中,处理器核A控制视频输入,处理器核B控制视频输出。处理器核A和B之间的数据有独立的MDMA通道进行管理。L1存储器使用多个缓冲器,可以避免处理器核与外设DMA数据访问之间出现的线路争用状态。两个处理器核之间每行数据的同步,则通过一个计数信号量实现。在行处理模式中,采用单处理器核方式将数据直接存入L1存储器也具有优势,可以节省外部存储器带宽和DMA资源。行处理软件架构的应用实例包括色彩变换,直方图均衡化,滤波,以及采样。



图4说明了宏块数据访问模式的数据流模型,可以将交替的宏块在两个处理器核之间传送。L2存储器保持多个数据缓冲区,宏块从L2存储器传输到每个处理器核的L1存储器都有独立的MDMA通道。L1存储器也保持多个数据缓冲区,以避免在DMA和处理器核数据访问过程中产生线路争用。与行处理结构类似,该结构中处理器核A仍控制输入视频接口,处理器核B控制输出接口,计数信号量实现两个处理器核之间的同步。这种软件架构的应用实例包括边缘检测,JPEG/MPEG的编/解码算法,以及卷积编码。



在帧级处理模式中,外部存储器存储相关的数据帧。根据数据帧(宏块或行)之间相关性的粒度,系统将数据帧的子块传送到L1或L2存储器。图5说明了帧级处理软件架构数据流模型。在这种情况下,假定某个宏块在不同帧间存在相关性,系统则将数据帧的宏块传送至L1存储器。与其他软件架构类似,处理器核A仍控制输入视频接口,处理器核B则控制输出接口,计数信号量实现两个处理器核之间的同步。该软件架构已应用于运动检测算法。[page]



在GOP级处理架构中,每个处理器核都处理多个顺序的数据帧。帧级处理结构和GOP处理结构之间的区别在于帧级处理结构是在帧间完成空域划分,而GOP级结构则通过时域(帧序列)划分实现并行处理。对于GOP数据访问模式,相关性存在于一组数据帧内部。在两组数据帧之间不存在数据相关性,因此处理器核可以相互独立地对每组数据帧进行处理。图6说明了该结构的数据流模型,与帧级处理结构类似,系统可将多帧数据块传送至处理器核的L1处理器。为了有效利用外部存储器的交叉存储组结构,系统在处理器核间均衡的划分存储区。ADSP-BF561的每一个外部存储区都支持多至四个的内部SDRAM存储器组。这一结构的应用实例有编/解码算法,如MPEG-2/4。



在实际的应用中,系统可能运用多种算法来处理数据流,而每种算法都可能用到不同的数据访问模式。这种情况下,则可以将这几种软件结构结合起来完成一个特殊的应用。为利用多核结构,可采用流水处理来实现算法的并行操作,但这种并行操作是不对称的,因为不同处理器核上可能执行的计算是不同的。然而,系统可以分配一些其它的任务到处理器核的空闲指令上,在保持灵活性的同时也达到了处理器核的工作量平衡。图7说明了行级处理和宏块处理相结合的处理结构中的数据流模型。



在某些其他应用中,多个数据块之间也会存在数据相关性,数据访问模式仍然是可预测的,但它扩展到了一个宏块或一个行的粒度之外。例如,运动窗口搜寻就可能使用几个相邻的宏块。虽然数据访问模式仍然是可预测的,但系统在算法迭代过程中要访问多个数据块。在这种情况下,您可以对软件框架进行修正,以实现有效的并行操作。例如,如果多行间存在相关性,可以通过调整行处理结构将N个连续行的帧单元传送到每个处理器核的L1存储器中。利用类似的方法,还可以对宏块处理结构进行扩展,从L2存储器中将不止一个宏块送入内部L1存储器。

软件框架分析

为了对双核处理的软件框架进行评估,AD公司利用数据流模型率先开发了一款单核应用软件,并与双核实现进行了对比。参考文献讨论了单核模型的更多细节。Blackfin独有的系统优化技术完全可以有效的使用可用带宽。 为了分析简单,公司只对基本软件架构的处理速度做了对比,而没有考虑几种组合的软件架构。

所谓周期是指为了满足NTSC(国家电视系统委员会)视频输入的实时需要,用于处理数据流的处理器核计算周期。对于一个以600MHz运行的处理器核,为了满足实时约束条件,处理每一像素可用的周期数为44核周期/像素。任何处理器核访问流数据都只需一个单内核周期,因为所有的数据访问都是对L1存储器的访问。该周期数没有包括中断引起的延迟。

如表1所示,双核处理结构将所有软件结构的处理速度都有效提高了两倍。表中还说明了L1存储器对于每个处理器核的可用容量,以及每种软件架构所需的共享存储空间。这些软件架构应用ADi公司的DD/SSL(设备驱动程序/系统服务库)实现对外设和数据的管理。

关键字:多处理器核  多媒体  框架  嵌入式  软件设计

编辑:什么鱼 引用地址:http://news.eeworld.com.cn/mcu/2015/0422/article_19547.html
本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:高性能32位内核与基于微控制器存储架构的集成
下一篇:利用硬件加速器提高处理器的性能

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

Diodes 公司推出USB Type-C™ 多媒体端口切换器

Diodes 公司 (Nasdaq:DIOD) 推出 PI3A6386 USB Type-C™ 多媒体端口切换器,其设计可让制造商透过 USB Type-C 端口,继续支持旧型的数据与模拟周边装置。由于手机和平板计算机采用 USB Type-C 端口,制造商也正在移除其他的端口,例如 USB 2.0 和 3.5mm 音讯插孔。PI3A6386 端口切换器可让旧型的数据和音频讯号,透过 USB Type-C 端口传送,让消费者继续使用现有的周边装置。 PI3A6386 端口切换器的效能,可确保高水平的音频质量,不会有讯号失真或噪声的情况发生。这包括自主性麦克风与接地线切换,而 CMOS 设计则可为音讯切换晶体管提供
发表于 2019-07-09
Diodes 公司推出USB Type-C™ 多媒体端口切换器

哪家车用多媒体系统最好用?这十个品牌评价最高!

这年头车用多媒体系统几乎要和安全气囊一样重要,甚至成为标准配置。而随着科技的进步,车用多媒体系统集成度越来越高,越来越智能化,也越来越人性化,随着5G技术的普及,物联网技术的完善,相信越来越的驾驶者都乐于拥有这项配置。根据国外权威机构IHS Markit的统计数据显示,在全球主要汽车市场,2014年只有53%配备触控多媒体系统,到了今年这个比例已经高达82%。不过车用多媒体系统,因为各个品牌的技术,研发理念都各异,这就导致了各个品牌的用户体验会有很大差别,好用不好用,消费者最有发言权。因此国外著名的“消费者报告”找了超过六万名车主进行调查,目的是评比各品牌车用多媒体系统的使用评价。在这份报告中,特斯拉拿下86分位居第一,而BMW
发表于 2019-07-08
哪家车用多媒体系统最好用?这十个品牌评价最高!

什么样的中控系统最好用?四款热门SUV多媒体系统对比

一套好的车载多媒体系统可以为驾驶者营造更好的用车体验,在4G时代多数新车都将车机中加入了联网的功能,以实现OTA或者下载各种软件。多数车型的车机已经与我们平时用到的智能设备相差不多。本次将选四款比较具有代表性的SUV进行对比,希望可以给大家带来比较直观的感受。从特斯拉Model S的大屏幕开始,众多车型均开始采用中控大屏的设计。首先是进入驾驶舱后看起来就会带有一些科幻的味道,其次可以将一些优先级不高的功能的实体按键整合在车机系统当中,可以令中控区域的整体感更好。据论坛中的网友们反馈,多媒体系统的音量与空调系统如果没有实体按键,操作起来会非常的不顺手。因为在实际驾驶当中对其他系统的操作多数情况下会采用盲操作的方式,这样既保证了行车
发表于 2019-07-05
什么样的中控系统最好用?四款热门SUV多媒体系统对比

CES展出边缘运算智能多媒体整合方案

芯科技消息(文/方中同)2019年CES元月8日登场,IC设计公司凌通宣布本次参展主打多款边缘运算(Edge)AI智能多媒体整合方案,其中,AI智能人脸跟拍飞行器已获大陆大厂采用,预计第一季量产供货。物联网及AI大趋势下,结合AI语音、影像识别相关应用产品兴起,凌通已陆续导入各式智能玩具、机器人、无人机开发,并进一步拓展至智能家电等领域。凌通也表示,边缘运算具有实时性、可携性、以及轻量形等特点,能为客户提供相较于云端运算更兼具成本、效率及便利性的AI智能开发方案。凌通说明,这次CES展示亮点包括AI智能人脸锁定自拍飞行器方案、AI智能手势控制方案、AI智能语音识别技术、以及搭配AI智能宠物及AI自走车等多款智能玩具多媒体整合产品
发表于 2019-01-08

沃尔沃合作谷歌研发安卓多媒体系统 用于下一代车型

据外媒报道,在2018年洛杉矶车展上(2018 Los Angeles auto show),沃尔沃宣布其正与谷歌(Google)公司合作研发新型安卓(Android-based)多媒体系统,该系统将把谷歌地图(Google Maps)和声破天(Spotify)等应用引入汽车,而且可无缝整合至所有操作系统,使汽车制造商扩展其现有产品。在圆桌讨论会上,谷歌和沃尔沃高管透露,该系统的目的是让个人通过各种应用程序,将生活带入汽车中。目前,沃尔沃和亚马逊合作提供一项送货服务,可直接将包裹送至汽车。沃尔沃表示,其还将提供与所有操作系统兼容的无缝网联服务,将第三方服务带入汽车,但是会优先考虑安全性。如此一来,游戏应用可供后座乘客使用
发表于 2018-12-01

开启多媒体测试未来,泰克的下一代视频网络测试解决方案

作为业界领先的媒体测试、监测和诊断解决方案创新企业,泰克科技公司一直走在引领广播行业格局变化和趋势的前沿,在刚刚结束的IBC2018年展览会上,泰克展示了其最新的解决方案,并进行全面演示,与专家面对面交流。同时,展厅十几家合作伙伴的展台上也全面使用各种泰克设备。 “IBC观众在这里能够得到一手资料,我们提供市场所需的监测解决方案,让制作、后期制作和内容分发行业紧跟市场步伐。”泰克科技公司视频产品线总经理Charlie Dunn说,“今年我们演示了对广大客户至关重要的新功能和增强功能,他们在努力吸收和实施新的标准,比如SMPTE ST 2110,更高效地制作HDR内容,或推出新的流媒体实时/VOD和OTT服务。” 
发表于 2018-10-09
开启多媒体测试未来,泰克的下一代视频网络测试解决方案

小广播

何立民专栏

单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2019 EEWORLD.com.cn, Inc. All rights reserved