Blackfin BF54x系列处理器提供性能计数器(指标寄存器),可帮助应用开发工程师在系统级别了解应用程序的行为。在掌握应用程序行为后,开发工程师可使用一些系统优化技术来提高性能和降低功耗。
在本文中,将介绍性能指标寄存器的各种配置,并提供在Blackfin处理器上利用它们的软硬件接口实例。此外,还针对一些典型的应用情形给出了提高性能的方法。
指标寄存器的定义
在典型的实际应用中有多种资源,如内核处理器、外设DMA,以及可同时访问外部存储器和几个系统总线的MDMA(存储器到存储器的DMA)。性能指标寄存器提供了一种捕捉外部存储器组访问数、页错失数、总线流量数和总线转向数的方式,有效地利用从这些寄存器获得的数据可显著提高系统的资源利用率。
表1是Blackfin BF54x系列处理器提供的指标寄存器及其简要说明。
我们可以使用存储器组读/写寄存器、组激活计数寄存器和总线转向寄存器来改善应用程序的代码和数据外部存储器布局。授权计数寄存器(EBIU_DDRGCx)可帮助合理定义系统仲裁策略,还能实现高的系统吞吐率。
我们可以利用代码和数据项映射到外部存储器的时间区间和空间位置来减少外部存储器的延迟。在通常情况下,要捕捉应用程序的空间位置和时间区间,需要记录在程序执行期间的代码和数据对象的踪迹。然而,对于一些简单的应用程序来说,利用指标寄存器的关键数据就可以揭示外部存储器中的不良映射代码和数据项。
下面探讨一些应用情形,以及利用从这些指标寄存器得到的信息进行优化的一些简单技术。
示例的使用
下面将介绍如何分析和解读从指标寄存器获得的信息,并在此基础上讨论如何运用简单的优化技术来提高应用的性能。
1 示例1
在这个示例中,多个数据缓存映射到外部存储器,并使用存储器DMA通道把一组缓存的内容复制到另一组缓存。本实验*有4个缓存,规模均为32KB。所有缓存均映射到DDR的Bank0并从地址0×0开始连续放置。图1显示了映射到外部存储器的四个缓存的默认布局。在这个例子中,两个存储器DMA通道采用自动缓冲模式不间断地把两个缓存的内容传送到另外两个缓存。下面介绍一个三步过程,利用从指标寄存器获得的信息并相应地使用一些系统优化技术,该过程可把性能提高到原系统的1.5倍。
图1 未优化时的指标寄存器数据
第1步 基本系统性能
我们使用系统的平均吞吐率来量化系统的性能。平均吞吐率按下式计算:
平均吞吐率=“读出和写入DDR存储器的数据字节总数”/秒
系统总线活动的时间区间使用内核计时器来设置。通过设置,该定时器在到达实验设定的时间区间时产生一个中断。该计时器在存储器DMA通道开始启用之前启动,然后,在内核计时器ISR中禁用存储器DMA通道。传输的数据量用相应的计数器在DMA通道的中断服务程序中进行测量。每次缓存传输产生一个中断,DMA ISR每调用一次则计数器加1。由于所有的存储器DMA通道均运行在自动缓冲模式,在最终计算吞吐率时,通道中断延时不需计算在内。对于这个测量,定时器中断延时由于数值很小不计算在内。
表2显示了该系统的基准性能。从该表可以看出,即使是这样一个简单的系统,我们也只利用了可用总带宽的一小部分。指标寄存器使我们可以看到系统总线的活动情况,并帮助我们明白性能较低的原因。基于这些信息,我们将能够应用某些优化技术来提高性能。
第2步 使用指标寄存器
对于这些情况,外部存储器延迟通常是吞吐率低的原因。我们将首先考察DDR读/写访问总数和离页DDR访问总数。
从图1可以看出,计数寄存器的读取和写入访问表明,访问只针对一个组(组0),页激活数占访问总数的25%。这意味着,由于缓存影射到组0的不同页,DMA访问在同一组中的空间位置很小。由于源缓存和目标缓存在不同的页上,每次DMA访问均存在一次离页访问。
第3步 提高性能
把缓存放在不同的DDR组中可减少离页访问。如果把缓存放在不同的组中,则仅当某个通道穿越页边界时才会发生离页访问。Blackfin BF54x的DDR控制器支持最多同时打开8个内部DDR组,因此可以把四个缓存分别映射到不同的组。
2 示例2
在上面的例1中,只有很少的资源(两个MDMA通道)访问单个DDR存储器组,系统行为在一段时间内不变。因此,可通过提取指标寄存器的快照来理解系统总线的活动并捕捉空间位置。在更为实际的系统中,可能有多个资源(内核、多个DMA通道)访问多个DDR存储器组和系统总线,致使在较小的时间区间内DDR数据访问模式迅速变化。在这些情况下,难以仅仅利用指标寄存器的一个快照来捕捉空间位置和系统行为。因此,必须捕捉在应用执行过程中在多个点的总线活动情况来探索空间位置。
为了说明这一点,考虑这样一个情况,总线在时间区间T的活动表明,对所有组的访问是均衡的,但离页访问比例较高,但在较小时间区间(T1、T2,其中T1+T2=T)中记录的总线活动表明对各组的访问是不均衡的,见图2。如果缓存布局可对时间区间T1和T2分别进行优化,则有可能显著改善系统性能。
图2 在时间区间T、T1和 T2的系统总线活动(T > T1+T2)
困难在于如何找到对系统资源的访问方式始终如一,进而可使用一组相同优化技术的时间区间。这可能需要对应用程序进行多次迭代分析。
定期捕捉指标寄存器数据的实验装置
在本节中,介绍定期记录指标寄存器数据的实验装置。如图3所示,一台PC用作主机,通过利用JTAG接口进行通信的后台遥测通道(BTC)收集来自Blackfin的数据。数据记录程序运行在PC上,并定期向Blackfin处理器发送BTC指令。作为回应,Blackfin处理器把指标寄存器的快照发送给主机。
图3 定期捕捉指标寄存器数据的实验装置
Blackfin处理器使用一个通用定时器定期地产生中断。在定时器发出中断时,指标寄存器的内容被读出并存储在存储器中。在主机发出请求时,存储的指标寄存器数据通过BTC通道发送到PC。BTC通道支持数据传输速率高达3Mbps。
Now consider an example program where multiple buffers are mapped in the DDR memory and memory DMA's are used to transfers data between these buffers.现在考虑一个示例程序,该程序有多个缓存影射到DDR存储器中,并使用存储器的DMA在这些缓存之间传输数据。
图4 在外部DDR存储器中多组数据传输的例子
在这个例子中,MDMA0从srcBuffer0向dstBuffer0传输4KB的数据,MDMA1从 srcBuffer01向dstBuffer1传输4KB的数据。最开始只启动MDMA0,在MDMA0数据传输完成后,MDMA1通道启用,反之亦然,这种方式导致在各个时间区间存储器组访问数发生变化。在这个例子中,指标寄存器一个快照显示了下面情况(见图5)。从这个数字无法看出哪个存储器组引起页错失,以及哪个数据流通道应对产生页错失负责。周期性地多次观测指标寄存器可帮助我们找到带宽利用率低的原因。
图5 例2指标寄存器数据的一个快照
我们将利用上述实验装置来记录指标寄存器数据。可使用在PC上获得的指标寄存器数据来绘制在页错失和存储器组访问之间的相关图,采用MATLAB等数学工具箱来分析该数据。从该图可以看出,大多数页错失是由存储器组0访问引起的。
图6 页错失和DDR Bankx访问之间的相关性
图7 存储器组访问与页错失
图8 例2未经优化的布局
图9 缓存布局优化
利用连接程序描述文件(ldf)或使用Blackfin处理器存储器窗口,可以确定哪些缓存影射到这些组,并把它们重新分别映射到其他组,从而减少页错失。
总线授权计数寄存器
总线授权计数寄存器(EBIU_DDRGCx)可帮助我们了解各个系统总线(EAB和DEBx总线)的资源利用率。实际上,这将有助于确定总线仲裁策略并确保实现高效的DMA和外部存储器资源共享。
Blackfin BF54x系列处理器对外部总线提供可编程优先级设置功能。另外,该系列处理器还把几个外设DMA和存储器DMA映射到多个DMA控制器上,为实现高效资源管理提供了额外的灵活性。
考虑一个从照相机获得视频数据的例子,压缩算法运行在Blackfin上,经压缩的视频数据通过USB总线从Blackfin发送给PC。观测结果表明USB吞吐率相当低,无法实时传输压缩的视频数据。可能的原因之一是USB总线由于系统中存在其他高优先级任务被挂起。对于这种情况,我们可以使用授权计数寄存器快速地进行验证。同上,我们观测指标寄存器在一段时间区间内的数据。在几个时间区间内指标寄存器的数据揭示出DEB2总线(USB总线)在与EAB总线(内核总线)竞争,因而限制了USB对DDR存储器的访问。
在默认情况下,内核拥有比USB接口更高的外部存储器访问优先权。对于当前的应用,USB总线的实时要求具有比内核更高的优先级。因此,我们必须使用其中的一个总线仲裁寄存器提高USB相对于内核的优先级,从而解决这个问题。
总线授权计数寄存器也可与存储器组访问寄存器配合使用,以了解在给定的时间区间内哪个总线最活跃,并找到页错失之间的关联和在给定时间区间的总线活动情况。存储器组访问计数、引起页错失的总线以及哪些资源在利用总线等信息可揭示出那些低效的代码或数据存储器布局。(ADI公司)