HPI接口的视频数据传输系统设计-电子工程世界

引言

　　在视频监控、远程视频播放等系统中，通常需要将视频图形数据通过网络传输到远程处理机上。作为数字信号处理专用处理器，DSP虽然在视频压缩等方面有很大的优势，但对诸如任务管理，网络通信等功能的实现较困难。运行于通用嵌入式处理器的Linux操作系统，开源，可以根据需要修改内核，支持各种网络协议，并且其任务调度机制性能卓越。综合二者的优点，嵌入式视频平台可以由DSP完成图形处理功能，并通过高速接口把视频数据传输给嵌入式微处理器，然后由嵌入式Linux系统完成网络传输功能。

　　目前DSP与微处理器之间的高速通信方式有以下几种：共享内存，此种技术对软硬件的设计要求都非常高，同样效率也最高；通用高速总线接口，如PCI、 USB等，这种类型的通信方式采用复杂的链路协议，软件设计困难；专用接口，如TI公司DSP提供的HPI(Host Port Inter-face)。本文研究了TMS320E)M642的HPI接口，并提出一种在TMS320DM642和AT91RM9200间高速通信的软硬件实现方案。通过HPI接口，TMS320DM642可以高速地将实时视频数据传输给AT91RM9200；在AT91RM9200上，Lnux驱动实现存储器映射I／O和物理内存重映射，避免了视频数据在应用程序与内核之间的二次拷贝，提高了应用程序的网络发包效率。

1 HPI接口硬件设计

　　HPI是一种并行接口，支持32位(HPl32)和16位(HPll6)数据总线，通过HPI的数据寄存器(HPIDA、HlPIDF)，ARM可以间接存取DSP的存储空间。在DSP内部，数据从存储单元到HPI数据寄存器的传输，是由EDMA(增强DMA)控制器完成的。

　　HPI控制器的外围引脚包括HD[0-31]、数据总线。HCNTL[O-1]是寄存器访问控制线，HPI控制器有4个寄存器，通过这两根控制线，DSP 可以确定ARM要访问的寄存器。其中，HPIA地址寄存器，存放当前访问单元的地址；HPIC为控制寄存器，实现各种控制命令；HPIDA自增长数据寄存器，每访问一次该寄存器HPIA的内容加4；HPIDF固定地址数据寄存器，与HPIDA不同之处在于，访问该寄存器后HPIA的内容不变。HHWIL，高低位访问控制线，它只用于HPll6模式中，该控制引脚决定寄存器的高或低16位被主机访问。HR／nW，HPI控制器4个寄存器的读写控制线。 HDSl、HDS2和HCS，其中HDSl、HDS2可连接ARM的读、写控制线，HCS连接ARM的nCS7片选线，三者在DSP内部组合形成一个 HSTROBE信号，当HCS低有效并且HDSl或HDS2的读或写低有效，决定数据寄存器(HPIDA、HPIDF)的读或写操作。HAS，地址锁存线，当主机的地址线与数据线复用时，主机可用该控制线通知。DSP锁存地址；其他不用该控制线情况时，应接高电平。nHRDY，DSP输出线，表示HPI 总线是否可访问。nHINT，中断输出线，用于中断ARM。

　　DSP与ARM接口电路如图1所示。采用HPI16模式，16根数据线通过16245数据隔离器接到ARM数据总线的低16位，将HPI的片选空间置于 ARM的nCS7片选线上，HR／nW读写信号经反向器接到ARM的AB4地址线，HCNTL[O-1]与ARM的地址线AB[2-3]相连，则HPI的 4个寄存器的读基地址为0x80000000，写基地址为0x80000010。在ARM端从这两个地址开始访问，相应地对HPI 4个寄存器访问。

　　ARM通过HPI读写DSP数据空间，须按以下三步顺序执行：首先，对HPIC寄存器初始化，主要针对HPI16模式最低位HWOB位设置，决定数据传输格式是按高半字在前(设置为0)，还是低半字在前(设置为1)，该位对于HPI32模式无效，可不设置；然后，对HPIA寄存器初始化，设置访问单元的地址；最后通过读写数据寄存器(HPIDA、HPIDF)实现数据读写操作，其中读写HPIDA寄存器是完成连续地址单元读写操作，读写HPIDF寄存器是完成固定地址单元读写操作。注意，在ARM读写的过程中，如果DSP的nHRDY控制线一直为高，表示HPI数据总线未准备好，ARM的读写操作必须等待；当nHRDY为低后，ARM才继续向下执行指令。

[page]

2 Linux驱动设计

　　Linux虽然是一种整体式操作系统，但允许在运行时动态加载或删除功能模块。这个特点方便了驱动功能模块的开发。Linux系统支持两种模块调用方式：一种是静态编译，直接编译进内核，在系统启动时就运行；另外一种是动态加载，在内核运行时，用insmod／rmmod实现模块的加载和删除功能。在嵌入式系统开发中，一般采用动态加载方式，避免了系统频繁重启。当最终发布产品时，可以把模块直接编译进内核。这种处理方式比较简单，且效率高。

Linux系统中，内存地址主要涉及以下几个概念：物理地址、内核虚拟地址(包括内核逻辑地址)和进程虚拟地址。在内核层，当内核要访问某内存空间时，用的是内核虚拟地址，再由MMU(存储器管理单元)将内核虚拟地址转换为物理地址。采用虚拟内存技术，每个进程都有互不干涉的虚拟空间。三者直接映射的关系如图2所示，其中内核函数zap_page_range完成去掉物理地址与进程虚拟地址映射关系的功能。

2．1 驱动结构

　　在Linux中，设备也是作为文件来访问的。VFS(虚拟文件系统)为各种不同的文件系统提供了统一的访问接口，通过这些接口，应用程序可以直接使用open、read和IOctl等系统调用对设备进行访问和控制。

　　本例中，把HPI作为一个外围设备，其驱动主要实现对设备的打开、关闭、内存映射、视频数据缓冲区管理和物理内存切换等功能。根据原理图，可以确定HPI 四个寄存器对应的物理地址，在驱动初始化过程中，调用ioremap_uncache函数把物理地址映射为内核虚拟地址，在驱动层通过内核虚拟地址访问 HPI的4个寄存器。

　　存储器映射I／O把HPI驱动分配的数据空间直接映射到应用程序的虚拟地址空间，应用程序直接访问该空间，避免了用read／write系统调用导致的视频数据二次拷贝。在内核里，由驱动分配一定的缓存，当应用程序不能及时处理DSP发送过来的视频数据，可以缓存这些数据；当应用程序处理完一帧图像时，采用Linux的物理内存切换技术，把下一帧数据所在的物理地址重映射到应用程序的同一虚拟地址，这样，应用程序不用频繁调用mmap函数映射内存。

2．2 存储器映射I／O

　　一般情况下，当应用程序用read／write读写设备数据时，该设备的驱动先将设备数据从设备上采样到内核缓冲区，再从内核缓冲区拷贝到应用程序缓冲区，数据经过了两次拷贝。当数据量比较小时，如一些控制命令或状态信息，对系统性能几乎没有影响。但是，如果一次传输的数据量比较大，比如视频显卡上的实时视频图像，两次拷贝将大大影响系统的数据处理效率。这时，可采用存储器映射I／O技术，在内核层存储器映射I／O由函数 remap_page_range完成。

　　由remap_page_range函数的原型可以知道，该函数的意义在于通过将特定物理地址映射到进程虚拟地址，进程可以访问特定的物理地址，而这在普通情况下是不可能的。在本例中，当进程调用mmap函数进行存储映射时，内核会调用驱动注册的hpi_mmap函数，传入的参数之一包括进程虚拟地址。在 hpi_mmap函数里，调用remap_page_range完成从缓冲区物理地址到进程虚拟地址的映射。hpi_mmap函数实现如下：

　　其中vm_flags字段设置了VM_RESERVED，表示该数据缓冲区一直常驻内存，在内存不足时，不会被交换出去。内核和进程同时对数据缓冲区读写，为了保证数据的一致性，对该区域的访问不应该经过CPU内部的缓冲区，所以用pgprot_noncached设置非缓冲标志。

　　mmap系统调用返回一个进程虚拟地址，该地址就是vma->vm_start字段，进程对该虚拟地址的访问，最终变为对物理地址CACHE_PHY的访问。

[page]

2．3 数据缓冲管理

　　缓冲管理的主要任务是，当ARM接收到新的一帧时，为其分配相应的缓存，并将在物理地址重映射到进程虚拟地址。当应用程序处理该帧时，缓冲管理负责内存区域的回收。

　　当Linux内核启动时，可以传人参数mem=PHY_LEN，指定存储空间的大小。在本例中，内核启动时为HPI驱动预留8 MB的高端物理内存。在本例中，借助Linux中对普通外设I／O内存(PCI卡内存等)管理的思想，用高度为2的树表示一块连续的区域。该数据结构的优点在于，资源分配简单，把离散的小内存合并为一块连续的大缓冲区的算法复杂度为O(1)。具体实现请参阅内核源码中resource结构相关部分。

　　重映射新一帧视频数据到进程虚拟地址是缓冲管理的另一任务。因为前一帧数据物理地址已经映射到进程虚拟地址，需要先将前帧物理地址与进程虚拟地址的映射关系去掉，然后重映射当前帧数据到进程虚拟地址。去掉物理地址与进程虚拟地址的映射关系由内核函数zap_page_range完成，调用该函数后，如果进程再访问该虚拟地址，内核会产生缺页中断。这时再用remap_page_range建立当前帧数据物理地址与进程虚拟地址间的映射关系，进程就可以通过同一虚拟地址访问当前帧的数据了。该方法的意义在于，进程不用频繁调用mmap建立物理地址与虚拟地址的映射，只用调用一次，当有新数据到达时，驱动自动将新帧数据映射到先前的进程虚拟地址，提高了进程处理视频数据的效率。实现代码如下：

结语

　　在当前视频处理平台上，视频处理、视频传输、复杂任务管理等工作一般都是由一块DSP处理器单独完成，结合其他嵌入式微处理器协同工作的技术方案刚刚起步。经测试，在基于本文提出的高速通信方法设计的视频处理平台上，TMS320DM642与AT9lRM9200间的通信速率可以达到50 Mbps，带宽足够用来传输MPEG等压缩视频数据。如果用HPl32模式，速度还会大幅度提高。同时，因为Linux系统的实时性不是很强，如果采用其他实时性强的操作系统，如Vxworks等，系统性能还会有大的提高。

关键字：HPI接口视频数据传输 Linux内核 DSP ARM 引用地址：HPI接口的视频数据传输系统设计

上一篇：数字电视平移能否成有线电视二次辉煌？
下一篇：数字电视公共信息平台的构建与创新

推荐阅读最新更新时间：2024-05-03 19:22

数字信息时代的核心引擎——DSP

　　集成电路已经步入了数字时代，然而在数字时代的舞台上最闪亮的明星莫过于DSP了。作为一种功能强大的特种微处理器,DSP在数据、语音、视像信号的高速数学运算和实时处理方面以及通信领域都有着出色表现。其所树立的高速处理器地位不仅不可动摇，而且业已成为数字信息时代的核心引擎。　　20世纪60年代以来，随着计算机和信息技术的飞速发展，数字信号处理技术应运而生并得到迅速的发展。数字信号处理是一种通过使用数学技巧执行转换或提取信息，来处理现实信号的方法，这些信号由数字序列表示。在过去的二十多年时间里，数字信号处理已经在通信等领域得到极为广泛的应用。　　对于TI推出业界第一颗商用DSP的历史，TI首席科学家Gene Frantz在

[电源管理]

基于ARM和以太网供电的网络摄像机设计

引言本文提出了一种基于ARM和POE的嵌入式系统的网络摄像机设计方案。该方案以AT91RM9200处理器及其外围模块作为硬件平台，以嵌入式Linux作为操作系统，构成整个系统。该系统应用以太网供电，实现网络摄像机的功能，不必提供专门供电线路，这种设计实现的网络摄像机是一个创新。同时，随着网络技术的高速发展，该设计将具有极好的市场应用前景。 1 系统的结构整个系统由AT91RM9200处理器、CMOS传感器、音频采集系统、以太网供电系统和以太网数据通信等几部分组成。首先，通过CMOS传感器镜头采集图像，同时还可以进行音频采集，经过AT91RM9200处理器处理，整个过程通过网络进行数据传输，通过网络进行供电，从而实现以太

[单片机]

基于<font color='red'>ARM</font>和以太网供电的网络摄像机设计

基于ARM7的路灯监控通信终端的设计

　　 0 引言　　对于城市路灯管理部门来说，防盗、节能等一直是一件非常头疼的事情，需要投入大量的人力、物力和财力，因为路灯数量众多，地理位置分散，给工作人员带来极大的困难。 GPRS即通用分组无线业务，英文全称为General Packet Radio Service，这种无线业务是在现有GSM网络上开通的一种新型的分组数据传输业务。GPRS采用分组交换技术，它可以让多个用户共享某些固定的信道资源。GPRS特别适用于间断的、突发性的或频繁的、少量的数据传输，也适用于偶尔的大数据量传输，具有实时在线、按量计费、快捷登录、高速传输、自如切换等优点。因此,利用GPRS组建的无线通信系统是一种造价低,易于维护和推广,无制约,可靠性

[单片机]

基于<font color='red'>ARM</font>7的路灯监控通信终端的设计

权威机构：FPGA性能超越DSP数十倍！

　　多年以来，在ASSP、ASIC、DSP、FPGA等芯片的选择问题上，高端通信系统设计师总面临诸多棘手而复杂的难题。　　虽然这些芯片技术在价格与性能方面各有优劣，但是FPGA供应商一直宣称：与复杂且昂贵的ASIC相比，它们提供的产品在多个方面都更胜一筹，例如具有更快的产品上市速度，以及更多的设计灵活性。然而截至目前，在与DSP的竞争中，人们却普遍认为，FPGA在性价比方面的表现远不如　DSP。　　不过，技术咨询公司Berkeley Design Technology(BDTI)一项最新但是具有争议性的基准测试研究结果显示，在多个意义重大的DSP应用中，FPGA的性价比优势可能超越了独立DSP。　　“特别地，在诸如高端

[嵌入式]

ARM指令adr adrl ldr mov简单科普

ADR 是一条小范围的地址读取伪指令,它将基于PC的相对偏移的地址值读到目标寄存器中。格式：ADR register,exper。编译源程序时，汇编器首先计算当前PC值（当前指令位置）到exper的距离,然后用一条ADD或者SUB指令替换这条伪指令，例如:ADD register,PC,#offset_to_exper。注意，标号exper与指令必须在同一代码段。比如：adr r0, _start ：//将指定地址赋到r0中 ……… _start: b _start r0的值为标号_start与此指令的距离差 + PC值。 ADRL: 这是一条中等范围的地址读取伪指令，它将基于PC的相对偏移的地址值读到目标寄存器中。格式：

[单片机]

基于ARM的大型LED点阵显示系统的设计

大型LED 显示系统是随着计算机及相关微电子、光电子技术的迅猛发展而形成的一种电子广告媒体，它利用发光二极管构成的点阵模块或像素单元组成大面积显示屏幕，主要用于显示字符、图像等信息。它采用低电压扫描驱动，具有: 耗电少、寿命长、成本低、亮度高、故障少、视角大、可视距离远等优点。随着LED材料技术和工艺的提升,大型LED显示系统以突出的优势成为平板显示的主流产品之一，广泛应用在如证券交易，机场航班,港口，车站等场合，在信息显示领域得到广泛应用。 1　系统结构与原理大型LED显示系统一般分为显示驱动模块和主控板两部分。 1.1　显示模块大型LED显示系统是利用人眼视觉特点采用逐行扫描和列驱动方式以节省硬件开支，本系

[嵌入式]

ARM64平台下WFE和SEV相关指令解析

WFE 等待事件（Wait For Event）指令。 ARM架构下，有一个全局的事件寄存器（Event Register），系统中的每一个CPU核在这个寄存器上都有对应的位。当当前CPU执行WFE指令的时候，如果事件寄存器对应当前CPU的位没有被设置（也就是0），则当前CPU核会进入低功耗模式，会被挂起，不会再执行其它操作；而如果事件寄存器对应当前CPU的位被设置了（也就是1），则会将事件寄存器对应当前CPU的位清空（设置成0），然后立即返回，继续执行下面的指令，不会进入低功耗模式。如果当前CPU核通过WFE指令进入了低功耗模式，那么只有在如下情况下才可能被重新唤醒：发生了IRQ中断（前提是没有被屏蔽）；

[单片机]

ARM11 S3C6410系列教程之二：串口

　　对于一个微处理器，最常用也是最简单的接口就是串口，它不需要太多的管脚，也不需要太多的硬件电路，如果不放心，增加一个max232可以达到万无一失的境地，完成数据的传输。　　S3C6410拥有187个复用功能的I/O端口，这些端口可以分为17组，具体如下：　　S3C6410X UART 支持的比特率可达到 3Mbps。每个 UART包含两个 64-byte FIFO’s用于发送和接收数据。我们可以这样理解，当配置好寄存器后，我们可以从相应的缓存区读取或者发送相应的数据。通过上面的描述可以看出，S3C6410的GPA和GPB为串口。现在我以串口0为例介绍S3C6410的串口如何配置。对与串口0，通过设置GPACON为相应

[单片机]

<font color='red'>ARM</font>11 S3C6410系列教程之二：串口

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！