MPEG-4在视频监控应用中的软件实现-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

1 引言

目前，用于数字视频监控的图像压缩标准主要是H.261 和MPEG-1，他们在实际应用中有一定的局限性。第一，他们的适应性差，不能根据网络情况自适应的调节传输率，使得网络发生拥塞时性能急剧下降；第二，他们不具备较强的用户交互性。MPEG-4 能弥补以上不足，还具有在监控应用中的独特优势：由于压缩比是同质量的MPEG-1 的十倍多,所以可大大节约存储空间和网络带宽；错误恢复能力强：当网络传输有误码或丢包现象时，MPEG4 受的影响很小并且能够迅速恢复；图像质量高：可以达到接近DVD 的效果。

2 设计思路

根据视频监控的图像特点及其实时性要求，考虑到实际中网络的不稳定性，进行了编码软件的设计。视频监控的原始图像有一个显著的特点，即有大量的背景对象是静止不动的或极少运动的。MPEG-4 最基本的思想是基于对象的编码，编解码的基本单元是对象。所以可以把图像分割为运动物体对象和背景对象。背景对象采用压缩比较高、损失较大的方法进行编码，运动物体对象采用压缩比较低、损失较小的方法编码。基于此，我们采用MPEG-4 中Sprite 编码的思想来对背景对象编码。这是软件实现的一个重点所在。针对视频监控的实时性要求，算法的设计与选择上，除尽可能提高压缩比外，还要考虑到算法的复杂性，使其尽量满足实时性要求。这一思想贯穿于编码的整个过程，具体的，如VOP 的定义与生成，Sprite 编码等。另外考虑到网络的不稳定性，采用了MPEG-4 的可分级编码思想。

3 MPEG-4 的软件实现过程

现在，基于MPEG-4 标准的应用大多为硬件方案，采用专门的MPEG-4 编码芯片，难以实现升级，灵活性也较差，而本文中使用软件方案，可按实际应用要求进行编码，易于以后的升级，具有很好的灵活性。本文中，实现的是自然视频编码，不涉及音频编码。软件设计的总体步骤是首先利用图像分割技术生VOP，接下来是Sprite 生成，最后是对各VOP 的编码。软件实现流程如图1 所示。下面对其中的关键技术作介绍，重点是以前的标准中所没有的：视频对象平面VOP(video object plane)的定义与生成，Sprite 生成与编码，形状、运动、纹理编码，可扩展编码。MPEG-4 中，VOP 分四种，I-VOP、P-VOP、B-VOP、S-VOP，对于普通视频对象，只涉及到前三种，S-VOP 指SpriteVOP。

3.1 VOP 的定义与生成

MPEG-4 的编码单位是VOP，但标准并未规定生成VOP 的具体算法，而将其列入公开研究的内容。VOP 的生成是通过视频分割实现的。视频分割是实现基于对象的视频编码系统的基础，也是MPEG-4 编码的一个难点。图像分割技术根据分割所利用的信息，分为基于纹理的分割、基于运动的分割和基于时空的分割三类。按照人工参与的程度，图像分割分为自动分割和半自动分割。自动分割不需要用户的参与，只需要设置一些基本的参数，就可以由分割算法自动将视频对象分割出来，但是结果不很准确，主要用于实时编码；半自动分割需要用户的参与，因此可以得到准确的语义对象和边界，主要用于基于内容的操纵和交互式访问。基于编码对图像分割的要求不是很高，主要在于实时性上，这里，选用了一种时空联合自动视频对象分割算法。该算法首先对时域分割采用基于F-假设检验的方法来得到初始的变化检测模板，然后通过与基于形态学的空域分割融合来获得最终的运动对象。此算法计算比较简单，能较好的将前景运动对象从背景中分离出来。[page]

3.2 Sprite 编码

Sprite 编码是新一代的编码技术，它利用全局运动估计生成视频段背景的Sprite 图像（全景图），然后将这个Sprite 图像编码，以后各帧的背景编码都只是对该帧相对于Sprite 图像的运动参数进行编码。基于背景的平滑和纹理相关性大的特点，对Sprite 全景图的编码采用一种直接空间预测方法，基于篇幅限制，这里不作介绍，可参考[2]。Sprite 编码包括两部分，一是Sprite 的生成，使用全局运动估计来生成；二是Sprite 编码。Sprite 在最初的VOP 编码之前建立， MPEG-4标准中定义了两种类型的Sprite：静态Sprite 和动态Sprite。在这里选用动态Sprite，因此我们仅讨论动态Sprite 的生成与编码。

动态Sprite 的编码如图2 所示：视频序列的第一帧采用I-VOP 方法编码，而第一帧的重构图像在编码端和解码端建立相同的初始Sprite 图像；第二帧用全局运动估计算法估计当前VOP 与前一帧VOP 之间的全局运动，用参考点的轨迹描述两个VOP 之间的运动。采用P-VOP 方法编码第二帧的纹理，不同的是编码该VOP 各个宏块时，运动补偿的方式除了宏块和块运动补偿外，还可以用Sprite图像为参考进行运动补偿，此时宏块的运动补偿为全局运动补偿。解码器的解码参考点的轨迹得到全局运动参数，然后解码纹理信息得到第二帧的重构图像，根据全局运动参数和第二帧重构图像更新Sprite 图像。同样的方法用来编码序列后面的VOP。

图2 动态Sprite 编码框图

3.3 可扩展编码

根据视频监控的特点，当传输图像的分辨率和帧率不是很高时，仍能达到一般要求下的监控效果。因此我们可以采用MPEG-4 的基于对象的分层传输思想，使用空域分级功能调节空间分辨率，使用时域分级功能调节帧率。这样做一方面可以方便地实现码率控制，对网络带宽的变化具有很好的自适应性，另一方面，用户可以通过交互功能选择分辨率和帧率，以得到更好的视频效果或获得某一对象局部的细节。MPEG-4 定义了一种通用的可分级扩展框架来实现空间和时间可分级扩展，如图3 所示。

图3 MPEG-4 通用的可分级扩展框架图

当用于空域扩展时，可扩展预处理器对输入的VOP 下采样，得到由VOP编码器处理的基本层VOP。中间处理器处理重建的基本层VOP，并对其进行上采样，原始VOP 与中间处理器输出的差作为增强层编码器的输入。在增强层中的编码是以P-VOP 或B-VOP 方式编码的。通过反复接器可以分别访问基本层和增强层解码器对应的基本层和增强层码流，解码器端的中间处理器与编码端执行相同的操作，扩展后处理器执行必要的转换工作。

当扩展编码使用时域扩展编码时，可扩展预处理器在时域上将一个VO 分解成VOP 的两个子流，其中一个被输入到基本层编码器中，另一个输入到增强层编码器中。在这种情况下，不需要中间处理器，而是简单地将解码的VOP 基本层输入到VOP 增强层编码器，增强层编码器将使用它们进行时域预测。可扩展后处理器只是简单地输出基本层的VOP，并不进行任何转换，但是在时域上混合基本层和增强层VOP，以产生更高时域分辨率的增强输出。

3.4 普通VOP 的形状、运动、纹理编码

形状编码是其他的编码标准中所没有的，编码的信息有两类：二值形状信息（binary shapeinformation）和灰度级形状信息（gray scale shape information）。二值形状信息就是用0、1 的方法表示编码的VOP 的形状，0 表示非VOP 区域，1 表示VOP 的区域；灰度级形状信息可取值0～255，类似于图形学中的α 平面的概念，0 表示非VOP 区域（即透明区域），1～255 表示VOP 区域透明程度的不同，255 表示完全不透明。灰度级形状信息的引入主要是为了使前景物体叠加到背景上时不至于界太明显、太生硬，进行一下模糊处理。这里二值形状采用基于上下文的算术编码方法[4]，整个编码过程可分为以下五步：①对于给定VOP 的二值形状图重新确定形状边界，并将它分为若干个16×16 二值α块(Binary Alpha Block，缩写为BAB)。②对即将编码的BAB 块进行运动估计，得到运动矢量MVs(MV for shape 缩写为MVs)。③对该VOP 中待编码的BAB 块确定编码方式。④对待编码的BAB 块确定分辨率。⑤对BAB 块进行编码。灰度级编码形状编码与此类似。对普通视频对象，MPEG-4 编码算法支持三种类型的VOP：I-VOP、P-VOP、B-VOP。在MPEG-4 中运动预测和运动补偿可以是基于16×16 宏块，也可以为8×8 块。如果宏块完全位于VOP 内，运动估计使用一般的方法进行；倘若宏块位于VOP 边界，则使用图像填充技术给VOP 外的像素指定值。然后利用这些值计算SAD。对于P-VOP 和B-VOP，运动矢量首先被差分编码，然后再用可变长编码运动矢量。

视频对象的纹理信息用亮度Y 和两个色差分量Cb、Cr 表示，对于I-VOP，纹理信息直接包含在亮度和色差分量中，在有运动补偿的情况下，纹理信息用运动补偿后的残差表示。纹理信息的编码使用了标准的8*8 的DCT。纹理编码中，帧内VOP 和运动补偿后的残差数据都用相同的8×8 块DCT 方案编码，对亮度和色度分别做DCT。对于VOP 之内的宏块用与H.263 相同的技术编码，对位于VOP 形状边缘的宏块，有两种选择，一是用图像填充技术填满宏块中VOP 以外的部分，另一种是用形状自适应DCT 编码的方法。后者只对VOP 内部的像素编码，从而在比特率相同的情况下有较高的质量，代价是应用的复杂度稍高，考虑到视频监控的实时要求，选用了图像填充技术中的低通外推（Low PassExtrapolotion）方法。接着再做DCT。对DCT 后的数据量化、扫描与可变长编码操作类似于MPEG- 2 和H.263，在此就不详述了。

4 小结

本文根据图像监控系统的特点，吸取MPEG-4 编码标准的思想，提出了用软件实现MPEG-4 在视频监控应用中的编码的主要框架，相较目前使用较多的硬件方案，更能贴近实际应用的要求，具有很好的灵活性和可升级性，又可降低成本。但由于MPEG-4 的编码非常复杂，加上其技术上还不是很完善，所以实现上有一定的难度尤其如何保持其实时性能上难度更大。随着高速处理芯片的不断出现及MPEG-4 在技术上的发展完善，这些问题将迎刃而解。

关键字：MPEG-4 视频监控编码器引用地址：MPEG-4在视频监控应用中的软件实现

上一篇：应对智能手机和平板电脑需求，更多形式的移动DRAM浮现
下一篇：移动数字电视手机设计方案

推荐阅读最新更新时间：2024-05-02 21:24

stm32与绝对式编码器的ssi接口进行通信

[单片机]

stm32与绝对式<font color='red'>编码器</font>的ssi接口进行通信

编码器在风电行业中的应用

一、引言随着煤炭、石油等常规能源的逐渐枯竭，人类越来越重视对新能源（非常规能源）的开发利用。新能源是指传统能源之外的各种能源形式，如太阳能、地热能、风能、海洋能、生物质能和核聚变能等。其中风能以其独特优势而备受青睐。相对其他新能源相比，风能具有三大优势：第一，储量大、分布广；第二，可利用性强，成本相对较低；第三，绿色能源，不污染环境。作为一种利用风能的清洁能源，风电在环境保护日益重要的今天，发挥着越来越重要的作用。近年来，全球风能市场每年以超过40%的速度快速发展，而中国也凭借丰富的风场资源和政府对新能源开发的大力支持，成为继欧美之后全球最重要的风能市场，这给中国风能装备制造业带来了发展机遇。我国风能资源丰

[传感器]

stm32f103 编码器模式总结

/************************************************************************** 函数功能：把TIM2初始化为编码器接口模式入口参数：无返回值：无 **************************************************************************/ void Encoder_Init_TIM2(void) { RCC- APB1ENR|=1 0; //TIM2时钟使能 RCC- APB2ENR|=1 2; //使能PORTA时钟 GPIOA- CRL&=0XFFFFFF00;//PA0 PA1 GPIOA-

[单片机]

stm32f103 <font color='red'>编码器</font>模式总结

视频监控红外技术的对比分析与发展方向

红外摄像机的技术探讨随着安全问题逐渐成为社会关注的焦点，安防监控技术的发展也越来越受到社会各方面的重视，仅可见光监控已不能再满足人们的监控要求，24小时连续监控是现在监控系统中必不可少的重要部分。要实现全天候不间断监控，就需要实现摄像机夜视的技术，目前都是采用红外夜视技术。红外摄像技术分为被动红外摄像技术和主动红外摄像技术两种。被动红外被动红外摄像技术是利用任何物体在绝对零度（-273℃）以上都能辐射电磁波的原理。由于不同物体甚至同一物体不同部位辐射能力和它们对红外线的反射强弱不同，物体与背景环境的辐射差异以及景物本身各部分辐射的差异，红外探测器能将强弱不等的辐射信号转换成相应的电信号，然

[安防电子]

瑞萨的电感式电机位置传感技术，是电机位置传感器及编码器领域的重大飞跃

瑞萨的电感式电机位置传感技术，兼顾高精度、高稳定性和高性价比，是电机位置传感器及编码器领域的重大飞跃无磁铁双线圈技术为机器人、工业和医疗设备中使用的电机位置传感器及编码器带来高分辨率、高精度和高可靠性 2023 年 10 月 2 5 日，中国北京讯 - 全球半导体解决方案供应商瑞萨电子今日宣布推出用于机器人、工业和医疗应用的高精度电机位置传感器IC的全新电感式位置传感器（IPS）技术。该位置传感技术利用非接触式线圈传感器，可取代目前在要求绝对位置感测、高速度、高精度，和高可靠性电机控制系统中普遍使用的昂贵磁性及光学编码器。瑞萨的专有IPS技术使用由蚀刻在印刷电路板（PC

[工业控制]

瑞萨的电感式电机位置传感技术，是电机位置传感器及<font color='red'>编码器</font>领域的重大飞跃

最流行的六种视频格式

1、AVI 英文全称为：Audio Video Interleaved。AVI格式，人们非常熟悉，在日常生活中也很常见，视频质量也非常不错。不过，人们也经常抱怨AVI格式占用了太多的存储空间。AVI是微软公司在1992年推出的,随着Windows 3.1逐渐为人们所熟悉。AVI英文全称“Audio Video Interleaved”的意思是将音频和视频数据交织存储在一起，从而也能够同时播放。AVI格式已经成为一种标准，可以在不同的平台上播放。当然，如果要求视频的质量高，文件就会非常大。AVI还有一个特点，就是支持不同的编码解码器（CODEC）。因此，并非所有的AVI文件在PC上都能随时播放。因为采用的编码解码器不同，有时你不得

[嵌入式]

与时俱进金融安防视频监控技术分析

　金融安防产品发展到今天，呈现出极为明显的高清化、智能化、网络化发展的趋势。尤其是在视频监控领域，还要求有统一的平台系统进行集成化管理。而且，出于升级换代和节约成本的需求，银行方面往往还要求监控管理平台具有出色的兼容性，能够实现多系统融合。金融安防的现状　　作为国内最早试水安全防范系统的行业之一，金融安防起步于九十年代初。经过多年的发展，已具有相当大的规模。但由于技术条件和管理机制的限制，现有的安防系统还存在很多问题。　　联网程度不高：目前，营业网点、ATM自助银行基本上都配备了视频图像监控系统，但各网点与上级机构之间缺乏监控信息的有机联系;系统之间相互独立，安全防范工作被动，而且管理困难;网点、上级机构

[安防电子]

基于FPGA的数字音频广播信道编码器的实现

摘要：介绍了数字音频广播（DAB）信道编码的原理和关键技术，并应用单片FLEX10K100系列FPGA实现DAB信道编码器。关键词：数字音频广播（DAB）信道编码 FPGA 1 数字音频广播（DAB）发射系统及信道编码器 DAB是继调幅和调频广播之后的第三代广播体系。与模拟广播相比它不仅可以提供高质量的声音信号（CD音质），也可以提供数据、图像等多种其他附加服务。它可以保护在高速移动接收时的声音质量，具有很强的抗干扰能力，在同要瓣频带宽度和环境下，DAB可以提供高质量的多种多样的广播节目。

[网络通信]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■罗姆有奖直播 | 重点解析双极型晶体管的实用选型方法和使用方法

■STM32N6终于要发布了，ST首款带有NPU的MCU到底怎么样，欢迎小伙们来STM32全球线上峰会寻找答案！

■免费下载 | 安森美电动汽车充电白皮书，看碳化硅如何缓解“里程焦虑”！