H.264/AVC中扩展空域可伸缩编码的研究

发布者:诗意世界最新更新时间:2007-09-14 来源: 电子技术关键字:视频  时域  图像  比特 手机看文章 扫描二维码
随时随地手机看文章

1 概述

H.264/AVC 国际视频编码标准的逐渐成熟和推广,越来越多的视频应用已经或即将采用H.264/AVC标准。由于存在不同的网络和不同的终端,因此对于视频编码的可伸缩性方面的要求也越来越迫切。所谓的可伸缩视频编码(scalable video coding:SVC)技术要求视频编解码器在比特流级别具有以下可伸缩特性:通过简单的丢包或截断码流等操作提取出的子码流具有较低的空间-时间分辨率和/或较低的码率(对应于较低的视频质量),同时任何可能子码流的编码效率应该与相应非可伸缩视频编解码器相当。

当前国际上对于视频编码技术的研究热点逐渐集中于在H.264/AVC 基础上实现可伸缩视频编码(Scalable Video Coding, SVC)。2005年1月,ISO的MPEG和ITU-T的VCEG,同意联合起来将SVC作为H.264/AVC的扩展集并由联合视频组(JVT)提出了草案,收录为H.264/AVC的Annex G。此后,每次JVT的会议都围绕着SVC技术对草案进行修订和完善。在2006年10月的JVT会议上,提出了H.264/AVC可伸缩扩展集的第8版草案。

2 基于H.264/AVC的SVC

H.264/AVC可伸缩扩展集的一大特点是,扩展集中所采用的H.264/AVC中的大部分技术都与AVC标准中的定义一致(例如,运动补偿预测,intra预测,变换编码,熵编码,去块滤波器等),只加入或修改了很少一部分内容。H.264/AVC的可伸缩扩展的技术要点为:(1)时域分级预测结构;(2)用于空域可伸缩性的层间预测机制;(3)基本层与H.264/AVC兼容;(4)用渐进细化片(progressive refinement slices)实现精细颗粒的质量可伸缩性;(5)NAL单元概念的使用和扩展。

H.264/AVC的SVC扩展集以不同的空间尺寸的图像为基础形成分层结构,并且在此丛础上,用等级B图像来实现时域的可伸缩性,用渐进细化(progressive refinement)的纹理编码来实现质量可伸缩性。一个降低的时/空分辨率序列所对应的比特流可以简单的通过丢弃NAL单元(或网络包)来得到,该完整的流对于获得所需的时-空分辨率是没有必要的。对应渐进精细片的NAL单元也可以被任意截断以进一步降低比特率和相应的重建质量。

实际应用的SVC编码器结构取决于要实现的可伸缩性的维度。图1所示为一个具有三个空域层的编码器。

3 基本的空域可伸缩性

基于图像空间尺寸的空域可伸缩性是通过使用金字塔形的空域分辨率概念来实现的。将原始尺寸的输入视频序列进行下采样,得到所需的较低的空域分辨率,每个空域分辨率都用一个新的层进行编码,并且在各空域分辨率层的基础上进一步实现时域和质量的可伸缩性。由于低层是由高层通过下采样得到的,因此在相同的时域分辨率情况下,每一个高层帧都有与之相对应的低层帧,两者之间存在着显而易见的相关性,我们称之为层间冗余。显然,为了获得更高的压缩效率,有必要通过各种层间预测技术来消除层间冗余,这也是空域可伸缩性技术的关键所在。 SVC允许编码器自由选择哪些空域分辨率层间的相关性需要被消除。在具体实现时采用以下三种方式:

(1)Intra宏块的预测使用上采样的基本层incra块;(2)运动信息的预测使用上采样后的基本层运动数据;(3)残差信息的预测使用上采样后的基本层残差块。同样的技术可以用于基本层与当前层具有相同的空间分辨率的情况。此时,就不用进行上采样了。

4 扩展的空域可伸缩性

在基本的空域可伸缩编码中,对于高低层之间的空间关系有较严格的限定,即,低层必须对高层的完整图像进行以2为倍数的尺寸缩小。但是在实际应用中,由于网络状况、终端能力和用户需求多样,因此以上的限制使得应用中的需求无法得到充分满足。例如,当网络带宽减小时,用户可能更希望对感兴趣区域保留原始的空间分辨率的同时玄除其他区域(切割),而非对整个图像进行整体缩小;又如,为了适合终端显示尺寸,可能要对原图像进行非2倍的尺寸缩小。为了满足类似上述需求,JVT提出了扩展空域可伸缩件(ESS:extended spatial scalability)的概念。

ESS使得相邻的空域层之间具有了一般化的关系。这包含了两方面的意义:低空域层的图像可以来自于高分辨率图像中任意位置剪切出的矩形区域,并且相邻层分辨率的比例关系不再限制于2倍。

相应的,为实现以上功能,ESS 中新定义了以下两种技术: (1)剪切; (2)一般化的上采样(任意的水平和竖直层间尺寸比例)。

考虑两个连续的空域层,基本层(Base layer)和增强层(Enhancement laver),几何关系如图2所示。增强层图像的宽度和高度分别表示为wenh和henh。基本层图像的宽度和高度分别表示为wbase和hbase。基本层图像是从增强层图像中位置(xorig,yorig)起,宽高尺寸分别为wextract和hextract,部分或全部在增强层图像中的矩形区域,通过下采样得到的。增强层和基本层图像被划分为宏块。wextract/wbase和hextract/hbase对应了基本层图像和增强层提取图像之间实际的下采样比率。因此,参数集(xorig,yorig,wextract,hextract)完整的定义了基本层和增强层图像之间的几何关系。作为特例,在基本的2倍空域伸缩关系的配置中,这些参数为(0,0,2*wbase,2*hbase)。

如同基本的空域可伸缩性一样,ESS的增强层宏块可以使用基本层的运动信息进行层间预测,增强层的宏块使用从基本层获得的运动数据进行重建。由于ESS使得空域层间的关系变得更为复杂,因此层间预测技术也有了相应的发展,包括运动信息和纹理信息两个方面的内容。

5 ESS层间运动信息的获取

ESS运动信息上采样通过以下步骤完成:

(1) 获取几何参数

如图3所示,是图2中的基本层经上采样后与增强层重叠所表现出的两层宏块的对应关系,虚线表示基本层上采样后的宏块,实线表示增强层的宏块。

由图可知,对于ESS来说,增强层的某一个宏块可能在基本层中没有对应的宏块(在增强层图像的边界上),也可能有一个或几个对应的宏块。因此,首先有必要决定相应的高层宏块所对应的1、2或4个基本层的宏块,及它与这些基本层宏块的几何关系。

(2) 确定层间宏块对应关系类型

根据获得的几何参数,一个高层的宏块可能分属以下4个类型:

Comer:高层宏块有1个对应的基木层宏块;

Hori:高层宏块有2个对应的上下排列的基本层宏块;

Vert:高层宏块有2个对应的左右排列的基本层宏块;

Center:高层宏块有4个对应的基本层宏块。

(3) 获取宏块类型和分割类型

通过层间宏块对应关系,从相应的基本层宏块获取分割和子分割信息。使用这些变量来判断高层宏块是否(有可能)被分割。

例如,考虑一个高层宏块,如图4所示。如果对应的基本层宏块分别按照8×8和16×16分割,因为左边的8×8块由一个宏块边界获得,则获得的宏块分割为8×8。此外,子分割的类型也直接由对应的摹本层8×8块获得。

(4) 运动数据的继承

在得到了宏块分割和子分割的信息之后,最后一步就是从每个(子)分割继承运动信息(例如,参考帧索引和运动矢量)。首先,确定考虑的高层(子)分割的左上方的4×4块,计算确定对应的基本层4×4块,继承覆盖了基本层4×4块的(子)分割的参考帧索引和运动矢量,最后对运动矢量进行相应的伸缩。

当使刚的剪切窗口与宏块边界对齐,且上采样比率为1或2时,运动和纹理信息的上采样过程与基本的空域可伸缩编码相同。台则,必须使用一般化的上采样工具。根据当前SVC草案中的规定,只有当宏块完全在基本层内的时候,才进行层间预测。

6 ESS的层间纹理预测

层间纹理预测过程由对基本层纹理进行基于直接内插的上采样来完成。对于intra纹理,使用一组6抽头的滤波器,同时内插会跨越块边界,所使用的基于整数的6抽头滤波器,由Lanczos3滤波器变化而来;对于残差纹理,使用双线性滤波器,同时内插不跨越块边界。

考虑到基本层和增强层之间存在潜在的色度相移,因此对于亮度和色度的处理存住细微的差别。

对于亮度样点,增强层中在位置(X,Y)的实际的预测点pred[X,Y]由以下式子得到:



interp是来自于基本层亮度纹理1/16样点内插的样点向量。

对于色度样点,增强层中在位置(X Y)的实际的预测点predC[X,Y]由以下式子得到:

predC[X,Y]=interpC[xI,yI]

其中



interpC是来自于基本层色度纹理1/16样点内插的样点向量(C可以是Cr或Cb)。xorigC,yorigC,wextractC,hextractC,wextractC,hextractC,wextractC,hextractC是色度几何参数,Pbasex,Pbasey,Pextractx,Pextracty是水平和垂直的色度相移,单位是基本层或增强层亮度点的1/4像素距离。

7 结论和展望

作为当前JVT工作的中心任务,围绕SVC的研究还在不断深化,更多细节和新技术被添加到草案中。

作为一项新技术,ESS能解决实际应用中对于空域伸缩的一般化的要求,但是对这一技术的具体实现还存存一些问题。

在H.264 SVC实现的软件参考模型JSVM中,采用了自适应的层问预测方式选择,以实现更高的编码效率。但目前只实现了图像级的自适应,即对于整幅图像的所有宏块决定是否进行层问预测。因此在ESS中采用图像剪切的情况下,部分高层宏块将没有对应的基本层宏块。此时在图像级判断自适应的结果只能不进行层间预测,这使得ESS的编码效率大受影响。为了充分消除帧间冗余,必须要引入宏块级的自适应层间预测。

关键字:视频  时域  图像  比特 引用地址:H.264/AVC中扩展空域可伸缩编码的研究

上一篇:基于水印技术的MPEG-4形状错误隐藏
下一篇:数字娱乐设备中采用多锁相环和扩频时钟进行设计的优势

推荐阅读最新更新时间:2024-05-03 10:59

VSS-UMPC-10超便携移动PC视频协处理器
  VSP100作为多媒体协处理器提供UMPC实现完美的多媒体解码功能。   基于VSP100,支持网络流行的各种格式多媒体文件解码。 基本特征: 支持的视频标准:MPEG2, MPEG4, H.264, AVS, WMV9, Real Media 10等 支持的音频标准:MP3, AAC, Dolby, WMA, RMA等 支持的媒体格式:ASF,AVI,DivX,MP4,QT,RM10,VC-1,VOB,WMV9,xVid等 支持的图片标准:JPEG 控制接口:UART, I2C, SPI 需解码数据输入接口:SPI, PSP 解码后数据输出接口:PSP, LCD Controller, CCIR656 器件列表:
[家用电子]
MAX9217/MAX9218在视频链路中传输音频数据
  MAX9217/MAX9218组是一个收发器对,发送器(MAX9217)将并行数据转换成串行数据,发送给接收器(MAX9218);接收器再将串行数据转换成并行数据。该电路组设计用于通过一对低成本双绞线电缆(如以太网中常用的UTP-cAT5电缆)将视频和控制信号从图形控制器(处理器)传输到LCD或等离子平面显示器。传输距离可超过lOm。该电路组链路结构简单,使用的传输线为低成本电缆,是汽车、仪表、医疗设备等视频显示的理想方案。该电路组不仅可以在二点之间传送视频信号,有时,人们还希望能同时传送音频信号。本文将讨论如何利用视频信号的消隐期通过控制信号通道将音频数据传送到显示器。 1 链路功能和视频数据格式   MAX9217串行
[应用]
医院手术视频监控转播示教系统解决方案
  系统建设的目标和功能   VC3视频监控转播示教系统是一套基于IP网络的视频通信系统,其集视频现场监控、视频即时双向交互、视频存储共享、远程视频浏览等功能于一体。通过该系统,不但可以实现远程的手术观摩和教学,而且可以实现远程指导。    1. 实时的远程手术示教   手术示教是医院进行临床教学的必要手段。但为提高手术质量,降低手术感染率,医院手术室都制定了手术室观摩人数控制指标,严格控制进入手术间人数,这就造成了实习医生学习观摩手术的机会大大减少,不利于提高实习医生的学习质量。采用 VC3视频监控转播示教系统可以在手术室外通过大屏幕观摩手术过程,进行实时教学,从而摆脱了传统示教模式在时间、空间和人数上的限制,同时提高了
[医疗电子]
医院手术<font color='red'>视频</font>监控转播示教系统解决方案
基于图像处理技术的汽车牌照识别系统设计
引言 智能交通系统的研究领域十分广阔,各国各地区的侧重点也有所不同。如:电子收费系统是ITS在公路收费领域的具体表现,可解决收费站的“瓶颈”制约,较好地缓解收费站的交通拥挤、排队等候以及环境污染等问题。为了满足这些需求,十分有必要在智能交通管理系统引入车辆牌照自动识别技术。 汽车牌照是车辆最清晰、准确、唯一的标志。车辆牌照识别(Vehicle License Plate RecogniTIon,简称VLPR)系统作为一个专门的计算机视觉系统,它能够自动拍摄车辆行进中的动态数据,有效判断和提取有车牌的图像数据,并实时准确的识别出车辆牌照上的字符。 1 汽车牌照自动识别系统的实现流程 一个完整的汽车牌照自动识别系统主
[嵌入式]
比特大陆12月10nm订单已超海思
  比特币的暴涨暴跌搅动了全世界。比特币的疯狂,区块链的火热,也带动了创投圈的一波高潮。成立于2013年的比特大陆在IC设计领域无疑是从这波狂潮中杀出的一匹黑马,目前全球80%甚至90%的矿机都由该公司提供,一位早期矿工称2017年比特大陆每月利润可达3000万美元,2017年上半年已实现净利润超过10亿人民币。该公司凭借自己设计的比特币挖矿专用ASIC芯片,一举跃入2017年中国IC设计公司前五的行列。如果计算盈利的话,比特大陆更是高居榜首,远远将其它厂商甩在后面。   过去12个月来,比特币飞涨了1,900%。随着这种加密货币的涨势增加了对庞大计算能力的需求,相关产业链都成为了受益者。   比特大陆是垂直整合的奇迹。它设计了比
[半导体设计/制造]
鸿海携手Socionext、Hailo打造新世代AI边缘计算图像处理方案
全球领先的智能制造厂商鸿海科技集团宣布联手影像应用SoC方案供货商Socionext与AI芯片设计商Hailo共同打造最新一代AI智能系统解决方案,该解决方案可应用于边缘计算图像处理服务。 鸿海推出的高密度计算、高效能且无风扇的边缘计算装置 BOXiedge™ 搭载有Socionext高效能平行计算处理器 SynQuacer™ SC2A11,以及 Hailo-8™ 深度学习AI处理器。三方技术的结合有望为市场提供高竞争性边缘计算AI应用服务,为智慧城市、智慧医疗、智慧零售与工业互联网带来更高的营运效益。 实时处理超过20路流媒体 稳定的AI影像解决方案 根据市场调研机构IDC预测,到2023年全球AI市场规模将
[物联网]
鸿海携手Socionext、Hailo打造新世代AI边缘计算<font color='red'>图像</font>处理方案
基于PXA255的自动聚焦及图像采集模块设计
摘 要:本文介绍了一种基于Intel公司 PXA255嵌入式处理器的自动聚焦图像采集系统。其中详细介绍了自动聚焦在FPGA中的实现以及图像采集在嵌入式linux系统中的实现,并给出了该系统的硬件结构图。 关键词:自动聚焦;图像采集;V4L视频接口;嵌入式QT;离散余弦变换 引言 目前市场上流行的摄像手机一般都不具备自动聚焦功能,这对于传感器分辨率在30万像素以下的摄像手机来说影响不大,但随着百万像素手机的面世,以及手机录像功能的采用,人们对摄像头的自动聚焦功能越来越关注。本文在Xhyper255开发板的基础上,结合项目开发的需要,在开发板上移植QT/embedded作为嵌入式GUI,并设计了自动聚焦和图像采集子模块,其中
[应用]
彩色SXGA数字图像传感器
    Motorola公司的MCM20027彩色SXGA数字图像传感器是固态有源CMOS图像传感器(ACITM),它在单一芯片上集成有完整的模拟图像采集、模/数转换和数字信号处理系统的功能,实现真正的“片上相机”(“ camera on a chip”)。MCM20027简化和详细框图示于图1和图2。图像传感器由1280×1024有源元件的格式像素阵列组成。图像的大小是完全可编程的,由用户确定所需视窗。像素的间距为6.0μm。像素所采用的光电二极管结构具有高灵敏度和低噪声的特点。标准微透镜进一步提高了灵敏度。传感器为彩色输出或做为单色图像传感器提供Bayer图形彩色滤光片阵列(CFA)。     集成的定时和编程控
[应用]
小广播
最新手机便携文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved