H.264编码器中亚像素运动估计的硬件实现-电子工程世界

引言

运动估计是视频压缩的关键，能进一步减小图像的冗余度，提高编码压缩效率。运动估计就是在帧间预测时设法找到当前帧的像素(或图像块)是从上一帧图像的什么位置移动过来的，以该位置上的像素(或图像块)作为预测依据，以此提高预测的准确性。由于H.264中的运动估计采用了一系列新技术，如七种块尺寸(将一个宏块分割成16×16、16×8、8×16、8×8、8×4、4×8、4×4七种类型的子块进行运动估计)、1/4像素精度运动补偿技术和多参考帧技术等，在使压缩效率至少提高两倍的同时，计算量也大大增加。实验结果表明，运动估计占H.264编码器的60%~80%的时间。H.264中的运动估计由整数运动估计和分数运动估计两部分组成。由于不论是自然视频图像序列或是合成视频图像序列，实际对象的运动精度都是任意小的，所以引入分数运动估计能非常准确地描述对象的运动轨迹，能更进一步去除视频图像序列的时间冗余，其精度达到了1/8像素精度。分像素的运动矢量如图1所示。

图1 分像素运动矢量

　　一般在实际应用中，运动估计普遍采用分级搜索算法：首先在搜索区内找到最佳整像素运动矢量，再在整像素最佳匹配点下寻找最佳1/2匹配点，得到半像素精度的运动矢量，接着在该半像素精度最佳匹配点周围进行1/4像素点搜索，得到1/4像素精度最佳匹配点以及相应的运动矢量。由于分像素运动估计运算量大，很多学者对分像素运动估计从算法上进行优化，提出了很多快速搜索算法，减少搜索点数目以达到降低运算复杂度的目的。本文就是基于这个目的，在块匹配算法的基础上，提出了一种1/4像素精度的亚像素运动估计的硬件实现方法。在整像素运动估计的基础上用10×10整像素阵列实现半像素精度和1/4像素精度的最佳匹配点搜索，在空间上具有更高的并行度，硬件实现简洁有效。

FME的运动矢量

　　帧间编码宏块中的每个块或亚宏块分割区域都是根据参考帧中同尺寸的区域预测得到的，它们之间的关系用运动矢量来表示。H.264对亮度成分和色度成分进行亚像素搜索时，两者之间的运动矢量是有差异的，对亮度成分采用1/4像素精度，色度成分采用1/8像素精度。如图2所示，大写字母代表整像素点，小写字母代表1/2像素点。

图2 亮度半像素内插

　　假定点H是在整像素运动估计中找到的最佳匹配点，在此基础上再进行1/2像素点的搜索，如点(bb，aa等)，如果MV的垂直和水平分量为整数，参考块相应像素实际存在；如果其中一个或两个为分数，则参考块相应的亮度和色度像素并不存在，需利用邻近已编码点进行内插而得。

　　内插像素生成的步骤如下：

　　首先生成参考图象亮度成分的半像素点。半像素点(如b、h、m)通过对相应整像素点进行6抽头滤波得出，权重为(1/32、-5/32、5/8、5/8、-5/32、1/32)。b通过下式计算得出：

　　b=round((E-5F=20G+20H-5I+J)/32) (1)

　　类似的，h由A、C、G、M、R、T滤波得出。一旦邻近(垂直或水平方向)整像素点的所有像素都计算出来，剩余的半像素点便可通过对6个垂直或水平方向的半像素点滤波得到。例如，j由cc、dd、h、m、ee、ff滤波得出。

　　半像素点计算出来后，在此基础上，1/4像素点可通过线性内插得出，如图3所示。

图3 亮度1/4像素内插

　　1/4像素点(如a、c、i、k、d、f、n、q)由邻近像素内插而得，如

　　a=round((G+b)/2) (2)

　　剩余1/4像素点(p，r)由一对对角半像素点线性内插得出，如e由b和h获得。相应地，对于色度成分的1/8像素精度的运动矢量，也同样通过整像素点线性内插得出，如图4所示。

图4 色度1/8像素内插

　　其中：

　　a=round([(8-dx)(8-dy)A+dx(8-dy)B+(8-dx)dyC+dx dyD]/64) (3)

　　FME模块算法原理及硬件实现

　　在本设计中，FME搜索采用的是如图5所示的菱形全搜索方法。

图5 菱形全搜索

　　[page]

即先利用整像素运动估计搜索出最佳整像素点，再在最佳整像素匹配点的基础上搜索出最佳整像素点周围的36个亚像素点(假设在图5中正中心点是最佳整像素匹配点)。等36个亚像素点都计算出来后，加上正中心的最佳整像素点共37个像素点。比较这37个像素点的SATD的值，将SATD值最小的像素点确定为最佳的预测点。

　　由于H.264采用树形结构运动估计，每个宏块可划分成更小的子块，其中4×4块是宏块划分中最小的子块，任何类型的子块都可由若干个具有相同运动矢量的4×4块组成，因此本设计在硬件实现时将4×4块作为处理的基本单位。考虑到硬件资源的节省及计算的并行度，在本设计模块中每次能并行处理两个4×4块的亚像素点的搜索，一个宏块(16×16)要分8次完成，处理单元的硬件结构框图如图6所示。

图6 FME硬件框图

　　其中IME单元为FME单元提供10×10整像素点阵列，内插法用于1/2像素点的插值，ave单元用于计算1/4像素精度的像素点，Sram单元用于存储计算出来的亚像素点的值。比较器单元由diff、DCT、satd三个单元组成，用于比较这些亚像素的SATD值，确定最佳的亚像素预测值。

　　假设当前处理的4×4块在参考帧中的最佳整像素匹配块如图7所示(方框中的4×4块为匹配的块)，在硬件实现的过程中为减少搜索次数，只要搜索出图7中对应的5×5块的每个整像素点左上角的15个亚像素点(见图8)，然后将相邻整像素点左上角的亚像素点进行组合后就能将当前处理的4×4块中每个整像素点周围的36个亚像素点(见图5)都计算出来。

图7 最佳整像素匹配块

图8 亚像素点

　　本设计在硬件实现的过程中为提高计算的并行度，利用15个六抽头滤波器，25个均值器等硬件资源来计算图8所示的亚像素点的值，计算依据分别如公式1、2所示，硬件搜索计算过程如图9所示。

图9 亚像素点硬件搜索步骤

　　通过上述15个步骤就可将图8所示的亚像素点全部计算出来，并将计算出来的亚像素点的值都存入到开辟的Sram中，以便在进行P帧重构时从Sram中直接取出最佳的预测值给相关的模块。由于如上文所述在对每个4×4块进行亚像素搜索时要计算出对应的5×5块(如图7所示4×4块对应的5×5块)的每个整像素点左上角的15个亚像素点的值(如图8所示的15个亚像素点)，加上最佳整像素点共16个像素点的值都要存储起来，且对应的5×5块中的每个整像素点左上角的亚像素点的像素值都是并行计算出来的(如step1计算点2，是将对应的5×5块的25个整像素点左上角对应的点2一次全计算出来)，所以在进行一个4×4块的亚像素搜索时，要存储的像素点共有25×16个。由于在本设计模块中每次能并行处理两个4×4块单元，即利用两套FME模块资源并行处理两个4×4块的亚像素搜索，一个宏块(16×16)要分8次完成。考虑到数据组织的方便性，本设计在一套FME模块中开辟两块Sram资源，一块大小为104×128，一个地址存储13个像素点的值(每个像素点的值占8bit)，另一块大小为96×128，一个地址能存储12个像素点的值(每个像素点的值占8bit)，地址深度128刚好能存储8个4×4块的亚像素点的像素值，所以两套FME模块中的Sram资源刚好能把一个宏块的亚像素点的像素值都存储起来。此设计在硬件的实现过程中计算并行度高，硬件实现简洁有效。

　　根据图6所示的硬件架构及上文描述的算法原理，利用Verilog HDL对其进行建模，建立测试平台在ModelSim环境中进行编译、仿真，验证其功能的准确性。然后使用Synplify工具对其进行综合，工作频率可达68MHz。在FPGA 验证平台上，可实现对高清码流(1920×1080)的编码，利用Design Complier工具进行综合，在中芯国际0.18μm 工艺标准单元库的基础上，综合后面积占150千门，工作时钟频率可达166MHz，达到了预期要求。

结语

　　H.264中的分数运动估计能有效提高预测精度，但大大增加了计算复杂度。同整数运动估计一样，分数运动估计存在两个主要问题，一是计算量大，二是存储访问量大。而本文提出的用于H.264/AVC的分像素运动估计的硬件实现方法能在全搜索块匹配算法的基础上，采用子块分解，利用10×10整像素点阵列实现1/2像素精度和1/4像素精度的最佳匹配点的并行搜索，与其他实现方法相比在空间上具有更高的并行度，处理能力更高，不但减少了大量中间数据的存储与传输，节省了存储器资源，而且简化了数据流和控制流，使硬件实现简洁有效，非常适合高分辨率视频的分像素运动估计。

关键字：H.264 编码器亚像素视频压缩运动估计引用地址：H.264编码器中亚像素运动估计的硬件实现

上一篇：彩电企业上书炮轰广电总局垄断互联网电视
下一篇：英特尔CTO：将推出更多电视芯片的产品

推荐阅读最新更新时间：2024-05-03 19:25

基于单片机的四位BCD编码器电路设计

1 引言 BCD码又称二/十进制码，即二进制编码的十进制码，在设计、测试数字电路硬件过程或是面对带有BCD码接口的集成电路时，常常希望方便、快速地产生BCD码来完成当前的工作，检验硬件电路的正确性，例如锁相频率合成集成电路MC145163P带有4位BCD编码接口，用于设置环路N分频器，通过本文介绍而制作完成后的BCD发生器可以提供4位BCD编码输出，方便地控制每位BCD输出，可以快速地得到BCD编码而完成测试或输出BCD编码接到集成电路的BCD编码接口，无需频繁跳线。另外，BCD编码有8421码、2421码、余3码等多种形式，本文以常见的8421码为例介绍电路的实现和程序的编写。如果对程序略加修改则可以很方便地实现其

[单片机]

编码器三大技术需求迫切带来视频服务器高效应用

编码器是一个将信号（如比特流）或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。在安防领域，视频编码器与网络摄像机最大的差异在于，视频编码器的视频源来自模拟摄像机，需要与模拟摄像机配合使用，而网络摄像机是一体化的，本身就集成了模拟视频采集功能。从目前的情况来看，尽管网络摄像机正在大量涌现，但视频编码器仍将在网络视频监控系统中占据不可替代的重要位置。　　　　监控系统中编码器让存储与视频管理变得更高效　　　　据IMSResearch研究显示发现，在模拟技术稳步发展时，IP视频正以每年30%增速大跨步追赶模拟市场。那么两个不同架构的监控系统不能共同发展吗？除了技术应用不同外，在大多数情况下二者并没有太多的交

[安防电子]

Nancy Codec视频编解码技术标准介绍

目前视频领域所采用的压缩技术大都是属于类似 MPEG系列的技术。虽然MPEG-4或H.264/AVC已经获得较高的压缩比，但想在2.5G甚至2G移动通信网路上采用这种压缩方式实现视频传送还是比较困难，所以在一般情况下，移动通信的视频服务主要是锁定在3G普及后才会提供的服务。然而若能马上在2G或2.5G网络上提供视频服务，将可为电信业者带来巨大的利益，也将使移动用户享受更多更丰富的移动服务。Nancy Codec技术正是为此目的而开发。　　Nancy Codec 主要是由日本 Office Noa公司所研发之成果，目前采用该技术的，除日本J-Phone与NTT DoCoMo外，还有中国移动通信公司在内的亚洲及欧美各大电信业

[安防电子]

科胜讯推出用于视频监控和监视应用的新型高清晰度编码器

为图像、音频、嵌入式调制解调器及视频监控应用提供创新半导体解决方案的领先供应商科胜讯系统公司 (纳斯达克代码：CNXT) 推出低能耗 DIFT JPEG 编码器CX93610，该编码器包含一个 656 摄像头接口和可选麦克风输入。CX93610 是一款独立的混合信号特殊应用标准产品（ASSP），专为监视和监控摄像头应用而设计，包含拥有视频、可视对讲/门口对讲机、婴儿监视器和远程家庭监控的 PIR 传感器。科胜讯的 CX93610 拥有低成本、低能耗和高度图像压缩功能，非常适用于要求视觉验证的无线摄像头安全解决方案，并可大幅减少文件大小。 CX93610 采用一个外接 CMOS 图像传感器，可提供各种专门的 JPEG 编码

[模拟电子]

伺服电机编码器绝对式和增量式区别

编码器（encoder）是将信号（如比特流）或数据进行编制、转换为可用以通讯、传输和存储的信号形式的设备。编码器把角位移或直线位移转换成电信号，前者称为码盘，后者称为码尺。按照读出方式编码器可以分为接触式和非接触式两种；按照工作原理编码器可分为增量式和绝对式两类。增量式编码器是将位移转换成周期性的电信号，再把这个电信号转变成计数脉冲，用脉冲的个数表示位移的大小。绝对式编码器的每一个位置对应一个确定的数字码，因此它的示值只与测量的起始和终止位置有关，而与测量的中间过程无关。增量伺服电机编码器介绍增量编码除了普通编码器的ABZ信号外，增量型伺服编码器还有UVW信号，国产和早期的进口伺服大都采用这样的形式，线比较多。增量式编码器

[嵌入式]

STM32正交编码器驱动，引入（突变）带进位的位置环和速度环

STM32正交编码器驱动，引入（突变）带进位的位置环和速度环 http://bbs.elecfans.com/jishu_484159_1_1.html (出处: 中国电子技术论坛) #include stm32f10x.h #include stm32f10x_encoder.h #include sys.h #include usart.h #include led.h #define COUNTER_RESET (u16)0 #define ICx_FILTER (u8) 0 // 6 - 670nsec #define TIMx_PRE_EMPTION_PRIORITY 1 #define TIMx_SUB_

[单片机]

与图像编码器相连的具有画面分割功能的模块设计

作者Email: cuiwj181@sohu.com 摘要：一般画面分割器将分割后的数字图像转换成复合视频信号输出,若要和图像编码器相连，实现数字图像编码,还得进行模数变换和视频解码，因此视频信号经历了二次AD和DA转换以及视频信号的编解码，不但增加了成本和复杂度，还降低了图像质量。论文提出了将图像分割电路与数字图像压缩编码电路有机地结合在一起的设计方案和实现方式,简化了电路,提高了图像清晰度。关键词：画面分割视频编码图像监控在图像传输时，特别是在图像监控场合，常需要同时传输多路图像，但由于以前一般采用较低分辨率进行图像传输，画面分割后，每个子画面的图像质量太差，很少采用画面分割，即使需要画面分割，

[电源管理]

谷歌撤销对微软侵犯H.264标准专利指控

　　新浪科技讯北京时间1月9日上午消息，谷歌昨天向美国国际贸易委员会(ITC)提交文件，撤销对微软的一项专利侵权指控。　　谷歌此前曾提起诉讼，要求ITC禁止微软Xbox使用H.264视频压缩技术，因为它使用了摩托罗拉移动持有的两项标准专利。　　最近，ITC裁定谷歌必须将标准专利授权给愿意接受的企业。谷歌此举表明，涉及H.264标准的现有案件都必须撤销。　　不过，谷歌和微软仍然在一起ITC案件中存在专利纠纷，该专利与上述行业标准无关。此外，谷歌在华盛顿州和德国还有一些针对微软的诉讼。昨天提交的文件不适用于其他正在审理的案件。(冰岩)

[家用电子]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂