H.264解码器中CABAC硬件加速器的实现-电子工程世界

引言

H.264是由国际电信联盟(ITU)和国际标准化组织(ISO)共同制定的新一代视频编码标准，该标准采用一系列先进的编码技术，在编码效率、网络适应性等诸多方面都超越了以往的视频标准。H.264有两种熵编码方案：一种是从可变长编码方案发展而来的基于上下文的自适应可变长编码CAVLC；另一种是从算术编码发展而来的基于上下文的自适应二进制算术编码CABAC。与CAVLC相比，CABAC可以节省约7％的码流，但增加了10％的计算时间。在解高清码流时，用软件来做CABAC这样复杂的熵解码，无法完成实时解码的任务，因此，设计硬件加速器是非常必要的。

CABAC解码算法

在H.264解码器的输入码流中，数据的基本单位是句法元素(Syntax Element)，码流是由一个个句法元素依次衔接而成的。每个句法元素由若干比特组成，表示某个特定的物理意义。在H.264定义的码流中，句法元素被组织成有层次的结构，分别描述序列(Sequence)、图像(Picture)、片(Slice)、宏块(Macroblock)、子宏块(Subblock)五个层次的信息，CABAC主要负责对片层以下的句法元素进行解码。

CABAC解码的总体过程可以分为三个步骤：初始化、二进制算术解码归一化、反二进制。

初始化

该过程在每一个片开始时执行，包括上下文模型变量(Context Variable)的初始化和解码引擎(Decoding Engine)的初始化。

二进制算术解码和归一化

二进制算术解码是CABAC解码的核心部分，该过程实现1bit数据的解码，对每个句法元素进行解码都需要调用该过程。H.264中二进制算术解码有三种模式：规则解码(Decode Decision)、旁路解码(Decode Bypass)和结束解码(Decode Terminate)。对不同句法元素进行解码时，分别调用这三种模式的一种或多种。

反二进制化

CABAC定义了四种二进制化方法：一元码(Unary)、截断一元码(Truncated Unary)、K阶指数哥伦布码(kth order Exp-Golomb)和定长码(Fixed-Length)。一个句法元素可以对应一种或两种上述二进制化方法，但特殊的是，句法元素mb_type和sub_mb_type的反二进制化独立于上述四种方法，它们通过查表来实现。
　　
CABAC硬件加速器的架构设计

H.264解码器的软/硬件划分

H.264解码过程采用软/硬件联合的解码方案，整个解码器由32位CPU、DSP结构的运算单元和硬件加速器组成。CABAC熵解码部分，主要是一些判断和分支操作，数据接口、吞吐量不大，这些任务由软件和硬件加速器共同完成。本文设计的CABAC解码模块就是一个CABAC硬件加速器。

CABAC硬件加速器的总体构架

CABAC硬件加速器的总体架构分为两层：顶层是CABAC_TOP；底层有7个模块，包括CABAC_Center_ Control_Unit、Context、 Neighbor_MB_Information, Context_Init、AC_next_ state_LPS、 AC_next_state_MPS和RangeLPS。

CABAC_Center_Control_Unit模块负责上下文模型变量的初始化，解句法元素，更新Context，并将解出的残差数据传给IQ&IDCT模块；Context模块是双口RAM，存放459个上下文模型变量，可同时对一个地址的上下文模型变量进行读操作并对另外一个地址的上下文模型变量进行写操作；Neighbor_MB_Information模块是SRAM，存放宏块信息，CABAC解码器在解析当前宏块中的句法元素时，需要参考上面和左面宏块的信息，因此，需要在该SRAM内保存图像中当前宏块的上一行宏块和该行之前宏块的信息，每解完一个宏块更新该SRAM；Context_Init模块是一块片内ROM，用于初始化变量；3个查找表模块AC_next_state_LPS、AC_next_ state_MPS和RangeLPS由组合逻辑实现，用于二进制算术解码过程中的查表运算。

CABAC的硬件化分析

本设计的目标是使整个H.264解码器的芯片能够对高清图像(1920×1088)进行实时解码。假设芯片工作在166MHz的频率下，图像播放速率是25fps，则平均解一个宏块的时间是823个时钟周期。考虑到H.264熵解码部分的运算总体上是串行解码，并行性较差，因此CABAC硬件加速器需要在3个时钟周期内完成1bit数据的解码。假设视频图像的压缩比为20:1，YUV为4:2:0取样，因为取样值是8bit，则每个像素为8bit×1.5=12bit。CABAC的解码率约为1:1.2，所以CABAC要解的码流是(1920×1088×12bit/20)×1.2，约1.43Mb。芯片工作频率是166MHz，每3个时钟解出1bit，则解码数据率约为55.3Mbps，本设计在解码时CABAC占用了90%，约为49.8Mbps。因此解码速度为49.8/1.43，约34.7fps，即1s可以解34.7帧，则解1帧(1920×1088)大约需要28.8ms。

为了达到该目标，CABAC硬件加速器的设计必须对核心的二进制算术解码进行优化。根据归一化算法的特点，即循环的次数可由输入的codIRange、codIOffset和查表得到的codIRangeLPS事先判断出来，因此可以合并二进制化和归一化这两个步骤，使其在1个时钟周期内完成。由于篇幅有限，下面仅以三种模式中的规则解码为例，说明二进制算术解码和归一化的硬件化，旁路解码和结束解码可参考H.264协议。

规则解码的二进制算术解码和归一化过程主要包括比较、减法、查表、移位操作。在H.264中，为了减少计算的复杂度，CABAC首先建立一个64×4的二维表格rangeTabLPS[64][4]，存放预先计算好的乘法结果。表格的入口参数是pStateIdx和qCodIRangeIdx，其中qCodIRangeIdx由变量codIRange量化而来，量化方法是(codIRange>>6)&3。其Verilog HDL实现如下：

assign qCodIRangeIdx= (codIRange>>6)&2'b11;
always@(pStateIdx or qCodIRangeIdx)
begin　
case{pStateIdx, qCodIRangeIdx}
　　　　　　　0: codIRangeLPS=0;
　　　　　　　 … …
　　　　　　　255:codIRangeLPS=63;
　　　　endcase
end

建立了概率模型和乘法模型后，在递进计算过程中CABAC必须保存一下变量：当前区间的下限codIOffset、当前区间的大小codIRange、当前MPS(大概率符号)字符valMPS、LPS(小概率符号)的概率编号pStateIdx。transIdxLPS[pStateIdx]和transIdxMPS[pStateIdx]是两个深度为64项的表格，其中pStateIdx的取值为0~63。接下来是归一化判断，当codIRange小于0x0100时，需进行归一化。这样就能在1个时钟周期内完成二进制化和归一化两个步骤，其Verilog HDL实现如下：

always@(posedge clk or negedge rst)
if( !rst)
　　 ... ...
　　else
　　 begin
　　　　if(codIOffset>= codIRange-codIRangeLPS)
　　　　　　　begin
　　　　　　　binVal<=~valMPS;
　　　　codIOffset<=codIOffset-(codIRange-codIRangeLPS);
　　　　codIRange<=codIRangeLPS;
　if(pStateIdx==0)
　　valMPS<=1-valMPS;
　　pStateIdx<=transIdxLPS[pStateIdx];
　　　　　　　　end
　　　　　else
　　　　　　　　begin
　　　　　　　　binVal<=valMPS;
pStateIdx<=transIdxMPS[pStateIdx];
　　　　　　　end
　　　　　　　while(codIRange<0x100) //注：此语句不可综合
　　　　　　　begin
　　　　　　　　　codIRange<= (codIRange-codIRangeLPS)<<1;
?codIOffset<=(codIOffset<<1) |read_bits(1);
　　　　　　　end
　　 end

CABAC的加速策略

状态机的设计

二进制算术解码的状态机是本设计的核心，该部分效率的高低将直接影响到CABAC硬件加速器的解码速度。在CABAC模块没有被启动时，状态机将一直停留在初始状态，当一个新片开始时，初始化解码引擎；当收到CPU发出的解码请求时，首先进入预解码状态，读取上下文模型变量，然后在下一个时钟进入二进制算术解码状态，完成1bit数据的解码。在CABAC解码过程中，系统会根据句法元素的种类和当前数据的位置选择解码模式。

流水线的设计

CABAC对1bit数据进行解码的过程可分为两个步骤：读取上下文模型变量、解码并更新上下文模型变量。本设计采用两级流水线结构，在对当前数据进行解码的同时，可读取下个数据的上下文模型变量，因此加快了解码速度。

码流读取的双缓冲设计

在进行解码的时候，为了提高传输效率，采用双缓冲的形式。在总线给其中一个缓冲传输数据的时候，解码器可从另外一个缓冲里读取数据进行解码，从而使传输和解码同时进行，有效提高了传输效率。

设计结果与性能仿真

在设计完成后，利用JVT提供的标准测试码流进行测试，通过了仿真验证。结果显示，本设计平均每2个时钟周期可完成1bit数据的解码。

在SMIC 0.18mm CMOS工艺标准单元库的基础上进行DC(Design Compile)综合，硬件加速器的面积为0.38mm2(不包括片外SRAM所占用的面积)，工作频率可达166MHz，达到了预期要求。

为了显示硬件加速器的优势，选择参考软件JM7.4的函数biari_decode_symbol完成二进制算术解码和归一化。Visual C++6.0编译器的编译结果显示该函数使用了109个汇编指令，因此用软件完成1bit数据的解码至少需要100个时钟周期。而利用本设计完成同样的步骤时，最多只需3个时钟周期，很好地达到了加速器的作用。
　　
结语

由于采用了一系列的优化方案，同时，在设计时考虑了解码速度及解码系统中各个模块之间的协调，本文实现了熵解码CABAC的快速解码，能完成高清码流的实时解码任务，在视频解码芯片中有很好的应用价值。

参考文献

1 Detlev Marpe，Heiko Schwarz，Thomas Wiegand. Context-Based Adaptive Binary Arithmetic Coding in the H.264/AVC Video Compression Standard[J]. IEEE Transactions on Circuit and Systems for Video Technology,2003，13(7)：620-636
2 毕厚杰. 新一代视频压缩编码标准－H.264/AVC[M]. 北京：人民邮电出版社，2005
3 JVT-G050, Draft ITU-T Recommendation H.264 and Draft ISO/IEC 14496-10 AVC，2005[S]

关键字：编码高清码流输入引用地址：H.264解码器中CABAC硬件加速器的实现

上一篇：电磁场高速自动扫描技术在高速PCB设计中的应用
下一篇：基于VHDL语言的IP核验证

推荐阅读最新更新时间：2024-05-13 18:35

三星Galaxy S6 Active高清渲染图曝光

　昨日，国外媒体曝光了三星Galaxy S6三防版S6 Active的消息，现在爆料大神再次放出了该机的高清渲染图片。该机分为黑色与白色两种配色，整体外形与昨日曝光的真机相差不大。三星S6 Active渲染图　　据此前消息，三星S6 Active将采用5.1寸2K高清显示屏，搭载Exynos 7420处理器，内置3GB运行内存，配置500万像素的前置摄像头，以及1600万像素的后置摄像头。三星S6 Active渲染图　　另外，该机将配备3600mAh容量电池，相较于S6的2600mAh的容量有较大的提升。传闻该机将配置心率传感器，不过S6 Active将不再具备指纹识别功能。

[手机便携]

Allegro DVT推出行业首个用于4K/UHD视频编码的实时AV1视频编码器硬件IP

法国格勒诺布尔2019年4月23日 -- Allegro DVT 为视频半导体 IP 解决方案的领先提供商，今天宣布了旗下 AL-E210 多格式视频编码器硬件 IP 的上市，其增加了对开放媒体联盟 (AOMedia) 开发的新 AV1 视频格式的支持。 AOMedia 由谷歌、Netflix、英特尔、微软等行业领军企业于 2015 年成立，旨在为 H.265/HEVC 和其他标准提供开源的、免授权费的替代方案，同时提高压缩率并以更低的比特率传输相同的视频质量。Allegro DVT 早期就加入了 AOMedia，是 AV1 视频格式开发的活跃成员。 AL-E210 为首个以 AV1 格式实现实时并基于文件进行编码的视频编码器

[安防电子]

Allegro DVT推出行业首个用于4K/UHD视频<font color='red'>编码</font>的实时AV1视频<font color='red'>编码</font>器硬件IP

贸泽电子开售 TI TPS3840 系列Nanopower高输入电压监控器

专注于引入新品推动行业创新的电子元器件分销商贸泽电子 ( Mouser Electronics ) 即日起备货 Texas Instruments (TI) 的 TPS3840 系列Nanopower高输入电压监控器。TPS3840器件为复位IC，工作电压最高10 V，在所有作业条件下均可保持非常低的静态电流。该器件结合了极低的功耗、高准确度和低传播延迟，有助于延长各种低功耗、工业以及电池供电应用的电池寿命。贸泽电子供应的 TI TPS3840 电压监控器使用 1.5 V至10 V的宽输入电压范围，无需外部组件即可监控9 V的电轨或电池，搭配外部电阻器则可监控24 V的电轨。该器件拥有典型值为350 nA的毫微

[电源管理]

贸泽电子开售 TI TPS3840 系列Nanopower高<font color='red'>输入</font>电压监控器

SynQor®宣布为其Mil-COTS 270V输入DC-DC产品系列的增加新成员

MCOTS-C-270-40-FE MCOTS-C-270-60-FE • 功率1000W • 可调输出范围（10-40或25-60Vdc） • 可为无限大容性负载或电池供电 SynQor公司宣布为其Mil-COTS 270V输入DC-DC产品线增加了新成员。这些新型隔离式全砖DC-DC转换器结构紧凑、高效率且高功率，它们是基于SynQor新一代固定开关频率的同步整流技术，并且它们的高功率密度有助于对空间有严格要求的行业提供便利。该系列模块符合MIL-STD-704军工标准，可将155-425V的输入电压转换为可调输出电压；其中MCOTS-C-270-40-FE系列可调输出范围为10-40Vdc之间，而MCO

[电源管理]

SynQor®宣布为其Mil-COTS 270V<font color='red'>输入</font>DC-DC产品系列的增加新成员

STM32F103学习笔记（九）输入捕获实验

这个实验是用 TIM5 的通道 1（ PA0）来做输入捕获，捕获 PA0 上高电平的脉宽（用 WK_UP 按键输入高电平），通过串口打印高电平脉宽时间。初始化里边先设置上升沿为输入捕捉，进入捕捉中断后，记录TIM5_CNT的值，然后配置捕获信号为下降沿捕获，当下降沿到来时，发生捕获，并记录此时的 TIM5_CNT 值。这样，前后两次 TIM5_CNT 之差，就是高电平的脉宽，同时 TIM5 的计数频率我们是知道的，从而可以计算出高电平脉宽的准确时间。相应的配置步骤为：（1）开启TIM5时钟和GPIO时钟，设置PA0为下拉输入 RCC_APB1PeriphClockCmd(RCC_APB1Periph_TIM5

[单片机]

STM32F103学习笔记（九） <font color='red'>输入</font>捕获实验

基于PCI的视频编码卡的设计与实现

1 前言随着通信网络技术的飞速发展，人们的观念也紧跟着时代的步伐，把自己融入了网络时代。例如查看信息，监控，交流等无不使用网络。虽说网络给我们带来了很大的信息流，但随着人们生活节奏的加快，对传输率的要求越来越高，特别是实时传输的时候。通过用MPEG4视音频编解码技术，卫星互联网播送技术解决了这方面的问题，使得数字视频广播图像分辨率达192×144×25FPS（PAL）/384×288×25FPS(PAL)，图像和屏幕发送通过卫星信道，平均码流量小于384K；文字消息数据、外交互通过Web走公网，平均码流量小于56K，实现了点对点、多点即时播送和同步互动，深得广大用户的好评。为企业、政府机构、组织、和网络医院、网络学校提供一种高

[嵌入式]

移动设备作图新武器：3D手势输入

美国专利商标局日前公布了苹果最新申请的“3D手势输入”专利。据国外媒体报道称，该技术允许用户通过特殊手势实现3D手势输入，达到以3D的方式操控3D数字图像的目的。　　报道称，苹果设想的系统与其当前设备的多点触控输入控制功能共同协作。用户的手指离开屏幕时，可从CAD等软件的2D图像中拉出3D模型。接着，用户可以在设备屏幕上面做出各种手势，实现3D模型的翻转、修改等操作。　　当用户手指离开屏幕时，设备利用电容触摸屏传感器和距离传感器检测手指的位置，并跟踪手指做出的各种手势。设备依据捕获到的手势完成图形的修改和移动操作。专利详细讲解了3D手势在CAD软件的应用，如快速借助2D图像创建3D图形，一个例子是通过3D手势将平面的三角形转

[模拟电子]

移动设备作图新武器：3D手势<font color='red'>输入</font>

百万高清项目所遇到的5个问题及应对方案

　　相信参加过2010年安博会的都会有一个共同的感受，高清产品如雨后春笋般地涌出，众多摄像机的厂家推出了高清的产品，都在向观众们展示图像如何的清晰。　　无疑高清的摄像机在图像细节的表现力方面，是普通标清摄像机无法比拟的，真正实现了回放图像细节不丢失，对现场的画面实现真实的还原，这也是让众多使用者非常满意的原因。　　与传统的视频监控相比，“高清”是最大的优势，再与监控的“网络化”相结合，好像立刻成了变形金刚无所不能，监控行业中的什么问题都可以解决了。但通过一年多的市场推广，以及在各个领域中的项目应用，都不免会遇到以下几类问题：　　 1、传输方面　　通用的高清图像一般会选用720P或者1080的解决方案，如果要达到很

[安防电子]

百万<font color='red'>高清</font>项目所遇到的5个问题及应对方案

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■TI 有奖直播 | 使用基于 Arm 的 AM6xA 处理器设计智能化楼宇

■Follow me第二季第3期来啦！与得捷一起解锁高性能开发板【EK-RA6M5】超能力！

■报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

■30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~