基于内容的信息存取与MPEG-7-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

一、什么是MPEG-7
　
现在，我们面临的将是一个分布的计算环境，视听信息在分布环境中创建、交换、检索和重用。因此，需要开发一种视听信息的“表示(Representation)形式”，它超越基于波形或基于样本、基于压缩(如MPEG-1和MPEG-2)甚至是基于对象(如MPEG-4)的表示，这就需要“表示形式”允许某种程度的对信息含义的注释，同时设备或计算机代码可以传递和存取这些注释。

1996年10月，MPEG开始了一项新的工作，以提供对以上问题的解决方案。这个MPEG家族的新成员被称为“多媒体内容描述接口”(Multimedia Content Description Interface)，简称为MPEG-7。其目标就是产生一种描述多媒体内容数据的标准，满足实时、非实时以及推-拉应用的需求。MPEG并不对应用标准化，但可利用应用来理解需求并评价技术，它不针对特定的应用领域，而是支持尽可能广泛的应用领域。

MPEG-7将扩展现有标识内容的专用方案及有限的能力，包含更多的多媒体数据类型。换句话说，它将规范一组“描述子”，用于描述各种多媒体信息，也将对定义其他描述子以及结构(称为“描述模式”)的方法进行标准化。这些“描述”(包括描述子和描述模式)与其内容关联，允许快速有效地搜索用户感兴趣的资料。 MPEG-7将标准化一种语言来说明描述模式，即“描述定义语言”。带有MPEG-7数据的 AV资料可以包含静止图像、图形、3D模型、音频、语音、视频，以及这些元素如何在多媒体表现中组合的信息。这些通用数据类型的特例可以包含面部表情和个人化特性。

MPEG-7的功能与其他MPEG标准互为补充。MPEG-1、 MPEG-2和MPEG-4是内容本身的表示，而MPEG-7是有关内容的信息，是比特的比特。

MPEG-3曾经存在，但由于其HDTV目标能够用MPEG-2 工具实现，因此，该工作终止。按顺序推算，下一个标准应该是MPEG-5，但是MPEG 决定不遵循序列的逻辑顺序，而是选择了数字7。MPEG-5和MPEG-6目前还没有定义。 MPEG-7计划在2001年9月正式成为国际标准。

二、 MPEG-7中的主要概念
　
为了更好地了解MPEG-7，我们需要了解MPEG-7中定义的一些概念：

数据(Data) 是用MPEG-7描述的视听资料，不考虑它们的存储、编码、显示、传输、媒介或技术。该定义非常广泛，包含图形、静止图像、视频、影片、音乐、语音、声音、文本和其他相关的AV媒体。

特征(Feature) 指数据的特性。特征本身不能比较，而要用有意义的特征表示(描述子)和它的实例(描述值)。如图像的颜色、语音的声调、音频的旋律等。

描述子(Descriptor，D) 是特征的表示。它定义特征表示的句法和语义，可以赋予描述值。一个特征可能有多个描述子，如颜色特征可能的描述子有：颜色直方图、频率分量的平均值、运动的场描述、标题文本等。

描述值(Descriptor Value) 是描述子的实例。描述值与描述模式结合，形成描述。

描述模式(Description Scheme，DS) 说明其成员之间的关系结构和语义。成员可以是描述子和描述模式。DS和D的区别是：D仅仅包含基本的数据类型，不引用其他D或DS。如对于影片，时间结构化为场景和镜头，在场景级包括一些文本描述子，在镜头级包含颜色、运动和一些音频描述子。

描述(Description) 一个描述由一个描述模式(结构)和一组描述值组成。

编码的描述(Coded Description) 是对已完成编码的描述，满足诸如压缩效率、差错恢复和随机存取的相关要求。

描述定义语言(Description Definition Language，DDL) 是一种允许产生新的描述模式和描述子的语言，允许扩展和修改现有的描述机制。

为了更好地理解这些术语，请参看图1。图中解释了 MPEG-7在实际系统中的位置。圆角框表示处理工具，矩形框表示静态元素，阴影部分包含MPEG-7标准的规范元素：DDL提供建立描述模式的机制，然后将描述模式作为基础，产生一个描述。注意，描述的二进制表示是不必要的，文本表示足够了。

三、MPEG-7的范围
　
MPEG-7是针对存储形式(在线、脱机)或流形式(如 Internet上的广播、推送模型)的应用而制定的，并且可以在实时和非实时环境中操作。一个实时环境意味着当采集资料时，信息是与内容相关的。 [page]

图2是MPEG-7处理链的一种高度抽象示意图，用于解释MPEG-7的范围。它包括特征抽取(分析)、描述本身和搜索引擎(应用)。为了全面开发 MPEG-7描述的潜力，自动的特征(或是描述子)提取将是极其有用的。但是很清楚，自动提取并不总是可能的，抽象层次越高，自动提取的难度就越大，这时可以采用交互提取工具。但不管它们多么有用，无论是自动的或半自动的，都不包括在标准范围之内。主要原因是不需要对它们标准化以建立互操作性，而是留有竞争的余地。另一个原因是在技术领域允许采纳更好的改进方案。搜索引擎也不包含在MPEG-7范围之内，它不需要，竞争将产生最好的结果。

像其他MPEG家族成员一样，MPEG-7是满足特定需求的视听信息的标准表示。MPEG-7建立在其他标准表示的基础之上，例如PCM、 MPEG-1、MPEG-2和MPEG-4。因此，MPEG-7会引用部分现有标准，如在MPEG-4中的形状描述子也可以用于MPEG-7。相似地，也可以利用在MPEG-1和MPEG-2中的运动矢量。

但MPEG-7描述子将不依赖于被描述内容的编码和存储方式。可以把MPEG-7的描述附加到模拟电影上去，或与印在纸上的图片相关。即使 MPEG-7描述不依赖于资料的编码表示，但是在某种程度上，该标准建立在MPEG-4之上。 MPEG-4提供对视听资料以对象方式编码的方法，这些对象具有一定的时间(同步)和空间 (空间位置和三维感受)关系。利用MPEG-4编码，将有可能把描述附加到场景中的元素(对象)上。

MPEG-7可以独立于其他MPEG标准使用，在MPEG-4 中定义的表示方式也非常适合MPEG-7标准的建立。

MPEG-7强调的是提供新的视听内容描述方案。因此，文本不是MPEG-7的描述目标，但视听内容可以包含或引用文本。因此，MPEG-7将考虑现有的其他标准组织开发的文本处理方案，并适当地支持这些标准。

四、如何描述多媒体数据的内容
　
1．描述原则

在MPEG-7中，考虑了全面的描述原则。

(1) 多重和分层描述

由于描述特征在相应的应用中具有相应的含义，对于不同的用户领域和不同的应用，描述特征将是不同的。

这意味着相同的资料可以使用不同类型的特征进行描述，以适应具体的应用领域。这里涉及到多重描述和分层描述的问题。在描述上，MPEG-7 允许不同的颗粒度，提供不同的鉴别级别。

多重描述就是在多媒体数据生成处理的各阶段，支持对相同资料进行多重描述的能力，并可以把描述附加到相同资料的多份拷贝上。

分层描述基于多媒体资料的抽象级别。分层机制可以允许在不同的抽象级别上描述多媒体内容。抽象级别与特征抽取的方式有关，许多低级特征可以全自动地抽取，而高级特征则需要更多的人工交互。另外，还可以从不同的应用需求角度来描述媒体资料，例如从子对象的角度、运动分析的序列角度、视频的情节结构等角度描述多媒体内容。

描述模式支持不同描述子的分层表示，第N层描述是 N-1层描述的增强、精炼或补充，以便查询能有效地一层一层地处理，支持高效的查询。

(2) 关系描述

用描述模式来表达描述子之间的各种关系，允许描述子在多个描述模式中使用。

MPEG-7支持描述子与不同时间范围相关联，可以是层次型的，即描述子与整个数据和部分时间子集关联；或顺序型的，描述子与时间段顺序关联。

(3) 支持查询方面

支持音频、视觉或其他描述子在交叉模式下的查询，如允许基于视觉描述的查询去检索音频数据或相反的过程。

描述模式支持描述子的优先级，以便更有效地处理查询，同时优先级可以反映信任或可靠级。另外，还可以支持描述子作为句柄，直接引用数据，操纵多媒体资料。

2．多媒体特征类型

MPEG-7支持各种类型的多媒体特征，如:

N维时空特征对于空间类型，从微观上看，是对象的纹理和形状，从宏观上看，是对象的空间关系和表现空间；时间类型，指对象随时间变化的轨迹，如音乐区段的持续时间等。
客观特征反映视听数据本身具备的特性。如对象的颜色、形状、纹理、音频频率等。
主观特征人对视听数据的主观感知。如对情绪(快乐、愤怒)和风格的描述。
产品特征如记录作者、生产者、导演等信息。
合成信息包括场景合成、编辑信息、用户的喜好等。
概念用于描述事件和活动等概念。
在许多情况下，利用文本信息作为描述是可取的。但必须注意到，有用的描述尽可能独立于语言范畴，采用清楚的描述形式，如用作者、影片、地名的文本形式。
除了内容的描述，还需要包含其他类型有关多媒体数据的信息：
形式如编码模式、数据大小。该信息帮助确定资料是否对用户是“可读”的。
存取资料的条件可以包含版权、许可证和授权信息以及价格数据。
类别可以包含父等级，用于归入预定的类。
到其他相关资料的链支持其他信息与数据的关联。
上下文资料记录的场合，如“1996年奥运会男子200 米障碍决赛” 中描述的时间和地点。

交互活动支持交互活动工具，允许说明与描述相关的交互活动。如与广告相关的远程购物中的交互。

MPEG-7数据可以物理上与相关的AV资料在一起或在相同的数据流或在相同的存储系统中，但描述也可以放在全球的任何其他地方。当内容和它的描述不在一个地方时，需要链接AV资料和它们的MPEG-7描述的机制，这些链应该是双向的。 [page]

3. 视觉数据的描述

MPEG-7具体对视觉方面的描述子和描述模式有以下方面的要求：

(1) 特征类型

视觉描述允许以下特征(与查询中使用的信息类型有关)：颜色、视觉对象、纹理、轮廓(草图)、形状、静止和动态图像、体积、空间关系(相对于图像和图像序列中的对象空间和拓扑关系，这个关系是空间合成关系)、运动(如视频镜头中的运动，用于利用时间合成信息来检索等方面)、变形(如对象的弯曲)、视觉对象的源和它的特性(如源对象、源事件、源属性、事件、事件属性等)、模型(如MPEG-4 SNHC)。

(2) 利用描述进行数据可视化

MPEG-7数据描述应该容许被索引数据或多或少地粗略可视化。

(3) 可视数据的格式

支持以下可视数据格式：数字视频和电影(例如MPEG- 1/2/4)、模拟视频和电影、电子形式的静态图像(如JPEG)或纸上的图像、图形、3D模型以及与视频关联的编辑数据。

(4) 可视数据类型

可以是自然视频、静态图像、图形、动画、三维模型、编辑信息。

4．听觉数据的描述

同样，对音频数据的描述子和描述模式有以下要求：

(1) 特征类型

频率轮廓线、音频对象、音色、和声、频率特征、振幅包络、时间结构(包括节奏)、文本内容(语音或歌词)、声波近似值(通过哼唱一段旋律或发出一种声音效果来生成)、原型声音(典型的用于示例查询)、空间结构(用于多通道声源，如立体声、5.1通道等，每个声道有特定的映像)、声源和它的特性(例如源对象、源时间、源属性、事件、事件属性和典型的关联场景)、模型(如MPEG-4 SAOL)。

(2) 描述数据的听觉化

类似视觉数据的要求。

(3) 听觉数据格式

数字音频(如MPEG-1音频、CD)、模拟音频(如录音带介质)、MIDI(包括一般的MIDI和Karaoke格式)、基于模型的音频、产品数据。

(4) 听觉数据类

声音轨迹(自然音频场景)、音乐、原子声音效果(如掌声)、语音、符号音频表示(MIDI、SNHC音频)、混音信息(包括效果)。

五、多媒体研究与MPEG-7
　
MPEG-7将标准化各种类型多媒体信息的描述，但它不包含描述子/特征的提取，也不规范搜索引擎和其他使用这些描述的程序。因此，围绕 MPEG-7，在多媒体信息存取方面，以下工作可以进一步开展：

1．存取接口

研究通用的和与应用相关的多媒体信息查询接口。例如在键盘上演奏几个音符来查询音乐、用“尖叫的刹车声音”查找出汽车追逐的场景；在屏幕上画一些线段，获得一组包含相似图形、标志和符号的图像；定义对象的颜色和纹理，获得与你选择的特征相似的图像；对于给定的一组对象，描述运动和对象之间的关系，获得一组动态图像，包含描述的时空关系；在给定内容条件下，描述情节，并获得多个相似情节发生的场景，等等。另外一些值得考虑的问题是：如何组合这些查询；如何在查询过程中引入交互和优先级；如何设计一种查询语言；如何构造浏览和可视化视图，以建立更有效和可靠的多媒体信息存取接口。

2．特征提取和检索引擎

自动和半自动的特征提取方法。这对大规模的多媒体数据管理是非常有价值的。这里把特征提取和检索引擎放在一起讨论是因为两者的研究在检索效率和有效性方面是紧密联系在一起的，即检索有效性使用户和系统得到查找的东西而不是其他；检索效率使用户或系统快速得到所要的结果。这需要研究者探讨更能代表媒体数据内容的特征(便于区分)，以及高效的索引结构和算法。

3．广泛的多媒体应用研究

MPEG-7不仅仅用于多媒体信息的检索，更能广泛地用于其他与多媒体信息内容管理相关的领域。许多应用和应用领域将从MPEG-7标准中获得好处。在MPEG-7推荐的应用中实际上蕴涵了许多值得研究的课题。

关键字：MPEG-7 多媒体 HDTV 引用地址：基于内容的信息存取与MPEG-7

上一篇：对等网络技术在IPTV中的应用研究
下一篇：高压LIPS液晶电视电源参考设计

推荐阅读最新更新时间：2024-05-02 22:59

数字基带处理器AD6900的多媒体应用

引言最近几年，多媒体处理，特别是视频和音频编解码以及数码照相机已经成为手机的常见功能。然而，正当手机对功能需求日益增长的时候，手机生产厂商和OEM设备制造商却面临着不断减少器件数量和降低物料(BOM)成本同时满足严格低功耗要求的压力。他们必须解决这些问题，同时支持在多种网络上运行的各种通信标准。传统手机芯片组是以DBB(数字基带)芯片为中心，通常包含微控制器(MCU)和数字信号处理器(DSP)。在多媒体功能应用在手机之前，MCU的基本作用是完成以下两个主要功能：一个是运行通信协议物理层的控制码(也称为第1层)；另一个是控制通信协议栈的上层软件(第2或第3层)，包括表示层或人机界面(MMI)。DSP的基本

[嵌入式]

数字基带处理器AD6900的<font color='red'>多媒体</font>应用

多媒体手机的电源管理分析

手机电视、手机游戏以及音频播放等多媒体应用向手机中的电源管理设计提出了巨大的挑战。手机设计人员需要在加入新的多媒体功能的同时，保持手机小巧的外形并维持电池的长寿命。新应用处理器提供了出色的新功能，但代价是功耗更高。新的AV功能意味着音乐回放时间更长，由此音频放大的效率必需更高，从而延长回放时间。而且，当手机上的AV功能变得更成熟时，音频质量和输出功率的要求也会更高。在本文中，我们讨论了一些解决方案，可以帮助设计人员应对这些与新型多媒体手机电源和音频放大有关的挑战。　　新应用处理器的电源　　为了使手机外形小巧，使用集成电源管理单元（PMU）是非常普遍的。PMU的优点是简化了电源设计，而且与使用几个分立元件电源解决方案相比，减

[模拟电子]

Spreadtrum SC6600L 双卡双待多媒体功能手机

世平集团推出一款使用Spreadtrum SC6600L 主芯片，定位在中、低端市场的双卡双带多媒体功能手机。其具有低功耗、低成本、高性能等优势，期能满足客户更多不同市场的需求。 Features CPU：ARM7TDMI@80MHz Communication：GSM/GPRS，Quad-Band Audio Play：MIDI/ADPCM/AMR/MP3/AAC Audio Record：ADPCM/AMR Video Play：MPEG4/H.263 QVGA 25fps Video Record：MJPEG QVGA 12.5fps DC：0.3M YUV, Up to 3M JPEG USB：US

[手机便携]

倒车多媒体可视测距终端的设计与实现

引言目前，倒车已出现两种新技术: 超声波测距和后视摄像。倒车雷达和后视摄像各有利弊，前者具有确切判断距离的优点，但对车后方的水沟、山崖、凸出的钢筋、竹杆等，超声波无法感应，这也是倒车安全上的死角；后者图像直观真实，但无法获得精确的距离。如何把两者的优点结合起来，消除两者的缺点是倒车多媒体可视测距终端解决的重点难题。倒车多媒体可视测距终端运用了最新的超声波测距技术、字符产生和叠加技术、视频显示技术，实现了倒车测距和图像监视功能的组合，是一种用于检测车后物距和监视车后图像的电子设备,其有三大功能：第一功能：超声波测距-------嵌入式超声波测距，使泊车测距精确。第二功能：后视摄像系统------拍摄车后景物图像，直观

[嵌入式]

台湾兆宏电子获MIPS处理器IP授权开发多媒体应用

MIPS 科技公司（MIPS Technologies, Inc，纳斯达克代码：MIPS）宣布，先进多媒体系统级芯片（SoC）领先供应商兆宏电子（Magic Pixel Inc.）已获MIPS32TM 24KEc™与4KEcTM Pro SeriesTM处理器内核授权，开发新一代数码相框（digital photo frame，DPF）和其它便携式多媒体应用。兆宏电子首席技术官马奇宏表示：“未来的多媒体产品将提供视频解码、多媒体内容渲染（rendering）和无线连接等功能，这需要高性能、低功耗处理器才能实现。MIPS科技在多媒体应用的领先市场地位及专业技术、其内核经验证的高性能和能源效率以及包含AndroidTM

[嵌入式]

MPEG－4视频编码技术及在多媒体通信中的应用

摘　要：本文较为详细地介绍了MPEG－4视频编码的主要技术及其功能与特点，并基于此标准提出了一个基于Internet网络的多媒体通信系统的设计方案。关键词：MPEG－4视频编码技术；多媒体传输系统；设计与应用一、引　言　　MPEG－4是运动图像专家组（Moving Picture Ex－pert Group）标准家庭中的一员，是国际标准化组织为多媒体通信制定的一种解决方案。当今迅速发展的交互式计算机游戏图像显示、交互式视频点播（VOD）都表明电视正由“纯线性”向“非线性”的方向发展。MPEG－1／2均是以音频帧、视频帧为编码对象的，图像中的AV（Audio、Video）对象所组成的场景不能与人们进行交互。而MPEG－4的主要

[网络通信]

CSR通过与Dynamic Hearing公司协作，使BlueCore5-多媒体芯片具备多麦克风技术

全球领先的蓝牙连接及无线技术提供商CSR公司（伦敦证券交易所：CSR.L）宣布，通过与Dynamic Hearing公司的伙伴关系，CSR公司能够为蓝牙耳机提供多麦克风配置。CSR公司BlueCore-多媒体平台上采用Dynamic Hearing公司的ATLAS软件库套件经过扩展，增加了一个名为VoiceField的多麦克风选项，它能够在环境中实现极其清晰的传输信号。 CSR公司的BlueCore5-多媒体是唯一一款整合了DSP和内存的蓝牙芯片，能够提供各种第三方增强软件，如Dynamic Hearing公司配备了VoiceField的ATLAS。 VoiceField采用两个麦克风来捕捉耳机使用者的语音，使其不至于被各种噪

[焦点新闻]

多媒体电教室的管理与设备的维护

随着信息技术的迅速发展，计算机技术、网络技术和多媒体技术的日趋成熟，多媒体辅助教学在现代教学中作用越来越重要，多媒体教室的管理与维护，直接影响着多媒体教学能否顺利实施，因此为了保证多媒体教室长期正常使用，必须加强多媒体教室的管理与设备的维护。健全多媒体教室的使用管理多媒体教室管理的好坏，直接影响到学校教学工作的开展和教学质量的提高。因此，多媒体教室的技术保障和管理维护应由专门人员统一管理。在多媒体教室的使用上要严格管理、明确责任，建立好使用登记制度和事故登记制度，制定多媒体的操作规程、使用限制，对管理人员职责的规章制度等，做到各项操作规范化、维护管理制度化。多媒体教室管理应建立和完善多媒体教学设备使用、

[模拟电子]

<font color='red'>多媒体</font>电教室的管理与设备的维护

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■免费申请 | 上百份MPS MIE模块，免费试用还有礼！

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■有奖直播报名:大联大世平集团&恩智浦 | AI 无所不在，单板电脑也可以

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中