MPEG-7音频综述-电子工程世界

引言

　　MPEG-1、MPEG-2、MPEG-4数据压缩与编码标准只是对多媒体信息内容本身的表示，而MPEG-7标准则是建立在MPEG-1、MPEG-2、MPEG-4标准基础之上，并可以独立于它们而使用，它提供的是关于多媒体信息内容的标准化描述信息，不是内容本身，而是关于“数据的数据”。MPEG-7标准并不是要替代这些标准，而是为这些标准提供一种标准的描述表示法。其实，早在1997年，MPEG-7就已经被提出来，当时的提出者很好的预计了我们今天面对的网络世界。现在每一个因特网用户每天面对着网路上面数百万兆的音视频信息，但是还不存在一种搜寻你所要的音视频内容的统一方法。这样，MPEG-7应运而生。它定义了一个通用的标准结构，可以交换描述多媒体内容信息的数据，从而支持内容搜寻和管理。因此，MPEG-7的官方称法为多媒体内容描述接口，同时这一名称也表示了它所代表的应用范围。（见图1所示）

　　虽然有很多种描述方法可以描述一段多媒体内容，但是描述格式的定义通常是规范的，所以具备了可用性、统一性和互操作性。鉴于是标准描述化，所以MPEG-7标准只是指定描述的格式（语法和语义）。

　　虽然提出多媒体内容描述接口的初衷是为了解决人们在面对多到泛滥的网络多媒体信息面前的无所适从，但是MPEG-7的应用绝不仅限于搜寻，它也有很多其他类型的应用，例如实时监控、广播过滤，半自动编辑，自动播放列表的产生。

　　在本篇论文中，我们将讨论MPEG-7的基本理论，并且侧重于音频方面。

一. MPEG-7基本

　　1.定义

　　MPEG-7的基本描述实体叫做描述符（descriptor），它通过定义语法和语义来表示特定内容的性质、特征和属性。在音频领域中，描述符可以描述音频信号的频谱包络。

　　描述方案（description schemes）的作用是联合和构造描述组件，以满足应用的要求。描述方案包含了一系列的描述符和同一个体系中的其它的描述方案。

　　描述符和描述方案在语义上都是由所谓的描述定义语言（description definition Language，DDL）定义的，它可以进行扩展。MPEG-7 DDL是以XML语言为基础，因为它可以实现内容描述的文本表示，并且允许描述工具的扩展。

　　2.描述定义语言- DDL

　　描述定义语言是基于XML（文本格式）的描述性语言。之所以采用XML语言一部分是因为它是SGML语言的延伸，而且它的普及型确保了描述工具的扩展性。此外，MPEG-7采用XML还因为它在与多媒体内容描述相关的数据结构的创建中发挥着巨大的作用。

　　但是MPEG-7 DDL不是对XML语言规范的完全复制，它有少许的改变，比如它对一些特定的数据类型提供扩展支持，并且它剔除了多余的特征等。特别是，DDL引入了定义数组和矩阵的新型结构，扩展了XML语言架构的功能。

　　3.多媒体描述方案(MDS)

　　创建多媒体描述方案不只是为了满足不能单独适用于视频或者音频工具的需要，而且能够满足多媒体内容的需要。所以，MPEG-7标准中的MDS提供了与MPEG-7音频标准相关的一系列的两个层次的工具。首先，有一系列低层次的工具，它包含了扩展的数据类型，例如音视频数据的段的基本定义类型，还有一系列高层次的工具，它超出了音视频描述的范围，允许音视频相关，例如高层次内容的语义描述。为了避免MPEG-7标准会存在冗余功能，它的音频部分是由MDS提供音频文件所需要的工具集。

二. MPEG-7音频

　　MPEG-7音频标准的结构可分为两个类别，就是通用音频描述框架和特定应用工具。音频描述框架即基本兼容层（工具箱），也就是通用描述和特定应用构建的基础，而且它还包含了可扩展系列方案、低层描述符（LLDs）、静音段（silence segment）。另一方面，声音识别工具、乐器音色描述工具、说话内容描述工具、旋律描述工具、鲁棒性音频匹配工具分别专注了它们各自的应用领域，所以它们的描述能力都比较强。

　　1.描述结构

　　MPEG-7音频依赖于两个基本结构，段和可扩展序列。

　　段数据类型实际上由MPEG标准的MDS继承而来的，而且在一开始就被MPEG-7音频描述所采用。音频段和段分解共同作用可以连续的分解音频流。将音频分为“段”，它的依据是每段至少得有一个特征，无论是概念上的还是数学上的。你可以把音频流分割成任何你想要的分辨率，以及任何层次的深度。只要子段的时域范围完全在母段上，母段本身的特性就会限制子段的特性，而且子段可能会存在缺口、重叠、两者都有或者两者都无。特定的一段时间的音频流可以被任意数量的段所描述。

　　可扩展序列的核心是一系列对应于描述符的采样值。最普遍的设想是它作为一个时间序列的同时，同样适应于频域的采样。可扩展序列还能够存储各种各样的汇总值，如描述符值的最大值、最小值和方差。

　　2.低层音频描述符

　　一般来说，涉及到大部分的音频信号的低层描述符，能够分成以下几个组别，同时下面给出了描述符的描述范围

基本：瞬时波形和功率值。

　　基本谱：对数频率功率谱和频谱特性，包括谱心，频谱延展性，频谱平坦度。

　　信号参数：准周期信号的基频和信号谐波。

　　音色时域：对数表示的开始时间（log attack time），时域分割的单声道音频的时域中心。

　　音色谱：在线性空间内的频谱特性。例如单声道音频的谱心，还包括信号的谐波部分的频谱特性，也就是谐波谱心，频谱偏差，频谱延展性，谱变化。

　　频谱的基本表示：主要用于声音识别的特性，一般用于在低维空间的识别。

　　2003年MPEG又发布了MPEG-7 Audio Version 2，增加了一些低层描述符,包括音频信号质量描述符和音乐节拍（BPM）描述符。音频信号质量描述符描述的范围包括背景噪声、音频通道互相关、相对延迟、平衡、DC偏移、带宽和传输技术，以及录音错误。并且对原先的MPEG-7 Audio进行了扩展，增加了对立体声/环绕声的描述和说话内容的描述。

　　3.面向应用的音频工具

　　(1)声音识别工具

　　[page]

　　声音识别描述符和描述方案是索引和分类全部声音效果的一组工具。它们支持自动化声音效果识别和索引，而且包含了详细说明声音分类的工具和声音识别的工具。此识别器可用来自动索引和音轨分段。

　　(2)说话内容描述工具

　　基于目前的语音系统并不完美，从而产生了说话内容描述工具。它不是一个简单的说话文本（虽然它也能适应这种情况），这个描述方案包含了合并词和音位格，它能为音频流中的每一个说话者服务。通过结合音位格的方式，很大程度上解决了在出现词汇表之外的词汇所带来的问题。即使原始解码出错，或者单词超出了识别引擎的词汇表的范围，检索信息依然能够能够进行。它能够用于两大类别的检索方案：音频流的索引和检索以及语音多媒体对象的索引。

　　(3)乐器音色描述工具

　　音色描述针对的是对乐器声的感知特性的描述。音色作为感知特性被定义在库中。当两个声音拥有相同的基音音高和响度时，但是听起来却不一样，这是因为这两个声音音色的不同。音色描述工具利用简化的一组描述符描述这些感知特性。描述符涉及到一些概念，例如声音的起始时间、明亮度或者丰满度。

　　总共存在有四类乐器声：谐和、持续、连贯的声音；冲击性非持续的声音；非谐和、持续、连贯的声音；非连贯、持续的声音。在这4大类中，MPEG-7标准已经详细说明了前两类，而且一直在不断更新中。另两类被视作低优先级，因为它们相对比较少见，但是标准仍对它们进行了说明。音色描述工具广泛使用了前面讨论过的音色时域和频域的低层描述符。

　　(4)旋律描述工具

　　有两种方法来描述旋律特性，采用哪一种取决于你所需要的简洁度和精确度。旋律轮廓（melody contour）描述方案是一种简洁描述旋律信息的方法，它允许有效、稳健地旋律相似性匹配，例如，通过嗡声查询。旋律轮廓（melody contour）描述方案使用5步轮廓法（表示相邻音符的音程长度的不同），并且音程被量化。旋律轮廓描述方案还可以通过存储每个音符最邻近的拍数来表示节奏信息，而且这还能显著的提升从资料库提取信息匹配的准确度。

　　对于应用来说，需要更加优良的描述准确度和给定旋律的重建能力，所以旋律描述方案支持描述符集合的扩展和高精度音程编码。音符跟音符之间有着精确的音高区间（精度到分或者更高），而不是只量化到5个级别。通过对类似音高区间的音符起始时间的差异的对数比进行编码，才有了精确的节奏信息。这些核心描述符是一系列的可选支持描述符，例如歌词、音调、韵律和起始音符，以满足应用的需要。

　　(5)鲁棒匹配工具

　　鲁棒音频匹配工具能够稳健和有效的完成音频信号的身份匹配，也就是说，即使在信号有了线性或者非线性失真之后，也能够去区分两个音频信号在本质上是否相同。未知音频信号和相关的资料数据库条目能够进行稳健和有效的匹配，这使得它具备了音频材料的自动识别功能，以及能够仿真出跟人类能力一样基于记忆的声音的识别能力。更重要的是，在MPEG-7标准中，建立了为现有的传统音频格式的给定音频内容块来查找内容描述数据（例如，歌名或者歌手名字）的方法。例如CD不提供任何链接到相应的描述数据库条目。虽然鲁棒音频匹配在原则上可以通过若干特征而实现，但是使用MPEG7中的频谱平坦度描述符就可以完美的实现了。

三. MPEG-7音频的应用

　　1.说话内容搜寻

　　语音是人类相互交流沟通的最重要的手段，与我们的生活息息相关。所以能够实现对于说话内容的搜寻功能显得非常的重要。现今的自动语音识别器都是基于单词/音位格的。

　　前面已经简单讲过MPEG-7对于说话内容的描述的方法。它先存储音位格作为描述数据（而不是用纯文本的形式），然后采取查询/匹配的方法，并且它允许模糊处理和未知单词的检索。这个应用可以使你能够检索某一段的说话内容，还能够使用语音对某段内容加上注解。

　　2.一般声音识别和索引

　　当你面对各种各样的声音，甚至是复杂的混合声时，该怎么样去识别其中的一个呢？当你面对两个相似的声音时，怎样去解决这个问题呢？对它们进行频谱独立分量分析和利用隐马尔科夫模型就可以很好的区分出来。

　　3.存档和恢复

　　这个应用很好的解决了文化遗产（音频部分）的保护问题，我们可以对它们进行存档以给日后使用。我们经常想要保存原始的录音，这样在日后我们可以对它进行后期处理或者恢复。对于存档和恢复音频文件，MPEG-7是通过音质描述编码实现的，这其中包括对它们的一般音质、技术录音参数、缺陷的位置和类型进行记录编码。

　　4.乐器音色搜寻

　　人类对于声音的感觉不只包括音调、响度和持续时间，还包括音色的感知。MPEG-7通过使用感知相关特性去描述单声道乐器声以对声音进行比较，而且它还考虑了持续谐波声和冲击乐器声。

　　5.旋律搜寻

　　对于如何搜寻旋律的问题，它要求搜寻工具不仅能够高效工作而且能够容许音调和时间稍微不准确。MPEG-7的方法是采用旋律描述编码，它对音调、节奏、时间信息等进行编码，以进行搜寻。

　　6.音频识别/指纹

　　关于怎么识别一段录音的问题，MPEG-7所用到的方法是存储数据库的原始文件的MPEG-7的签名/指纹来实现，再通过和数据库签名进行匹配来识别未知的音频材料。这种通过从音频信号中抽取独特签名来自动识别音频内容的音频指纹方法获得了广泛的兴趣。不仅如此，MPEG-7还可以应用于说话人的识别。

四. 结论

　　在发布了几代的音视频压缩标准之后，MPEG标准小组把工作范围延伸到了多媒体内容的描述上。因为对音视频内容的高效搜索和检索的需求在不断增长，MPEG-7标准试图为音视频提供标准的内容描述方法。尤其是标准中的很多描述工具被用来有效地表示内容的内部结构和特性，而不是像其它的元数据标准一样以纯注解形式来描述。MPEG-7音频提供了通用概念以及它有着面向应用的特点，同时它具备很多功能，例如音乐的哼唱检索应用、声音效果识别、乐器音色描述、说话内容的注释、音频信号的稳健匹配等。

关键字：MPEG-7 标准音频引用地址：MPEG-7音频综述

上一篇：一种用于白光LED驱动的电荷泵电路设计
下一篇：冠捷拟吞飞利浦中国电视业务或成全球最大

推荐阅读最新更新时间：2024-05-03 19:25

新能源汽车补贴新规发布，核心关键词：提标准、降补贴

近日，财政部、工信部、科技部、发改委联合发布《关于调整完善新能源汽车推广应用财政补贴政策的通知》，其中的核心关键词为提标准、降补贴，同时，充电补贴逐渐转为支持充电基础设施建设和运营、新能源汽车使用和运营等环节。新政策出台，体现了国家对新能源汽车技术进步的鼓励，掌握新能源电池核心技术的龙头企业竞争力将充分体现。对于新能源汽车产业的长期发展而言，补贴金额下降，补贴标准提高，将有助行业竞争格局逐步优化。自2013年我国出台新能源汽车补贴政策以来，借助于政策的刺激和带动作用，新能源汽车产销量飞速增长，我国已成为全球最大的新能源汽车生产和消费国。2017年我国新能源汽车产业成绩单亮眼。数据显示，2017年新能源汽车产销分

[嵌入式]

华为公布5G许可收费标准，专利许可市场要变天吗？

集微网报道近日，华为公布了对5G多模手机的专利许可收费标准：单台手机专利许可费上限2.5美元，并提供适用于手机售价的合理百分比费率。一石激起千层浪。在实体业务陷入前所未有困境的情况下，华为此举意在何方？作为全球举足轻重的5G专利权利人，华为开放收费将对许可市场造成怎样的冲击？苹果、三星首当其冲任正非在那篇著名的《星光不问赶路人》中总结华为当前的处境说：“我们正处在一个伟大的时代，同时又遭遇百年闻所未闻的风暴打击。”智能手机领域，IDC数据显示，去年Q4华为市场份额已跌至全球第五；5G通信设备领域，据Dell’Oro统计，到2020年Q4华为虽然继续保持领跑，但市场份额已从第一季度的35.7％跌至31.4％。在此背景下，华

[手机便携]

基于D/A转换器WM8741的音频解码器设计

　　 1 引言　　音频解码器广泛应用于日常生活中。不同应用场合对音频解码器性能的要求差异很大。而影响音质的因素有多种，如音频编码格式、传输方式、编解码器件的性能等。数模转换是解码电路的关键部分，其性能高低直接影响声音回放质量。为了获得高质量的模拟声音信号，这里设计一种基于高性能立体声数模转换器WM8741的音频解码器设计方案，该系统支持高达24位、192kHz的数字音频信号解码，还支持其他多种速率的标准数字音频信号的输入。　　 2 WM8741简介　　WM8741是Wolfson微电子公司生产的一款针对高端音频应用的高性能立体声数模转换器，可应用于专业音频系统、家庭影院、A／V接收设备、CD／DVD播放器等。其内部具有

[手机便携]

基于D/A转换器WM8741的<font color='red'>音频</font>解码器设计

SAE公布最新快充标准标准之争仍在持续

经过多年的探讨和争辩，美国汽车工程师学会10月15日宣布，最新的电动汽车和插电式混合动力车快充标准已获得批准并正式公布。尽管这一新标准带有“突破”性或“改变游戏规则”的特点，但也被看作是在“伤口上撒盐”，因为事实上它并没有解决关于电动汽车快充最佳连接器选择的争论。不少业内人士把上述新标准看作是一种倒退。NRG能源公司电动汽车项目总裁 Arun Banskota几个月前表示，“如果不止一个标准的长期持续下去，那么对于像我们这样的供应商来说会面对更多的挑战，对消费者也是如此。”具有20年电动汽车充电设备制造历史的Aerovironment公司项目经理Kristen Helsel补充道，“我们必须开发多种产品，成本

[汽车电子]

我国医用电气设备将全面执行电磁兼容标准YY0505-2012

近日，国家食品药品监督管理局（SFDA）就《医用电气设备电磁兼容标准YY0505－2012》的发布实施情况召开新闻发布会。在会上获悉，这一医疗器械行业标准目前业已发布，并将从2014年1月1日起执行。据初步统计，该标准的实施，将会涉及国内外3000～4000家医疗器械生产企业的约11000余个医用电气设备产品。电磁兼容性是指“设备或系统在其电磁环境中能正常工作且不对环境中任何事物构成不能承受的电磁骚扰的能力”。近年来，随着电子、信息技术在医用电气设备中的广泛应用，以及新的通信技术（如个人通讯系统、蜂窝电话等）在社会生活各领域的迅速发展，医用电气设备使用时所处的电磁环境日益复杂：一方面，在其使用过程中可能

[医疗电子]

我国工业机器人产量预计超12万台完善标准体系助力产业发展

我国机器人产业呈爆发式增长，2017年我国工业机器人产量预计突破12万台，更需要标准体系设“门槛”。13日，第二届国际机器人检测认证高峰论坛在重庆召开，国评中心机器人检测认证信息平台正式发布，同时最新获得机器人产品CR认证20家机器人企业获得了证书。国评中心机器人检测认证信息平台对接“信用中国” 据了解，本届论坛由国家机器人检测与评定中心、机器人检测认证联盟、中国机器人产业联盟、重庆两江新区管理委员会共同主办，论坛旨在满足行业需求，进一步科学有效地推进我国机器人行业检测认证工作的开展。 “近五年，中国机器人产业规模保持20%的高速增长。”中国工业和信息化部装备工业司副司长罗俊杰说，2017年1至10月，中国工业机器人产量

[机器人]

基于LM1036构建的立体声音频控制电路

这是一个基于IC构建的立体声音频控制电路LM1036。该电路将控制右声道和左声道（输入 1 和 2）之间的低音/高音电平音调、音量和平衡。您可以将此电路用于立体声应用，例如汽车收音机、电视和音频系统、mp3 播放器、dvd 播放器、ipod 等。附加的控制输入允许简单地进行响度补偿。该电路应在9V 至 15V DC的电源电压下工作。音调控制功能：宽电源电压范围，9V 至 16V 大音量控制范围，典型值为 75 dB 音调控制，15 dB 典型值通道分离，典型值 75 dB 低失真，对于 0.3 Vrms 的输入电平，典型值为 0.06% 高信噪比，0.3 Vrms 输入电平的典型值为 80 dB

[嵌入式]

基于LM1036构建的立体声<font color='red'>音频</font>控制电路

中美欧日韩将联手统一5G全球标准

新浪美股讯北京时间20日日经中文网报道，围绕下一代超高速无线通信“5G”，日本和美国、欧洲、中国、韩国将统一通信标准。计划到2020年左右在频率等标准方面达成一致，在全球市场上普及通用的设备和服务。5G是物联网“IoT”的核心技术。各国将联手打造企业在全球市场上平等竞争的环境，推动设备与技术的引入。　　 5G的通信速度比当前手机所使用通信技术高出10~100倍，可传送高清视频等大容量数据。即使同时连接多台设备，速度也不会下降。在日本国内，NTT DoCoMo、KDDI、软银这三大移动通信运营商正在致力于5G的商业化运营。　　各国将统一频带和其他服务的防干扰手段。目前，日本计划在5G中使用利用人造卫星通信业务的3个

[手机便携]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂