玩人工智能的你必须知道的语音识别技术原理-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

　　在人工智能快速发展的今天，语音识别开始成为很多设备的标配，语音识别开始被越来越多的人关注，国外微软、苹果、谷歌、nuance，国内的科大讯飞、思必驰等厂商都在研发语音识别新策略新算法，似乎人类与语音的自然交互渐行渐近。

　　我们都希望像《钢铁侠》中那样智能先进的语音助手，在与机器人进行语音交流时，让它听明白你在说什么。语音识别技术将人类这一曾经的梦想变成了现实。语音识别就好比“机器的听觉系统”，该技术让机器通过识别和理解，把语音信号转变为相应的文本或命令。

　　语音识别技术，也被称为自动语音识别AutomaTIc Speech RecogniTIon，（ASR），其目标是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。与说话人识别及说话人确认不同，后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。下面我们来详细解读语音识别技术原理。

　　一：语音识别技术原理-语音识别系统的基础单元

　　语音识别是以语音为研究对象，通过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有非常密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具有竞争性的新兴高技术产业。

　　语音识别系统本质上是一种模式识别系统，包括特征提取、模式匹配、参考模式库等三个基本单元，它的基本结构如下图所示：

　　未知语音经过话筒变换成电信号后加在识别系统的输入端，首先经过预处理，再根据人的语音特点建立语音模型，对输入的语音信号进行分析，并抽取所需的特征，在此基础上建立语音识别所需的模板。而计算机在识别过程中要根据语音识别的模型，将计算机中存放的语音模板与输入的语音信号的特征进行比较，根据一定的搜索和匹配策略，找出一系列最优的与输入语音匹配的模板。然后根据此模板的定义，通过查表就可以给出计算机的识别结果。显然，这种最优的结果与特征的选择、语音模型的好坏、模板是否准确都有直接的关系。

　　语音识别系统构建过程整体上包括两大部分：训练和识别。训练通常是离线完成的，对预先收集好的海量语音、语言数据库进行信号处理和知识挖掘，获取语音识别系统所需要的“声学模型”和“语言模型”；而识别过程通常是在线完成的，对用户实时的语音进行自动识别。识别过程通常又可以分为“前端”和“后端”两大模块：“前端”模块主要的作用是进行端点检测（去除多余的静音和非说话声）、降噪、特征提取等；“后端”模块的作用是利用训练好的“声学模型”和“语言模型”对用户说话的特征向量进行统计模式识别（又称“解码”），得到其包含的文字信息，此外，后端模块还存在一个“自适应”的反馈模块，可以对用户的语音进行自学习，从而对“声学模型”和“语音模型”进行必要的“校正”，进一步提高识别的准确率。

　　语音识别是模式识别的一个分支，又从属于信号处理科学领域，同时与语音学、语言学、数理统计及神经生物学等学科有非常密切的关系。语音识别的目的就是让机器“听懂”人类口述的语言，包括了两方面的含义：其一是逐字逐句听懂非转化成书面语言文字；其二是对口述语言中所包含的要求或询问加以理解，做出正确响应，而不拘泥于所有词的正确转换。

　　自动语音识别技术有三个基本原理：首先语音信号中的语言信息是按照短时幅度谱的时间变化模式来编码；其次语音是可以阅读的，即它的声学信号可以在不考虑说话人试图传达的信息内容的情况下用数十个具有区别性的、离散的符号来表示；第三语音交互是一个认知过程，因而不能与语言的语法、语义和语用结构割裂开来。

　　声学模型

　　语音识别系统的模型通常由声学模型和语言模型两部分组成，分别对应于语音到音节概率的计算和音节到字概率的计算。声学建模；语言模型

　　搜索

　　连续语音识别中的搜索，就是寻找一个词模型序列以描述输入语音信号，从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中，往往要依据经验给语言模型加上一个高权重，并设置一个长词惩罚分数。

　　系统实现

　　语音识别系统选择识别基元的要求是，有准确的定义，能得到足够数据进行训练，具有一般性。英语通常采用上下文相关的音素建模，汉语的协同发音不如英语严重，可以采用音节建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力，会使得性能急剧下降。

　　听写机：大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在前述声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数，识别时，将基元串接成词，词间加上静音模型并引入语言模型作为词间转移概率，形成循环结构，用Viterbi算法进行解码。针对汉语易于分割的特点，先进行分割再对每一段进行解码，是用以提高效率的一个简化方法。

　　对话系统：用于实现人机口语对话的系统称为对话系统。受目前技术所限，对话系统往往是面向一个狭窄领域、词汇量有限的系统，其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器，识别产生的N-best候选或词候选网格，由语法分析器进行分析获取语义信息，再由对话管理器确定应答信息，由语音合成器输出。由于目前的系统往往词汇量有限，也可以用提取关键词的方法来获取语义信息。

　　二：语音识别技术原理-工作原理解读

　　首先，我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式，必须转成非压缩的纯波形文件来处理，比如Windows PCM文件，也就是俗称的wav文件。wav文件里存储的除了一个文件头以外，就是声音波形的一个个点了。下图是一个波形的示例。

　　图中，每帧的长度为25毫秒，每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。

　　分帧后，语音就变成了很多小段。但波形在时域上几乎没有描述能力，因此必须将波形作变换。常见的一种变换方法是提取MFCC特征，根据人耳的生理特性，把每一帧波形变成一个多维向量，可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中，这一步有很多细节，声学特征也不止有MFCC这一种，具体这里不讲。

　　至此，声音就成了一个12行（假设声学特征是12维）、N列的一个矩阵，称之为观察序列，这里N为总帧数。观察序列如下图所示，图中，每一帧都用一个12维的向量表示，色块的颜色深浅表示向量值的大小。

　　接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念：

　　音素：单词的发音由音素构成。对英语，一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集，参见The CMU Pronouncing DicTIonary‎。汉语一般直接用全部声母和韵母作为音素集，另外汉语识别还分有调无调，不详述。

　　状态：这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。

　　语音识别是怎么工作的呢？实际上一点都不神秘，无非是：

　　第一步，把帧识别成状态（难点）。

　　第二步，把状态组合成音素。

　　第三步，把音素组合成单词。

　　如下图所示：

　　图中，每个小竖条代表一帧，若干帧语音对应一个状态，每三个状态组合成一个音素，若干个音素组合成一个单词。也就是说，只要知道每帧语音对应哪个状态了，语音识别的结果也就出来了。

　　那每帧音素对应哪个状态呢？有个容易想到的办法，看某帧对应哪个状态的概率最大，那这帧就属于哪个状态。比如下面的示意图，这帧在状态S3上的条件概率最大，因此就猜这帧属于状态S3。

　　那这些用到的概率从哪里读取呢？有个叫“声学模型”的东西，里面存了一大堆参数，通过这些参数，就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”，需要使用巨大数量的语音数据，训练的方法比较繁琐，这里不讲。

　　但这样做有一个问题：每一帧都会得到一个状态号，最后整个语音就会得到一堆乱七八糟的状态号，相邻两帧间的状态号基本都不相同。假设语音有1000帧，每帧对应1个状态，每3个状态组合成一个音素，那么大概会组合成300个音素，但这段语音其实根本没有这么多音素。如果真这么做，得到的状态号可能根本无法组合成音素。实际上，相邻帧的状态应该大多数都是相同的才合理，因为每帧很短。

　　解决这个问题的常用方法就是使用隐马尔可夫模型（Hidden Markov Model，HMM）。这东西听起来好像很高深的样子，实际上用起来很简单：

　　第一步，构建一个状态网络。

　　第二步，从状态网络中寻找与声音最匹配的路径。

　　这样就把结果限制在预先设定的网络中，避免了刚才说到的问题，当然也带来一个局限，比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径，那么不管说些什么，识别出的结果必然是这两个句子中的一句。

　　那如果想识别任意文本呢？把这个网络搭得足够大，包含任意文本的路径就可以了。但这个网络越大，想要达到比较好的识别准确率就越难。所以要根据实际任务的需求，合理选择网络大小和结构。

　　搭建状态网络，是由单词级网络展开成音素网络，再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径，语音对应这条路径的概率最大，这称之为“解码”。路径搜索的算法是一种动态规划剪枝的算法，称之为Viterbi算法，用于寻找全局最优路径。

　　这里所说的累积概率，由三部分构成，分别是：

　　观察概率：每帧和每个状态对应的概率

　　转移概率：每个状态转移到自身或转移到下个状态的概率

　　语言概率：根据语言统计规律得到的概率

　　其中，前两种概率从声学模型中获取，最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的，可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要，如果不使用语言模型，当状态网络较大时，识别出的结果基本是一团乱麻。

　　这样基本上语音识别过程就完成了,这就是语音识别技术的原理。

　　三：语音识别技术原理-语音识别系统的工作流程

　　一般来说，一套完整的语音识别系统其工作过程分为7步：

①对语音信号进行分析和处理，除去冗余信息。

②提取影响语音识别的关键信息和表达语言含义的特征信息。

③紧扣特征信息，用最小单元识别字词。

④按照不同语言的各自语法，依照先后次序识别字词。

⑤把前后意思当作辅助识别条件，有利于分析和识别。

⑥按照语义分析，给关键信息划分段落，取出所识别出的字词并连接起来，同时根据语句意思调整句子构成。

⑦结合语义，仔细分析上下文的相互联系，对当前正在处理的语句进行适当修正。

　　音识别系统基本原理框图

　　语音识别系统基本原理结构如图所示。语音识别原理有三点：①对语音信号中的语言信息编码是按照幅度谱的时间变化来进行；②由于语音是可以阅读的，也就是说声学信号可以在不考虑说话人说话传达的信息内容的前提下用多个具有区别性的、离散的符号来表示；③语音的交互是一个认知过程，所以绝对不能与语法、语义和用语规范等方面分裂开来。

　　预处理，其中就包括对语音信号进行采样、克服混叠滤波、去除部分由个体发音的差异和环境引起的噪声影响，此外还会考虑到语音识别基本单元的选取和端点检测问题。反复训练是在识别之前通过让说话人多次重复语音，从原始语音信号样本中去除冗余信息，保留关键信息，再按照一定规则对数据加以整理，构成模式库。再者是模式匹配，它是整个语音识别系统的核心部分，是根据一定规则以及计算输入特征与库存模式之间的相似度，进而判断出输入语音的意思。

　　前端处理，先对原始语音信号进行处理，再进行特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征提取，消除噪声和不同说话人的发音差异带来的影响，使处理后的信号能够更完整地反映语音的本质特征。

　　四：语音识别技术原理-发展历程

　　早在计算机发明之前，自动语音识别的设想就已经被提上了议事日程，早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的“Radio Rex”玩具狗可能是最早的语音识别器，当这只狗的名字被呼唤的时候，它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统，它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末，伦敦学院（Colledge of London）的Denes已经将语法概率加入语音识别中。

　　1960年代，人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear PredicTIve Coding （LPC），及动态时间弯折Dynamic Time Warp技术。

　　语音识别技术的最重大突破是隐含马尔科夫模型Hidden Markov Model的应用。从Baum提出相关数学推理，经过Labiner等人的研究，卡内基梅隆大学的李开复最终实现了第一个基于隐马尔科夫模型的大词汇量语音识别系统Sphinx。此后严格来说语音识别技术并没有脱离HMM框架。

实验室语音识别研究的巨大突破产生于20世纪80年代末：人们终于在实验室突破了大词汇量、连续语音和非特定人这三大障碍，第一次把这三个特性都集成在一个系统中，比较典型的是卡耐基梅隆大学（CarnegieMellonUniversity）的Sphinx系统，它是第一个高性能的非特定人、大词汇量连续语音识别系统。

　　这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络（ANN）在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper，Sun的VoiceTone等。

关键字：人工智能语音识别技术引用地址：玩人工智能的你必须知道的语音识别技术原理

上一篇：八代酷睿笔记本来袭！哪一款才是你心头所爱？
下一篇：激光电视是什么激光电视的优缺点有哪些

推荐阅读最新更新时间：2024-05-03 01:35

AI时代已到人工智能将革新人机交互新场景

　　在刚刚落下帷幕的2017杭州·云栖大会上，AI( 人工智能 )成为了关键词之一。其中，人工智能与物联网、云计算三者关系密切。业内有一个比喻：云计算是大脑，物联网是神经中枢，而人工智能则像是人类的一个学习工具，基于云计算和物联网完成深度学习。下面就随网络通信小编一起来了解一下相关内容吧。　　在主论坛上，阿里云副总裁李津、阿里云机器智能首席科学家闵万里、阿里云IOT(物联网)事业部总经理库伟等嘉宾分别就云计算和物联网发表了主题演讲。在随后一场名为《中国青年π》的对话中，寒武纪科技公司CEO陈天石、阿里云首席安全科学家吴翰清以及物灵科技CEO顾嘉唯三位科技青年代表，共同探讨了人工智能的未来发展。　　人类如何与机器更好相

[网络通信]

人工智能如火如荼，华北工控不作壁上观

　　人工智能，近些年是如火如荼。就连一些吃瓜群众更是时不时挂在嘴边，还能道出一二。就说说一举让人工智能走入寻常百姓视觉的围棋界的“人机大战”，韩国与中国的“神级”高手都纷纷被“阿法狗”碾压得有些惨不忍睹，一时间人们对基于人工智能的“阿法狗”是顶礼膜拜。同时这也驱动了更多企业投身到人工智能的研发当中去了。　　　　那么究竟何为人工智能呢？搬概念太繁杂了，其实简单来说，就是“大数据+算法模型=人工智能”。人工智能之所以很彪悍，基础在于大数据，只有积累了海量的训练数据，才能提升人工智能的水平。之后就是处理数据了，人工智能以数据为依托，以算法为工具，就实现了其“小宇宙”般的能量。就拿AlphaGo来说，它也是通过积累了无数盘围棋对战棋谱

[嵌入式]

柯洁再一次输给AI，国产“星阵”棋艺有多牛？

“确实它的计算和对大局的判断都是在我之上的。也不知道自己表现的好或者坏，因为确实很难下。”27日，再次输给人工智能的柯洁坦承，“跟 AI 下棋总是有无力感”。第一届“吴清源杯”世界女子围棋赛暨2018世界人工智能围棋大赛正在福州举行。当天，在福州长乐滨海新城网龙基地，中国知名围棋选手柯洁与围棋人工智能“星阵”(Golaxy)的对弈备受瞩目。这是柯洁第二次与人工智能对弈。去年5月，柯洁在乌镇0比3不敌“ 阿尔法围棋(Alpha Go)”。之后他曾表示，今后不再对战人工智能。此次与“星阵”对弈宣布“解禁”，柯洁说：“我不再说我不跟AI下棋了，下棋不是我一个人的事情，很多喜欢围棋的人可以享受围棋带给他们的快乐，而

[嵌入式]

人工智能时代，层数堆叠可能无法解决存储器面临的挑战！

集微网消息，随着人工智能技术的发展，除了对处理器提出了不同的需求之外，在三星电子内存产品规划高级股总裁Jinman Han看来，存储器也面临着与此前不同的挑战。 Jinman Han在GSA Memory+高峰论坛上上表示，在人工智能领域，存储设备的种类要多于以往，已经从PC时代的单一存储品类发展到了适用于不同领域不同产品的多种产品，以满足不同设备对于存储器的需求。这就使得今后整个产业的发展呈现出与以往不同的特征，即越来越多的厂商意识到，设备的技术架构正在改变，PC时代以CPU为中心的设计思维正在失效，存储器正在成为设计的中心。 Jinman Han认为，设计架构的改变，使得越来越多的厂商开始思考如何挤压现有的资源以提高存储器的

[手机便携]

政法机关迎人工智能：机器人协助克服主观因素误差

“您可以拨打12348，这是法律咨询专用电话哦。” 近日，智能机器人“小艾”现身由法制日报社主办的2017全国政法信息技术装备展，引来众多参观者驻足，上面的对话就发生在一位参观者和“小艾”之间。 “法律咨询电话是多少？” 《法制日报》记者今天采访北京、江苏、山西等地基层政法机关了解到，随着人工智能不断向前发展，目前，大量智能机器人已走进政法机关，或解答法律问题、或协助执法办案、或辅助量刑审判，有效提升执法办案效率，减轻一线人员工作压力，逐渐成为政法工作的“好帮手”。智能机器人走进政法圈据了解，“小艾”是一款能够提供智能化引导分流、业务咨询、政务办理、案件管理、普法宣传、娱乐互动等多种服务的机器人。 “小艾”研发企业的相关

[机器人]

谷歌员工炸锅了，人工智能技术进入美国防部

谷歌已开始与美国国防部开展合作，帮助后者开发用来分析无人机航拍图像的人工智能技术。在得知谷歌与国防部合作的消息后，谷歌公司内部的员工就炸开了锅。据不愿透露姓名的消息人士透露，谷歌此次参与的是美国国防部代号为Maven的项目，该项目旨在识别出由无人机航拍的图像中出现的物体。此前就有过关于此次合作的报道，但在该合作计划的详细情况以发送内部邮件的方式公布后还是在公司内部引起了广泛的讨论。消息称，部分谷歌员工对公司给使用无人机进行监控的美国军方提供技术支持的这种行为表示强烈不满，另一些员工称该项目引发了对于发展和使用机器学习技术的相关道德问题。谷歌公司前总裁埃里克·施密特（Eric Schmidt）在去年秋季指出了科技公

[嵌入式]

中国首款车规级AI芯片，地平线“征程二代”正式量产

世界人工智能大会期间，边缘人工智能芯片企业地平线召开以“开启新征程”为主题的媒体发布会，正式宣布量产中国首款车规级人工智能芯片——征程二代。地平线创始人&CEO余凯、联合创始人&副总裁黄畅、地平线副总裁&智能驾驶产品线总经理张玉峰及地平线上海芯片研发中心总经理吴征等地平线高管悉数亮相此次发布活动，并围绕地平线征程二代核心技术突破、征程三代及后续系列车规级芯片研发规划及智能驾驶领域的战略布局向与会嘉宾和媒体进行了详细介绍。地平线创始人&CEO余凯推出征程二代芯片发布会上，地平线创始人&CEO余凯表示：“地平线从2015年创立之初便聚焦边缘人工智能芯片领域，致力于推动人工智能底层核心技术的突破。车载AI芯片是人工智能行业

[嵌入式]

中国首款车规级<font color='red'>AI</font>芯片，地平线“征程二代”正式量产

新型的FPGA器件将支持多样化AI/ML创新进程

近日举办的GTC大会把人工智能/机器学习（AI/ML）领域中的算力比拼又带到了一个新的高度，这不只是说明了通用图形处理器（GPGPU）时代的来临，而是包括GPU、FPGA和NPU等一众数据处理加速器时代的来临，就像GPU以更高的计算密度和能效胜出CPU一样，各种加速器件在不同的AI/ML应用或者细分市场中将各具优势，未来并不是只要贵的而是更需要对的。此次GTC上新推出的用于AI/ML计算或者大模型的B200芯片有一个显著的特点，它与传统的图形渲染GPU大相径庭并与上一代用于AI/ML计算的GPU很不一样。在其他算力器件品种中也是如此，AI/ML计算尤其是推理应用需要一种专为高带宽工作负载优化的新型FPGA，下面我们以Ach

[嵌入式]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■有奖直播报名:大联大世平集团&恩智浦 | AI 无所不在，单板电脑也可以

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■Follow me第二季第4期来啦！与得捷一起解锁蓝牙/Wi-Fi板【Arduino Nano RP2040 Connect】超能力！