小科普:深度解析语音识别技术

发布者:灵感狂舞最新更新时间:2019-02-28 作者: ZLG立功科技·致远电子关键字:语音识别 手机看文章 扫描二维码
随时随地手机看文章

语音识别已成为人与机器通过自然语言交互重要方式之一,本文将从语音识别的原理以及语音识别算法的角度出发为大家介绍语音识别的方案及详细设计过程。

 

语言作为人类的一种基本交流方式,在数千年历史中得到持续传承。近年来,语音识别技术的不断成熟,已广泛应用于我们的生活当中。语音识别技术是如何让机器“听懂”人类语言?本文将为大家从语音前端处理、基于统计学语音识别和基于深度学习语音识别等方面阐述语音识别的原理。

 

随着计算机技术的飞速发展,人们对机器的依赖已经达到一个极高的程度。语音识别技术使得人与机器通过自然语言交互成为可能。最常见的情形是通过语音控制房间灯光、空调温度和电视的相关操作等。并且,移动互联网、智能家居、汽车、医疗和教育等领域的应用带动智能语音产业规模持续快速增长, 2018年全球智能语音市场规模将达到141.1亿美元。

 

 

目前,在全球智能语音市场占比情况中,各巨头市场占有率由大到小依次为:Nuance、谷歌、苹果、微软和科大讯飞等。

 

 

语音识别的本质就是将语音序列转换为文本序列,其常用的系统框架如下:

 

 

接下来对语音识别相关技术进行介绍,为了便于整体理解,首先,介绍语音前端信号处理的相关技术,然后,解释语音识别基本原理,并展开到声学模型和语言模型的叙述,最后,展示我司当前研发的离线语音识别demo。

 

1.前端信号处理

 

前端的信号处理是对原始语音信号进行的相关处理,使得处理后的信号更能代表语音的本质特征,相关技术点如下表所述:

 

1)       语音活动检测

 

语音活动检测(Voice Activity Detection, VAD)用于检测出语音信号的起始位置,分离出语音段和非语音(静音或噪声)段。VAD算法大致分为三类:基于阈值的VAD、基于分类器的VAD和基于模型的VAD。

 

基于阈值的VAD是通过提取时域(短时能量、短时过零率等)或频域(MFCC、谱熵等)特征,通过合理的设置门限,达到区分语音和非语音的目的。

 

基于分类的VAD是将语音活动检测作为(语音和非语音)二分类,可以通过机器学习的方法训练分类器,达到语音活动检测的目的。

 

基于模型的VAD是构建一套完整的语音识别模型用于区分语音段和非语音段,考虑到实时性的要求,并未得到实际的应用。

 

2)       降噪

 

在生活环境中通常会存在例如空调、风扇等各种噪声,降噪算法目的在于降低环境中存在的噪声,提高信噪比,进一步提升识别效果。

 

常用降噪算法包括自适应LMS和维纳滤波等。

 

3)       回声消除

 

回声存在于双工模式时,麦克风收集到扬声器的信号,比如在设备播放音乐时,需要用语音控制该设备的场景。

 

回声消除通常使用自适应滤波器实现的,即设计一个参数可调的滤波器,通过自适应算法(LMS、NLMS等)调整滤波器参数,模拟回声产生的信道环境,进而估计回声信号进行消除。

 

4)       混响消除

 

语音信号在室内经过多次反射之后,被麦克风采集,得到的混响信号容易产生掩蔽效应,会导致识别率急剧恶化,需要在前端处理。

 

混响消除方法主要包括:基于逆滤波方法、基于波束形成方法和基于深度学习方法等。

 

5)       声源定位

 

麦克风阵列已经广泛应用于语音识别领域,声源定位是阵列信号处理的主要任务之一,使用麦克风阵列确定说话人位置,为识别阶段的波束形成处理做准备。

 

声源定位常用算法包括:基于高分辨率谱估计算法(如MUSIC算法),基于声达时间差(TDOA)算法,基于波束形成的最小方差无失真响应(MVDR)算法等。

 

6)       波束形成

 

波束形成是指将一定几何结构排列的麦克风阵列的各个麦克风输出信号,经过处理(如加权、时延、求和等)形成空间指向性的方法,可用于声源定位和混响消除等。

 

波束形成主要分为:固定波束形成、自适应波束形成和后置滤波波束形成等。

 

2.语音识别的基本原理

 

已知一段语音信号,处理成声学特征向量之后表示为,其中表示一帧数据的特征向量,将可能的文本序列表示为,其中表示一个词。语音识别的基本出发点就是求,即求出使最大化的文本序列。将通过贝叶斯公式表示为:

 

 

其中,称之为声学模型,称之为语言模型。大多数的研究将声学模型和语言模型分开处理,并且,不同厂家的语音识别系统主要体现在声学模型的差异性上面。此外,基于大数据和深度学习的端到端(End-to-End)方法也在不断发展,它直接计算,即将声学模型和语言模型作为整体处理。本文主要对前者进行介绍。

 

3.声学模型

 

声学模型是将语音信号的观测特征与句子的语音建模单元联系起来,即计算。我们通常使用隐马尔科夫模型(Hidden Markov Model,HMM)解决语音与文本的不定长关系,比如下图的隐马尔科夫模型中,

 

 

将声学模型表示为

 

 

其中,初始状态概率和状态转移概率()可用通过常规统计的方法计算得出,发射概率()可以通过混合高斯模型GMM或深度神经网络DNN求解。

 

传统的语音识别系统普遍采用基于GMM-HMM的声学模型,示意图如下:

 

 

其中,表示状态转移概率,语音特征表示,通过混合高斯模型GMM建立特征与状态之间的联系,从而得到发射概率,并且,不同的状态对应的混合高斯模型参数不同。

 

基于GMM-HMM的语音识别只能学习到语音的浅层特征,不能获取到数据特征间的高阶相关性,DNN-HMM利用DNN较强的学习能力,能够提升识别性能,其声学模型示意图如下:

 

 

GMM-HMM和DNN-HMM的区别在于用DNN替换GMM来求解发射概率,GMM- HMM模型优势在于计算量较小且效果不俗。DNN-HMM模型提升了识别率,但对于硬件的计算能力要求较高。因此,模型的选择可以结合实际的应用调整。

 

4.语言模型

 

语言模型与文本处理相关,比如我们使用的智能输入法,当我们输入“nihao”,输入法候选词会出现“你好”而不是“尼毫”,候选词的排列参照语言模型得分的高低顺序。

 

语音识别中的语言模型也用于处理文字序列,它是结合声学模型的输出,给出概率最大的文字序列作为语音识别结果。由于语言模型是表示某一文字序列发生的概率,一般采用链式法则表示,如是由组成,则可由条件概率相关公式表示为:

 

 

由于条件太长,使得概率的估计变得困难,常见的做法是认为每个词的概率分布只依赖于前几个出现的词语,这样的语言模型成为n-gram模型。在n-gram模型中,每个词的概率分布只依赖于前面n-1个词。例如在trigram(n取值为3)模型,可将上式化简:

 

 

5.语音识别效果展示

 

基于PC的语音识别展示demo如下视频所示:

 

此处插入视频zal_asr_demo_video.mp4

 

视频包括使用“小致同学”唤醒设备,设备唤醒之后有12秒时间进行语音识别控制,空闲时间超过了12秒将再次休眠。

 

我们的语音识别算法已经部分移植到了基于AWorks的cortex-m7系列M1052-M16F12 8AWI -T平台。语音识别的声学模型和语言模型是我司训练的用于测试智能家居控制的相关模型demo,在支持65个常用命令词的离线识别测试中(数量越大识别所需时间越长),使用读取本地音频文件的方式进行语音识别“打开空调”所需时间0.46s左右。下面是在M1052-M16F128AWI- T的实测效果:

 

说明: E:\YeeLearn\Speech_Recognition-18.02.02\文档\微信文章\微信图片_20190122164825.png

 

最后附上M1052-M16F128AWI-T产品图片:

 

说明: E:\YeeLearn\Speech_Recognition-18.02.02\文档\微信文章\产品图.png

 

6.关于算法库获取

 

目前语音识别系统处于研发阶段,广大客户可将自身需求反馈给广州立功科技股份有限公司与立功科技·致远电子相关市场人员,我们会以最快速度研发客户需要的产品。

 



关键字:语音识别 引用地址:小科普:深度解析语音识别技术

上一篇:技术新名词声纹识别,一起了解下
下一篇:人脸识别的行业应用都有哪些

推荐阅读最新更新时间:2024-03-30 23:58

基于HMM的连续小词量语音识别系统的研究
摘要:为了提高语音识别效率及对环境的依赖性,文章对语音识别算法部分和硬件部分做了分析与改进,采用ARMS3C2410微处理器作为主控制模块,采用UDA1314TS音频处理芯片作为语音识别模块,利用HMM声学模型及Viterbi算法进行模式训练和识别,设计了一种连续的、小词量的语音识别系统。实验证明,该语音识别系统具有较高的识别率和一定程度的鲁棒性,实验室识别率和室外识别率分别达到95.6%,92.3%。 关键词:语音识别;嵌入式系统;Hidden Markov Models;ARM;Viterbi算法 0 引言 嵌入式语音识别系统是应用各种先进的微处理器在板级或是芯片级用软件或硬件实现的语音识别。嵌入式技术与语音识别技术相
[工业控制]
基于HMM的连续小词量<font color='red'>语音识别</font>系统的研究
智能语音灯声控ic,智能照明语音识别芯片方案
随着科技的发展,对家居生活中的照明设备要求也越来越高,普通照明显然已无法再满足人们对智能家居的需求,在满足基本照明需求上,还要求控制智能化、操作简单化、节能高效化,智能照明由此应运而生! 智能语音照明和其他的灯一样,只是多了语音控制功能,就是通过说话就能开关关灯或者实现一些其他的功能。 NRK3301智能照明语音芯片方案: 智能照明可以语音控制,是加入了语音控制芯片,说话控制灯的语音识别芯片在选型时尤为注意识别的应用环境和识别距离的把握,九芯电子推出的语音识别芯片——NRK3301,体积小,识别率高,识别距离远达5米,同时还具备95%的高识别率、高唤醒率和快速响应反馈机制,能够在噪音环境下分辨识别指令。 NRK3301语音
[嵌入式]
智能语音灯声控ic,智能照明<font color='red'>语音识别</font>芯片方案
基于凌阳SPCE061A单片机的音控小车的设计
  随着电子业的发展,自动化已经不再是新鲜的话题了,在对系统业提出更高更深入的要求的同时,智能化已成为必然的发展趋势。智能化产品已开始逐渐投入市场,走进千家万户,渗入各个领域。随着经济的增长,个人拥有私家汽车已不再是梦想,伴随着汽车业的发展,无人驾驶的智能汽车也必将进入实用阶段。   本设计的主要目的是针对智能无人驾驶汽车设计出智能音控小车,在智能化小车上实现语音控制,避免出现许多大大小小的事故。本设计方案也可应用于移库倒库过程中,而且在诸如智能建筑、公共便民设施、自动立体车库等类似的人性化环境中也能够发挥其作用 。    1 系统的总体设计方案及硬件设计   1. 1系统的总体设计描述   本设计以凌阳单片机SPCE0
[单片机]
汽车上的高科技属实很鸡肋,这些装备你会买吗?
1这些配置真值得选装吗? 如今一辆新车,要想获得竞争力,除了漂亮的外观、精致的内饰、宽敞的空间、强悍的动力等传统项目以外,科技配置加成也是不可或缺的一部分了。     当然,这些科技配置,也是得益于很多IT领域愈发成熟的技术被移植到了汽车上,比如液晶屏、触控、 语音识别 、高清摄像头、强大的 CPU 等等。       早些年,主要是一个超豪华车才会涉及到一个科技性配置,但是随着技术发展,成本降低,越来越多的科技配置已经不是超级豪车专属,更多平民车型也可以享受到。     但是我发现,一方面,这些所谓科技配置,基本上要么进行选配,要么仅仅是高配车才支持。总之,要想获得这些所谓“黑科技”加成,多掏银子
[嵌入式]
LD3320的嵌入式语音识别系统的应用
1 概述 在现代社会,“懒人科技”大行其道。当面临众多繁琐的按键操作和菜单选择的时候,简单地说出指令,是最具有人情味的人机操作界面。让身边的各种电子设备可“听从”人类的语音,是从电影“星球大战”就开始的科技发展目标。虽然目前的科技还不能做到让计算机完全理解人类的所有自然语音,但是可以在一定程度上实现这个梦想。 2 特定人语音识别技术及原理 特定人语音识别(ASR,Auto Speech Recognition)技术是基于“关键词语列表”的识别技术,它是对大量的语音数据(相当于对数千人采集的数万小时的有效声音数据)经语言学家语音模型分析,建立数学模型,并经过反复训练提取基元语音的细节特征,以及提取各基元间的特征差异,得到在统计概率最
[单片机]
LD3320的嵌入式<font color='red'>语音识别</font>系统的应用
语音识别驱动MEMS麦克风需求增长,钰太Q1净利已超去年全年
集微网消息,微机电麦克风厂钰太第一季获利表现亮丽,税后净利达新台币(下同)3291万元,已超越去年整年度获利3289万元。该公司预计5月9日上市。 钰太以微机电麦克风产品为大宗。除智能手机外,亚马逊(Amazon)推出的智能家庭声控设备,还一举导入7颗微机电麦克风,工业控制设备和联网汽车也纷纷导入语音识别功能,都刺激微机电麦克风需求增长。 钰太微机电麦克风目前主要应用于智能手机与笔记本电脑,并积极拓展汽车语音系统、智能音箱与智能手表等领域。 随着市占率逐步扩增,钰太近年营运攀高,去年市占率约1.5%,营收达6.86亿元,年增34.49%;税后净利3289万元、年增2.04倍。 钰太今年第一季营收2.14亿元,年增46.33%,税后
[手机便携]
从语言学习对虚拟助手的挑战,看为啥Siri还不能与人交流?
苹果 最近的秋季发布会主要围绕着 iPhone X ,更换Touch ID的人脸识别,OLED显示屏以及支持蜂窝网络的Apple Watch。但是,生活在波兰、立陶宛、斯洛伐克、捷克共和国以及世界上许多其他地方的人们,并没有注意以上那些“闪光点”,而是发现另外一件事情。   Siri没有学习新的语言,这可是件大事。   触摸屏作为智能手机的界面工作得很出色,但是对于智能手表的微型显示器来说,它就成了一个麻烦。苹果计划在今年年底前推出的智能音箱根本就不会有屏幕。Siri和其他虚拟助手,如Google Assistant、Cortana或Bixby,正日益成为我们与设备交互的主要方式。设想一下在自己的国家,要用外语与机器交谈,仅仅是为
[嵌入式]
针对iPhone的语音识别应用软件【Nuance】
声龙听写(Dragon Dictation)与声龙搜索(Dragon Search)是 Nuance 公司于12/9/2009和12/17/2009在美国推出的针对iPhone™手机用户的两款语音识别应用软件。一经推出,首月下载量过一百万 ,语音输入过九百万 ,每天有6万至8万典型用户使用应用 ,人均使用应用的频率为每天两次 。在苹果App Store下载排行#2,获纽约时报、 商业周刊、 华尔街日报、 CNET专题报道。 时代杂志读者调查评选声龙听写(Dragon Dictation) 为2010年度10大iPhone 应用软件。 声龙听写(Dragon Dictation)现时被选为苹果App Store
[手机便携]
针对iPhone的<font color='red'>语音识别</font>应用软件【Nuance】
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
最新物联网文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved