应用、算法、芯片,“三位一体”浅析语音识别

发布者:温暖梦想最新更新时间:2017-10-18 来源: 雷锋网关键字:语音识别 手机看文章 扫描二维码
随时随地手机看文章

雷锋网(公众号:雷锋网) AI科技评论按:本文作者为辰韬资本黄松延,原文首发于微信公众号:辰韬资本(ID: chentaoziben),雷锋网AI科技评论获其授权转载。


黄松延,浙江大学人工智能博士,前华为高级算法工程师,对深度学习及其应用有深入的研究,阅后若有所感,欢迎通过邮箱syhuang@chentao-capital.com或者微信号Nikola_629与他交流。


人工智能产业链由基础层、技术层与应用层构成,同样,智能语音识别亦由这三层组成。基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升。


基于大量数据的积累、深度神经网络模型的发展及算法的迭代优化,近年,语音识别准确率取得了不断的提升。2016年10月,微软宣布英语语音识别词错率下降到5.9%,从而能够媲美人类。现阶段,在理想的环境下,多家公司的语音识别系统已经越过了实用的门槛,并在各个领域得到了广泛的应用。


人工智能产业链由基础层、技术层与应用层构成。同样,智能语音识别亦由这三层组成,本文从语音识别的商业化应用出发,并探讨驱动语音识别发展的算法及硬件计算能力,三位一体浅析语音识别现状、发展趋势及仍然面临的难点。


一、应用


智能语音技术是人工智能应用最成熟的技术之一,并拥有交互的自然性,因而,其具有巨大的市场空间。中国语音产业联盟《2015中国智能语音产业发展白皮书》数据显示,2017年全球智能语音产业规模将首次超过百亿美元,达到105亿美元。中国2017年智能语音产业规模也将首次突破百亿元,五年复合增长率超过60%。



图1.来源:wind、华安证券研究所


科技巨头都在打造自己的智能语音生态系统,国外有IBM、微软、Google,国内有百度、科大讯飞等。


IBM、微软、百度等公司在语音识别方面,使用组合模型,不断提升语音识别性能。微软基于6个不同的深度神经网络构成的声学模型以及4个不同的深度神经网络构成的语言模型,取得了超越人类的识别准确率。科大讯飞则基于深度全序列卷积神经网络语音识别框架,取得了实用级的识别性能。云知声、捷通华声、思必驰等智能语音创业公司亦在不断打磨自己的识别引擎,并能够把自己的技术落地到产业中。


在巨头和创新者的推动下,语音识别逐渐在智能家居、智能车载、语音助手、机器人等领域取得迅猛发展。


1、智能家居


在智能家居,尤其是智能音箱市场,亚马逊与Google处于行业统治地位,并各具特色。

亚马逊的Echo已经卖出近千万台,引爆了在线智能音箱市场。相比于传统的音箱,Echo具有远程唤醒播放音乐、联网查询咨询信息、智能控制家电等功能。但是在智能问答方面,Echo表现一般,Google以此为突破口,发布Google Home,从亚马逊手中抢夺23.8%的智能音箱市场份额。2017年9月,亚马逊发布了多款Echo二代产品,相比一代在音质上有明显的提升,且Echo Plus具备更加强大的家居控制功能,能够自动搜索到附件的智能家居设备,并进行控制。


在我国的语控电视、语控空调、语控照明等智能语控家电市场,科大讯飞、云知声、启英泰伦做了深入布局。


科大讯飞联合京东发布叮咚音箱,并于2016年推出讯飞电视助理,打造智能家居领域的入口级应用。云知声提供物联网人工智能技术,通过与格力等公司合作,把自己的语音识别技术集成到终端家电产品中,另外,云知声发布的‘Pandora’语音中控方案,能够大幅缩短产品智能化周期。启英泰伦结合自己强大的硬件(终端智能语音识别芯片CI1006)及算法(深度学习语音识别引擎)优势,提供离线与在线的整套语音识别方案,并在物联网各个领域有广泛的布局。


2、智能车载


随着智能网联的发展,预计未来车联网在车载端的渗透率将超过50%。但是基于安全性等因素考虑,车载端智能与手机端智能有极大的差别,从手机端简单拷贝的方式并不适合车载端使用场景。语音基于其交互的自然性,被认为是未来人与车交互的主要入口路径。


百度借助自己的人工智能生态平台,推出了智能行车助手CoDriver。科大讯飞与奇瑞等汽车制造商合作,推出了飞鱼汽车助理,推进车联网进程。搜狗与四维图新合作推出了飞歌导航。云知声、思必驰在导航、平视显示器等车载应用方面推出了多款智能语控车载产品。出门问问则基于自己的问问魔镜进入到智能车载市场。


在语音识别的商业化落地中,需要内容、算法等各个方面的协同支撑,但是良好的用户体验是商业应用的第一要素,而识别算法是提升用户体验的核心因素。下文将从语音识别的算法发展路径、算法发展现状及前沿算法研究三个方面来探讨语音识别技术。


二、算法


对于语音识别系统而言,第一步要检测是否有语音输入,即,语音激活检测(VAD)。在低功耗设计中,相比于语音识别的其它部分,VAD采用always on的工作机制。当VAD检测到有语音输入之后,VAD便会唤醒后续的识别系统。识别系统总体流程如图2所示,主要包括特征提取、识别建模及模型训练、解码得到结果几个步骤。



图2.语音识别系统


1、VAD(语音激活检测)


用于判断什么时候有语音输入,什么时候是静音状态。语音识别后续的操作都是在VAD截取出来的有效片段上进行,从而能够减小语音识别系统噪声误识别率及系统功耗。在近场环境下,由于语音信号衰减有限,信噪比(SNR)比较高,只需要简单的方式(比如过零率、信号能量)来做激活检测。但是在远场环境中,由于语音信号传输距离比较远,衰减比较严重,因而导致麦克风采集数据的SNR很低,这种情况下,简单的激活检测方法效果很差。使用深度神经网络(DNN)做激活检测是基于深度学习的语音识别系统中常用的方法(在该方法下,语音激活检测即为一个分类问题)。在MIT的智能语音识别芯片中使用了精简版的DNN来做VAD,该方法在噪声比较大的情况下也具有很好的性能。但是更复杂的远场环境中,VAD仍然是未来研究的重点。


2、特征提取


梅尔频率倒谱系数(MFCC)是最为常用的语音特征,梅尔频率是基于人耳听觉特征提取出来的。MFCC主要由预加重、分帧、加窗、快速傅里叶变换(FFT)、梅尔滤波器组、离散余弦变换几部分组成,其中FFT与梅尔滤波器组是MFCC最重要的部分。但是近年研究表明,对于语音识别而言,梅尔滤波器组不一定是最优方案。受限的玻尔兹曼机(RBM)、卷积神经网络(CNN)、CNN-LSTM-DNN(CLDNN)等深度神经网络模型作为一个直接学习滤波器代替梅尔滤波器组被用于自动学习的语音特征提取中,并取得良好的效果。

目前已经证明,在特征提取方面,CLDNN比对数梅尔滤波器组有明显的性能优势。基于CLDNN的特征提取过程可以总结为:在时间轴上的卷积、pooling、pooled信号进入到CLDNN中三个步骤。


远场语音识别领域,由于存在强噪声、回响等问题,麦克风阵列波束成形仍然是主导方法。


另外,现阶段,基于深度学习的波束成形方法在自动特征提取方面亦取得了众多研究成果。


3、识别建模


语音识别本质上是音频序列到文字序列转化的过程,即在给定语音输入的情况下,找到概率最大的文字序列。基于贝叶斯原理,可以把语音识别问题分解为给定文字序列出现这条语音的条件概率以及出现该条文字序列的先验概率,对条件概率建模所得模型即为声学模型,对出现该条文字序列的先验概率建模所得模型是语言模型。


3.1  声学模型


声学模型是把语音转化为声学表示的输出,即找到给定的语音源于某个声学符号的概率。对于声学符号,最直接的表达方式是词组,但是在训练数据量不充分的情况下,很难得到一个好的模型。词组是由多个音素的连续发音构成,另外,音素不但有清晰的定义而且数量有限。因而,在语音识别中,通常把声学模型转换成了一个语音序列到发音序列(音素)的模型和一个发音序列到输出文字序列的字典。


需要注意的是,由于人类发声器官运动的连续性,以及某些语言中特定的拼读习惯,会导致音素的发音受到前后音素的影响。为了对不同语境的音素加以区分,通常使用能够考虑前后各一个音素的三音子作为建模单元。


另外,在声学模型中,可以把三音子分解为更小的颗粒—状态,通常一个三音子对应3个状态,但是这会引起建模参数的指数增长,常用的解决方案是使用决策树先对这些三音子模型进行聚类,然后使用聚类的结果作为分类目标。


至此,语音识别有了最终的分类目标—状态。最常用的声学建模方式是隐马尔科夫模型(HMM)。在HMM下,状态是隐变量,语音是观测值,状态之间的跳转符合马尔科夫假设。其中,状态转移概率密度多采用几何分布建模,而拟合隐变量到观测值的观测概率的模型常用高斯混合模型(GMM)。基于深度学习的发展,深度神经网络(DNN)、卷积神经网络(CNN)、循环神经网络(RNN)等模型被应用到观测概率的建模中,并取得了非常好的效果。下文给出各个模型的原理、所解决的问题及各自局限性,且给出了由模型的局限性而引起建模方式发展的脉络。


1)高斯混合模型(GMM)


观测概率密度函数由高斯混合模型建模,训练中,不断迭代优化,以求取GMM中的加权系数及各个高斯函数的均值与方差。GMM模型训练速度较快,且GMM声学模型参数量小,可以容易地嵌入到终端设备中。在很长一段时间内,GMM-HMM混合模型都是表现最优秀的语音识别模型。但是GMM不能利用语境信息,其建模能力有限。


2)深度神经网络(DNN)


最早用于声学模型建模的神经网络,DNN解决了基于高斯混合模型进行数据表示的低效问题。语音识别中,DNN-HMM混合模型大幅度的提升了识别率。目前阶段,DNN-HMM基于其相对有限的训练成本及高识别率,仍然是特定的语音识别工业领域常用的声学模型。需要注意的是,基于建模方式的约束(模型输入特征长度的一致性需求),DNN模型使用的是固定长度的滑动窗来提取特征。


3)循环神经网络(RNN)/卷积神经网络(CNN)模型


对于不同的音素与语速,利用语境信息最优的特征窗长度是不同的。能够有效利用可变长度语境信息的RNN与CNN在语音识别中能够取得更好的识别性能。因而,在语速鲁棒性方面,CNN/RNN比DNN表现的更好。


在使用RNN建模方面,用于语音识别建模的模型有:多隐层的长短期记忆网络(LSTM)、highway LSTM、ResidualLSTM、双向LSTM、时延控制的双向LSTM。


LSTM,基于门控电路设计,其能够利用长短时信息,在语音识别中取得了非常好的性能。另外,可以通过增加层数进一步提升识别性能,但是简单地增加LSTM的层数会引起训练困难及梯度消失问题。


Highway LSTM,在LSTM相邻层的记忆单元间添加一个门控的直接链路,为信息在不同层间流动提供一个直接且不衰减的路径,从而解决梯度消失问题


Residual LSTM,在LSTM层间提供一个捷径,亦能解决梯度消失问题。


双向LSTM,能够利用过去及未来的语境信息,因而其识别性能比单向的LSTM好,但是由于双向LSTM利用了未来的信息,因而基于双向LSTM建模的语音识别系统需要观察完整的一段话之后才能识别,从而不适用于实时语音识别系统。


时延控制的双向LSTM,通过调整双向LSTM的反向LSTM,实现了性能与实时性的一个折中建模方案,能够应用于实时的语音识别系统。


CNN建模方面,包括时延神经网络(TDNN)、CNN-DNN、CNN-LSTM-DNN(CLDNN)、CNN-DNN-LSTM(CDL)、深度CNN、逐层语境扩展和注意(LACE)CNN、dilated CNN。


TDNN,最早被用于语音识别的CNN建模方式,TDNN 会沿频率轴和时间轴同时进行卷积,因此能够利用可变长度的语境信息。TDNN用于语音识别分为两种情况,第一种情况下:只有TDNN,很难用于大词汇量连续性语音识别(LVCSR),原因在于可变长度的表述(utterance)与可变长度的语境信息是两回事,在LVCSR中需要处理可变长度表述问题,而TDNN只能处理可变长度语境信息;第二种情况:TDNN-HMM 混合模型,由于HMM能够处理可变长度表述问题,因而该模型能够有效地处理LVCSR问题。


CNN-DNN,在DNN前增加一到两层的卷积层,以提升对不同说话人的可变长度声道(vocal tract)问题的鲁棒性,对比于单纯DNN,CNN-DNN性能有一定幅度(5%)的提升


CLDNN及CDL,在这两个模型中,CNN只处理频率轴的变化,LSTM用于利用可变长度语境信息。


深度CNN,这里的“深度”是指一百层以上。语谱图可以被看作是带有特定模式的图像,通过使用比较小的卷积核以及更多的层,来利用时间及频率轴上长范围的相关信息,深度CNN的建模性能与双向LSTM性能相当,但是深度CNN没有时延问题。在控制计算成本的情况下,深度CNN能够很好的应用于实时系统。


逐层语境扩展和注意(LACE)CNN及dilated CNN,深度CNN的计算量比较大,因而提出了能够减小计算量的 LACE CNN与dilated CNN,其把整个话语看作单张输入图,因而可以复用中间结果,另外,可以通过设计LACE CNN及dilated CNN网络每一层的步长,使其能够覆盖整个核,来降低计算成本。


语音识别的应用环境常常比较复杂,选择能够应对各种情况的模型建模声学模型是工业界及学术界常用的建模方式。但是各个单一模型都有局限性。HMM能够处理可变长度的表述,CNN能够处理可变声道,RNN/CNN能够处理可变语境信息。声学模型建模中,混合模型由于能够结合各个模型的优势,是目前声学建模的主流方式。


3.2  语言模型


语音识别中,最常见的语言模型是N-Gram。近年,深度神经网络的建模方式也被应用到语言模型中,比如基于CNN及RNN的语言模型。


4、端到端的语音识别系统


在DNN-HMM或者CNN/RNN-HMM模型中,DNN/CNN/RNN与HMM是分开优化的,但是语音识别本质上是一个序列识别问题,如果模型中的所有组件都能够联合优化,很可能会获取更好的识别准确度,这一点从语音识别的数学表达式也可以看出(利用贝叶斯准则变化之后的表达式),因而端到端的处理方式亦被引入到语音识别系统中。


4.1  CTC准则


其核心思想是引入空白标签,然后基于前向后向算法做序列到序列的映射。CTC准则可分为character-based CTC、other output units-based CTC、word-based CTC,由于CTC准则是直接预测字符、单词等,而不是预测音素,因而其能够剔除语音识别中的字典等专家知识。由于在非word-based CTC中,仍然需要语言模型及解码器。因而,character-basedCTC与other output units-based CTC是非纯粹的端到端的语音识别系统。相反,word-based CTC模型是纯粹的端到端语音识别系统。


基于word-based CTC准则,使用10万个词作为输出目标且使用 12.5 万小时训练样本得到的语音序列到单词序列的模型,能够超越基于音素单元的模型。但是word-based CTC模型有训练困难及收敛慢的问题。


4.2  Attention-based模型


相比于CTC准则,Attention-based模型不需要有帧间独立性假设,这也是Attention-based模型的一大优势,因而Attention-based模型可能能够取得更好的识别性能。但是相比于CTC准则,Attention-based模型训练更加困难,且有不能单调地从左到右对齐及收敛更慢的缺点。通过将 CTC 目标函数用作辅助代价函数,Attention训练和 CTC 训练以一种多任务学习的方式结合到了一起。这种训练策略能够很大程度上改善Attention-based模型的收敛问题,并且缓解了对齐问题。


语音识别的发展过程中,深度学习起到了关键的作用。声学模型遵循从 DNN 到 LSTM再到端到端建模的发展路径。深度学习最大的优势之一是特征表征。在有噪声、回响等情况下,深度学习可以把噪声、回响看为新的特征,并通过对有噪声、回响数据的学习,达到比较理想的识别性能。目前阶段,端到端的建模方式是声学模型建模的重点研究方向,但是相比于其它的建模方式,其还没有取得明显的性能优势。如何在端到端建模的基础上,提升训练速度及性能,并解决收敛问题是声学模型的重要研究方向。


5、解码


基于训练好的声学模型,并结合词典、语言模型,对输入的语音帧序列识别的过程即为解码的过程。传统的解码是将声学模型、词典以及语言模型编译成一个网络。解码就是在这个动态网络空间中,基于最大后验概率,选择一条或多条最优路径作为识别结果(最优的输出字符序列)。搜索常用的方法是Viterbi算法。对于端到端的语音识别系统,最简单的解码方法是beam search算法。


6、远场复杂环境下解决方案


目前阶段,在近场安静环境下,语音识别能够取得非常理想的识别效果,但是在高噪声、多人说话、强口音等环境,特别是远场环境下,语音识别还有诸多问题需要解决。语音模型自适应、语音增强与分离、识别模型优化等是常用的可选解决方案。


6.1  语音增强与分离


远场环境下,语音输入信号衰减比较严重,为了对语音信号增强,常采用麦克风阵列的波束形成技术,比如,Google Home采用双麦的设计方案,亚马逊Echo采用6+1的麦克风阵列设计方案。近年,深度学习方法被应用到语音增强与分离中,核心思想是把语音增强与分离转化为一个监督学习问题,即预测输入声音源的问题。有研究使用DNN替代波束形成,实现语音增强,并在一定场景下取得了比较理想的效果。但是在背景噪声很大的环境中,该方法性能还有较大提升空间。


在多人说话的情况下,如果不对输入信号做分离处理,而进行语音识别的话,识别效果会很差。对于该问题,在多个说话人距离较远的情况下,波束形成是一个比较好的解决方案,但是当多个说话人距离很近的时候,波束形成的语音分离效果也很差。为了避开波束形成所带来的场景分类问题,传统的方法多是在单通道下尝试解决该问题,常用算法有computational auditory scene analysis、非负矩阵分解、deep clustering 等,但是这些方法只有当噪声信号(除声源外的其他信号)与声音源信号有明显不同的特征时,这些技术才取得比较好的效果。其它情况下,这些方法在语音分离中取得的效果一般。2016年,俞栋博士提出了一种新的深度学习训练准则-- permutation invariant training,巧妙地解决了该问题,并取得了不错的效果。


6.2  语音模型自适应


大量且丰富(能够提供更多信息)的数据集是提升模型泛化能力的最直接简单的方法;

基于成本及训练时间的考虑,一般情况下只使用有限的训练数据。此时,在模型训练中加入Kullback-Leiblerdivergence正则项是解决模型自适应问题非常有效的方式;

除了加入正则项外,使用非常少的参数来表征说话者特征是另一种自适应方式,其包括:奇异值分解瓶颈自适应,把满秩矩阵分解为两个低秩矩阵,减小训练参数;子空间法,子空间法又包括:


1. 在输入空间及深度网络的各个层中加入i-vector、扬声器(speaker)编码、噪声估计等辅助特征;


2. 聚类自适应训练(CAT);


3. 隐层分解(FHL),相比于CAT,FHL只需要少量的训练数据,原因在于FHL的基是秩为1的矩阵,而CAT的基是满秩矩阵,在基数量一样的情况下,CAT需要更多的训练数据。


实时性是语音识别应用中关注度很高的问题之一,实时性直接影响用户的体验感,提高语音识别的实时性可以通过降低运算时间成本与提升识别硬件计算能力两方面完成。


7、降低运算时间成本


SVD,基于奇异值分解的数学原理,把满秩矩阵分解为两个低秩矩阵,减小深度模型的参数,且能够不降低模型识别性能;


压缩模型,使用向量量化或者极低比特量化算法;


改变模型结构,主要针对LSTM,在LSTM中增加一个线性映射层,降低原有LSTM的输出维度,从而降低运算时间成本;


使用跨帧的相关性来降低评估深度网络分数的频率,对于DNN或CNN而言,这可以通过使用跳帧策略完成,即每隔几帧才计算一次声学分数,并在解码时将该分数复制到没有评估声学分数的帧 。


另外,提升识别阶段硬件的运算能力,开发专用的语音识别芯片对增强语音识别的实时性意义重大,下文将会在这方面展开讨论。


三、芯片


不断积累的高质量大数据与深度学习算法是语音识别性能能够不断提升的关键。基础层的核心处理芯片是支持海量训练数据、复杂的深度网络建模方式以及实时推断的关键要素。语音识别包括训练与识别(给定训练好的模型,对输入语音进行识别)两部分。


在训练阶段,由于数据量及计算量巨大,传统的CPU或者单一处理器几乎无法单独地完成一个模型训练过程(初始阶段,谷歌大脑语音识别项目是基于16000个CPU,用了75天,完成一个有156M参数的深度神经网络模型训练工作)。原因在于CPU芯片架构中只有少量的逻辑运算单元,且指令执行是一条接一条的串行过程,其算力不足。研发具有高计算能力的芯片成为语音识别乃至整个人工智能硬件的发展趋势。


与CPU不同的是,GPU具有大量的计算单元,因而特别适合大规模并行计算。另外,FPGA、TPU、ASIC这些延续传统架构的芯片亦在大规模并行计算中得到广泛的应用。需要注意的是,从本质上讲,这些芯片都是计算性能与灵活性/通用性trade-off的结果,即,如图3所示。CPU,GPU是通用处理器,DSP归为ASP,TPU是ASIC这一类,FPGA则是一种Configurable Hardware。


图3.来源:RIT的Shaaban教授的计算机体系结构课程


另外,基于实时性、低功耗、高计算力的需求,使用专属语音识别AI芯片处理识别阶段大量的矩阵运算,进行运算加速是今后终端语音识别芯片市场的主流方向。


1、云端场景


由于计算量、训练数据量极大,且需要大量的并行运算,目前语音识别的模型训练部分基本都放在云端进行。在云端训练中,英伟达的GPU占主导市场,多GPU并行架构是终端训练常用的基础架构方案。另外,Google在自己的人工智能生态中,使用TPU做训练与识别。


目前阶段,语音识别公司的识别部分也大多放在云端,比如Google home、亚马逊Echo,国内的科大讯飞、云知声等。在云端识别中,虽然也有使用GPU,但是GPU并不是最优方案,更多的是利用CPU、GPU、FPGA各自优势,采用异构计算方案(CPU+GPU+FPGA/ASIC)。


2、终端场景


在智能家居等行业应用中,对实时性、稳定性及隐私性有极高的要求。出于对云端数据处理能力、网络延迟及数据安全性的考虑,把计算下放到终端硬件中的边缘计算得到了快速的发展。终端离线的语音识别即是一种基于边缘计算的边缘智能,我们认为离线与在线是语音识别共存的发展路线。在终端离线识别中,需要把训练好的模型存储到芯片。给定语音输入时,引擎会调用模型,完成识别。终端语音识别两个关键因素是实时性与成本,其中实时性影响用户体验,成本影响语音识别应用范围。


由于深度神经网络在语音识别中取得明显的性能优势,其是目前主流的语音识别建模方式。但是神经网络的模型参数量一般非常大,且识别过程中有大量的矩阵计算,常用的DSP或者CPU处理该问题时需要大量的时间,从而无法满足语音识别的实时性需求。GPU、FPGA的价格又是阻碍其在终端语音识别中大规模应用的主要障碍。考虑到终端应用中,场景相对比较固定,且需要很高的计算性能,研发语音识别专属芯片是终端语音识别硬件发展趋势。


启英泰伦(ChipIntelli):2015年11月在成都成立。2016年6月推出了全球首款基于人工智能的语音识别芯片CI1006,该芯片集成了神经网络加速硬件,可实现单芯片、本地离线、大词汇量识别,且识别率明显高于传统终端语音识别方案。另外,启英泰伦能够提供廉价的单麦远场语音识别模组,其实际识别效果能够媲美使用了科胜讯降噪模块的双麦模组,大幅度降低远场语音识别模组成本。启英泰伦在终端语音识别专用芯片发展上取得了明显的技术及先发优势。


MIT项目:MIT黑科技,即,MIT在ISSCC2017上发表的paper里的芯片,该芯片能够支持DNN运算架构,进行高性能的数据并行计算,可以实现单芯片离线识别上千单词。


云知声:云知声致力于打造“云端芯”语音生态服务系统,其刚获取3亿人民币的投资,将把部分资金投入到终端语音识别芯片“UniOne”的研发中,据报道,该芯片将会内置DNN处理单元,兼容多麦克风阵列。


过去几十年,尤其是最近几年,语音识别技术不断取得突破。但是,在大多数场景下,语音识别远没有达到完美。解决远场复杂环境下的语音识别问题仍然是当前研究热点。另外,通常情况下,语音识别都是针对特定的任务,训练专用的模型,因而,模型的可移植性比较差。


人类在对话过程中,可以很高效的利用先验知识,但是目前的语音识别系统都还无法有效利用先验知识。因此,语音识别还有很多问题待解决。令人兴奋的是,随着高质量数据的不断积累、技术的不断突破及硬件平台算力的提升,语音识别正在向我们期待的方向快速发展。

关键字:语音识别 引用地址:应用、算法、芯片,“三位一体”浅析语音识别

上一篇:中兴物联成唯一中标方 中国电信在下一盘NB-IoT的大棋
下一篇:深度:中芯国际详解梁孟松、赵海军双剑合璧

推荐阅读最新更新时间:2024-05-03 17:24

针对iPhone的语音识别应用软件【Nuance】
声龙听写(Dragon Dictation)与声龙搜索(Dragon Search)是 Nuance 公司于12/9/2009和12/17/2009在美国推出的针对iPhone™手机用户的两款语音识别应用软件。一经推出,首月下载量过一百万 ,语音输入过九百万 ,每天有6万至8万典型用户使用应用 ,人均使用应用的频率为每天两次 。在苹果App Store下载排行#2,获纽约时报、 商业周刊、 华尔街日报、 CNET专题报道。 时代杂志读者调查评选声龙听写(Dragon Dictation) 为2010年度10大iPhone 应用软件。 声龙听写(Dragon Dictation)现时被选为苹果App Store
[手机便携]
针对iPhone的<font color='red'>语音识别</font>应用软件【Nuance】
谷歌用新的语音数据扩增技术大幅提升语音识别准确率
把一段输入音频转换为一段文本的任务「自动语音识别(ASR)」,是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过,开发基于深度学习的语音识别系统还不是一个已经完善解决的问题,其中一方面的难点在于,含有大量参数的语音识别系统很容易过拟合到训练数据上,当训练不够充分时就无法很好地泛化到从未见过的数据。 当对于图像分类任务,当训练数据的数量不足的时候我们可以使用各种数据扩增(data augmentation)方法生成更多数据,提高网络的表现。但是在自动语音识别任务中情况有所不同,传统的数据扩增方法一般是对音频波形做一些变
[家用电子]
谷歌用新的语音数据扩增技术大幅提升<font color='red'>语音识别</font>准确率
传苹果正在测试智能家居设备,还集成了语音识别和人脸识别功能
           两年前,苹果推出了智能家居平台HomeKit,试图在智能家居领域建立新的生态圈;然而两年过去了,支持这一平台的设备依然寥寥无几,随着亚马逊语音联网设备Echo的横空出世,HomeKit的地位就愈发尴尬了。苹果似乎意识到了这一点,他们正准备推出旗下首款智能家居设备。       彭博社援引知情人士透露,苹果公司正在开发一款类似于亚马逊Echo的智能家居设备,这款设备基于Siri智能语音助手,不过具体上市消息并不知晓。       据了解,该项目是两年前启动的,目前已经完成了实验室研究和开发阶段,正在进行样机测试。和Echo的功能及原理一样,你只要通过这款家居设备上的语音功能就可控制家庭内部的电子设备
[安防电子]
智能家居市场 语音识别这一密钥何时才能被激活?
作为一个时代的代名词,人工智能备受瞩目,从世界范围内参与其中的知名公司就可窥见一斑。在80年代,以数理逻辑为核心的体制瓦解后,人工智能分化出了五大独立学科。在这五大学科中,由深度学习推动,并顺利从科研实验室走到人们身边的智能语音,某种程度上承担了人工智能这两年的大部分热度。智能语音在2016年被美国权威杂志《麻省理工科技评论》评为当年的十大突破科技,根据易观·工信部数据,2017年中国语音产业规模就将突破百亿。 说到智能语音就不能不提智能家居。在当下的智能家居行业,语音基于其交互的自然性,被认为是未来人与家居交互的主要入口路径,以致业内普遍认为,“以语音为入口连接各种服务,构建智家生态”。 作为人工智能应用最成熟的技术之一,目前
[安防电子]
新型语音识别电路AP7003及其应用
    摘要: 介绍了新型、低成本语音识别电路AP7003的性能、引脚、指令等内容,并给出了应用电路原理图及详细的应用方法。     关键词: 语音识别 键盘控制 CPU控制 存储体 1 AP7003简介     AP7003是一款新型、低成本语音识别专用集成电路,内置有麦克风放大器、A/D转换器、语音处理器和I/O控制器,经预处理后可识别12组不同的字词,每组1.5秒时长,可连词或单词识别。AP7003包括AP7003-01(由CPU串行控制)和AP7003-02(由按键直接控制)两种型号,且最有高度的I/O可编程性,使用简单方便,可广泛应用于玩具、识别转控、自动答录等领域。     A
[半导体设计/制造]
基于SPCE061A的语音识别技术应用
SPCE061A是凌阳公司设计的一种16位单片机,该款单片机资源丰富,具有极高的性价比,该单片机内置有2路DA转换,8路AD转换及在线仿真,并且有16×16位的乘法运算和内积运算的DSP功能,这为它进行复杂的语音数字信号的压缩编码与解码提供了便利,还可以做数字滤波器。这些特点为我们进行在语音处理尤其是语音识别领域的应用提供了便利。 语音识别技术在各个层面均有广泛的应用前景。电脑软件领域,例如:语音命令、语音输入,对话系统、查询系统、教学软件、游戏软件等;消费性电子产品领域,例如:电子记事本、声控玩具、语音拔号功能的手机等;工业产品领域,例如:车用移动电话、车用导航系统等;电话系统领域,例如:语音识别总机服务、语音拔号、语音订票订
[单片机]
3G手机语音识别应用中DSP的选择策略
  随着DSP技术的进步,计算能力更强、功耗更低和体积更小的DSP已经出现,使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前,基本ASR应用可以分成三大类:1. 语音-文本转换(语音输入);2. 讲者识别;3. 语音命令控制(语音控制)。      这三类功能包含了3G所需的众多ASR性能。语音-文本转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出存储器中的个人数据,从而满足*定购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口,它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音标签。       语音识别的
[手机便携]
3G手机<font color='red'>语音识别</font>应用中DSP的选择策略
谷歌医疗顾问Toby Cosgrove预测:医疗领域的下一个重要技术应用将是语音识别
通过外媒资讯获悉,在美国“新闻&世界报道医疗保健会议” (News & World Report Healthcare)上,谷歌顾问、前克利夫兰诊所首席执行官Toby Cosgrove预测,除了已经在医疗领域站稳脚跟的人工智能等新技术外,医疗领域的下一个重要技术将是“语音识别”。 Cosgrove在会议期间提出了他对当前医疗保健服务领域创新的看法。他表示:“语音识别将是医疗保健领域的下一个‘杀手级’应用。”当然,谷歌、亚马逊和苹果这些硅谷的大腕们已经开发和改进了语音识别工具,包括Google Home、Alexa和Siri等。 Cosgrove表示,语音识别只是技术不断发展的一个例子和表现,它可以建立在繁琐的EHR(电子健康记录)
[医疗电子]
小广播
最新手机便携文章
换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved