目前语音识别的技术现状如何?

2020-05-22来源: eefocus关键字:语音识别的  技术现状  神经网络

目前,主流语音识别框架还是由 3 个部分组成:声学模型、语言模型和解码器,有些框架也包括前端处理和后处理。随着各种深度神经网络以及端到端技术的兴起,声学模型是近几年非常热门的方向,业界都纷纷发布自己新的声学模型结构,刷新各个数据库的识别记录。由于中文语音识别的复杂性,国内在声学模型的研究进展相对更快一些,主流方向是更深更复杂的神经网络技术融合端到端技术。


2018年,科大讯飞提出深度全序列卷积神经网络(DFCNN),DFCNN 使用大量的卷积直接对整句语音信号进行建模,主要借鉴了图像识别的网络配置,每个卷积层使用小卷积核,并在多个卷积层之后再加上池化层,通过累积非常多卷积池化层对,从而可以看到更多的历史信息。
 

目前语音识别的技术现状是怎样的

2018年,阿里提出 LFR-DFSMN(Lower Frame Rate-Deep Feedforward Sequential Memory Networks)。该模型将低帧率算法和 DFSMN 算法进行融合,语音识别错误率相比上一代技术降低 20%,解码速度提升 3 倍。FSMN 通过在 FNN 的隐层添加一些可学习的记忆模块,从而可以有效的对语音的长时相关性进行建模。而 DFSMN 是通过跳转避免深层网络的梯度消失问题,可以训练出更深层的网络结构。


2019 年,百度提出了流式多级的截断注意力模型 SMLTA,该模型是在 LSTM 和 CTC 的基础上引入了注意力机制来获取更大范围和更有层次的上下文信息。其中流式表示可以直接对语音进行一个小片段一个小片段的增量解码;多级表示堆叠多层注意力模型;截断则表示利用 CTC 模型的尖峰信息,把语音切割成一个一个小片段,注意力模型和解码可以在这些小片段上展开。在线语音识别率上,该模型比百度上一代 Deep Peak2 模型提升相对 15% 的性能。


开源语音识别 Kaldi 是业界语音识别框架的基石。Kaldi 的作者 Daniel Povey 一直推崇的是 Chain 模型。该模型是一种类似于 CTC 的技术,建模单元相比于传统的状态要更粗颗粒一些,只有两个状态,一个状态是 CD Phone,另一个是 CD Phone 的空白,训练方法采用的是 Lattice-Free MMI 训练。该模型结构可以采用低帧率的方式进行解码,解码帧率为传统神经网络声学模型的三分之一,而准确率相比于传统模型有非常显著的提升。


远场语音识别技术主要解决真实场景下舒适距离内人机任务对话和服务的问题,是 2015 年以后开始兴起的技术。由于远场语音识别解决了复杂环境下的识别问题,在智能家居、智能汽车、智能会议、智能安防等实际场景中获得了广泛应用。目前国内远场语音识别的技术框架以前端信号处理和后端语音识别为主,前端利用麦克风阵列做去混响、波束形成等信号处理,以让语音更清晰,然后送入后端的语音识别引擎进行识别。


语音识别另外两个技术部分:语言模型和解码器,目前来看并没有太大的技术变化。语言模型主流还是基于传统的 N-Gram 方法,虽然目前也有神经网络的语言模型的研究,但在实用中主要还是更多用于后处理纠错。解码器的核心指标是速度,业界大部分都是按照静态解码的方式进行,即将声学模型和语言模型构造成 WFST 网络,该网络包含了所有可能路径,解码就是在该空间进行搜索的过程。由于该理论相对成熟,更多的是工程优化的问题,所以不论是学术还是产业目前关注的较少。

关键字:语音识别的  技术现状  神经网络 编辑:什么鱼 引用地址:http://news.eeworld.com.cn/qrs/ic497964.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:提升语音识别技术才是智能音箱发展的最关键
下一篇:荣耀新推四大新品是否值得购买?

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

贸泽电子联手Fortebit,备货语音识别和汽车物联网器件
专注于引入新品推动行业创新的电子元器件分销商贸泽电子 (Mouser Electronics) 宣布与Fortebit签署全球分销协议。该公司设计并制造高质量、高性价比的解决方案,用于嵌入式语音识别、语音播放功能和位置服务。签署此项协议后,贸泽分销的Fortebit产品线包含EasyVR 3 Plus语音识别器件和Polaris汽车物联网平台等产品。 EasyVR 3 Plus是一款多功能语音识别模块。通过它,设计人员可以轻松地将通用、强大、高性价比的语音识别功能添加到各种应用中。EasyVR 3 Plus模块可用于各种采用3.3V – 5V UART接口的主机,例如Arduino和Microchip
发表于 2020-05-26
贸泽电子联手Fortebit,备货语音识别和汽车物联网器件
提升语音识别技术才是智能音箱发展的最关键
随着智能家居概念的推广,智能音箱被企业寄予“入口”的厚望,引起大众的关注。尽管智能音箱在国内销量一直呈高增长态势,但产品仍然存在诸多问题,尤其是语音识别技术有待提升。为了在智能家居市场占据优势地位,企业之间展开了激烈的“入口”争夺战,然而,智能音箱产品存在诸多不足,未必能够担任智能家居入口的重担。消费者使用智能音箱的主要方式就是通过语音,而智能音箱的语音识别功能目前还无法做到真正精准识别用户的语义。尽管智能音箱已经由单一的声音发展为声音+可视化,但语音识别依然是衡量智能音箱性能好坏的关键。目前市面上的智能音箱均可以较为准确的识别普通话,但对于方言的认知还不足。众所周知,国内各个地区的方言差异较大,很多家庭中的老年人主要是说方言
发表于 2020-05-22
提升语音识别技术才是智能音箱发展的最关键
未来语音识别技术的发展趋势将会如何?
语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。单从远场语音识别技术来看,仍然存在很多挑战,包括:(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向
发表于 2020-05-22
未来语音识别技术的发展趋势将会如何?
语音助手的发展将改变用户未来的生活方式
等,增强语音交互体验的个性化和差异性;未来的交互甚至可以通过语音识别情绪,通过语音识别身份,智能化地引发汽车的相应反应。想要做好这些,车载语音系统需要提升哪些核心能力?前期在于自然“语言处理(Natural Language Processing)+自然语言理解(Natural Language Understanding)引擎”的能力,后期在于“数据和计算能力+资源整合能力”的提升。过去常有人说,车载语音交互技术的发展将会是一个缓慢的发展过程。现在看来,至少这一进程比预期来得要快。并且,随着核心竞争点的逐步转移,聚焦在车载语音交互的领域,大玩家之间的联盟会越来越紧密。
发表于 2020-05-22
语音助手的发展将改变用户未来的生活方式
TWS耳机的发展历程与未来
2016 年 9 月,苹果第一代 AirPods 横空出世,开启了智能耳机的一个新时代。随着传统耳机厂商、智能手机厂商的跟进,TWS 耳机的功能也愈加完善,智能降噪、波束成形麦克风、双耳通信、高质量音频编解码、状态检测……除了耳机本身的音频性能提升外,各种人工智能语音识别模块、运动健康监测模块也不断丰富着 TWS 耳机的功能,未来,TWS 耳机的发展方向,是成为可穿戴生态的入口。
发表于 2020-04-23
TWS耳机的发展历程与未来
汽车传感器产品技术现状介绍和未来趋势
传感器是汽车的五官,感知和转换汽车的工况,是高级汽车的关键部件。汽车传感器种类多,功能各异。 随着汽车设计越来越人性化,特别是安全舒适要求、电动化、车联网及自动驾驶的发展,传感器数量越来越多,精度越来越高。汽车传感器未来发展趋势是多功能集成、小型化、网络化、低成本,智能化。可以预见,低端传感器和大部分发动机传感器要淘汰。综观全球和中国汽车传感器市场前景,特别新能源汽车、自动驾驶汽车的传感器前景很诱人,但是道路很艰难;对传感器企业的机遇和挑战并存:以技术、品质、价格的结合取胜。作为行业技术人员,我们对汽车传感器零部件有以下思考:1.传感器的技术和产品来源是满足社会的需求、交通出行的需求、人的需求; 2.传感器技术和设计
发表于 2020-02-11
汽车传感器产品技术现状介绍和未来趋势
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved