未来语音识别技术的发展趋势将会如何?

2020-05-22来源: eefocus关键字:语音识别  深度学习  可靠性

语音识别主要趋于远场化和融合化的方向发展,但在远场可靠性还有很多难点没有突破,比如多轮交互、多人噪杂等场景还有待突破,还有需求较为迫切的人声分离等技术。新的技术应该彻底解决这些问题,让机器听觉远超人类的感知能力。这不能仅仅只是算法的进步,需要整个产业链的共同技术升级,包括更为先进的传感器和算力更强的芯片。


单从远场语音识别技术来看,仍然存在很多挑战,包括:

(1)回声消除技术。由于喇叭非线性失真的存在,单纯依靠信号处理手段很难将回声消除干净,这也阻碍了语音交互系统的推广,现有的基于深度学习的回声消除技术都没有考虑相位信息,直接求取的是各个频带上的增益,能否利用深度学习将非线性失真进行拟合,同时结合信号处理手段可能是一个好的方向。

未来语音识别技术的发展趋势将会怎样

(2)噪声下的语音识别仍有待突破。信号处理擅长处理线性问题,深度学习擅长处理非线性问题,而实际问题一定是线性和非线性的叠加,因此一定是两者融合才有可能更好地解决噪声下的语音识别问题。


(3)上述两个问题的共性是目前的深度学习仅用到了语音信号各个频带的能量信息,而忽略了语音信号的相位信息,尤其是对于多通道而言,如何让深度学习更好的利用相位信息可能是未来的一个方向。


(4)另外,在较少数据量的情况下,如何通过迁移学习得到一个好的声学模型也是研究的热点方向。例如方言识别,若有一个比较好的普通话声学模型,如何利用少量的方言数据得到一个好的方言声学模型,如果做到这点将极大扩展语音识别的应用范畴。这方面已经取得了一些进展,但更多的是一些训练技巧,距离终极目标还有一定差距。


(5)语音识别的目的是让机器可以理解人类,因此转换成文字并不是最终的目的。如何将语音识别和语义理解结合起来可能是未来更为重要的一个方向。语音识别里的 LSTM 已经考虑了语音的历史时刻信息,但语义理解需要更多的历史信息才能有帮助,因此如何将更多上下文会话信息传递给语音识别引擎是一个难题。


(6)让机器听懂人类语言,仅靠声音信息还不够,“声光电热力磁”这些物理传感手段,下一步必然都要融合在一起,只有这样机器才能感知世界的真实信息,这是机器能够学习人类知识的前提条件。而且,机器必然要超越人类的五官,能够看到人类看不到的世界,听到人类听不到的世界。

关键字:语音识别  深度学习  可靠性 编辑:什么鱼 引用地址:http://news.eeworld.com.cn/qrs/ic497961.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:语音助手的发展将改变用户未来的生活方式
下一篇:语音技术的发展将会将给我们的生活带来怎样的便利?

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

TWS耳机的发展历程与未来
2016 年 9 月,苹果第一代 AirPods 横空出世,开启了智能耳机的一个新时代。随着传统耳机厂商、智能手机厂商的跟进,TWS 耳机的功能也愈加完善,智能降噪、波束成形麦克风、双耳通信、高质量音频编解码、状态检测……除了耳机本身的音频性能提升外,各种人工智能语音识别模块、运动健康监测模块也不断丰富着 TWS 耳机的功能,未来,TWS 耳机的发展方向,是成为可穿戴生态的入口。
发表于 2020-04-23
TWS耳机的发展历程与未来
如何利用AVR单片机设计出语音识别系统
0 引言传统的人机交互依靠复杂的键盘或按钮来实现,随着科技的发展,一些新型的人机交互方式也随之诞生,带给人们全新的体验。基于语音识别的人机交互方式是目前热门的技术之一。但是语音识别功能算法复杂、计算量大,一般在计算机上实现,即使是嵌入式方面,多数方案也需要运算能力强的ARM或DSP,并且外扩RAM、FLASH等资源,增加了硬件成本,这些特点无疑限制了语音识别技术的应用,尤其是嵌入式领域。本系统采用的主控MCU为Atmel公司的ATMEGA128,语音识别功能则采用ICRoute公司的单芯片LD3320。LD3320内部集成优化过的语音识别算法,无需外部FLASH,RAM资源,可以很好地完成非特定人的语音识别任务。1 整体方案设计
发表于 2020-03-25
如何利用AVR单片机设计出语音识别系统
基于NXP i.MX RT106L本地语音识别全套设计方案
摘要:NXP推出的本地语音识别解决方案,能让开发者更快捷地将语音识别功能植入到产品中。面对这次疫情,很多厂家都推出了无接触方案,语音便是其中一种,下面介绍语音方案有何与众不同之处。 NXP MCU级别的本地语音控制解决方案利用i.MX RT106L来实现,该方案可以使开发者更方便和快速地将本地语音命令添加到他们的产品。这个超小尺寸,集成软件算法和硬件的方案,可以方便开发者进行快速的评估和概念验证开发。在智能音响,智能家居等产品开发中,开发者可使用示例中的指令集和唤醒词,也可以向NXP申请创建自定义指令集和唤醒词。这个解决方案最大程度上缩短了上市时间,降低了风险并减少了开发工作,可以使众多OEM工厂轻松地将语音指令添加到
发表于 2020-03-04
基于NXP i.MX RT106L本地语音识别全套设计方案
基于STM32实现孤立词语音识别系统
语音识别是机器通过识别和理解过程把人类的语音信号转变为相应文本或命令的技术,其根本目的是研究出一种具有听觉功能的机器。本设计研究孤立词语音识别系统及其在STM32嵌入式平台上的实现。识别流程是:预滤波、ADC、分帧、端点检测、预加重、加窗、特征提取、特征匹配。端点检测(VAD)采用短时幅度和短时过零率相结合。检测出有效语音后,根据人耳听觉感知特性,计算每帧语音的Mel频率倒谱系数(MFCC)。然后采用动态时间弯折(DTW)算法与特征模板相匹配,最终输出识别结果。先用Matlab对上述算法进行仿真,经多次试验得出算法中所需各系数的最优值。然后将算法移植到STM32嵌入式平台,移植过程中根据嵌入式平台存储空间相对较小、计算能力也相对
发表于 2020-02-18
基于STM32实现孤立词语音识别系统
基于LD3320语音识别技术的小灯控制系统程序
资料描述:1.本设计完成一个语音识别控制灯系统的设计,基于LD3320芯片的语音识别系统。最基本的要求做到语音说出一些简单的命令,系统会识别并且做出相应地动作或运作,以此来控制灯的亮和灭。2.里面有LD3320的全部资料,里面有很多例程资料包含:原理图+程序,相关资料等等单片机源程序如下:/**************************************************************************************        CPU: AT89S52**        晶振:22.1184MHZ
发表于 2020-01-23
基于LD3320语音识别技术的小灯控制系统程序
基于AVR的语音识别助老助残室内行走服务系统设计方案
益成为一个重大的社会问题。提高老年人和残疾人的生活质量及生活自理能力,研制开发助老助残服务产品,为老年人和残疾人提供诸如行走、室内起居生活方面的服务,已经成为全社会共同关注的问题。1.2 项目背景/选题动机目前,我国存在肢体障碍的老年人和残疾人超过3000万,行动不便的老人或残疾人在行走时,需要借助人力或者器械,例如轮椅。当前的家用电器绝大部分不支持语音识别功能。电器的开关通常是由按钮或遥控器实现。在实现控制前还必须找到被控设备(如按键,被遥控对象等)的精确位置或方向,这对使用者行动不便时是非常麻烦的。因此对助老助残系统的开发具有重要的现实意义,对于提高老年人和残疾人的生活质量,保证我国社会的和谐、稳定、发展具有重要作用。为了积极开展
发表于 2020-01-09
基于AVR的语音识别助老助残室内行走服务系统设计方案
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved