导语:亚马逊Alexa部门的研究人员开发了2-mic语音识别系统,相较于传统的7-mic系统,该方法将语音识别准确率提高了9.5%。
在语音识别方面,两个麦克风比一个麦克风更好,这是一个公认的事实。直观的说,这是有一定道理的:声波到达多个麦克风的时间延迟不同,这可以用来提高来自某个方向的信号的强度,同时减少来自其他方向信号的干扰。传统上,语音增强(将语音从噪声中分离出来)的问题一直是独立于语音识别来解决的,但是相关实验结果表明,这种方法所取得的效果并不太好。最近,亚马逊研究人员对此提出了自己的解决办法。
亚马逊Alexa部门的研究人员认为,他们已经开发出一种新的声学建模框架,通过统一语音增强和语音识别来提高性能。在实验中,当应用2-mic系统时,他们声称他们的模型比使用传统的7-mic系统提高了9.5%的语音识别准确率。
他们在两篇论文中描述了自己的工作成果,“频域多通道声学模型用于远程语音识别”和“多几何空间声学模型用于远程语音识别”,这两篇论文将于下月在布莱顿举行的第44届ICASSP国际声学、语音与信号处理会议上发表。
研究人员在论文中描述了一种多麦克风系统方法,它取代了独立的手工编码算法,这些算法确定波束形成器(在传感器输出上工作的空间滤波器,以增强波的幅度)的方向,并用单个神经网络识别语音信号。亚马逊目前的Echo音箱可以动态调整波束形成器,以适应新的声学环境。
Alexa语音组的语音科学家Kenichi Kumatani在一篇博客文章中解释道:“传统技术旨在将单个声束指向任意方向,但这是一种计算密集型的方法。” “有了Echo智能音箱,我们可以将多个声束指向不同的方向,并识别出产生最清晰语音信号的那一个……这就是为什么即使电视在几码外发出刺耳的声音,Alexa依然可以理解你对要求播报天气预报的指令。”
单个神经网络和传统模型都将波束形成器的输出以对数滤波器组能量的形式传递给特征提取器,或者以多个不规则频带的信号能量快照的形式传递给特征提取器。在传统的模型中,它们对背景噪声进行标准化估算,提取器的输出被传递给一个人工智能系统,该系统计算出不同“电话”(即语音信息的短单位)对应的特征的概率。
论文的作者表示,如果模型的每个组件(例如,特征提取器和波束形成器优化器)分别初始化,性能就会提高。他们同时补充到,不同的训练数据使模型能够跨设备处理各种类型和配置的麦克风。Kumatani说:“这意味着新设备的ASR(自动语音识别技术)系统,或者使用范围不太广泛的设备,都可以从更广泛使用的设备产生的交互数据中受益。”
关键字:亚马逊Alexa 语音识别
引用地址:
准确率提高9.5% 亚马逊Alexa推出新语音识别系统
推荐阅读最新更新时间:2024-05-03 20:22
中国人工智能加速前进 语音识别等技术世界领先
“欢迎致电蚂蚁金服。您好,请问您是想咨询花呗如何还款,对吗?”“对!对!我就是想问这个!”这是“双十一”期间,支付宝客服热线上的一段真实通话记录,对话双方分别是智能客服系统和用户。在用户提问之前,系统便“猜”中了问题,并给出准确回复,仿佛有未卜先知的能力。这一功能的实现,正是基于 人工智能 技术的支持。下面就随网络通信小编一起来了解一下相关内容吧。 中国人工智能加速前进 语音识别等技术世界领先 当前,全球掀起了 人工智能 的研究浪潮,中国政府正加快 人工智能 的布局。与此同时,在政策支持和市场需求之下,中国企业在自动驾驶、医疗影像和智能语音等领域逐渐发力,并逐步站稳了脚跟。 政府引导 十九大报告明确指
[网络通信]
NXP:语音识别模块将带来庞大商机
物联网经过了几年的酝酿之后,近期已经渐渐将发展的重心收敛于特定的应用方式上。 而这些特定应用,都将是用于改变你我现有生活方式的重大变革。恩智浦半导体(NXP)根据用户体验的感受,将这些可能的变革归纳出五大类,分别包括:延伸感官体验、增加联网安全能力、语音的重要性提升、更高的使用度,以及延展性的提升等。 恩智浦消费性与工业i. MX应用处理器副总裁Martyn Humphries指出,恩智浦目前i. MX 8平台家族的产品线包括最高效能针对工业应用的i. MX 8系列、针对多媒体应用的i. MX 8M系列,以及针对低功耗产品的i. MX 8X系列。在新一代物联网产品开始着重对于语音识别的需求之后,新发表的i. MX 8M系列将可满
[半导体设计/制造]
一分钟卖光,Pepper机器人成土豪的首选玩具?
售价10000多的机器人也能卖得像小米一样快?没错,这台机器人就是Pepper,本周六,软银在日本发售这款机器人,1000台机器人在一分钟内被抢购一空。
Pepper由鸿海代工生产,于今年6月20日开始在日本销售,标价为198000日元(1646美元),但每个月产量有限,所以通常一上市销售就被抢光。Pepper机器人有一个最吸引人的功能:它可以成为人类的“社交伙伴”。因为它能够通过判断人类的面部表情和语调的方式,“读”出人类情感。Pepper使用基于云端的面部和语音识别来完成这些任务。
一年以前,软银的 CEO 孙正义向全球介绍了Pepper。这是一款基于云端,并且拥有情感的人形机器人。此后,软银收
[嵌入式]
国产彩超再获突破,首款语音识别超声系统面世
你也许与Siri尝试过这样一种对话: 它不仅能回答你,还能识别中英文,有没有觉得非常有趣? 科技正以迅雷不及掩耳之势影响着我们的生活,包括那些我们印象中非常传统的医疗设备行业。 大家还记得好莱坞大片“奇异博士”所呈现的那些黑科技,以及电影中反复抢镜的迈瑞TE7产品的“神奇”表现吗?是不是都曾被那些脑洞大开的炫酷场景震得目瞪口呆? 然而现实生活中,我们面对的,是真正严肃、事关生命的医疗现实:在紧张的手术室,需要为麻醉和手术提供精准的可视化指引和术中监控;在繁忙的急诊科,需要在最短的时间内提供准确的诊断、有效的治疗方案;…... 现实中不存在超级英雄般的“奇异博士”,但却不乏高逼格的“黑科技”: 迈瑞推出全球首台全触控超声
[医疗电子]
语音识别市场需求旺,ST/英飞凌抢推各自解决方案
语音识别市场夯,根据市调机构Strategy AnalyTIcs研究指出,到2022年,预估全球消费市场将有超过六千两百万个装置具备个人语音助理。为插旗此一市场,半导体业纷纷推出新一代解决方案。例如英飞凌(Infineon)结合雷达、MEMS麦克风和音频处理器,进一步提升MESM麦克风语音识别效能;而意法半导体(ST)则是携手语音接口和关键词检测算法开发商--Sensory,以及通无线芯片组解决方案供货商DSP Group,共同开发高效语音检测处理麦克风技术。 工研院IEK电子与系统研究组分析师吕佩如表示,语音助理目前相关服务虽仍处于起步阶段,但随着市场需求快速增长,未来将会渗透到智能家电、车载系统,甚至更多物联网设备中的应用
[嵌入式]
基于AVR的语音识别助老助残室内行走服务系统设计方案
1.1 引言 目前,全世界60岁以上的老年人口已达到6亿左右,人口老龄化已成为世界范围的重大社会问题。我国60岁及以上老年人口已达1.32亿,占全国总人口的10%,并以年均3.32%的速度持续增长。预计到2015年,60岁以上的人口将超过2亿,约占总人口的14%,其中老年病患者约有50%需要护理服务。此外,我国还有各类残疾人约6千万,约占我国总人口的5%。因此,我国合计需要进行护理的人口大约为1亿人。人口的加速老龄化使医疗和社会保险系统面临着前所未有的压力。在我国的13亿人口中,家庭约3~4亿,有功能障碍者或需看护人员的家庭,占全国家庭总户数的1/10,约3577万左右。各类残疾人和长期卧床老年人的大量存在,使得助老助残问题正日益
[单片机]
智能家居4.0,从和Nest聊天开始!
现在,如果你正感到冷的瑟瑟发抖,你可以告诉你的Nest恒温器来温暖你的家。而这只需要你简单说一句:“Google,把温度调到75(华氏度)。”
本周一,谷歌旗下的智能家居设备宣布集成了谷歌现有的语音服务系统,为用户提供通过移动设备来操作Nest的语音服务。一旦当用户说出需求,命令就会通过应用程序弹出的Google card发出,让你知道你的Nest正在调节温度。
从六月以来,Nest一直承诺用户在未来可通过谷歌来控制自己的设备。Droid Life在上周五发现了Nest正在引领这项新变革。现在,它已经为所有用户实现。
下面是一些你可以和Nest聊的话题:
改变温度到20
设置温度为75
打开恒温器,
[嵌入式]
基于盲源分离的语音识别前端语音净化处理研究
目前针对语音识别提出了很多算法,但是这些研究基本上都是基于较为纯净的语音环境,一旦待识别的环境中有噪声和干扰,语音识别就会受到严重影响.因为大多数语音识别的语音模板基本上是在无噪声和无混响的“纯净”环境中采集、转换而成.而实现环境中不可避免地存在干扰和噪声,包括其他人的声音和回声等,这些噪声有时很强,使语音识别系统的性能大大降低甚至瘫痪.已有的信号去噪、参数去噪和抗噪识别等方法都有一定的局限.如果能实现噪声和语音的自动分离,即在识别前就获得较为纯净的语音,可以彻底解决噪声环境下的识别问题.近年来取得很大进展的盲源分离为噪声和语音的分离提供了可能.盲源分离(Blind Source Separation)的算法众多且运算复杂,经
[嵌入式]