无声也能语音识别?微软这个黑科技有点厉害

发布者:MagicGarden最新更新时间:2019-02-12 来源: eefocus关键字:AI  无声语音识别  微软  唇语识别 手机看文章 扫描二维码
随时随地手机看文章

小时候看特务电影时,特工们往往有一项必备的技能,就是隔着几百米远盯着正在说话的对象,从嘴型判断出对方在说什么。有了这种记忆,导致如今看什么语音识别技术都觉得相当一般——我都说出声儿了你才听懂,算什么AI好汉。

 

不过最近一项专利申请表明,微软正在向特工学习,推出了无声语音识别技术。当AI也能像特工一样,无声之中辩人言,我们的世界究竟会有什么不同?

 

除去唇语识别,AI还有什么方式悄悄听懂你的话?

说起无声语音识别,可能很多人第一反应就是复制人类的方式,利用图像识别进行辩读唇语。而利用唇语进行语音识别这种方式也由来已久,但是识别的准确率一直不算高。DeepMind曾在2016年做过测试,经过1万小时的新闻视频训练,AI唇语准确率达到了46.8%。国内有一家企业曾经提供过相关数据:在对中文新闻视频的识别中,准确率达到了70%。而搜狗所推出的驾驶场景下的唇语识别,因为涉及到的词汇量很少,准确率能够达到90%。

 

可以发现,相比现在主流语音识别动辄95%、97%的准确率,唇语识别准确程度实在是有些拿不上台面。对于中文这种一字一音节的语言来说还好,对于英文这种连音很多的语言来说,唇语识别要跨越的门槛确实不小。

 

另一方面来看,唇语识别所涉及到伦理问题实在过于严重。唇语识别的“射程”太远,如果这种技术真的发展成熟,意味着天网之下的我们在交谈时将再无隐私。在隐私焦虑越来越浓的今天,哪家企业公开研究这项技术,只怕是觉得自己家的公关部门过得太清闲。

 

因此包括微软在内的产业和学界,都在寻找一种更精准也更隐私的无声语言识别。目前看来,无声语音识别的技术方向可以被分为两个“派系”,一是“气宗”,另一个是“电宗”。

 

微软所提交的专利,就是典型的“气宗”——在终端上添加传感器,通过感知用户说话时的气流来判断用户说话的内容。这种终端如同一只小型麦克风,置于用户嘴边,用户在说话时形成的气流会在设备中形成反射,经过训练,可以将这些气流反射的信号和文字一一对应。

 

而“电宗”则更加神奇,我们知道人在说话时需要调动整个下半张脸的肌肉,不同的文字发音所调动肌肉的方式也并不相同。通过对面部EMG(肌电)信号的采集,来学习人类说话时面部EMG信号特征,并通过神经网络的训练将EMG信号和文字对应起来。

 

可以看出这两种无声语音识别都有一个共同的特点,那就是自主性和私密性。不管是EMG信号采集还是气流采集,都需要在讲话者身上佩戴好设备,而不是像图像技术一样,能够在远程且讲话者不知情的情况下进行采集分析。

 

无声语音识别变成真·气功?

不论是气宗还是电宗,这些无声语音识别技术都面临着同样的问题——既然要用户把话说出来才能进行识别,那为什么不直接应用语音识别来进行文字转换和翻译,非要弄一些和“气功”一样没有切实应用场景的花招?

 

其实无声语音识别的应用,可能不像大家想象的那样广泛,它既不能以最高效的方式帮助听障人士,也不允许被应用于监听等等工作。但在一些关键场合下,无声语音识别却可以发挥出奇用。

 

我们可以一起开动脑筋,想想在哪里人们需要说话,但却听不到彼此的声音。答案很简单,要么是在声音无法传播的地方,要么是在一些特别嘈杂的地方。于是无声语音识别就有了如下的应用场景:灾害现场、舱外探索、水下作业……

 

在这类场所中,人们或许为了躲避被污染的空气、或许为了呼吸氧气,都会穿上类似生化服、宇航员服等等特殊服装。穿上之后既看不到对方的表情,也听不到对方的声音,更没办法用语音交互去控制其他设备了。同时环境情况(例如氧气不够充足)往往不允许人们以正常的声音说话,加上防护服的封闭状况会引起声音的回响,以往的有声语音识别在这种情况下很难发挥作用。

 

这时可以被安置在防护服内部的无声语音识别就显得很有价值,讲话者只需要做出口型就能向外界传递信息。

 

除此之外还有嘈杂的马路、工厂车间、机场……

 

在这些场所中,想要让对方听清自己的声音,往往需要扯着嗓子吼。想让语音识别准确拾音,更是难上加难。这时利用无声语音识别就会轻松很多,不仅可以准确表达信息,也能让一些处于这种场合的工作人员戴上隔音耳塞保护自己的听力。

 

实际上目前在欧洲一些型号的战斗机中,就因为机舱内噪音巨大、飞行员之间无法沟通,已经应用上了EMG信号无声语音识别技术。

 

当然,目前相比语音识别技术、甚至相比唇语语音识别,无声语音识别技术的发展阶段还很初级,应用效率也不高。

 

实际上无声语音识别是一项典型的“美好而无用”的AI技术,它既完美体现了一系列技术的排列组合,例如EMG信号无声语音识别所体现出的AI与神经学的结合;又在应用上极大程度的受限,即使在一些声音难以传播的场景下,也要考虑计算条件、识别语音后信息再传递的媒介,更不用提复杂的数据收集工作了。

 

但我们有理由相信,在未来AI技术越来越普及化、应用成本越来越低时,总会出现一些极端场景应用上这些看似无用的技术——也许未来有一天,战斗机的控制也要应用上语音交互呢?


关键字:AI  无声语音识别  微软  唇语识别 引用地址:无声也能语音识别?微软这个黑科技有点厉害

上一篇:英特尔在PC市场“老大哥”地位不保,AMD如何逆袭英特尔?
下一篇:8K电视市场遇阻,三星该如何寻求出路?

推荐阅读最新更新时间:2024-05-03 03:27

微软没有放弃智能手机 未来会来点不一样的
Mashable中文站 5月4日报道 虽然微软最新的旗舰手机Lumia 950和950XL是两年前发布的,但软件巨头对智能手机还是不死心。在接受MarketPlace采访时,微软CEO纳德拉表示公司暂未放弃手机业务,未来可能会造更多手机,不过微软未来的设备可能与现在的手机长的完全不同。 纳德拉表示,微软在手机上还会延续与Surface设备相同的打法,即“重新发明”这个产品类别。 “我们在Surface上的做法就是个很好的例子,在我们之前没人想到要做二合一设备。微软吃了螃蟹而且还成功了,现在市场上二合一设备越来越多。在智能手机上,我们也想复制这条道路。”纳德拉说道。 纳德拉称微软“挑了一个较为特别的领域,做出了Continu
[手机便携]
百度专利用人工智能打分来判断人岗匹配引争议
近日,百度的一项专利引起了广大吃瓜群众的关注,2019年7月19日,百度申请了一项名为“员工工作状态的预测方法、装置、电子设备以及存储介质”的发明专利(申请号:201910620971.9),申请人为百度在线网络技术(北京)有限公司。 为何这项专利会引起群众的关注呢?有网友认为,这是打着“人工智能”的旗号,用大数据来监测员工是否认真工作,还有网友认为,这不仅侵犯了员工的个人隐私,也不是良好的员工与企业的关系。随后,百度站出来澄清该专利只是一个“人岗匹配”的衡量方法,主要目的是用来吸引、培养和保留人才,并且,这个专利只是纯理论研究,目前没有任何应用。 那么,该专利到底讲述了什么内容呢?专利中首先提到,人与组织的匹配程度对工作态度、离
[手机便携]
百度专利用<font color='red'>人工智能</font>打分来判断人岗匹配引争议
神经元芯片成韩国的AI研发“明星”
人工智能专题⑤ 纳沛斯半导体是一家大型半导体封测企业,在韩国和全球半导体业界以技术和实力著称。不久前,记者参加了纳沛斯半导体公司的一场产品说明会,会后采访了该公司未来智能事业部部门长安廷镐先生。说明会由安先生主持,会上的明星是一款产品编号为NM500的AI芯片,被称为全球第一片正式量产的神经元芯片(NPU)。 前景繁荣,IT企业跨界半导体行业 全球半导体行业正在经历一轮长长的上升周期,韩国半导体企业纷纷交出亮眼的成绩单。三星电子报出的一季度初步经营数据,出现了147亿美元的当季运营利润,同比增长57.58%。三星电子的半导体部门也在时隔多年之后超越智能手机,成为集团的盈利冠军。LG电子日前发布的初步数据显示,其2018
[半导体设计/制造]
罗克韦尔自动化与微软拓展合作伙伴关系,运用生成式 AI 技术提升生产力并缩短产品上市
( 2 0 23 年 10 月 3 1 日,中国 上海 ) 罗克韦尔自动化公司与微软公司(纳斯达克上市代码:MSFT)近日宣布拓展双方的长期合作伙伴关系,致力于通过生成式人工智能 (AI) 加速工业自动化设计和发展。 双方将结合各自技术专长,赋能工业自动化系统制造商提升劳动力,缩短产品上市时间。此次合作的首个成果是将微软的 Azure OpenAI 服务集成至罗克韦尔自动化的 FactoryTalk® Design Studio™,这项业内领先的技术,能帮助工业自动化系统制造商将产品更快地推向市场。 “熟练工短缺以及随之而来的生产力损失是工业企业及其服务提供商目前面临的重大挑战。如果服务提供商的生态圈不能在预算范围内按时
[工业控制]
智能安防已具备一定成熟度 AI安防正在向场景应用体验过渡
“人工智能”这个词汇在社会各大领域中出现的次数愈发频繁。无论是生产建设、经营管理,抑或是日常生活,都逐渐出现了人工智能的“身影”:智能机器人、 自动驾驶 汽车、 人脸识别 安检……人工智能技术的应用对于各行业的影响力持续增强。如今,全国大多数省份的人工智能专项政策都已经出台,产业落地迎来了重要契机。 智能安防已具备一定成熟度 重视人工智能已逐渐成为全国共识。从2017年印发《新一代人工智能发展规划》开始,截止2018年底,共有20多个省份发布了共计30余项人工智能专项扶持政策,形成了包括技术攻关、平台支撑,开放数据和应用场景、引进培育人才以及建设产业园区等体系。 在政策支持与引导下,我国人工智能技术发展进一步提速,各领域内
[安防电子]
智能安防已具备一定成熟度 <font color='red'>AI</font>安防正在向场景应用体验过渡
化想象为可能 智能家居的春天已经到来
随着科技水平的不断进步,如今,智能已经逐渐渗透入我们生活的方方面面。无论是工厂内取代人工劳动的智能机器人,还是家中的智能家电,抑或是进入房间后就能随即亮起的灯光,都让我们的生活充满幸福感。曾经只存在于想象之中的智能生活,其实距离我们已经触手可及。   据来自今年二月所发布的《中国智能家居设备行业前瞻与投资策略规划报告》预计,我国在接下来的几年内将迎来智能家居的大规模爆发,并将拥有50%的年增长率,预计在明年,智能家居市场规模将扩大至1396亿元。在《中国智能硬件产业系列研究报告》中也指出,智能家居的销售份额为36.6%,位列第一。目前的市场现状传递给我们这样一条信息:智能家居的春天已经到来。    智能家居其实就在我们身边
[安防电子]
左手新零售,右手AI,阿里巴巴想喜提什么?
  “每次技术革命的周期都是大约50年,而且有一个规律,前20年是技术研发的革命,新技术层出不穷,一批批涌现;到了后30年,进入技术应用,新技术开始和传统产业相结合,新产业不断出现,真正影响生活的方方面面。”下面就随网络通信小编一起来了解一下相关内容吧。   2016年11月,在乌镇举行的第三届世界互联网大会开幕式上, 阿里巴巴 创始人马云如是说。自那以后,美团点评CEO王兴最先提出的“互联网下半场”理论,似乎因为得到重量级大佬肯定而更加深入人心,进而导致“市场派”压过“技术派”,“送外卖”的火过做芯片的。   然而,随着美国全面“封杀”中兴,芯片——及其背后的技术——的重要性,才又一次以前所未有的力度凸显出来,震撼每一个产业
[网络通信]
Windows Phone上财年为微软创收7亿美元
    北京时间8月31日上午消息,虽然微软(微博)并未披露Windows Phone(微博)业务的具体收入,但美国财经网站Seeking Alpha却通过简单的计算得出结论:该业务上一财年为微软贡献了7.36亿美元收入。   由于Windows Phone归属于微软的娱乐与终端部门,因此,根据微软2012财年财报中的数据,将同属于该部门的Xbox、Skype和Media Room收入减去,即可得出Windows Phone的收入,即7.36亿美元。(书聿)
[手机便携]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved