智能语音实现蜕变,不是一场数字游戏

2020-07-07来源: eefocus关键字:思必驰  语音识别  人机交互  语音识别++

“麻开门。”

“芝麻关门。”
“我要去五楼。”


这几条充满童趣的语句,实际上是控制电梯的语音指令。疫情当前,电梯是非常高风险的区域,尤其是手指碰触电梯按键的时候。针对这一场景,思必驰推出了电梯语音控制模块。“在后装的电梯上也可以进行安装,而且安装起来非常简单方便。” 思必驰 IoT 商务总经理陈苇珍在演示过程中表示。

 

思必驰 IoT 商务总经理陈苇珍

 

“97%或者 99%只是实验室数据”


电梯控制是一个典型的语音识别应用场景,技术的进步正在改变人机交互的方式和结果。

 

语音识别是人机交互中的重要技术,所涉及的领域包括信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等,近些年语音识别技术取得显著进步,开始从实验室走向市场。

 

人工智能和机器学习领域权威学者吴恩达此前表示,当语音识别准确率达到 99%时将改变人机交互方式。陈苇珍认为:“不管 97%还是 99%,如果单纯强调这种实验室的语音识别的数据,它的价值会相对有限,需要结合到具体的场景来看,比如说办公、车载、家居、金融等领域的应用场景,再结合大数据的运算和认知计算,才能够真正地形成一个好的交互体验。”

 

 

她强调:“思必驰更关注的是完整的人机语音交互技术,除了语音控制之外,更多的是关注交互能力和对话能力。我们的语音识别包括连续的云端识别,还有实时识别、抗噪识别、远场识别以及大词汇识别和本地识别。”

 

关注思必驰的人都知道他们还有一个“语音识别++”。“除了提供文本信息识别之外,语音识别++也会有情绪识别、年龄识别、声纹识别这些信息。” 陈苇珍介绍说:“我们的情绪识别已经能够去支持覆盖主流的情绪:愤怒、快乐、喜悦等,可以针对性地做出拟人化反映。同时这种分类的识别计算是为了把我们的识别信息进行多样化,辅助生成用户画像。”

 

 

让机器能够感受人的喜怒哀乐,从人机交互走向人人交互,甚至是超越人人交互,这个过程确实不只是识别准确率提升的问题。

 

远场和混合语言是“拦路虎”


在语音识别的具体应用场景中,我们总是能够发现一些有共性且突出的识别障碍,比如远场声音的处理以及混合语言的处理。

 

远场语音识别常见的场景比如会议室、车载场景、智能家居等,这些场景中会出现较为明显的“鸡尾酒会问题”,出现收音不理想和背景音噪声等情况。

 

 

对于远场语音识别而言,不仅要有好的语音识别算法,在硬件层面同样需要一定规格的配置。陈苇珍表示:“思必驰推出了软硬一体化的麦克风阵列解决方案,能够支持在家居环境 5 米的良好交互效果,能够支持 360 度的角度适应。线性阵列方面,能够支持 180 度的角度适应,同时可以实现纯软件算法的降噪。”

 

另一个障碍是混合语言应用场景,包括中英文混合、方言等。“混合识别确实是比较难攻克的问题,主要难点实际是在声学模型上。目前,我们在声学模型的建模上采用从端到端的中英文交杂输出的方式。这个模型的好处是一个模型能够同时支持中文、英文或者是中英文交杂输出,同时能够保证它的中文性能不受损伤。” 陈苇珍讲到。

 

结合她的描述,这样的方式是可以复制的,从中文+英文到中文+粤语,甚至是中文+英文+粤语,能够融入的方言还包括上海话、四川话、重庆话和山东话等。

 

后记


让机器与人能够像人与人一样沟通,这是一种感性的需求。随着智能语音技术的不断精进,人与机器之间必将突破交互的限制,达到交流的程度。在人与人的交流过程中,智慧的人类彼此之间有着更为丰富的表达,对于机器而言人类是“善变”的。因此,让机器找到万变不离其宗的规律,是人机交互更进一步的关键所在。

关键字:思必驰  语音识别  人机交互  语音识别++ 编辑:什么鱼 引用地址:http://news.eeworld.com.cn/qrs/ic502436.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:优派推全新LED专业家用投影机TX500K,打造视听影院
下一篇:计算机的算法是如何实现一步步改变的?

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

华为、英特尔、富士康等合作伙伴,AI企业融资4.1亿元
4月7日,思必驰宣布于近日完成E轮4.1亿人民币融资,本轮融资由国调国信智芯领投,北汽产投、中信金石等跟投。图片来源:天眼查据联想之星消息,思必驰本轮融资将主要用于产品研发、技术创新和市场拓展。目前,思必驰已经完成5轮融资,过往资方包括联想之星、元禾控股、阿里巴巴、联发科、深创投、富士康等。思必驰成立于2007年10月26日,是对话式人工智能平台公司,目前拥有近1200项知识产权,其中专利700余项,研发了全链路智能语音交互关键技术,包括声学信号处理、语音识别、语音合成、自然语言理解、声纹识别、情绪识别、知识图谱、智能交互决策等。思必驰官方消息显示,围绕“云+芯”的战略核心,思必驰自主研发了新一代人机交互系统(DUI)和人工智能
发表于 2020-04-07
华为、英特尔、富士康等合作伙伴,AI企业<font color='red'>思</font>必<font color='red'>驰</font>融资4.1亿元
AI语音芯片迎来高速增长期,软硬融合提升能效
2019年即将结束,年终是一个值得回顾展望的时间节点,对于半导体市场来说,很多人用“太难了”来形容,从最初的高开,到后来的走低,受到了太多不确定因素的影响,但是也不乏众多坚定信念的芯片厂商在这个行业兢兢业业,努力做好产品,服务好客户。 为了更全面地总结这一年的得失,与非网特此策划年终专题《回顾 2019,展望 2020》。AI 在这几年成为热议话题的同时,我们也看到 AI 在稳步落地,所谓“无处不 AI”正在变成现实,本期话题讨论我们邀请了国内 AI 市场的头部企业思必驰一起来参与讨论,本期的受访人是上海深聪半导体有限责任公司(思必驰公司的子公司)联合创始人吴耿源先生。上海深聪半导体有限责任公司联合创始人吴耿源
发表于 2019-12-12
AI语音芯片迎来高速增长期,软硬融合提升能效
支持芯片国产化,大举进军物联网
人工智能与IoT相遇之后,诞生了AIoT,再遇上了5G之后,一个全新的AIoT时代正在被开启。因为拥有广泛链接和超低延迟等优势,5G驱动下的AIoT被产业界誉为继智能手机之后的一个“救星”。按照很多专家的观点,它将给人类生活带来前所未有的新体验,同时也会催生一个万亿市场。为了给消费者带来一个接近完美的AIoT体验,很多技术是必须升级的。尤其是作为设备与人交互重要入口的语音识别技术,更是产业界关注的重中之重。过去几年,随着苹果siri的流行,加上智能音箱的突然爆发,让大部分人都领会到了“与机器说话”的乐趣。但坦白讲,这些相对智障的交互,也让开发者和消费者都有了迫切升级的冀望。这症是成立至今12年的思必驰一直在致力于解决的问题。智能
发表于 2019-07-24
支持芯片国产化,<font color='red'>思</font>必<font color='red'>驰</font>大举进军物联网
这些厂商的AI芯片造的怎么样了?
数据流处理器,每个流处理器具有8个长位宽或16个长位宽的SIMD运算单元。 十、紫光展锐紫光展锐作为国内出货量最大的芯片厂商之一,其中低端芯片在非常占有率很高。对于AI芯片这块蓝海,它们也不会放过的,2018年,紫光展锐发布了首款支持人工智能应用的8核LTE SoC芯片平台—紫光展锐SC9863。面向全球主流市场,可实现AI运算与应用,提升移动终端的智能化体验。据悉,紫光展锐SC9863集成了LTE芯片,采用Cortex-A55架构,八核心设计,主频1.6GHz。相比A53,性能提升了20%,AI处理能力提升了6倍。 十一、思必驰本来可以安心的做语音,可是语音进展慢,AI芯成为它们推向市场的一款杀手锏。2019年,思
发表于 2019-01-31
这些厂商的AI芯片造的怎么样了?
面向车载场景应用 发布首款AI芯片
继2018年国内数家语音技术公司陆续推出AI语音专用芯片后,国内AI语音公司思必驰正式于2019年1月4日发布旗下首款AI芯片。此次发布的AI语音芯片名为思必驰-深聪TAIHANG芯片(TH1520),是一款适用于语音应用场景下的AI专用芯片,主要面向智能家居、智能终端、车载、手机、可穿戴设备等各类终端设备,解决方案包含算法+芯片,具有完整语音交互功能,能实现语音处理、语音识别、语音播报等功能,支持离线语音交互。应用到具体场景中到底是怎样的呢?以车载场景为例,你可以设置车辆语音唤醒功能,比如,“小精灵,我们要出发啦”,你的车辆就意味着被你预设为“小精灵”,而且在没有网络连接的情况下同样可以唤醒,而且唤醒功能在方圆200米以内均可
发表于 2019-01-06
面向车载场景应用 <font color='red'>思</font>必<font color='red'>驰</font>发布首款AI芯片
贸泽电子联手Fortebit,备货语音识别和汽车物联网器件
专注于引入新品推动行业创新的电子元器件分销商贸泽电子 (Mouser Electronics) 宣布与Fortebit签署全球分销协议。该公司设计并制造高质量、高性价比的解决方案,用于嵌入式语音识别、语音播放功能和位置服务。签署此项协议后,贸泽分销的Fortebit产品线包含EasyVR 3 Plus语音识别器件和Polaris汽车物联网平台等产品。 EasyVR 3 Plus是一款多功能语音识别模块。通过它,设计人员可以轻松地将通用、强大、高性价比的语音识别功能添加到各种应用中。EasyVR 3 Plus模块可用于各种采用3.3V – 5V UART接口的主机,例如Arduino和Microchip
发表于 2020-05-26
贸泽电子联手Fortebit,备货<font color='red'>语音识别</font>和汽车物联网器件
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved