浅谈智能语音交互,看一个Windows语音识别程序-电子工程世界

我们经常能在科幻影片里能看到各种机器人与人类同台出演，与人类自由的沟通交流，甚至比人类更加聪明。大家肯定想知道这样的人造机器是如何做到的，我们现在真的能造出这样的机器人吗？

开玩笑，我在这绝不可能解释好这个问题，但是从另一个角度简单来讲，与机器人交流其实这是通过语音来实现与机器交互，互动的一种操作，人与机器人的沟通其核心的一个方面便是语音的识别，就是说机器人得先听懂人说话。那此文就来浅聊下关于通过语音来实现人机交互的一些问题。

我们先看一个较简单的例子 —— Windows语音识别程序：

Windows语音识别功能主要是使用声音命令指挥你的电脑，实现离开键盘鼠标来实现人机交互。通过声音控制窗口、启动程序、在窗口之间切换，使用菜单和单击按钮等功能。Windows语音识别功能仅仅限于 Windows系统体系内的一些常用操作和指令，并且是与监视器显示辅助来完成整个语音操作。

例如你想用语音通过主菜单打开某个程序，当你说出“开始”后，系统将会提供一个“显示编号”的区块划分功能，（编号是半透明的，使你能知道此编号下是哪个程序或文件夹）这样假如你想打开“下载”这个文件夹，你只需说出它的编号“10”，程序就会给你打开“下载”这个文件夹了。这样做的原因一是因为：如果你需要开启用户自行安装的纷繁复杂的程序，Windows的语音库里面可能没有这些程序相应的名称，会造成识别不准，甚至无法识别，二是通过显示编号，和语音识别编号，响应指令的效率更高，因此这样语音配合监视器的分模块显示大大的提高了用户使用Windows系统的效率和准确率。

同样，如果你对桌面的快捷方式或文件进行语音操作，系统将会提供一个称之为“鼠标网络”的功能，对桌面进行以前区域的划分和自动编号，用语音+视觉来提高操作效率和识别的精准率：

在目前Windows的语音识别程序中，除文本的语音输入（包括文字和符号）之外，还包括16个常用命令，9项常用控件命令，31项文本处理命令，15项窗口命令，5个点击屏幕任意位置命令，以及另外的几组键盘命令。用户所能语音指挥的也就是围绕这些预先准备好了的命令进行交互操作，旨在这将有可能提高使用电脑的效率，和尽可能的把双手从鼠标键盘上解放出来。

与此初衷相类似的我们还能在目前主流的移动设备上能看到语音识别功能的应用：

然后我们在前进一点，再想一下假如现在我们要面对的不是电脑，手机，而是一个机器人！一位拟人化，仿真化的机器人，对比上面的例子你会很容易发现它和常用的电子设备的不同之处在于，它很可能是不会有一个我们通常所见的显示屏，那以上那些通过语音指令结合屏幕可视化辅助来进行的高效的交互方式在机器人身上就收到了限制。在这种情况下你面对着机器人，你肯定会想它在听我说话吗？它能听懂我说话吗？我说什么它能听懂？我说什么它可能听不懂？等等这样一对问题会立即扑面而来。

其实在我们现有的技术水平和条件下，特别是面向大众商用的机器人，想做到像电影里面那种人和机器人自由交流的情景几乎是不可能。当然我们做一个产品，当然会有功能定位和市场需求等等很多方面要考虑的，那我在这里讨论的是一台为用户提供各种咨询和能进行简单语音逻辑“聊天”的机器人，需要如何处理语音交互方面的问题，这里以Qrobot为例，尽可能不依赖电脑屏幕，而直接来与人互动和提供各种咨询的机器人。

人是上帝创造的，而机器人是由人创造的，在现有知识和技术条件下，在人类赋予他特定的能力之前，机器人是什么也做不了的。下面我将分几点来讨论要想实现与机器人交互沟通需要做哪些工作：

一，给机器人提供一个“大脑”—— 思想的材料：知识、语言库。像Qrobot这样提供各种海量咨询和交流操作功能的机器人，如果把所有的这些“原材料”堆在一堆，一旦你有求于它的时候，它可能会慌了手脚，不知所云。（机器人无法根据对话的前后关系以及语境来判断某一个词在当前情境下恰当的含义）因此我们先会把机器人的语音知识库进行分类，把不同类型和专业的词语库分开来，以提高机器人的工作效率和服务的准确度。那这样用户如需要获得哪方面的信息和功能，就要先让机器人“思维”进入相应的语言库中。比如你通过机器人来了解“音乐”方面的信息的时候，你需要让机器人进入音乐相关的“语库思维”中，那在这个情况下它会把你说的任何话当作“音乐”相关的内容或指令了。

这里对比下苹果Siri，根据资料分析来看Siri是一个集中统一的语音分析处理中心，它通过监听用户语音，然后提取关键词来理解用户意图，（当然用户事先要知道iPhone能帮他做些什么）然后可能经过跟你确认，再触发相应的功能和服务。因此它最终提供功能咨询和服务来自于整个iPhone系统不论是本地Apps或是云端（网络APIs）已经准备整合好了的咨询信息及功能。这样的处理方式能使产品看起来更加的聪明和易用。

当然除了被分区的专业语库外，机器人还得有个“正常人”的思维，即识别专业语言库以外的各种指令和普通对话，（上图的集成模式）否则的话它将只能是“机器”而无“人”了。

关键字：语音交互机器人引用地址：浅谈智能语音交互,看一个Windows语音识别程序

上一篇：高通推出AI Engine 人工智能向终端迁移
下一篇：错过了通信网络扩张的最好时期虚拟运营商的未来该怎么走

推荐阅读最新更新时间：2024-05-07 18:02

中国机器人这几年所做的事情很多都是在圈钱

在中国实施《中国制造2025》战略的这几年里，机器人一直是很热门的话题，并且也被大家所实践着，在争抢这块蛋糕。那么在过去这几年中国机器人企业做了什么？我们来听听在一线的企业家是怎么说的。在我们与机器人企业家交流的时候，用两个字总结了一下中国机器人这几年所做的事情很多是在圈钱！他用很直接的话总结道：随着国内工业机器人产业的迅速发展，加上国家的大力支持，机器人公司变得炙手可热，各行各业的大佬们，争着和各种机器人企业攀亲戚，建立战略合作关系。拉不上机器人的，也要傍个自动化集成，或者收购个名不见经传的机器人企业来制造概念。而更多的上市公司大股东们，可能并无实质性的举措和计划，也乐得犹抱琵琶半遮面地玩暧昧，有意无意地放出各

[机器人]

制造业中机器人技术意味着什么？

在过去，机器人已经走过了很长一段路。从几乎不能站立到能够行走，现在他们比任何人都能完成制造任务。其结果是，在2000年到2010年之间，超过560万个就业岗位消失了，其中仅有13％是因为国际贸易，其余的原因是机器替代了人力资源。这样的统计数据当然会吓倒那些害怕机器人偷工作的人，但是真的是这样吗？如果这个新的机器人浪潮真的有我们最大的利益呢？今天我们来看看机器人在制造业中的兴起，以及它对于行业人类的意义。机器人在制造业的现状事情的一个简单的事实是，今天的机器人技术能够比人类更好地执行更无聊更危险甚至更精确的任务。它们可以做得很快，从不抱怨，也不会出现工伤等等。从商业角度来看，这是理想的解决方案。生产力提高，成本下降

[嵌入式]

谷歌机器人学人走路，这到底有啥意义？

据外媒报道，来自谷歌 (微博)Boston Dynamics的Atlas人形机器人最初显得非常笨拙，但目前已经能在复杂的地形上前行。 Atlas的算法得到了升级，从而可以在乱石地面上更好地实现自我平衡。这一新成绩来自于人类和机器认知研究所。该机构表示，目前这款机器人有能力寻找稳固的支撑点，随后通过宽大的脚掌将自身重量转移过来，更好地支撑自己。在人类和机器认知研究所提供的视频中，我们可以看到，Atlas伸出双手保持平衡，就像是人类保持平衡的方式。该研究所表示：“Atlas 人形机器人走在很小的立足点上，例如踏脚石，或是一条凸起的直线。在走出每一步后，机器人都会寻找新的立足点，平衡自身的重量。为了保持平衡，我

[嵌入式]

美水下机器人加入马航搜救外形奇怪酷似重型鱼雷

　　3月8日凌晨，马来西亚航空公司与一架原载239人的波音777飞机失去联系。据北京出入境边检总站消息，航空公司申报的旅客信息显示，机载中国人154名，外国人73名，机组员工12名。　　该飞机航班号为MH370，中国航班号为CZ748。原定由吉隆坡飞往北京，应于6点15分降落首都国际机场T3航站楼。该机于凌晨1时20分在越南胡志明管制区失联。该机一直未与我国管制部门建立联络或进入我国空管情报区。　　全球多国都投入到了寻找失联客机的行列中，中国海军昼夜出动搜索失联飞机，马来西亚、越南、韩国、中国台湾、美国等纷纷参与救援行动，但是至今仍未有任何结果。　　2014年3月30日，美国海军自主水下机器人AUV运抵澳大利亚海军斯特林基

[机器人]

面向血管介入手术的磁控导丝机器人系统设计

近日，中国科学院深圳先进技术研究院集成所仿生中心团队和深圳大学附属华南医院神经外科团队合作，在磁驱动连续体微型领域取得新进展。该团队提出了具有磁驱动主动转向和自主推进能力的磁性介入导丝机器人系统。通过该系统介入，医生能远程操控磁性导丝在复杂的血管分叉处快速选择正确路径并到达目标部位，有效减少医生的辐射暴露。该团队提出了磁性导丝的建模方法与轨迹规划方法，为磁性导丝的自动控制奠定了基础。图1 磁控导丝机器人系统集成血管介入手术是在医学影像设备的导引下，利用导丝、导管等器械经血管途径诊疗的操作技术。神经介入手术是治疗各种脑血管疾病的重要手段，对医生经验要求很高。医生需要在造影下观察导丝位置，累积的辐射有损健康

[机器人]

研究：会犯错的机器人较讨人喜欢

　　比起完美无瑕的机器人，会犯错的机器人更讨使用者欢心。（图／翻摄自Wired）　　功能强大的机器人比较受欢迎？这可不一定；最近公布的一项研究结果显示，比起功能完善的机器人，人们更喜欢与有缺陷的机器人相处。　　这项研究发表於「机器人与AI前线」杂志上，研究人员分别记录人们对有缺陷的机器人，以及表现完美的机器人的反应，结果发现，在受测者眼中，有缺陷的机器人显得更讨人喜爱。　　该研究通讯作者，奥地利萨尔斯堡大学博士生NicoleMirnig表示，「我们的研究结果指出，人们明显喜欢有缺陷的机器人，胜过一个完美无缺的机器人，也就是说，当机器人犯错时，人们反而会被这点吸引。」　　虽然社交机器人正快速发展，目前的技术还没让他们达到不

[机器人]

搭载“银牛3D视觉模组”的深紫外线消杀机器人，为北京冬奥保驾护航

　　——闪耀科技力量，点燃冬奥梦想　　中国，北京——2022年3月16日，全球3D视觉感知芯片、模组及解决方案的引领者银牛微电子宣布，与中科院自动化研究所合作研发的“深紫外线消杀机器人”项目成功落地，并在2022年北京冬奥会承担比赛场馆（国家体育馆）消毒杀菌服务。以科技力量为赛事筑起疫情防控墙，助力冬奥会圆满成功。　　该项目从产品设计、开发、到实际应用，只用了短短半年时间，实现从理论到实践的突破。深紫外线消杀机器人由移动底盘、多自由度机械臂、银牛双目视觉模组、紫外线消毒模块组成。与普通消杀机器人不同，它在面对复杂物体表面时，能够灵活、自适应地识别物体的形状，实现精准定位、自主消杀、自主导航、避障等功能。其核心视觉感

[机器人]

车载语音交互+AI，Cerence解锁了这些“新玩法”

智能电动汽车时代，国内车载语音交互渗透率快速提升。据盖世汽车研究院梳理统计，2021年和2022年，车载语音交互渗透率分别达到70.5%、73.9%，预计到2025年将达92%。体量增加的同时，我们看到，随着AI的深度介入，车载语音交互技术也正迎来新的变革，逐步由被动转向主动。近期，全球车载语音巨头Cerence（赛轮思）CEO Stefan Ortmanns博士在接受盖世汽车采访时指出：“在AI智能的驱动下，车载语音正在经历从协助解决方案到沉浸式伴侣的转变，这给行业带来新的思考和机会。创造真正的沉浸式体验正在成为我们新的目标，让机器像人一样对话是终极目标。” Cerence（赛轮思）CEO Stef

[汽车电子]

车载<font color='red'>语音交互</font>+AI，Cerence解锁了这些“新玩法”

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■PI 电源小课堂|无 DC-DC 变换实现多路高精度输出反激电源

■有奖直播报名:大联大世平集团&恩智浦 | AI 无所不在，单板电脑也可以

■2024 瑞萨电子MCU/MPU工业技术研讨会——深圳、上海站，火热报名中

■Follow me第二季第4期来啦！与得捷一起解锁蓝牙/Wi-Fi板【Arduino Nano RP2040 Connect】超能力！