语音作为自然的人机接口,可以使车载导航系统实现更安全、更人性化的操作。通过国内外车载导航系统的功能对比可知,支持语音交互是车载导航系统的一个发展趋势。另外,市场信息服务公司J.D Power and Associates的调研数据也表明,56%的消费者更倾向于选择声控的导航系统。因此,开发车载语音导航系统是很有意义的。目前,国内已经具备开发车载语音导航系统的技术基础,特别是文语转换TTS技术和基于中小词汇量的语音命令识别技术已经达到比较实用的程度。本文在课题组的车载导航系统和国内两款语音引擎的基础上,开发了一套支持语音交互的车载导航系统。
车载语音导航系统结构
车载语音导航系统从功能上分为车载导航和导航语音交互两方面。其中车载导航功能包括GPS卫星导航定位、电子地图浏览查询、智能的路径规划、车辆地理位置和速度等导航信息的实时显示;导航语音交互功能分为语音操作和语音提示两部分。在系统的设计中,根据人机交互的需求,设计语音导航系统的硬件框架如图 1所示。
语音导航系统和用户之间的人机交互接口由触摸屏、按钮、话筒、显示屏和扩音器等五个交互设备组成。该硬件框架可实现常规的手动交互方式,也可以实现语音交互方式。整个系统划分为三个子系统:导航子系统、语音识别子系统和语音合成子系统,各子系统间通过接口进行通信,协调完成语音导航任务。
车载导航人机语音交互系统对话模式设计
导航系统的状态转换网络
整个导航系统是一个复杂的人机交互系统,为便于语音交互对话模式的设计,首先对系统作状态划分,然后从人机交互的角度描述整个系统的状态转换网络。将系统划分为地图浏览、功能选择等六个功能状态和一个退出状态。图2描述了这些状态之间的状态转换网络。
图中的节点代表系统的各个状态,带箭头的连线代表从源状态到目标状态的转换。状态转换网络接收用户的操作作为驱动事件,完成从一个状态到另一状态的转换,网络中的一条路径便代表着特定的交互过程。
导航系统各状态节点对话模式设计
为便于描述各状态节点内部的对话模式,将状态节点按图2所示编号为S1"S7,用Tmn表示状态节点Sm到状态节点Sn的转换。另外,借鉴状态流 stateflow模型的表示方法,提出用于描述车载导航人机语音交互系统中的对话模型。重新定义转换的描述方式,用四个属性来描述状态节点内的一次转换:
T={P1,P2,P3,P4} (1)
其中,t用于表示一个转换,P1"P4为转换的属性:P1为语音事件;P2为语音输出;P3为附加条件;P4为转换动作。
这样,一个转换t便描述了一次对话中用户的语音输入、系统的语音输出、对话受到的限制条件以及系统执行的动作。
以地图浏览状态为例,说明对话模式设计的过程。地图浏览状态由两个互斥的子状态组成:地图漫游状态和车辆引导状态(参见图2)。这两种子状态的人机交互大部分相同,所以将二者统一划分在地图浏览状态下。对于区分对待这两个子状态的交互过程,可以通过附加条件来判断当前子状态,再作不同的处理。地图浏览状态节点的对话模式设计如图3所示。
人机语音交互系统的实现
语音控制命令的实现
语音控制命令的实现方案如图4所示。图中左边方框代表整个语音导航系统对话模式的状态转换网络STN。根据对话模式的设计,将系统分为地图浏览状态、功能选择状态、路径规划状态等7个状态节点,每个状态节点内部均存在各自的语音对话模式,对话模式由若干内部转换组成。因此,整个语音导航系统是一个两层结构的状态转换网络,其内部转换由语音事件驱动。语音事件由导航子系统的接口模块根据语音识别子系统发送的用户意图而产生。
语音控制命令的实现过程分为以下四个步骤:
语音识别引擎根据当前命令词表识别用户语音,得到识别结果。
管理窗口获取到识别结果,通过查询“识别词-控制命令”映射,得到识别结果对应的控制命令,并将控制命令作为用户意图发送至导航子系统的接口模块。
接口模块响应用户意图,通过语音事件改变语音导航系统的状态。
接口模块根据语音导航系统的状态判断是否需要更改当前命令词表,若需要则通过管理窗口更改当前命令词表。
POI名称的识别方法
识别子系统除了要识别控制命令以外,还需要识别POI(兴趣点、标志点)名称。POI名称识别与控制命令识别最大的区别在于其候选集合在规模上的差异。在本系统中,进行控制命令识别时候选集合的规模最大约为30个,但进行POI名称识别时,以所用的北京电子地图为例,其POI点的个数为20,172 个,此时其候选集合的规模比控制命令识别时大几个数量级。[page]
利用命令词识别引擎进行识别时,必须为引擎提供一个当前词表,需要先将候选集合中的词条转化为词表,才能真正地进行识别 。同时,基于中小词表的ASR 识别引擎不能生成规模达2万多的词表,所以对于POI名称识别,采取了不同于控制命令识别的方案。在对控制命令进行识别时,因为候选集合可以用一个词表来表示,采取了在线识别的方法。而对POI名称进行识别时,单个词表无法容纳所有的POI名称,由此提出了利用识别引擎离线识别功能的离线遍历识别方案。该方案利用多个词表来描述整个候选集合。实现的具体流程如图5所示。
该方案将候选POI集合划分为n个子集,并生成各子集的词表,然后以各词表为当前词表进行离线识别,并将这些局部的识别结果汇总形成一个临时词表,最后在这个临时词表中进行识别,得出全局的最优识别结果。该过程遍历了各个子集,相当于在整个候选集合中匹配出最优识别结果,所以识别正确率得到了保证。同时由于识别次数的增加,导致识别时间相应地变长。
导航系统语音提示的实现方案
导航系统的语音提示由专门的语音合成子系统完成。将语音提示的实现过程分为提出请求和执行请求两步。请求的提出方和执行方构成客户/服务器(C/S) 模型,其中,语音合成子系统充当服务器。由于语音合成引擎通常不能同时输出多线合成的语音,所以会遇到请求冲突的情况。发生请求冲突时,最直接的处理策略是:中止正在进行的合成转而进行下一个合成,或者维持正在进行的合成而忽略新的合成请求。为此在语音合成子系统中设计了管理模块用于决定发生合成冲突时的处理方式。
对于语音合成子系统,合成请求的提出是一个随机事件,将这类随机事件记为Qi。每个合成请求Qi都具有优先级的属性,其优先级的高低取决于请求的提示信息的重要程度,见表1。管理模块的处理流程见图6。如果下一请求Qi+1的优先级高于当前请求Qi,则优先合成Qi+1。
车载语音导航系统的试验验证
图7为本文的车载语音导航系统的实物照片。对本系统进行了语音导航的验证试验,通过语音交互完成了表2中所示的车载导航功能。试验表明,系统的状态能够完全正确地按照设计的对话模式进行转换,并能正确完成各种导航功能的人机对话过程;同时,系统的语音提示也能正确工作。
另外测试了系统正确响应语音控制命令的能力。测试中,用清晰平稳的语音,对地图浏览状态所有语音控制命令的49个识别词进行了测试,共测试49×3=147次,成功132次,失败15次,成功率为89.8%。可见,系统语音控制命令的有效性较好。
在海量POI名称识别的试验中,对字数为2至10的POI名称进行了测试。对于每一长度的POI名称,分别取10个进行测试。其中每个POI名称最多做两次测试,当且仅当第一次测试失败才继续第二次测试。试验结果如表3所示。
可见,离线遍历识别方案的一次识别正确率为86.7%,二次识别正确率为93.3%。其正确识别的平均耗时为6.1s至10.4s之间,按POI名称的字数统计分布计算加权的平均耗时为8.3s。以上数据说明,该方案能够利用小词汇量的关键词识别引擎实现大词汇量POI名称的识别,并且获得了满意的识别正确率,但是耗时较长。
结语
本文主要完成了车载导航人机语音交互系统的设计和实现,并在实验室环境中对系统进行了实验验证。
证明利用合成的语音,可以实现丰富灵活的语音提示,使用户可以在不分散过多精力的前提下使用导航系统。进一步的工作是提高识别正确率和降低正确识别的平均耗时。
关键字:车载导航 人机 语音交互
引用地址:车载导航中人机语音交互系统的设计与实现
车载语音导航系统结构
车载语音导航系统从功能上分为车载导航和导航语音交互两方面。其中车载导航功能包括GPS卫星导航定位、电子地图浏览查询、智能的路径规划、车辆地理位置和速度等导航信息的实时显示;导航语音交互功能分为语音操作和语音提示两部分。在系统的设计中,根据人机交互的需求,设计语音导航系统的硬件框架如图 1所示。
语音导航系统和用户之间的人机交互接口由触摸屏、按钮、话筒、显示屏和扩音器等五个交互设备组成。该硬件框架可实现常规的手动交互方式,也可以实现语音交互方式。整个系统划分为三个子系统:导航子系统、语音识别子系统和语音合成子系统,各子系统间通过接口进行通信,协调完成语音导航任务。
车载导航人机语音交互系统对话模式设计
导航系统的状态转换网络
整个导航系统是一个复杂的人机交互系统,为便于语音交互对话模式的设计,首先对系统作状态划分,然后从人机交互的角度描述整个系统的状态转换网络。将系统划分为地图浏览、功能选择等六个功能状态和一个退出状态。图2描述了这些状态之间的状态转换网络。
图中的节点代表系统的各个状态,带箭头的连线代表从源状态到目标状态的转换。状态转换网络接收用户的操作作为驱动事件,完成从一个状态到另一状态的转换,网络中的一条路径便代表着特定的交互过程。
导航系统各状态节点对话模式设计
为便于描述各状态节点内部的对话模式,将状态节点按图2所示编号为S1"S7,用Tmn表示状态节点Sm到状态节点Sn的转换。另外,借鉴状态流 stateflow模型的表示方法,提出用于描述车载导航人机语音交互系统中的对话模型。重新定义转换的描述方式,用四个属性来描述状态节点内的一次转换:
T={P1,P2,P3,P4} (1)
其中,t用于表示一个转换,P1"P4为转换的属性:P1为语音事件;P2为语音输出;P3为附加条件;P4为转换动作。
这样,一个转换t便描述了一次对话中用户的语音输入、系统的语音输出、对话受到的限制条件以及系统执行的动作。
以地图浏览状态为例,说明对话模式设计的过程。地图浏览状态由两个互斥的子状态组成:地图漫游状态和车辆引导状态(参见图2)。这两种子状态的人机交互大部分相同,所以将二者统一划分在地图浏览状态下。对于区分对待这两个子状态的交互过程,可以通过附加条件来判断当前子状态,再作不同的处理。地图浏览状态节点的对话模式设计如图3所示。
人机语音交互系统的实现
语音控制命令的实现
语音控制命令的实现方案如图4所示。图中左边方框代表整个语音导航系统对话模式的状态转换网络STN。根据对话模式的设计,将系统分为地图浏览状态、功能选择状态、路径规划状态等7个状态节点,每个状态节点内部均存在各自的语音对话模式,对话模式由若干内部转换组成。因此,整个语音导航系统是一个两层结构的状态转换网络,其内部转换由语音事件驱动。语音事件由导航子系统的接口模块根据语音识别子系统发送的用户意图而产生。
语音控制命令的实现过程分为以下四个步骤:
语音识别引擎根据当前命令词表识别用户语音,得到识别结果。
管理窗口获取到识别结果,通过查询“识别词-控制命令”映射,得到识别结果对应的控制命令,并将控制命令作为用户意图发送至导航子系统的接口模块。
接口模块响应用户意图,通过语音事件改变语音导航系统的状态。
接口模块根据语音导航系统的状态判断是否需要更改当前命令词表,若需要则通过管理窗口更改当前命令词表。
POI名称的识别方法
识别子系统除了要识别控制命令以外,还需要识别POI(兴趣点、标志点)名称。POI名称识别与控制命令识别最大的区别在于其候选集合在规模上的差异。在本系统中,进行控制命令识别时候选集合的规模最大约为30个,但进行POI名称识别时,以所用的北京电子地图为例,其POI点的个数为20,172 个,此时其候选集合的规模比控制命令识别时大几个数量级。[page]
利用命令词识别引擎进行识别时,必须为引擎提供一个当前词表,需要先将候选集合中的词条转化为词表,才能真正地进行识别 。同时,基于中小词表的ASR 识别引擎不能生成规模达2万多的词表,所以对于POI名称识别,采取了不同于控制命令识别的方案。在对控制命令进行识别时,因为候选集合可以用一个词表来表示,采取了在线识别的方法。而对POI名称进行识别时,单个词表无法容纳所有的POI名称,由此提出了利用识别引擎离线识别功能的离线遍历识别方案。该方案利用多个词表来描述整个候选集合。实现的具体流程如图5所示。
该方案将候选POI集合划分为n个子集,并生成各子集的词表,然后以各词表为当前词表进行离线识别,并将这些局部的识别结果汇总形成一个临时词表,最后在这个临时词表中进行识别,得出全局的最优识别结果。该过程遍历了各个子集,相当于在整个候选集合中匹配出最优识别结果,所以识别正确率得到了保证。同时由于识别次数的增加,导致识别时间相应地变长。
导航系统语音提示的实现方案
导航系统的语音提示由专门的语音合成子系统完成。将语音提示的实现过程分为提出请求和执行请求两步。请求的提出方和执行方构成客户/服务器(C/S) 模型,其中,语音合成子系统充当服务器。由于语音合成引擎通常不能同时输出多线合成的语音,所以会遇到请求冲突的情况。发生请求冲突时,最直接的处理策略是:中止正在进行的合成转而进行下一个合成,或者维持正在进行的合成而忽略新的合成请求。为此在语音合成子系统中设计了管理模块用于决定发生合成冲突时的处理方式。
对于语音合成子系统,合成请求的提出是一个随机事件,将这类随机事件记为Qi。每个合成请求Qi都具有优先级的属性,其优先级的高低取决于请求的提示信息的重要程度,见表1。管理模块的处理流程见图6。如果下一请求Qi+1的优先级高于当前请求Qi,则优先合成Qi+1。
车载语音导航系统的试验验证
图7为本文的车载语音导航系统的实物照片。对本系统进行了语音导航的验证试验,通过语音交互完成了表2中所示的车载导航功能。试验表明,系统的状态能够完全正确地按照设计的对话模式进行转换,并能正确完成各种导航功能的人机对话过程;同时,系统的语音提示也能正确工作。
另外测试了系统正确响应语音控制命令的能力。测试中,用清晰平稳的语音,对地图浏览状态所有语音控制命令的49个识别词进行了测试,共测试49×3=147次,成功132次,失败15次,成功率为89.8%。可见,系统语音控制命令的有效性较好。
在海量POI名称识别的试验中,对字数为2至10的POI名称进行了测试。对于每一长度的POI名称,分别取10个进行测试。其中每个POI名称最多做两次测试,当且仅当第一次测试失败才继续第二次测试。试验结果如表3所示。
可见,离线遍历识别方案的一次识别正确率为86.7%,二次识别正确率为93.3%。其正确识别的平均耗时为6.1s至10.4s之间,按POI名称的字数统计分布计算加权的平均耗时为8.3s。以上数据说明,该方案能够利用小词汇量的关键词识别引擎实现大词汇量POI名称的识别,并且获得了满意的识别正确率,但是耗时较长。
结语
本文主要完成了车载导航人机语音交互系统的设计和实现,并在实验室环境中对系统进行了实验验证。
证明利用合成的语音,可以实现丰富灵活的语音提示,使用户可以在不分散过多精力的前提下使用导航系统。进一步的工作是提高识别正确率和降低正确识别的平均耗时。
上一篇:实现灵活的汽车电子设计方案
下一篇:汽车安全系统借力传感器由被动变为主动
推荐阅读最新更新时间:2024-05-02 23:57
语音交互、人脸识别有望成为AI商业化先驱
人工智能(AI)发展到今天,尤其是近几年,已经取得跨越式的发展,它已经渐渐融入我们的生活,特别是语音交互和人脸识别,早已经不是 电视 里面的场景了。今天,你能够想象一下十年之后人工智能的场景吗?就像十年前,你敢想象一下智能 手机 给我们生活带来的影响吗? 或许你还没有感觉到趋势的变化,但有人已经提前布局,比如风险投资人。资本是判断人工智能前景最灵敏的风向标,人工智能投资企业正在逐年增多。就在刚刚过去的一周内,国内多家与人工智能相关的企业获得融资,而2017年有望成为全球人工智能商业化运用元年。 不用动手,只需开口就能驾驭身边的智能设备,这样的体验明显好很多。因此,各大科技巨头纷纷布局智能 音响 ,想让它成为家用科技产品的控
[家用电子]
亿航的载人无人机真的飞了
和其他参观了 CES 2016 的观众一样,我们也被亿航 184 圈了粉 。假如不出什么意外的话,这架载人无人机会是继智能手机和巨屏电视之后的另一个亮点。而它并非只是徒有虚名。 今天早些时候,该公司公布了一些略显惊艳的实机载人视频。在一段现场测试视频中,亿航表示已经就该无人机对 40 位乘客展开了测试,其中包括了亿航公司 CEO 胡华智以及广州市副市长王东。 亿航称在四年的时间内进行过“数以千计次的试飞”,而这段视频也在一方面证实了他们的部分举动。 目前,公司何时会发售这款产品还不得而知,并且很可能会取决于其出售国的监管尺度。去年 2 月份的时候,迪拜 曾宣布 计划把该飞行器用于出租车服务,以此缓解拥堵状况。该国当时乐观的表示,
[机器人]
南方电网:2020年机器人及无人机收入达1.01亿元
据了解,南方电网致力于应用清洁能源技术和新一代信息技术,通过提供“技术服务+智能设备”的综合解决方案,保障电力能源系统的安全运行和效率提升,促进电力能源系统的清洁化和智能化的发展。 与手机行业上下游厂商颇为不同的是,无人机这一产业走向上市之路的企业可谓是屈指可数。而如今继纵横光学成功上市后,有着机器人及无人机业务的南方电网也欲上市。 2020年南方电网机器人及无人机收入达1.01亿元;那么机器人、无人机对视觉技术又有着怎样的要求? 对此,从南方电网招股说明书中获悉,南方电网的机器人是指以机器人为载体,搭载可见光摄像机、红外热像仪、局放检测仪等检测设备,实现对变电站、配电站、隧道管廊等场站设备及环境的全天候、全方位、全自
[嵌入式]
亚马逊获准设立无人机机队,将在美国测试向客户递送包裹
亚马逊获准设立无人机机队,将在美国测试向客户递送包裹 9月1日消息,据国外媒体报道,亚马逊周一表示,已获得FAA(美国联邦航空管理局)批准,可设立无人机机队。 亚马逊表示,将在美国测试向客户递送包裹,该公司未披露时间、地点等更多信息。 外媒表示,这虽然对亚马逊是一个里程碑的事件,但是无人机送货离具体商用还有一点距离。 Alphabet子公司、谷歌兄弟公司Wing Aviation去年也获得批准,运营消费品配送无人机。 亚马逊、Wing都需要解决业界关于大范围运营无人机的安全担忧,以及对在人口稠密地区飞行商业无人机的限制。 周一收盘,亚马逊(NASDAQ:AMZN)股价上涨1.45%至3450.96美元,总市值约1.73万亿美元。
[机器人]
零度智控发布新品 重回无人机市场
6月14日,零度智控发布无人机新品——ZT-3V。 零度智控经历战略方向调整、裁员、重新融资后,开始向行业无人机转型、回归,并发布了这款可以垂直起降的固定翼无人机。这款无人机采用了零度智控最新的三冗余度安全自驾仪以及机载AI大脑,外加优化的数据链通讯能力,具备了较强的测绘侦查能力。 尽管大疆在消费级无人机领域的王者地位难以撼动,但零度智控计划聚焦于警用安防和测绘无人机市场,在专业领域或许可以拔得头筹。
[机器人]
三菱电机研发协作式AI改善人机交互 有望用于自动驾驶车
据外媒报道,近日,日本三菱电机公司( Mitsubishi Electric Corporation )宣布已经研发了一种协作式人工智能(AI)技术,通过利用逆强化学习(IRL)来学习和模仿熟练工人的行为,从而增强人类与机器之间的协作。IRL是三菱电机Maisart AI技术的关键特征之一,能够让机器基于相对较少的数据模仿与人类类似的动作。未来,三菱电机将在机器与人类一同操作的工厂和配送点,将新型协作式AI技术测试部署到自动引导车和机器人中,从而进一步改进该技术。最终,该技术有望应用于自动驾驶车辆和其他应用。 (图片来源:三菱电机) 关键特性 1、 在人机同时工作的环境中,提升效率 在人机混合的工作环境中,三菱电
[汽车电子]
乌克兰完成TB-2型察打一体无人机测试
据乌克兰媒体报道,此前乌克兰从土耳其引进了最新的TB-2型察打一体无人机,目前该机在乌克兰进行了测试,这款无人机通过了乌克兰的测试,在测试过程中,该机装备土耳其研发的MAM-L高精度炸弹,该机未来将被乌克兰投入现役使用。 2019年3月20日,乌克兰总统波罗申科在赫梅利尼茨基地区的旧康斯坦丁诺夫机场参加仪式,土耳其向乌克兰交付了约420部军事装备,尤其是乌克兰接收了首架土耳其生产的TB-2无人机。
[机器人]
嵌入式系统的LCD人机交互菜单设计
嵌入式系统的LCD人机交互菜单设计 近年来,LCD显示器的普及和微处理器向大容量的发展使嵌入式系统的人机交互功能得到了显著的提高。在很多场合下,良好的图形用户界面(GUI)和便捷的操作环境是影响产品成败的关键因素之一。如何充分利用成本低、资源少的单片机系统实现完善的人机交互功能已成为单片机设计者需要解决的一个问题。 目前,国内外许多先进的智能仪表不仅在测量精度和采样速率等方面有较高的性能指标,在人机交互的友好性方面也有许多独到之处。笔者在为德国TOX冲压技术有限公司研制智能压力监控仪的过程中,积累了一些嵌入式系统人机交互技术的没计经验。本文以此为实例,介绍其设计方法。 1 智能压力监控仪概述 智能压
[嵌入式]