从更精美的照片、更高的安全性到更自然的用户界面(UI),人工智能(AI)正以无缝的方式更多地丰富我们的生活。高能效和个性化是Qualcomm AI Research的核心研究领域,因为它们对于下一代无处不在的智能用户体验而言不可或缺。终端侧AI正在支持虚拟助理的发展,而个性化正成为今天的虚拟助理和未来真正个人助理之间的主要差异。
AI驱动语音交互革命
语音是我们一直期盼的变革性交互方式,它可以提供用户与终端间的自然交互,而无需任何手部操作。先进的语音交互具有始终开启、对话式、个性化和私密的特征,可支持我们进行高效且自然的对话。从智能手机、智能音箱到扩展现实(XR)设备和汽车,语音交互正在众多产品种类中日益发展和普及。
要实现端到端的语音交互体验,其中需要多个组件的支持(见图1)。语音交互的流程是这样的:首先麦克风采集语音信号,然后是语音预处理、语音激活、语音识别和自然语言理解,最终是终端通过语音合成的方式响应用户。由此可见,端到端的语音交互是个多步骤的复杂流程。
图1:语音交互的功能组件。
为什么今天语音交互变得如此普及?一个重要因素是,机器学习已经点燃了语音交互的革命。机器语音识别的准确率正不断逼近95%,达到与人类准确率相当的水平。当机器准确率不能达到人类的水平,整个语音交互过程就没法做到对话式的自然高效交流,因此用户体验会有显著下降。机器学习技术可应用于几乎所有的语音交互组件之上,从而提升各方面及整体的交互体验。
终端侧的语音交互至关重要
因计算、内存和功率的限制,主要语音交互组件(如自动语音识别和自然语言处理)传统上都由云端AI所支持。但是,终端侧处理具有众多独特的优势,包括更快的响应速度、更高的可靠性和更好的隐私保护。尤其是在私密性方面,今天的消费者渴望把数据掌握在自己手中,并且有权选择是否将数据发到云端进行处理或存储。因此,更多在终端上进行处理并为云端功能提供补充,这是目前行业的重要趋势之一。而其中的主要挑战在于,需要在移动终端的功耗和散热限制下运行并实现复杂的语音交互功能。
图2:语音交互的主要组件正向终端侧迁移。
Qualcomm正积极应对这项挑战,并把低功耗的终端侧AI应用于语音交互组件之上。以下是几个例子:
º 语音降噪将带噪语音处理成清晰语音并输出,这在嘈杂环境中尤其重要。Qualcomm AI Research正在开发一个降噪深度学习模型,该模型与传统方法相比有显著的性能提升,并具有较高效率可在助听器这样非常受限的处理能力、功耗和散热条件下运行。
º 自动语音识别将语音转录为文本。测试表明,深度学习技术可在移动终端上实现顶级的语音识别准确率。Qualcomm AI Research已经完成了一个深度学习声学模型的训练并使其适应每个用户的口音和环境,从而提高个性化程度。
今天,终端侧的语音交互已经成为现实。Qualcomm AI Research已经可以在终端侧实现整体的端到端语音交互处理,并在2018年的CES大会上演示了智能家居中的端到端语音交互体验。在适应口音和环境后,这项演示对特定领域的指令集已经可以实现超过95%的意图理解准确率。
个性化成就真正的虚拟助理
真正的虚拟助理是在终端里面有一个“数字化的我”。因此,它需要分析个人信息并不断学习用户偏好,从而成为真正了解用户的数字助理。情境式智能是实现个性化的必备条件,而实现情景式智能需要融合多种终端侧传感器的数据(如麦克风、摄像头和陀螺仪)及其他终端侧和终端外数据(见图3)。
图3:情境式智能融合多种传感器和个人信息。
增强个性化的一大好处在于,它能够推动个人助理进一步发展并兼具响应性和主动性。真正的个人助理不仅能够在用户提问时提供个性化的答案,还能基于情境分析进行自主决策和无提示对话。
为进一步提升虚拟助理的个性化程度,Qualcomm AI Research正对终端侧的“AI agent”展开研究,它有望从所有传感器数据中不断学习个人信息,最终实现直观行动。AI agent的关键功能包括情境式融合及学习,这最终将支持个性化响应并丰富我们的生活。初步研究结果已展现出终端侧个性化的远大前景。个性化不仅将提升虚拟个人助理的用户体验,而且将丰富我们生活的方方面面。这项技术将变革众多行业,不断推动行业创新。
关键字:语音交互
引用地址:
在未来你可能会爱上语音交互
推荐阅读最新更新时间:2024-03-30 23:54
语音交互与人脸识别可试试
【人工智能( AI )发展到今天,尤其是近几年,已经取得跨越式的发展,它已经渐渐融入我们的生活,特别是语音交互和 人脸识别 ,早已经不是电视里面的场景了。今天,你能够想象一下十年之后人工智能的场景吗?就像十年前,你敢想象一下智能手机给我们生活带来的影响吗?下面就随网络通血小板一起来了解一下相关内容吧。 或许你还没有感觉到趋势的变化,但有人已经提前布局,比如风险投资人。资本是判断人工智能前景最灵敏的风向标,人工智能投资企业正在逐年增多。就在刚刚过去的一周内,国内多家与人工智能相关的企业获得融资,而2017年有望成为全球人工智能商业化运用元年。】 不用动手,只需开口就能驾驭身边的智能设备,这样的体验明显好很多。因此,各大
[网络通信]
塑造人机交互新模式 长城汽车Coffee OS 2展现语音交互新实力
4月12日,长城汽车举办了一场名为「Coffee OS 2智能语音」公开课的活动,在此次活动中,长城汽车以语音交互实测及优势解读的方式,对咖啡智能新一代座舱系统——Coffee OS 2的驾乘体验进行了全面展现,并与行业专家共同探讨了未来智能座舱的进化方向。 近些年随着汽车行业转型进一步深化,智能化在汽车中的重要性占比越来越大,更多的先进科技被应用到车辆之中。同时对于消费者来说,随着Z世代人群逐渐成为消费主力,他们对于电子产品的喜好,也带动了汽车产品向智能化和科技化转变。当下汽车不断被重新定义,已经不再是简单的交通出行工具,而是向智能的第三生活空间快速进化。基于此,长城汽车面向消费者对智能座舱人机交互能力、响应速度、场景
[汽车电子]
浅谈智能语音交互,看一个Windows语音识别程序
我们经常能在科幻影片里能看到各种机器人与人类同台出演,与人类自由的沟通交流,甚至比人类更加聪明。大家肯定想知道这样的人造机器是如何做到的,我们现在真的能造出这样的机器人吗? 开玩笑,我在这绝不可能解释好这个问题,但是从另一个角度简单来讲,与机器人交流其实这是通过语音来实现与机器交互,互动的一种操作,人与机器人的沟通其核心的一个方面便是语音的识别,就是说机器人得先听懂人说话。那此文就来浅聊下关于通过语音来实现人机交互的一些问题。 我们先看一个较简单的例子 —— Windows 语音识别 程序: Windows语音识别功能主要是使用声音命令指挥你的电脑,实现离开键盘鼠标来实现人机交互。通过声音控制窗口、启动程序、在窗口之间切换,使
[网络通信]
高通发布《2018使用现状调研报告》
中国拥有最多的音频技术‘尝鲜者’ — Qualcomm Incorporated子公司Qualcomm Technologies International, Ltd.今日在其物联网行业分析师沟通会发布 《2018使用现状调研报告》 (2018 State of Play)。该报告对来自中国、英国和美国的6000位消费者进行问卷调查,旨在分析驱动购买行为的众多因素并进一步了解消费者对于音频技术的态度和真实行为。 Qualcomm Technologies International, Ltd.高级副总裁兼语音与音乐业务总经理Anthony Murray表示:“本次调查的一些结果让我们倍感惊喜。我们知道真正完全无线的音乐
[家用电子]
外媒:百度DuerOS领跑中国语音交互市场
中新网7月31日电 在2017百度AI开发者大会宣布全面开放赋能后,对话式人工智能系统DuerOS不仅相继落地了美的智能语音盒、中信国安(9.340, -0.10, -1.06%)广视的G1智能高清机顶盒和极米无屏电视,近日还引发了美国权威科技杂志《麻省理工科技评论》(MIT Technology Review)的关注和报道。 最新一期的《麻省理工科技评论》发表文章《For Computers, Too, It’s Hard to Learn to Speak Chinese》表示,每一次人机交互方式的更迭都会引领行业进步,为人们的生活提供更多便利,语音交互将会是下一个人机交互方式。在最大的潜在对手Alexa尚未进入中国时
[家用电子]
动嘴不动手 Bixby语音交互会是三星的未来吗
交互方式一直是电子设备与人之间重要的沟通环节,在PC时代我们有显示器和键盘鼠标。到了智能手机时代,所有的一切都要通过一块手掌大小的屏幕进进出出,这让人机交互看上去有点无所适从。 从苹果推出Siri语音助手开始,不少安卓手机厂商也推出了“人工智能”概念的交互方式。在交互设计师看来,与其引导用户去熟悉手机界面功能,不如让手机去学习用户适应用户习惯。 三星Bixby也是众多智能交互方式之一,作为可能出现在三星S8上的智能语音助手,Bixby或许会带来不同以往的使用体验。 1、控制应用 如果一款应用可以支持Bixby,那么意味着之前需要使用触控、按压等传统“手指方式”才能完成的交互操作,现在都可以通过Bixby实现。
[手机便携]
汽车座舱交互方式迎来变革期,成为人工智能发展突破口!
从2017年被提及最多的“物联网”,到2018年伊始就热度居高不下的“ 人工智能 ”,似乎ICT业界对2018年人工智能的发展进程普遍抱有乐观的态度。市场资本方面,根据创投大数据平台——鲸准的相关数据统计,2016、2017年中国资本市场在投资案例总数靠前的人工智能(Artificial Intelligence,以下简称AI)细分领域分别是是计算机视觉、深度学习、自动驾驶和自然语言处理,表明了视觉和语言这两种AI交互方式为资本所看重。 图1:创投大数据平台——鲸准对中国市场的AI细分领域融资信息分析 人工智能在某种意义上可以说是机器与人(如服务机器人)、机器与环境(如自动驾驶)的智能交互。交互方式的变革是衡量人工智能
[嵌入式]
智能语音交互将成为车联网最主流
无人驾驶技术的发展,会给出行方式带来巨大变革。如今的出行领域,正在朝向共享出行和智慧出行方向不断向前推进,而共享出行与智慧出行都离不开大数据的支持。对于用户来说,出行大数据能够帮助个人用户更加快捷地取车和还车、更好地规划自己的出行方式、甚至改变既有的定位行为习惯等。 对于企业来说,出行大数据可以收集整理用户的出行习惯,获取用户的出行反馈,并进行分析,通过共享出行,可以快速进行商业模式验证以及产品迭代,更可以覆盖多场景、多区域甚至是大区域,从而有助于快速建立成熟的发展体系和运营模式。 智能化共享汽车可以从五种渠道获取出行大数据信息,分别是汽车本身、充电桩、用户的手机可以上传用户的行为习惯、车位、实物也就是汽车内置的车载
[嵌入式]