浅析谷歌Alexa未来发展趋势,最后一个目标这么大?

发布者:jingwen最新更新时间:2017-08-12 来源: eefocus关键字:Alexa  亚马逊  语音技术  语音设备  人工智能 手机看文章 扫描二维码
随时随地手机看文章

人工智能语音设备不仅仅是一台可以表达观点的自动唱机,它们很可能成为人机互动的主要方式之一。


Alexa的诞生与技能扩张
2012年8月31日,四名亚马逊工程师注册了一项基础性专利,这项专利的内容日后最终演变成了Alexa。专利涉及了一种人工智能系统,该系统旨在与人类语言,这一世界上最大、最复杂的数据集进行互动。工程师当时只需要使用11个单词和一个简单的图表就能描述它的工作原理。

一个男性用户在一个安静的房间里说:“请播放甲壳虫乐队的Let It Be。”

一台小型台式电脑回答说:“没问题。”

然后系统开始播放这首歌曲。

由此开始,家用语音人工智能成为了亚马逊的一项重要业务,而这一领域也成为亚马逊与其科技界的竞争对手们较量的重要战场。谷歌,苹果、三星和微软都在这一领域投入了上千名研究人员和商业专家,以期待制造出可以同人类进行交流,且便于使用的强大设备。

直到现在,我们还必须去打字、敲击或者滑动来解锁设备和操作。而目前,新的用户界面正在逐渐适应人类,Witlingo公司的首席执行官Ahmed Bouzid说道。该公司制造了各种各样适用于银行、大学、法律公司和其他企业的语音驱动应用程序。

对于亚马逊来说,其最初只是想制造一个自动唱机,但后来这一项目变得越来越大:它变成了一种基于人类数据并且可以不断学习的人工智能系统。它生产的Echo和体积更小的Dot是无处不在的家庭好帮手,它们可以关灯,讲笑话,或者让你不用手就能知晓天下事。

他们还收集了大量关于用户的数据,这些数据被用来改善设备本身,并增加他们的功能。自2014年上市以来,已经售出了上千万台的Alexa设备。据第三方机构统计,亚马逊目前已经占据了美国人工智能语音设备70%的市场。

 


(图:沟通的原则:亚马逊设备能听懂的指令越来越多,以下是当你想让它调整房间灯光亮度时,一些可以奏效或不能奏效的指令,红色为不能奏效的)


目前,Alexa同超过50种智能照明系统合作,包括飞利浦、通用电气和宜家等。 2016年,德语版的Alexa诞生,其他非英语语种的Alexa也将陆续诞生。但是,亚马逊并没有试图从可与Alexa相连接设备的制造商那里获得收入,这些设备包括智能恒温器、灯泡等。不过,照这样的趋势发展,未来亚马逊与这些公司之间很有可能会签订收入共享合同或者是采取其他的支付方式。这三个市场中最小的一个是家庭自动化市场,在这一市场中每年的支出已经超过了50亿美元,而去年美国的零售总额为4.9万亿美元。

如今,亚马逊通过出售这些设备来赚钱,设备的价格从50美元到230美元不等,最高端的Echo show产品带有视频屏幕。如果选购这些设备的用户最终在亚马逊庞大的网上商店中购买了更多的商品,那么亚马逊就能再赚上一笔(不过亚马逊是不会透露这些数据的)。若要让Echo像智能手机那样普及,他们还需要更多的努力。为此,亚马逊鼓励独立开发者在其平台上开发新服务,正如苹果长期以来与所做的那样。

到目前为止,已经出现了超过15000个这样的“技能”或应用程序。应用程序构建工具十分易于使用,以至于不具备太多知识的人现在可以在大约一小时内打造出一个简单的技能。其中最受欢迎的应用是优步和Lyft的叫车服务。而Duds拥有48种不同的技能,可以以狂轰滥炸之势诋毁它的听众。

而那些最具雄心的开发商中包括了制造、销售与Alexa配合的硬件或服务的公司。例如,Capital One向其银行客户提供基于Alexa的账单支付服务。而总部位于多伦多的Ecobee公司是一家智能恒温器制造商,该公司生产的恒温器可以受Alexa控制,用户可以仅仅通过几个简单的指令就能够提高或降低室温。

“我们的客户都很忙,”Ecobee的首席执行官Stuart Lombard说。该公司现在从其与Alexa合作的产品中获得的销售额占总销售额的40%,这些产品也成为了该公司10年来增长最快的业务。

“为了回家,他们不得不忍受交通拥堵,然后他们还要给孩子们喂饭,换尿布,谁知道还要干什么别的。”

“我们让他们不用双手就能完成一些工作,这样他们就可以‘多管齐下’了。”

Google Home也有了数百万的销量,苹果和微软也在研发他们自己的设备。这些努力的最终回报是有机会可以占领或至少可以影响三个重要的市场:家庭自动化、家庭娱乐和购物。

虽然可能没有太多人愿意和他们的冰箱交谈,但不可否认的是,生活方式在发生巨大改变。正如同智能手机改变了生活的方方面面,语音人工智能设备也在变革着我们的居家生活。为什么需要从床上爬起来去锁门,或者是在大冷天还要去手动开启车上的暖风呢?Alexa或是它的“亲戚”们就能帮你做这些事了。

 

 

当话语遇见AI
基于语音的人工智能技术之所以如此吸引消费者,是因为它满足了人类的要求:它按照人类的交流方式进行交流和思考,而使我们不再需要在键盘或屏幕上打字。

但这样的技术同时也很难打造。人类在说话时完全不考虑规律性。相反,我们打断自己的话。我们的思维时常反反复复。我们还常常莫名其妙地说出一些只言片语,有时点头有时摇头,甚至有时支支吾吾说不出话。对于人类,有时明明是在胡说八道,我们仍相信自己说的话有道理。

数千名亚马逊员工正在努力应对这一挑战,这包括在其位于西雅图、加州森尼维尔和马萨诸塞州剑桥等地研究中心的研究人员们。即便如此,亚马逊最近还在为1100个分布在各个部门的、和Alexa相关的工作岗位进行招聘,其中包括215个机器学习专家职位。在公司位于剑桥的办公室召开的一次会议上,经过询问Alexa的首席科学家Rohit Prasad关于为什么他需要这么多的人,以及他的研究团队何时才能完全建成等问题。Prasad回答说:“你的问题在我听来简直太好笑了。我已经从事了20年的语音技术研究工作,绝大多数时候,我们取得进展的速度都非常缓慢。然而,在过去的五年里出现了很多难逢的良机。”

发明一个真正奏效的语音激活式人工智能系统是一个非常复杂且尚未被攻克的难题。在过去,语言科学家们在试图一次性确定杂乱语句的具体含义时遇到了困难。而现在,新的机器学习方法另觅蹊径,以期待能解决这一问题:他们在一开始时就着手处理那些不完美的词语搭配,继而通过临时性的猜测快速调整这些搭配。

Prasad表示:“问题的关键是具备处理大量用户数据的能力,并可以从之前的错误中吸取教训。随着Alexa同用户相处的时间增加,它收集到的数据会越来越多,它也随之变得越来越聪明。伴随着这些进步,越来越多的机会出现,随之而来也需要越来越多的人力。”这也就是为什么需要招聘这么多人的原因。

“让我给你举个例子,”Prasad说,“如果你问‘阿黛尔的第一张专辑是什么’?答案应该是《19》。如果你说‘播放它’,那么Alexa就可以获得足够多的信息,并开始播放那张专辑。但如果有一些对话式的玩笑夹杂其间会怎么样呢?如果你先问一下专辑是哪一年出版的,它卖了多少张,又会发生什么呢?如果进行了上述对话,最后用一个具有困惑性的‘播放它’结束,那么早期版本的Alexa可能就会被难住。而现在这项技术可以遵循一种思维方式,这使得它至少在部分时间可以意识到‘播放它’中的‘它’仍然意味着专辑《19》。”

这种改进来自于机器学习技术对于此前数千次类似交流的反思,在这些交流中Alexa被搞糊涂过。系统了解了用户真正想听的是哪首歌曲,以及具体是在之前对话的什么地方出现了那首歌曲的名字。麻省理工学院口语系统小组的负责人James Glass说:“一开始你需要做一些关于人们如何提要求的假设,然后收集数据,对你的模型进行调整。”Glass表示,这种机器学习方法得到了广泛的认可,但如果想让它发挥作用,那需要的数据则远远超过了大学研究人员所能掌握的。

随着Alexa的使用量激增,亚马逊现在拥有了一个巨大的人机对话数据库——这让它在改进语音技术方面拥有了一定的优势,而谷歌长期以来一直凭借其文本搜索查询获得的数据进行这样的改进。外部数据也是有帮助的:例如,2016年一个庞大的歌词数据库被载入了Alexa中,这可以帮助确保当客户提出想听“drove my Chevy to the levee” (歌曲《American Pie》中的歌词)时,系统可以自动播放歌手Don McLean的名曲《American Pie》。

Prasad团队的一个最新项目凸显了这一方法的灵活性。这一项目致力于破解用户在何时会重新提及他们之前提过的要求。提示方式可能千差万别:有些人常说“不,不,不”,但另一些人偏向于使用“停止那个”,也有人喜欢尝试不同的表达,比如“等一下,实际上,我是想这么做”。但Alexa不需要解码所有的话语。大规模的样本数据和半监督式机器学习使系统能够勾画出一组可能的否定性语言标记,之后它可以在这些表达出现变化时,从这组标记中找到一个易于理解的新的请求方式。

除了将Alexa打造成一个更好的听众之外,亚马逊的人工智能专家还在使用大量的数据来让它成为一个更好的演讲者,对机器合成女声的话语节奏进行调整,以使其可以更好地被使用。传统的语音合成依靠的是将众多被记录下的人类语言片段进行融合。虽然这种技术可以产生一种相当自然的声音,但它并不能表达窃窃私语、讽刺或其他类型的话语模式,而这些模式在人类交谈中会被使用到。为了继续加强Alexa对于从活泼的对话到深沉的朗诵等不同类型话语的把控能力,亚马逊的机器学习算法采取了不同以往的方法去训练Alexa,使其能够掌握或急切或焦虑等听起来很逼真的声音,那听起来就像是专业的播音员发出的。

据悉,亚马逊拥有自己的有声读物出版机构Audible,这对这项研究有所帮助。

如何帮助更多人
语音人工智能技术最热情的使用者是那些无法轻易在手机或平板电脑上打字的人。据外媒报道,费城的Inglis公司为残疾人提供住房和其他服务,其首席执行官Gavin Kerr在8个居民住宅中安装了亚马逊Echo和Dot设备。他希望在先期试点测试完成后,最终可以为所有300座住宅全部配备这样的设备。“这对当地居民来说是一个难以置信的好消息,”Kerr说,“他们会过得更舒服。因为这使得他们可以‘独立’”。

据悉,Kerr公司的服务对象是数百名患有多发性硬化症或其他身体衰弱状况的人。对于那些卧床不起或坐着轮椅的人来说,够不到墙上的温度控制器是非常痛苦的。“他们因为身体问题,很难调节室内室温,”Kerr解释道。“而72华氏度的房间对他们来说可能一会觉得热,一会觉得冷”。由于行动障碍,他们很难让室温保持舒适,特别是在没有全天候护理人员的情况下。

在对Alexa进行一些小改动后,它就可以为那些语言功能严重受限的人群提供服务了。Kerr提到了一个快四十岁男人的故事,这名男士想要离开长期护理机构,重返日常生活。Kerr回忆道:“他告诉我们,我永远都无法说出Alexa的指令。”于是我们问他:“你能说什么呢?然后我们重新修改了软件,这样Alexa就可以根据他的情况工作了。现在当他想打开厨房灯时,他可以说‘妈妈’,当他想打开浴室灯时,他可以说‘约翰’。”

尽管Inglis公司为新的Echo用户提供了四个小时的培训,但通常是靠新用户是自己探索发现的。将新的Echo从包装盒里拿出来,包装上会特别说明一些常见的功能,比如播放音乐、设置闹钟或更新购物清单。对产品有良好了解的用户可以通过他们笔记本或智能手机进入Alexa的控制界面,以修改设置,寻找新的应用程序,或者了解如何让一款应用最好地发挥作用。

六月,在一篇阅读量很高的博客中,微软的产品经理Darren Austin写道,Alexa取得的更大的成功在于它能够缓解过于忙碌的生活带来的压力,它是一个可以随时帮助你的好伴侣。他说:“通过简单的提问,Alexa可以解决因为不确定性而带来的负面情绪和人们对遗忘的恐惧。”他说用户们喜欢随时给Alexa出一些难题,或者将自己的愿望告诉它,而它就是一个随时都可以跟你互动的好伙伴。

Alexa的总经理Rob Pulciani通常会每周或更频繁地查看关于Alexa和Dot用户最常用语言的总体数据统计。通常情况下,这一列表的顶部是对于音乐、新闻、天气、交通和游戏的请求。然而,今年春天,列表上却出现了一个新晋“热词”。这个热门短语就是“Alexa,帮我放松一下。”

当用户发出这个请求时,他们会听到一系列令人情绪舒缓的声音:小鸟唧唧喳喳地叫着,远处的海浪冲击着海岸,或是货运列车隆隆地穿过黑夜。如果用户要求,这样的声音可以持续播放几个小时。当这些应用程序在2015年第一次出现在Alexa的平台上时,Pulciani觉得这只是小众人群的“怪癖好”。但这些应用很快就获得了大批追随者,压力缠身的成年人会听着这些声音入睡。父母们会把它们变成摇篮曲的替代品。

当Pulciani发现这一点之后,他和他的同事们在几周内对Alexa的内部结构进行了调整,以使新的Echo买家可以迅速发现这些抚慰人心的声音,在他们要求系统推荐新技能以供尝试时,这一功能会被推荐给他们。

下一个目标:持续性对话
在研究中,谷歌、苹果、微软和亚马逊的人工智能平台显示出了不同的优势。其中,谷歌助理在大范围搜索指令上表现最出色。而苹果的Siri和微软的Cortana在其他一些方面天赋异禀。但在购物指令方面,Alexa表现最佳。

具备与用户进行一场合理的、持续多分钟的对话将会是语音人工智能技术的终极目标。这样宏伟目标的实现要求机器具备非常强的意图识别能力,即便是说话人没有提出明确的要求。如果一个人说“我几周没去健身房了”,那他的朋友可能会猜出来他想要谈谈自己面对的压力或者是与自尊心相关的话题。对于人工智能软件来说,这一关却很难过。对于话题的突然转换,或者隐晦的暗示,人工智能也很难理解。

为了加强其与新一代人工智能和语音技术研究人员的联系,亚马逊在一年前邀请了世界各地十几所大学工程专业的学生,让他们制造能进行20分钟对话的语音机器人。在今年11月截止之前,取得最大进展的学校将获得50万美元的奖金。

研究人员在用一个周末的时间测试了6个这样的机器人,对他们提出各种问题,包括简单的请求和较为复杂的开放式观点陈述,而后者可能会有很多种回复方式。

一个机器人问:“你最近看了什么电影吗?”这是个良好的开局。

“是的,”研究人员回答,“我们看了《隐藏人物》。”

对于这部讲述NASA早年历史,风格深刻而辛辣的电影,机器人并没有做出与报刊影评类似的评论。相反,这个社交机器人回复说:“我觉得《隐藏人物》对数学问题的处理上没有太多说服力。”

这可不是研究人员对这部电影的观点,但对一个人工智能程序来说,这样的回应似乎很可爱,也很合理。之后的交谈很快结束了,但至少人机之间拥有了一个短暂而美好的瞬间。可惜的是,其他机器人都无法做到这一点。最令人困惑的一个回答是“你喜欢吃路边摊吗?”而研究人员想跟他谈的话题和网站有关。但当人类可能是说到了机器人的局限性时,这一话题似乎有点尖锐,却得到了驴唇不对把嘴地反问“你们能进行集体协商吗?”

几天后,当研究人员向亚马逊公司的Prasad询问他对社交机器人的看法时,他却表示并不为智能机器人早期的挫折而感到失望。“这是一个非常重要的领域,”Prasad告诉我。“而在这些领域Alexa可以继续提升,变得更智能。”

但这比下围棋或象棋要难多了。因为在这些游戏中,即使有很多可能的动作,但你知道游戏最终的目标是什么。而在对话中,你可能甚至都不知道对方想要达到什么目的。当Alexa最终能够解决这个问题时,我们就能实现真正的交流了。


关键字:Alexa  亚马逊  语音技术  语音设备  人工智能 引用地址:浅析谷歌Alexa未来发展趋势,最后一个目标这么大?

上一篇:仓储机器人让物流进入无人时代,每一个仓库180人丢工作?
下一篇:四川九寨沟地震,中国地震网采用机器人撰稿

推荐阅读最新更新时间:2024-05-03 01:27

人脸识别 是否将成为AI+时代首个临近的奇点?
人脸识别技术,作为计算机视觉的头号当家花旦,在国内人工智能领域最近成为了一颗璀璨的新星。     早在去年年底,阿里系的旷视科技(Face++)就获得了1 亿美元融资,而本月聚焦计算机视觉技术的商汤科技更是获得了4.1亿美元的B轮融资,创下全球人工智能领域单轮融资最高纪录;云从科技、依图科技、深醒科技等人脸识别玩家在近期均获得了千万美元级融资,这些清一色的轻资产算法公司,能获得资本市场如此巨量的融资,本身就是一个奇特的现象,难怪连看好人脸识别领域的李开复,也惊叹这个产业“竟然能养活四只独角兽”。       另外除了这些上游算法提供商,海康威视、大华股份等传统安防行业巨头均投入大量资金进行人脸识别的
[安防电子]
由于人类已经无法理解,Facebook下线人工智能聊天机器人
事有不尽如人意时。你有没有这种感觉,别人在你背后说悄悄话,但你完全猜不透他们在说什么?那么,再想想如果在背后策划密谋的是机器—— 人工智能 聊天机器人 ——并且更可怕的是,他们还在用自己的语言进行交流,而你,区区人类根本无法理解!   上述情景正是 Facebook 最近遇到的困扰。Facebook发现其研发的AI聊天机器人在以一种英语的简写突变形式交流。比如,Facebook给出和了俩个聊天机器人Bob和Alice的对话内容:     从表面上看,这些重复的单词对人类毫无意义。但是,来自Facebook AI Research(FAIR)的研究科学家Dhruy Batra表示,这就好比人类经常使用英语的“简写”来方便其他人理
[嵌入式]
临床试验显示,使用人工智能会使更多患者参与乳腺癌试验
明尼苏达州罗切斯特 -- Mayo Clinic和IBM Watson Health今天公布了早期使用沃森(Watson)系统 (IBM的一个认知计算系统)进行临床试验匹配的结果。在Mayo Clinic的肿瘤医疗服务中使用该系统与参加Mayo乳腺癌临床试验的患者增加有关联。 以上两者还宣布了一项协议,旨在扩展和扩大该系统的训练和使用。 有关其他癌症类型试验的训练也已在进行当中。 目前,该系统已经可以支持乳腺癌,肺癌和胃肠癌的临床试验匹配。 临床试验可为患者提供有前景的新型治疗方法。 但是使患者参加并被匹配到适当的试验是一个耗时耗力的过程。全美国仅有5%的癌症患者参与了临床试验。 因为参加的人数少,许多临床试验完成的速度极
[医疗电子]
高通总裁:生成式AI将带来全新的人车交互方式 支持人车对话
2月26日-2月29日,2024世界移动通信大会在西班牙巴塞罗那举行。 高通公司总裁兼CEO安蒙在大会期间表示,移动通信发展的一个核心目标就是连接万物,网络在提供连接和感知能力的同时,也正成为全新的计算引擎。生成式AI将变革终端侧的用户体验,具备生成式AI能力的PC能够更好地理解用户需求,生成式AI还将带来全新的人车交互方式,支持用户与汽车直接进行对话。此外,生成式AI将为各行各业带来全新机遇。 高通总裁发言。 如今,生成式AI变革正加速数字化转型,推动经济增长。根据麦肯锡的研究,生成式AI技术可使60多个用例每年实现2.6万亿至4.4万亿美元的总体经济效益增长,经济规模大致相当于英国2021年的GDP(国内生产总值)
[汽车电子]
高通总裁:生成式<font color='red'>AI</font>将带来全新的人车交互方式 支持人车对话
浸没式液冷SSD 建兴储存科技锁定AI运算数据中心
建兴储存科技(铠侠子公司,铠侠前身为东芝记忆体)推出了支持浸没式液体冷却5年保固的SSD产品-ER3系列企业级SATA SSD。 ER3系列专为满足当今大规模数据中心的严格要求而诞生,具有高可靠性和高耐用度,可以应对高工作负载和大量写入操作,并支持服务器直接液体冷却技术。 随着NVIDIA(英伟达)执行长黄仁勋与AMD(超微)执行长苏姿丰相继来台,AI热度持续升温,数据中心成为全新的运算单位。 根据研究报告指出,全球大型数据中心的年复合成长率为16.5%,2027年将达到767.3亿美元的规模。提升储存效能与密度已成为必然,而AI服务器的高速运算伴随高密度发热,对散热效率要求极高,散热模组规格升级,由空气冷却走向液体冷却
[嵌入式]
浸没式液冷SSD 建兴储存科技锁定<font color='red'>AI</font>运算数据中心
AI可以用来预测心脏病发作 比专业医生还准确
随着我们的年纪越来越大,体检就变得越来越重要。定期体检可以帮助医生检测出我们存在潜在的健康问题,而一些问题能够提前预防或者做好措施,就可以减少发病时带来的影响。比如如果心脏病能够提前预防的话,甚至能够挽救我们的生命。 不过医生也是人,也有判断失误的时候,也会出现错判心脏病发作几率的事件。因此来自英国诺丁汉大学的研究人员已经开发出了一种全新的机器学习算法,能比人类医生更准确的预测心脏病发作,这就意味着通过人工智能技术未来我们可以降低更多心脏病带来的危害。 这套系统算法基于美国心脏病协会标准定制,可以估算出一个人的心脏病发作风险。普通医生预判心脏病的准确率为72.8%,而这套人工智能算法能够将准确率他声道74.5%达到76.4%。整个
[医疗电子]
本田ASIMO: 会跳舞的机器人
就算处在高科技爆炸式发展的今天,仍然会有一些东西能够让你惊叹到下巴脱臼。本田公司的ASIMO机器人就是这样一个东西。 当你看到这个双脚直立的人形机器人单脚跳着转圈,向后退几步然后助跑去踢一个足球,或者越走越快直到跑起来,你需要提醒自己的是,这不是一个穿着机器人套装的人的表演,也不是计算机预先设定的程序产生的效果。这是一个具有自主机械感应的直立行走机器人,它通过传感器得到信号来自主做出决定。它的名字叫ASIMO,是词组”Advanced Step In Innovative Mobility”(伟大的创新)。 本周第一次亮相北美的ASIMO “Version 3”是本田发布的最新版本机器人。其实早在2011年,“Ve
[手机便携]
本田ASIMO: 会跳舞的机器人
AI底盘已成新能源汽车新战场
3月27日早,吉利汽车发布的一条“无人驾驶漂移”视频,引起了大量车友的关注。毕竟,这也是全球范围内第一个无人特技驾驶。 虽然AI人工智能上车已不是新鲜事,但截至吉利视频发布前,大多数品牌对AI的应用仅仅停留在车机,也就是语音助手阶段。这样一看,吉利这次可谓是大秀了一把,毕竟要实现无人驾驶漂移,里面的门道可多了。 不同于人为驾驶车辆漂移的是,无人驾驶漂移需要考验底盘各部件的协作能力,包括前后轮扭矩释放、转向角度等等,若各部件协作不过关,漂移时的车身姿态控制就没有保证,就容易失控。 而从视频中能看到,吉利的这套AI数字底盘确实大有看头。至于吉利哪些车型会率先搭载?目前并无确切信息,但官方表示,最晚明年就能将这一技术应用到银
[汽车电子]
<font color='red'>AI</font>底盘已成新能源汽车新战场
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
随便看看
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved