Alexa 估值近百亿美元,AI 巨头为何在语音交互市场抢夺赛道?
雷锋网按:本文作者袁媛,来自微信公众号 “声学在线”(ID:soundonline)。
1、国内外巨头相继进入语音交互领域
去年 10 月份,Intel 与科大讯飞宣布合作共同研发 AI 芯片,该芯片将麦克风阵列、远场语音识别等功能集成到 SOC 当中,形成完整的远场语音交互链条,此次合作正式宣告 Intel 也将进入智能语音交互市场。
此前,科大讯飞的麦克风阵列等硬件一直委托国内的全志科技研发,全志科技显然是 ARM 阵营的追随者。然而,根据 Intel 内部人员的透露,科大讯飞对于和国内芯片厂商的合作并不完全满意,语音交互市场竞争激烈,而国内初创公司如声智科技等,在麦克风阵列技术和方案方面带给讯飞不小的压力,这近一步促成了科大讯飞与国外芯片巨头 Intel 的联盟,希望与 Intel 联合的芯片计划从根本上扭转这个趋势。
今年 2 月份,百度宣布全资收购渡鸦科技,创始人吕骋携团队正式加盟百度,并出任百度智能家居硬件总经理,向百度集团总裁和首席运营官陆奇汇报。陆奇同时宣布原度秘团队升级为度秘事业部,加速人工智能布局。陆奇指出,凭借语音与对话技术的优势,百度在引领新一代人机交互平台上将拥有巨大的机会,自然语言和其他智能交互方式有可能出现在从手机到家居的每一个设备中。百度通告还显示,百度高级总监景鲲和首席架构师朱凯华将担任事业部的核心管理层。
而近日,据彭博社报道,华为在深圳有一个超过 100 名工程师的团队正在开发语音助手服务,开发工作目前还处于早期阶段。华为语音助手项目目标宏大,瞄准苹果 Siri、亚马逊 Alexa 和 Google Assistant。华为语音助手定位中文,面向国内用户,在海外市场将继续与谷歌和亚马逊合作。
同样,三星在语音助手领域更是积极布局,2016 年 10 月份收购了 Viv,同时以 80 亿美元收购哈曼国际,随后又联合 GPU 巨头英伟达投资 SoundHound。SoundHound 是一家致力于语音识别与搜索的初创科技公司,最初要服务是提供和音乐有关的信息。
Facebook 创始人扎克伯格也在 2016 年自己花费 100 小时完成了 AI 管家 Jarvis 的开发。扎克伯格及家人可用语音向手机或计算机下达语音指令,实现灯光、温度、电器、音乐和安防设备的控制操作。Jarvis 系统具备的学习功能可使其识别主人的偏好模式、学习新词汇与相关概念。
随着亚马逊、谷歌、微软相继在语音交互设备上发力,市场已经看到了这一领域的无限潜力。语音作为人类交流最自然的方式,比文字和图像更具天然的优势。尤其是亚马逊 Echo 的成功,把人们带到了了无屏时代的门槛。日前,亚马逊创始人贝佐斯接受专访提到,Alexa 已经成为亚马逊的核心战略之一,其估值可能接近百亿美元。
而苹果在这场战争中则另辟蹊径,选择从智能耳机入手。近日市场调研公司 Slice Intelligence 发布的美国无线耳机市场线上销售情况报告也证实了这一点。短短的一个月内,苹果 AirPods 就异军突起占据了美国无线耳机 26% 的市场份额。该报告显示,AirPods 发售前,无线耳机市场基本由 Beats 和 Bose 占据主导地位;但在 AirPods 发售后,市面上前十大无线耳机品牌中,除了 Bose 的市场份额有所增长外,其他品牌地市场占有率均不同程度地缩水,其中甚至包括曾经称霸无线耳机市场多年的 AirPods“同门师兄”Beats。
至此,几乎国内外所有 IT 巨头都相继进入了语音交互市场,包括谷歌、苹果、微软、亚马逊、Facebook、三星、阿里、百度、腾讯、华为、科大讯飞等等,国内也陆续出现了思必驰、云知声、声智科技、三角兽、蓦然、Rokid 等创业公司,语音助手成为了非常火爆的话题,几乎掀起了全行业研究亚马逊 Echo 的热潮。
2、语音交互市场趋势和规模已被普遍认可
VoiceLabs 近日发布了《2017 年语音报告》(The 2017 Voice Report)。报告对亚马逊 Alexa 和谷歌 Google Home 的开发者和消费者进行了调查,总结了目前的智能语音市场,并对 2017 年的趋势做出预测。2017 年,语音产业结构将按照硬件产品、AI 软件、语音应用 Apps、生态系统服务相结合的架构继续向前发展。预计 2450 万台以语音为主要交互方式的智能硬件产品发货,市场总量将达到 3300 万台,市场规模超过 200 亿美元。而对各种智能语音助手以及语音交互 app 而言,竞争将更加激烈。
亚马逊于 2014 年底推出智能音箱 Echo,如今已成为美国使用最广的智能家居产品。根据 CIRP 的报告,自 2014 年 11 月发布到 2017 年 1 月,亚马逊 Echo 系列(包括 Echo、EchoDot 和 Tap)用户已达到 820 万,同比增长 2 倍,较 2016 年 11 月时的数据增长 60%。而公司 2017 年的销量目标是 1000 万。销量激增的背后是 Echo 正迅速从早期用户 的小众圈子进入大众市场。
从产品销量,技术进展,到相关创业公司的兴起,以及资本市场的频繁运作,种种迹象表明,智能语音交互市场的趋势已经明朗,语音是 AI 领域中最先落地的应用之一。这从电子技术发展历程中也可参考类比,以语音为核心的电话是 20 世纪最伟大的发明之一,而其后相当长的时间才出现以视频为主的电视,移动电话同样遵循了这个规律。从物理层面来看,语音信号无论是从数据量还是计算量方面都低于视频信号,这在趋势刚兴起的时候,更容易适用于远未标准化的硬件体系,但是随着技术的发展,多传感的融合仍然是根本趋势。
3、语音交互的全球竞争态势初显
VoiceLabs 预测,亚马逊或谷歌今年会通过类似手机上的推送通知来加强新应用的分发,并试图解决用户留存率低的问题,2017 年也将是语音应用货币化的起步元年。当智能语音助手充分了解 “主人” 需求之后,应有能力在合适的时间主动提示合适的应用,既提高用户的使用价值,又解决了语音应用的分发留存问题。
从全球来看,亚马逊 Echo 最著名也最有竞争力的对手当属谷歌的 Google Home。Google Home 自 2016 年推出以来,一直与 Echo 明争暗斗,争抢智能家居中枢的角色。通过亚马逊和谷歌在美国 “超级碗” 投放的电视广告就能体会到这种竞争的激烈,两家不约而同地打出了温馨家庭 “懒生活” 牌,突出产品智能管家的功能。
美国市场调查机构 Slice Intelligence 近日发布的一份报告,对在线购买 Echo 消费者的性别、年龄、购物习惯等特征进行了统计。某种层面上,这意味着 Echo 在消费者眼中不再是只有极客和技术控才感兴趣的 “玩意儿”,而是获得广泛认同的大众消费品。当电子消费品获得了女性用户的认可,并且呈现出女性消费者占据市场购买主导优势后,产品将逐渐成为成熟品类,并迅速出现销量攀升态势。
Google 已经意识到与 Amazon 的差距,尽力通过收购等方式快速弥补这种差距。2017 年 1 月初,谷歌宣布收购 Limes Audio,并表示将会把 Limes Audio 集成到自己的视频会议解决方案中,为客户提供低成本、高质量的音频体验。「 Limes Audio 总部位于瑞典于奥默,成立于 2007 年,业务重心为提高双向语音通话系统的语音质量。Limes Audio 专注语音信号处理,该公司开发的 TrueVoice 音频软件套件通过回声消除、环境降噪及自动混音等技术,改善通信中的语音质量。」
反观国内,类似 Echo 的产品始终没有吸引到消费者的眼球,一般来说,国内相比国外市场有 6-18 个月的延后,但是以国内的技术水平来看,可能需要的时间更长一些。国内在语音助手方面的布局略显不足。科大讯飞虽然从技术链条上最为完善,也推出了类似 Echo 的叮咚产品,但是市场反响一直没有达到预期。
百度、阿里、腾讯、360 也极大投入做了布局,但是技术链条仍不完善,产品和服务始终没有很好的落地。即便在技术环节,国内活跃的创业公司相比国外也少了很多,语音识别领域主要还是云知声和思必驰,NLP 领域主要是三角兽、蓦然、竹简等,而融合语音感知和语音识别主打底层逻辑的创业公司还仅有声智科技一家,显然技术也制约了国内智能音箱的产品进度。
还有一个值得关注的消息,华尔街日报援引消息人士的说法,亚马逊和谷歌都在研究为其智能音箱增加语音通话功能,该功能预计将于今年推出。如果这一计划能够成功实施,无疑将进一步提升智能家居的体验。
4、语音交互将会带来哪些根本性变化?
从当前 Amazon、Google、Apple 的市场实践来看,智能语音交互至少在三个领域带来了根本性的变化:
智能语音交互将改变音乐分发的格局
音乐行业是亚马逊还没有征服的一个领域,亚马逊早期在 CD 零售上的领头羊地位因为 MP3 盗版的影响而不复存在。在音乐数字下载的年代,亚马逊在音乐销售上被苹果的 iTunes 商店超越。在 2005 年亚马逊进行过一次音乐流媒体的内部尝试,但是在产品正式发布前就被叫停了。这给市场留下了一个空白,而现在这个市场被 Spotify 和 Apple Music 占据,它们各自有着 4000 万和 2000 万的用户。亚马逊为了抓住更多耳朵的最新尝试是在 2016 年 10 月发布的 Amazon Music Unlimited,这是一项基于订阅的流媒体服务。
亚马逊的数字语音助手 Alexa 将会是决定 Amazon Music Unlimited 能否成功的关键因素。Alexa 使用的精巧的语音识别算法在过去几年中逐渐成为了行业中的领先技术。得到这样的领头羊地位后,贝佐斯努力尝试将 Alexa 推向更多的应用领域最开始是通过它的亚马逊 Echo 音响设备,而后又把 Alexa 集成在小型化后的 Echo Dot 中。Echo Dot 一举成为了亚马逊在过去一个假期中销售表现最好的产品。贝佐斯的狂热也传染给了音乐行业,许多音乐节的高管们都对这些设备赞不绝口。
苹果由于意识到 Siri 在远场技术与 Alexa 的差距,选择以近场语音交互为主的 AirPods 智能耳机为切入点发力,相比音箱,耳机的利用率更高。所谓的智能家居,总是寄托于 “家” 的。一个家庭或许只需要一台智能音箱,但耳机则是更个人化的物品,每个家庭成员都可能拥有不止一副耳机。而且,耳机作为一种已经被广泛接受的可穿戴设备,有更多更自然的应用场景。耳机的便携性使其更有潜力成为一种 “无缝陪伴式” 的智能产品。AirPods 最为核心的功能也是利用 Siri 增强苹果音乐分发的能力。
从亚马逊和苹果的实践角度来看,Alexa 成为了音乐分发的重要渠道,这对于国内仍然在困境之中的在线音乐行业是一个值得深入思考的事情。
语音交互将会成为下一代搜索的核心
毫无疑问,通过语言交流获取知识是人类最有效的学习方式。搜索从 PC 时代的搜索框到移动时代的 APP,其实都是在向着精准搜索的方向发展,而语音交互天生就有这两种优势。从 Amazon Echo 和 Google Home 的用户群体分析,小朋友更是喜欢这种知识学习方式,而习惯就是这样逐步被改变。Google 是最早认识到这一点的巨头,典型的举措便是把最有现金流的 Google 搜索纳入到母公司 Alphabet 中。
语音交互可能会改变社交领域的格局
国内外社交领域似乎很难再有新的变化,但是随着 Amazon Echo 和 Google Home 的崛起,用户已经强烈建议增加语音通话功能,苹果的 AirPods 显然天生就具有了通话的功能。这就产生了一个问题,Amazon 和 Google 会接入现有的社交软件吗?苹果是不是也要通过 AirPods 继续强化自家软件的社交能力?至少,这也是值得国内各大巨头深入思考的问题。
5、语音交互技术和市场还有哪些不足?
国内普遍不太看好智能语音交互市场的原因其实很简单:体验不好,市场还早。的确,当前的语音交互技术,特别是远场语音交互技术还没有完全成熟,就连 Echo 至多也就是 80 分的水准。这主要是由于语音交互涉及了非常复杂的技术链条,包括了声学处理、语音识别、语义理解和语音合成等核心技术。
声学处理主要是仿真人类的耳朵,保证机器能够听得准真实环境下人的声音,语音识别则是把听到的人声翻译成文字,语义理解则分析这些文字的意义,语音合成就把机器要表达的文字翻译成语音。这四项技术虽然独立发展,但实际上无法割裂,同时在其他技术的配合下,才能形成一次语音交互的完整链条。
从当前的技术水平来看,这四项技术已经达到了商业初级可用的阶段,但是距离我们满意还应该有 3-5 年时间的距离。即便是被国内几家公司号称最为成熟的语音识别,其实也处在近场到远场的技术升级期。
以 Siri 为代表的近场语音识别已经发展了 60 多年,特别是在 2009 年以后借助深度学习有了实质性提高,但是正如扎克伯格所说的,当真正产品落地的时候,我们发现用户真正需要的却是类似 Echo 所倡导的远场语音识别。显然,这又是一个崭新的技术领域,因为拾音距离的扩大带来的问题不仅仅是语音信号的衰减,而且还带来了复杂的真实环境以及复杂的用户习惯。
以 Siri 为代表的近场语音识别要求必须是低噪声、无混响、距离声源很近的场景,比如用户总是要对着手机讲话才能获得符合近场语音识别要求的声音信号,同时还要求用户满足标准发音,其识别率才有可能达到 95% 以上。但是,若声源距离距离较远,并且真实环境存在大量的噪声、多径反射和混响,导致拾取信号的质量下降,这就会严重影响语音识别率。同样的,我们人类在复杂远场环境的表现也不如两两交耳的窃窃私语。
通常近场语音识别引擎在远场环境下,若没有声学处理的支持,比如麦克风阵列技术的适配,其真实场景识别率实际不足 60%。而且,由于真实场景总是有多个声源和环境噪声叠加,比如经常会出现周边噪声干扰和多人同时说话的场景,这就更加重了语音识别的难度。因为当前的语音识别引擎,都是单人识别模式,无法同时处理多人识别的问题。
远场语音交互技术正在逐步成熟,Amazon 通过 Echo 已经证明了远场语音交互已经迈过用户可接受的门槛,而国内的科大讯飞和声智科技也在发力这个领域。
从市场层面来看,语音交互毋庸置疑是继键盘、鼠标和触摸屏之后的主流交互方式,但是距离真正走入国内市场还总是差那么一点。技术链条仅仅是其中一个小部分原因,从战略认知、资金投入到需求挖掘,国内公司都欠缺了很大的火候,而国内各大巨头更应该在战略决心和技术链条上发力。智能语音交互的全球竞争之中,国内的 AI 巨头似乎才刚刚苏醒。