Icbank半导体行业观察

文章数：25311 被阅读：103629709

硬件之智能语音领域的分析

最新更新时间：2017-03-05

阅读数：

来源：内容来自安创空间，作者冯棕煦，谢谢。

上次对计算机视觉这块做了简要的介绍，本文想对智能语音领域做分析。自Amazon推出Echo之后，到去年11月份已经卖出510万台，引爆了整个市场。随着Amazon 开放其背后的 Alexa 平台，在很短的时间里面，搭载 Alexa 的硬件品类已经超过7000种，语音作为智能硬件入口的观点被很多人认可。

基于此，本文想对智能语音领域的总体格局作一些探讨，对未来趋势的判断上提出自己的意见。再去深入分析产品本身，理解产品的硬件、软件、算法、系统、云管端等组成，分析在总体的竞争格局下，可能存在的机会。很多Knowhow来自对语音领域专家的访谈，以及阅读相关资料，所以有不足之处请指出。

总体格局

根据《中国智能语音产业发展白皮书》的报告，全球智能语音产业规模在2017年预计能突破100亿美元，而同时我国在这一产业能突破100亿元人民币。

从硬件来讲，根据Future Source的数据，智能音响增速更快，在音频设备中的占比也逐步提升，预计2013-2019年全球智能音响复合增长率为14%。

随着亚马逊 Echo 和 Alexa 的大获成功，几乎国内外所有 IT 巨头都相继进入了语音交互市场，包括谷歌、苹果、微软、亚马逊、Facebook、三星、阿里、百度、腾讯、华为、科大讯飞、搜狗等，还包括了海天瑞声、中科信利、接通华声等公司，当然还包括很多初创企业包括思必驰、云知声、出门问问、声智科技、三角兽、蓦然、Rokid、傲硕等创业公司。从市场份额来讲，全球还是以 Nuance、Google、Apple 市场份额最大，国内来讲以科大讯飞和百度，其中科大讯飞占了约40%的市场份额。

目前来看各公司大概会在几个方向上布局：第一个方向是凭借智能语音硬件产品及平台，包括亚马逊的 Echo 硬件和 Alexa 平台、Google 的 Google Home 硬件和Assistant，国内的很多公司也在纷纷效仿，如科大讯飞、云知声、思必驰、Rokid等凭借在数据、算法和平台上的优势，开始布局硬件，甚至开始布局芯片。由于云和端甚至芯片的全面布局，这类企业在语音领域会有很强的把控力，但需要大量的资源和能力作为支撑。如亚马逊的 Alexa 能够快速推广的原因是亚马逊免费授权政策和销售渠道，在接入 Alexa 语音服务和授权项目方面，亚马逊完全免费。就连与产品销量挂钩的销量分成也并不存在。亚马逊既提供平台，又提供渠道资源，利用电商平台帮助销售；第二个方向主要以移动终端作为硬件载体，主要是因为移动终端特别是智能手机市场的存量特别大，以及结合各种APP应用多样性，是很多公司特别是互联网公司喜欢的模式。利用自己的算法优势，作为智能手机的语音助理，包括Apple、微软、百度、出门问问等，当然这些公司资源丰富，也会切入到其他智能硬件领域，包括Google会在多领域布局；第三个方向会切入到细分专业市场，如车载市场，Nuance有发布Dragon Drive语音助手，国内也有傲硕专攻车载语音这样的创业公司。同时，基于这些方向，很多公司会相互合作，百度和小鱼在家机器人公司深度合作，打造内嵌百度语音操作系统DuerOS的智能终端产品，京东联合科大讯飞发布智能音箱叮咚等。当然对于更早期的创业公司可以凭借自己在某一点的优势，与其他企业合作，切入到这些方向。

从商业模式上来看，大家看好亚马逊的很重要的原因是它拥有电商平台、云平台以及硬件开发的能力。通过开放Alexa，后端整合内容及服务，前端整合各类用户的终端设备，用户数和服务数都能快速增长，形成自己的生态壁垒。随着第三方的开发者越来越多，Alexa涵盖的技能也越来越广泛，除了查询天气、播放音乐、创建任务、设置闹钟、发送消息之类的基本功能之外，还支持预订外卖、Uber 打车、控制家用电器等各种功能。除了第三方开发者，Alexa也已经对第三方硬件厂商开放，已经有冰箱、汽车等加入到了支持Alexa的大军。但从现在的应用场景的使用量来看，还是以新闻、查询天气、闹钟等为主，如何使语音作为入口，建立人与人之间的连接，以及人与物、物与物之间的连接，我这里说的连接不是仅仅只通讯上的连接，而是人与人之间情感上的，人与物、物与物可以帮助决策、方便生活上的连接。目前来看，现在还只是早期，需要更多的探索，换言之，虽然亚马逊现在稍有领先，但是其他公司都有机会，格局未定。

从国内来讲，由于我国特殊的环境与政策，以及中文语言的壁垒，包括服务器不在本地等因素，在相当程度上对国外语音巨头的进入形成了壁垒。因此我看好国内智能语音公司的发展，但同时这也是双刃剑，也阻止了国内智能语音公司向欧美等国家的发展，可能东南亚市场可以做部分切入。但有一点必须要正视，虽然我国人口众多，但是目前美国有大约 460 万家庭用户安装了智能家居系统，支撑了 Echo 这样的智能设备的成功。而中国只有30万用户，基础设施与用户习惯上的差距，可能会影响智能语音硬件，如智能音箱等在中国的普及。但从最终的趋势来看，在中国市场肯定会有一家或几家如亚马逊提供平台级的公司，提供云到端的服务。但是这也绝非易事，京东联合科大讯飞发布的智能音箱叮咚，市场就反响一般，这当然有中国市场的因素，但本身产品上也是重要原因。不得不说的是Rokid是另外一个更具想象空间的一个例子，由于Rokid的硬件载体是家庭机器人，基于上面的应用价值和想象空间会更大，从报道上来看，Rokid的声纹识别、方向识别、语义理解和主动感知上都能达到业界领先水准，不仅能够知道唤醒它的人是谁，还能在嘈杂环境下准确分辨出声音来源，而且识别距离最远可达 10米。当然前提是家庭机器人的广泛应用，但这至少会使 Rokid 在家庭机器人市场优于其他竞争对手。

价值链分析

上面讲的是总体的格局，接下来想从智能语音硬件的产品架构开始谈起，从细节处、包括软硬件等角度去发现在这领域内可能存的机会。我一直认为，产业链价值是相互传导的，某一个细分的技术有可能在某时间点变成产品差异化的关键，好比智能手机领域，在去年双摄成为差异化的关键因素，而在更早以前，是其他的技术或部件起关键作用。所以我觉得有必要做更深入的分析和理解，而不能仅仅在宏观上的分析，那样很容易留于表面。先看一下Echo和Google Home的Teardown。

亚马逊Echo

Echo 的售价为 179.99 美元，采用 6+1 的麦克风阵列，主芯片采用德州仪器的数字多媒体芯片，同时采用高通 Atheros的 WiFi和蓝牙。此数字多媒体芯片与 OMAP3架构兼容，最高可以到1GHZ，ARM Coretex A8架构，具有较高的音视频编解码能力，内嵌TI的DSP Core，下图是该芯片的架构图。在软件上，该产品使用Alexa系统，能支持各种应用，上面已有说明。

Google Home

Google Home 售价为 129 美元。采用双麦克风阵列，两颗InvenSense INMP621 MEMS 收音芯片。由于 Google 与 Marvell 在 GoogleTV 以及电视棒 Chromecast 上的良好合作，所以此次也采用 Marvell 88DE3006 Armada 双核ARM Cortex-A7 多媒体专用处理器，该芯片也是电视棒的主芯片。以及Marvell Avastar 88W8897 WLAN/BT/NFC SoC通讯芯片。未找到该颗主芯片的硬件架构图，下图是ARMADA 1500 同系列高配芯片架构图，带Audio DSP。在软件上，该产品使用Google Assistant系统。

亚马逊 Echo 和 Google Home 在硬件上最大的区别，还是在于亚马逊使用环形6+1麦克风阵列，而Google是采用双麦克风阵列。麦克风阵列是利用一定数目，一定空间构型的声学传感器（一般是麦克风）组成，用来对声场的空间特性进行采样并处理的系统。麦克风阵列能做很多事情，对于环境噪声，它可以采用自适应波束形成做语音增强，从含噪语音信号中提取纯净语音；对于说话人说话位置的不确性，它可以通过声源定位技术来计算目标说话人的角度，来跟踪说话人以及后续的语音定向拾取；对于室内声音反射，导致语音音素交叠，识别率较低的问题，它可以通过去混响技术，减小混响，提高识别率。

按照业内人的观点，在家庭的环境内，如果优化的好，双麦克风阵列可以做到与多麦克风差不多的语音增强和降噪效果。双麦克风阵列只能定位 180°内的范围，而多麦克风则可以做到 360°的定位。但是这要依硬件设备的使用场景而定，比如在机器人领域，对声源定位的要求很高，如Rokid机器人使用8麦克风阵列。但是在有些应用场景，如靠墙的冰箱等，只需要180°的定位。在汽车领域，则最好是选用其他结构形式的麦克风阵列，比如分布式阵列。目前国内主流的智能语音企业在双麦克风方案上都有布局，仅云知声目前搭载双麦克的芯片模组每月的出货量就超过几万片。

最近的发展趋势在远场识音方面，即 5 米以上的语音交互。为了实现更好的效果，多麦克风方案是必须的，麦克风个数越多，对说话人的定位精度越高，但这个精度体现在距离上，如果说话人的距离不是很远，则差异未必能够体现。因此要综合考虑实际的应用场景，选择不同的麦克风个数和阵型。在这方面出了亚马逊的Echo是采用6+1阵型，国内科大讯飞是 4 麦和 6+0 麦方案，思必驰的 6+1 麦方案，以及声智科技的4（+1）麦阵列、6（+1）麦阵列和8（+1）麦阵列方案。值得一提的是麦克风阵列最好和前端算法和云端识别相结合，麦克风阵列只是起到了拾取声音，但语音的识别率还要考虑算法的模型的计算，只有终端硬件和前端算法、云端识别相结合，才能使识别率达到最佳，这也是亚马逊、谷歌甚至微软这类企业不得不做硬件的根本原因。比如声智科技，就非常重视麦克风阵列与算法的软硬件结合的远场识音技术，这也是大家很看好的原因。目前的技术还是以单人识别的模式，未来在某些应用场景下需要多人识别的技术，这也是创业的机会所在。

从硬件本身来说，麦克风的小型化、低功耗、低成本也是重要的发展方向。在小型化方面，MEMS的麦克风技术迎合了这种发展趋势，目前楼氏占据了全球MEMS麦克风市场的最大市场份额。据楼氏透露，其 2015 年全年的出货量接近 16 亿颗。但 IHS分析指出，由于Goertek、意法半导体与瑞声科技都在快速增长。除了麦克风本身的小型化，麦克风阵列的小型化也是重要的方向，麦克风阵列受制于半波长理论的限制，现在的口径还是较大，声智科技现在可以做到2cm-8cm的间距，但是结构布局仍然还是限制了ID设计的自由性。

很多产品采用2个麦克风其实并非成本问题，而是ID设计的考虑。在低功耗方面，据楼氏智能语音硬件负责人介绍，他们将声学活动检测（Acoustic Activity Detector, AAD）单元放到了麦克风里面，实现一个自适应的实时监听模式，这种方式能够使整个系统节能70%。而另一家声学传感器开发商Vesper，近日推出了首款商用静态传感 MEMS 器件，使声学事件监测器件实现几乎零功耗。当处于监听模式时，Vesper 最新的压电式MEMS 麦克风 VM1010 所需功耗仅为 3 µA，。当然这是与芯片的 DSP 模块、语音接口和关键词检测算法等相结合，才实现了最低功耗的远场监听效果。就麦克风阵列的低成本而言，除了芯片本身降低成本之外，还需要从麦克风阵列整个结构和系统去考虑，包括器件、芯片、算法和云端。在这方面还有很多的改进空间，也是机会所在。

就处理芯片来说，亚马逊和 Google 都是采用常规的多媒体处理芯片，里面有audio codec的DSP。新的趋势可能是在处理芯片里面嵌入深度神经网络，如去年楼氏并购了语音解决方案供应商Audience后，为楼氏带来几项重要的技术，其中就包括通过深度神经网络（DNN）的基于机器学习的语音识别，我们希望早日看到这类芯片的出货。当然对于芯片而言还有一个方面是做更高的集成度，包括集成WiFi/BT、DSP、audio Codec的SoC单芯片，我们也看到基于WiFi/BT的Combo芯片，带Corex M3/M4，若再加上audio Codec，就是单芯片的方案。当然这里的前提是有足够的量做为支撑。

就算法而言，语音识别在2012年卷积神经网络（CNN）应用之后，准确率大幅提升，已经在C端、B端得到了广泛应用。当前语音识别技术的主流算法，主要有基于动态时间规整（DTW）算法、基于非参数模型的矢量量化（VQ）方法、基于参数模型的隐马尔可夫模型（HMM）的方法、基于人工神经网络（ANN）和支持向量机等语音识别方法。语音识别整个过程包含语音信号处理、静音切除、声学特征提取、模式匹配等多个环节。由于语音信号的多样性和复杂性，系统只能在一定限制条件下才能获得满意效果。在真实使用场景中，考虑到远场、方言、噪音、断句等问题，准确率会大打折扣。

目前业内普遍宣称的97%识别准确率，更多的是人工测评结果，只在安静室内的进场识别中才能实现。按照微软首席研究员俞栋的看法，需要在几个方面做改进，包括进一步提升在远场识别尤其是有人声干扰情况下的识别率；提供更好的识别算法，一个方面是能不能更简单，另一方面寻找一些特殊的网络结构放到模型里面，以提升性能；还有一个方向是快速自适应的方法，快速的不需要人工干预的自适应方法（unsupervised adaptation）。但我始终觉得，单靠算法不足以形成足够持续的竞争力，特别是越来越多的算法会走向开源，需要与数据、硬件以及好的商业模式相结合。

刚才提到的都是基于某个点的优化，无论是麦克风阵列、芯片化还是算法，都是需要很高的技术作为支撑。但作为创业公司来说，都是根据自己的资源，结合当前产业链的现状以及趋势，找到自己能立足的地方。针对当前很多巨头都在关注智能语音领域，他们必定花费大量的资源投入其中，作为创业企业，如果能借助这些资源，找到自己在细分市场的发展空间，也是不错的选择。如 Linkplay 在推广 Alexa 业务中扮演第三方中间商的角色，为硬件厂商提供 Alexa 接入语音服务与授权渠道，帮助厂商快速实现Alexa相关功能；筛选品牌，协助亚马逊做好认证工作，保证用户体验Alexa服务的一致性和标准化，这是基于中国有大量的硬件厂商，而最终客户往往都是海外的考虑，公司找到了这样的机会。虽然这涉及到过渡依赖的问题，但是有其存在的意义和发展的空间的，企业也可以在服务方面打造自己持续的竞争力。

还有一种创业模式是平台型的模式，这里说的模式不是只是基于语音的云管端模式，而是把语音作为其中的一部分，甚至语音不是最重要的部分，同时服务于不同的客户。一个例子如迪韵科技，可以在物联网音视频领域提供一站式解决方案，其Mediawin平台为传统行业以及硬件企业提供“耳朵”和“眼镜”方案。Mediawin方案平台整合了多方面的资源，比如与多家声学器件厂商合作定制了麦克风、喇叭等声学器件；与专业芯片厂商合作开发了深度优化的音频处理算法；与语音识别方案商合作提升语音识别的准确率；接入第三方的平台提供更多的音视频应用功能等。根据客户的不同需求，比如白牌企业可能需要完整的音视频解决方案、大企业可能仅需要底层处理算法支持、方案商需要整合专业的处理算法+云平台资源等，提供定制化的软硬件方案服务。在设备端，Mediawin平台针对各种嵌入式产品，拥有完善的硬件解决方案，比如专业的音腔设计、音视频器件选型、声学场景优化、音视频模组等，能帮助企业简化6大音视频开发难题。相对于亚马逊 Alexa 以及 Linkplay 的组合，迪韵提供了更完整和多样化的方案路径。当然这种模式能做多大尚需考证。

虽然智能语音领域已经有很多大企业进入，但是机会仍然很多，需要我们去深入理解和挖掘，知道适合自己的发展机会。

eading

推荐阅读（点击文章标题，直接阅读）

★从封测现状对中国半导体投资的一些思考

★Cypress裁掉一个部门，公司出售的前兆？

★上海浦东IC产业发展概况，占中国集成电路产值17%

【关于转载】：转载仅限全文转载并完整保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“半导体行业观察icbank”微信公众号。谢谢合作！

【关于投稿】：欢迎半导体精英投稿，一经录用将署名刊登，红包重谢！来稿邮件请在标题标明“投稿”，并在稿件中注明姓名、电话、单位和职务。欢迎添加我的个人微信号MooreRen001或发邮件到 jyzhang@moore.ren

点击阅读原文加入摩尔精英

Icbank半导体行业观察

最新精华更多

硬件之智能语音领域的分析

最新有关Icbank半导体行业观察的文章