现在的智能语音芯片将融合AI技术

2020-03-24来源: 网络整理关键字:智能语音芯片

智能音箱、智能家居如今涉足AI领域是个热门话题,到市场上就体现在这类产品的出货量以及厂商的宣传口径上。比较有趣的是,虽然智能音箱的所谓“主控”芯片制造商总在宣传自身的AI属性,绝大部分芯片内部还是鲜有AI专核,或者说神经网络专用计算单元。大概这类边缘设备的AI算力需求,靠CPU或可能包含的GPU就可以达成...

 

不过随着边缘算力需求提升,智能语音芯片算力加强本身也是这两年智能家居、智能音箱发展的趋势。比如面向智能音箱的主SoC中,CPU部分就有算力越来越高的趋势。不过通用处理器在面向智能音频设备时,效率并不高,所以我们看到有厂商开始为芯片加DSP与AI专核(NPU)。

 

这其中相对典型的全志科技近期推出的R329芯片及其智能语音解决方案,藉由这颗芯片及对应解决方案,我们大致也能窥见当前智能家居/智能音箱在AI这条路上的发展思路和方向,顺便看看在这类芯片真正有了AI专核以后,高算力的AI智能语音芯片是什么样子。

 

 

从配置看R329的定位

 

全球智能音箱芯片市场的主要玩家包括了高通、Intel、苹果、全志科技(Allwinner)、瑞芯微(Rockchip)、晶晨半导体(Amlogic)等。我们并不清楚在全球范围内或者国内,“主控”芯片厂商在智能音箱设备中具体的市场份额——不过从既有智能音箱的主芯片来看,国内的竞争似乎也相当激烈。

 

就全志来说,天猫精灵、小度在家、小度音箱Play、京东叮咚、小爱音箱Play、小爱音箱mini、腾讯听听、网易云音箱、索尼LF-S80D等这些相对较热的智能音箱都在用全志的主控芯片,这也让全志R328、R16、R58成为比较知名的智能音箱主控芯片。全志的R系列在定位上是面向边缘低功耗应用的芯片产品,不只是智能音箱产品:R40/R16另外相对知名的是在Banana Pi上有应用,R16也是石头科技扫地机系列产品的主控。

 

R系列产品中的R328去年也得到了Aspencore的“2019全球电子成就奖”音频处理器产品奖。在去年3月份的中国家电消费电子博览会上,全志展示过其强噪音环境的识别能力。就产品编号来看,R329似乎是R328的迭代产品,不过全志科技发言人告诉我们,这两款产品是不同定位的。

 

其中“R329是高阶定位,着力于大算力,3-8麦远场智能语音交互,可应用于带电池的超低功耗产品上,且接口丰富”,为当前市场中高端智能音箱提供更好的解决方案;而“R328偏向中端到入门级市场,2-3麦远场智能语音交互,成本更低”。

 

全志科技表示,R329的两大主要特点就是高算力与低功耗。其中高算力的部分,也更多涉及到了DSP与NPU。我们就尝试从这两方面来看看R329的产品特色。在此之前首先来全局看一看R329的参数配置与特性:

 

- 双核 Cortex-A531.5GHz 主频;

 

- DSP:双核 HIFI 4,400MHz 频率;

 

- NPU:周易 AIPU,800MHz, 0.256T;

 

- 存储:片上SRAM;内置 128MB DDR3;

 

- 扩展:集成多路音频ADC和DAC,3路I2S和8通道DMIC,同时集成LDOs。

 

 针对完整的智能音箱方案,全志也提供配套的WiFi与蓝牙芯片、音频ADC芯片等,满足不同客户需求。

 

从这一串配置大致就能看出R329在定位上是预备做高算力的,而且主要针对的是不带屏幕的智能语音交互产品。通用处理器部分选择的是Arm Cortex-A53微架构:这部分在整个系统的职能通常是跑操作系统、应用、网络连接等。全志更早的R系列主流方案用的是A7微架构——这也是市面上不少竞品的选择,还有一些选择了A35。

 

A53和A7都属于高能效比的架构方案,这两者在渲染管线上有着比较多的相似性,比如顺序8级管线。不过前者又有比较显著的同频性能提升,包括改用64位Armv8-A指令集架构与扩展,更完整的超标量支持。A53的双发射有着更强的灵活性,分支预测精度有改进;另外整数、浮点单元、Neon以及存储性能都有提升。

 

后续的A35实际更多的着眼于效率,它在性能方面定位于A7同档,整体微架构与A53也很相似——前端有一些变化,在取指单元上做了重新设计,取指带宽对能效做了权衡,指令队列更小;Neon/浮点管线在面积效率上有变化。

 

 

全志方面为我们提供了A53相较A35的性能提升数据,除了每个周期整数乘法与浮点单精度与双精度FLOPS性能,还有一些基准测试。这个数据也基本符合Arm早前官方给出的,基于不同场景A35性能大约是A53的80%左右。具体到R329芯片,相比R328“提供1.58倍整数算力,1.98倍浮点算力”——后者采用的是双核A7(1.2GHz),所以这个程度的提升也在预期中。

 

DSP与AI专核

 

从通用处理器选择A53就能看出R329的定位,不过在IP选择上更能凸显高算力的应该还在于DSP与AI专核。前文就已经提到通用处理器部分跑的是操作系统、应用、网络连接等;DSP负责信号处理算法、音效;还有AI专核,即NPU专门用于本地ASR(自动语音识别)、NLP(自然语言识别)和TTS(Textto Speech)——都是在本地执行的,也就是我们常说的边缘计算。

 

R329的DSP部分是两个HIFI 4核心——这是CadenceTensilica HiFi DSP系列IP中的一个,在家族定位中也属于偏向高性能的DSP,在手机、车载、数字电视之类的产品上就有相对广泛的应用生态。HIFI 4实则本身就支持多通道基于对象的音频、数字助手前端处理和基于神经网络的ASR,虽然我们知道全志选择了将其中的部分特性交给NPU去完成。

 

从全志发言人了解到这两个HIFI 4核的其中一个可用作“音频前处理,如降噪、回音消除、唤醒词识别”;一个则可用于“音频后处理,实现音频解码、音效增强、录音等”;配合片上的SRAM可实现“低功耗小模型双麦降噪算法与小模型深度学习唤醒词”。从这个描述可见R329的DSP也有典型的轻度AI计算属性。双核DSP的设计在全志的其他R系列产品中也相当少见,这种设计本身也是为了针对部分音频应用场景提供专门的计算单元,获得更好的能效比,与低功耗相关。有关低功耗的部分还将在后文提及。

 

不过似乎在全志看来,仅通用处理器+DSP(以及片上SRAM)的设计,在实现更高算力方面仍然不够,所以R329还选配了一个专门的AI专用处理器:周易AIPU。周易AIPU是Arm中国研发的AI处理器IP。加AI专核在行业的同档竞品中似乎还是比较罕见的。

 

 

Arm中国此前有提到过AIPU相比DSP的优势,加上现在更多的AI专核也有考虑支持可编程性的问题,以适应不同算法。Arm中国能够利用自身优势来构建AI软件生态,而DSP虽然也能做AI处理,但不同架构间始终没有形成规模生态,对软件开发而言并没有那么友好。另外当然也就是AI专核拥有一套AI和神经网络优化的指令集,在算力和效率上,运行一些专门的负载任务时也会更出色。

 

Arm中国2018年11月发布的“周易”平台,主要包括两部分,一是AIPU,二是Tengine框架。AIPU最大的特点就是拥有一套AI和神经网络优化指令集,实现包括张量指令、实现定制硬件加速单元的特定AI指令,以及AI计算的标量指令等,另外也支持用户自定义硬件实现。

 

支持包括TensorFlow等各种通用框架也是当代AI处理器的标配了,Arm中国的资料提到AIPU“支持用户一键式加载算法”,并且通过高效、灵活的张量处理单元(tensor execution cell)实现编程灵活性。

 

有关AIPU比较具体的效率,全志也提供了一份算力与功耗对比的数据,如上图所示:这个程度的效率当然并不令人意外,毕竟AIPU是AI专核。不过在性能上相较600MHz的HIFI 4有25 倍的优势仍然能够表现出当代开发AI专用处理器的价值和趋势。需要注意的是,这里的对比限于单核性能与功耗。

 

据了解,全志R329是第一款公开发布的采用周易AIPU的芯片,得到了Arm中国的大力支持,说明双方对未来NPU在智能音箱及人工智能其它领域的应用是非常看重的。所以也比较容易想见R329在面对竞品时有着算力上的更大优势。

 

 

至于周易平台除了AIPU之外的Tengine框架,它实际并不依赖于AIPU,应该算是整个Arm AI生态的组成部分。它能够对现有Arm架构的芯片算力做提取,所以Tengine也支持Arm CPU、Mali GPU以及第三方AI单元,为AI应用开发提供一个抽象的运行时接口。全志针对R329自己也有为开发者提供全套软件工具链,很大程度应该也是在为周易生态添砖加瓦。

 

在更具体的应用上,全志表示:“ASR、NLP、TTS等技术对专用AI处理器提出了迫切需求;传统算法也逐渐被AI算法替代,国内外均有发布,用深度学习做端到端的算法,相对于传统降噪、回声消除和关键词识别算法,效果更优,具有更高的识别率。”

 

所以全志也告诉我们,在R329用上DSP+NPU+2MBSRAM时,让大模型双麦降噪算法跑在DSP上,大模型深度学习唤醒词跑在NPU上,能够实现低功耗特性。这应该是权衡算力与功耗之后,一种相对合理的搭配方式。

 

高算力下的功耗

 

DSP+NPU的搭配,本身就是为了提供更到位的运算效率,理论上自然能够在达成相同算力的情况下达成明显更低的功耗,前文Cortex-A7、HIFI 4 DSP以及AIPU的对比就提到专用核心不只是算力上的显著领先,还在于相同算力下的AI计算单元功耗仅有通用处理器的几十分之一。

 

不过在实现低功耗的问题上,R329集成在片上的2MB SRAM也是相当重要的组成部分。这种在片上集成较大容量SRAM的设定,在全志以往的R系列产品及同档竞品中也并不多见——某些竞品也有片上SRAM,但同档的配置通常在256KB这样的水平上。

 

较小的SRAM本身是无法运行低功耗降噪算法+唤醒模型的,还是需要搭配更慢的DDR。在 SRAM的配置下,算法模型大部分算力可以放到SRAM中运行。所以全志表示,R329的待机功耗为(1)内置硬件VAD(语音活动检测),做声音检测亦能实现30mW以下的待机;(2)DSP+RAM,实现小模型双麦降噪算法、小模型深度学习唤醒词,则为50mW待机功耗;(3)DSP+NPU+ SRAM,让大模型双麦降噪算法跑在DSP上,大规模深度学习唤醒词跑在NPU上,实现60mW待机功耗。所以R329本身适用于做带电池的方案。

 

最后,相关I/O部分实则也是值得一提的。R329集成了2路音频DAC,可以直接外挂模拟功放实现立体声,1.1声道输出,通过I2S则可以实现5.1/7.1声道的音频输出;集成多路音频ADC——相比竞品有更强的音频接口扩展性,也就能够提供多麦拾音方案。

 

未来我们再观察全志R329的市场表现,大致可以窥见智能语音解决方案的这种高算力是否会成为智能家居市场的趋势。在全志看来,这个答案还是比较肯定的。全志在接受我们采访时,就算力需求在时代变迁中的变化举了个例子:

 

“比如刚开始通过MP3音频格式实现multiroom,客户对于这个功能很惊喜,但随着客户逐步习惯智能语音交互这一基本功能后,就提出智能音箱的音质也要跟传统音箱对标,音频的传输格式就从MP3大幅提升到了AAC,再叠加multiroom,这个功能对应的对AP的算力要求就会出现倍数增加,因为是音频功能的体验,还需要确保很高的实时同步性。”

 

“消费者的要求越来越多,也越来越高,使得对于AP的规格和算力的要求也在同步提升,智能音箱在不断增加新的功能,比如multiroom、TWS、DLNA、BT MESH、更震撼的音效;客户逐步不再满足简单EQ和DRC的处理,虚拟低音、3D环绕立体声等高阶音效的需求不断提出。”这大概就是R329出现的契机。

 

Strategy Analytics发布的研究报告指出,2019年全球智能音箱出货量总计1.25亿台,比2018年增长了60%。在阿里、百度、小米等推动下,中国智能音箱的出货量从2018年的2190万增长到了2019年的5200万,呈现井喷式增长。

 

全志科技即是语音主控芯片市场的参与者,智能音箱是该公司重点投入的一个领域。2018年全志在智能音箱的R系列产品已经取得一定突破。2019年全志推出智能语音专用处理器 R328就有不错的市场成绩。R329即是基于R328的升级产品,定位于高算力、低功耗的AI语音专用芯片。

 

全志发言人表示,2020年全志面向智能音箱会推出多款芯片。除R329之外,目前全志正在规划下一代无屏智能音箱集成WiFi/BT RTOS系统芯片,面向低成本产品市场迭代需求;而针对带屏音箱产品迭代,全志即将推出定位高性能的四核A53芯片R818。


关键字:智能语音芯片 编辑:muyan 引用地址:http://news.eeworld.com.cn/qrs/ic492429.html 本网站转载的所有的文章、图片、音频视频文件等资料的版权归版权所有人所有,本站采用的非本站原创文章及图片等内容无法一一联系确认版权者。如果本网所选内容的文章作者及编辑认为其作品不宜公开自由传播,或不应无偿使用,请及时通过电子邮件或电话通知我们,以迅速采取适当措施,避免给双方造成不必要的经济损失。

上一篇:强势崛起,三星超苹果,成为全球第三大移动处理器厂商
下一篇:康佳特新型散热方案让服务器保持“冷静”

关注eeworld公众号 快捷获取更多信息
关注eeworld公众号
快捷获取更多信息
关注eeworld服务号 享受更多官方福利
关注eeworld服务号
享受更多官方福利

推荐阅读

详细解读人工智能语音芯片
主流产品。 此外,目前上市的语音终端产品中,针对不同的应用市场,部署的AI算法复杂程度各有不同。有的仅实现离线状态下关键词唤醒,如智能音箱;有的则实现了关键词识别、离线对话等轻量级的语音语义识别,如智能家电;有的需要在离线状态下依然支持全功能的语音语义识别,如车载场景。可以推断,由于AI算法尤其是训练算法的复杂性及不断演进,语音及语音识别仍将以云端运算为主。但同时,随着语音算法的进化和终端芯片的迭代升级,终端AI语音芯片将部署更多的AI算法加速模块,以实现更快的响应速度,满足车载等多元化的场景需求,与云端训练和推理互补,提升用户体验。 2.传统专业芯片设计公司的加入,加快了语音识别芯片的落地和量产。 国内
发表于 2019-05-14
详细解读人工智能语音芯片
AI语音芯片真的要随智能音箱爆发了吗?
近期,国内数家语音技术创业公司陆续推出了AI语音专用芯片。5月16日,云知声在北京发布了首款面向物联网领域的AI系列芯片UniOne以及第一代芯片“雨燕”。5月24日,出门问问在北京发布了旗下首款AI语音芯片模组问芯Mobvoi A1。昨天,Rokid在杭州发布了旗下AI语音专用SoC芯片KAMINO18。而在同一时间,思必驰CEO高始兴确认公司正在打造AI语音芯片,预计今年下半年流片。云知声、出门问问、Rokid、思必驰,这四家AI语音领域的头部创业公司,几乎都在同一时间开始押注AI语音芯片。那么,AI专用语音芯片为什么在今年开始爆发了?在经历了2017年的小高潮(全球智能音箱销量突破3000万台)之后,国内智能音箱市场在今年
发表于 2018-07-04
AI语音芯片真的要随智能音箱爆发了吗?
国内首款复合型智能语音芯片亮相家电领域
    由长虹与中科院声学所成功研发中国首款复合型智能语音芯片日前正式亮相家电领域。这款IC芯片将率先应用于长虹空调、电视、冰箱等智能化产品上,推动家电智能化的发展。    打破国外垄断    中科院声学所介绍,这款智能语音芯片突破了诸多技术难题,包括语音去噪、回波消除、波束成形、身份识别等,并支持超低功耗唤醒,大大提高了语音远讲操控和交互的识别率。   “这款芯片在语音识别的基础上,融合多方面的语音增强功能,可实现远距离话音采集,支持6米距离内远讲。还具备自学习模式,能根据家庭成员不同的语音特征,自动学习和适应,甚至还能听懂四川话等方言”。在预装了智能语音芯片后,用户就可以根据自己喜好,给自己的电视命名。比如,这台电视被命
发表于 2013-09-28
首款复合型智能语音芯片问世
    近日,长虹和中科院声学所联合宣布中国首款复合型智能语音芯片研发成功,这款智能语音芯片拥有完全自主知识产权,攻克语音增强这一技术难题,并打破国外技术垄断,将有力推动中国语音智能产业发展。   在人机交互应用中最直接的方式就是语音对话,但难以远距离识别、易受干扰导致识别率不高等问题,仍影响着语音交互的普及。据了解,长虹研发的智能语音芯片,是在语音识别的基础上,融合了多方面的语音增强功能,能够实现远距离话音采集,通过突破语音增强等技术难题,可实现包括语音去噪、回波消除、波束成形、身份识别等功能,支持非特定人、非特定词汇的识别,综合环境下识别率达到90%以上。   长虹表示,该芯片准备装机于长虹旗下包括电视、空调、厨卫、小家电
发表于 2013-07-13
长虹与中科院共同推出中国首款复合型智能语音芯片
    对于中国家电产业来说,没有核心技术就永远没有话语权。而处在产业链科技创新最底层、也是自主创新难度最大的集成电路(IC芯片)研发设计能力,则被认为是开启中国家电企业掌握自主研发能力和产出核心技术大门的“神奇钥匙”。   7月8日,长虹与中国科学院声学研究所共同宣布,中国首款复合型智能语音芯片在长虹研发成功,并将率先应用于长虹空调、电视、冰箱等智能化产品上。作为中国首款打破国外技术垄断、具有自主知识产权的IC芯片,将加速推动中国在智能语音产业上的发展速度。   有思想的智能语音芯片   作为中国家电业唯一具有全系列家电、电子产品IC芯片规模化设计研发能力的企业,成立于2005年的四川虹微技术有限公司作为长虹“三坐标”战略
发表于 2013-07-10
长虹研发出国内首款复合型智能语音芯片
    7月8日,四川长虹和中科院声学所联合宣布中国首款复合型智能语音芯片研发成功。长虹IC事业部产品总监陈勇表示,这款智能语音芯片拥有完全自主知识产权,攻克语音增强这一技术难题,能够实现远距离话音采集,将打破国外技术垄断,有力推动我国语音智能产业发展。   该款智能语音芯片将装于长虹旗下电视、空调、厨卫、小家电等智能终端。陈勇告诉记者,预计,明年长虹的智能电视有50%将预装远讲语音操控功能,智能空调将100%预装语音操控功能。智能语音芯片未来还将普遍应用于智能家居、玩具、汽车电子等领域。芯片需求量在未来3-4年呈快速上升趋势,到2016年市场容量将达到3000万片。
发表于 2013-07-09
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京ICP证060456号 京ICP备10001474号 电信业务审批[2006]字第258号函 京公海网安备110108001534 Copyright © 2005-2020 EEWORLD.com.cn, Inc. All rights reserved