随着智能可穿戴设备的发展,语音交互正在迎来一个新的拐点。
它其实早已走进我们的生活,从可智能对话的机器人,到有事没事“嘿 Siri”,再到风靡全球的智能音箱,“小度”、“小爱”……这些指令甚至是三岁孩童也能脱口而出。而随着可穿戴设备的传输、续航、价格等痛点被逐个击破,类似 TWS 耳机这样的设备也有望普遍具备 AI 语音功能,让 AI 能力随身行走。
不过,语音唤醒——作为语音交互的第一步,在超低功耗场景下的性能、集成度、成本等突破就变得更加重要。
为可穿戴设备增加语音唤醒,难在哪里?
针对 TWS 等可穿戴设备,杭州国芯日前专门推出了一款 AI 语音唤醒芯片 GX8002,将 AI 唤醒做到了“微瓦”级别。
为什么要给 TWS 增加专门的语音唤醒能力?主要挑战有哪些?杭州国芯 AI 事业部总经理凌云告诉<与非网>,语音唤醒需要 Always on 工作状态,这样设备在休眠或锁屏状态下也能检测到用户的声音,一旦接收到唤醒词,立刻让设备进入等待指令的状态,开启语音交互第一步。
由于需要持续工作,包含麦克风、ADC、语音处理识别等整个链路都要工作。因此在可穿戴设备中增加唤醒功能,最大的挑战就是功耗,以往一些蓝牙 SoC 芯片做这类应用,待机功耗需要十几毫瓦,这对产品待机时间影响非常大。
方寸之间见天地——超低功耗、高集成度的背后
GX8002 采用了 MCU+NPU 架构,集成了国芯第二代自研神经网络处理器 gxNPU V200、平头哥 CK804 处理器等。经测试,该芯片在 VAD 待机模式下功耗低至 70μW,运行功耗为 0.6mW,支持多级唤醒,通过 NPU 能力,单芯片可实现语音唤醒、指令识别、AI 降噪、声纹识别等众多功能。
据了解,GX8002 超低功耗的背后,离不开两大技术突破——自研神经网络处理器 gxNPU V200 和自研硬件 VAD。与第一代神经网络处理器相比,第二代专门针对低功耗进行了优化,计算能效达到了普通 DSP 的 10 倍以上。支持 DNN/CNN/RNN 等各种模型,自动实现网络量化压缩,可以和 TensorFlow 等训练平台直接对接。
同时,国芯设计了全新的 VAD 模块,通过增加更多特征分析来判断人声,过滤能力更强。凌云表示,传统 VAD 大多是基于声音的能量来做 VAD 判断,当处于嘈杂环境时容易失效。为此,国芯设计了全新的 VAD 模块,通过对信号进行频谱分析,抽取语音的多个特征信息,进行智能判断。同时会跟踪环境的底噪,自动调整判决的阈值。而所有的 VAD 处理都是通过硬件实现的,不依赖于主系统,这对于所有的 AI 语音应用都是有效的,对低功耗产品则更加重要。
除了将复杂逻辑硬件化,提升 VAD 的待机比例对于整个产品的功耗降低也非常有价值,根据实际测试,在办公室、地铁、马路、咖啡馆等场合,GX8002 可以让 VAD 待机的比例平均达到 70%以上,即 70%以上时间处于 70μW 的 VAD 待机模式。通过 VAD 的有效过滤,芯片日常使用的平均功耗基本低于 300μW。
“传统的语音 AI 主要还是以 CPU 软解为主,在一些功耗成本不敏感的产品可以继续使用”,凌云表示,“但是在可穿戴设备市场,必须要追求极致。”
为了将唤醒部分所占用的体积尽可能缩减,国芯将唤醒所需的所有部件进行了集成,包括音频 ADC、Flash、电源 LDO 等,甚至还有晶振。单芯片就可以完成所有唤醒工作,无需外围器件。
GX8002 首批产品采用 QFN20,3mm*3mm 封装,五月份已量产,预计今年下半年会有相关产品陆续上市。据称,Q3 还将推出更小的 WLCSP 封装,尺寸可达 1.4*2.4mm,满足更加精密产品的需求。
TWS+语音 AI 是未来趋势
TWS——已经成为智能音箱之后一个新的现象级应用。根据 IDC 数据显示,TWS 耳机 2019 年全球出货量为 1.705 亿台,与 2018 年的 4860 万台相比,增长了 250.5%,占据整个可穿戴设备市场的 50.7%。
剖析 TWS“网红体质”的背后,不仅仅是可观的市场规模,还有它作为 AIoT 智能连接入口的潜质。过去认为 AI 多用于机器人,后来发现似乎不需要这么复杂的身躯,智能音箱爆发了。而仅靠语音唤醒就可以获得 AI 能力,其实这个载体还可以更小。
在 TWS 第一波市场潮流中,主流的蓝牙音频供应商盆满钵盈,于是更多的小玩家涌入,试图切一角蛋糕。但是,正如所有消费电子的发展趋势一样,如果没有差异化卖点和功能创新,市场将很快走向红海,陷入价格的侵蚀之中。
对于广大投身于 TWS 的中小品牌来说,突破无线连接、通话体验的同时,产品本身的创新点也是增加消费者粘性的重要因素。国芯最新的语音唤醒芯片,对于这些厂商显得尤为及时。GX8002 几乎适配市场上所有的蓝牙方案,它与蓝牙芯片搭配使用,就如同增加了一个语音开关按键,通过共用的麦克风,实现语音触发。
这就极大地方便了那些使用成熟蓝牙方案的设备商,在不改变原有主体设计的情况下,叠加 AI 芯片,就可以将蓝牙耳机升级为智能耳机,满足了灵活、快速的设计需求。价格方面,国芯采用了累积采购量的阶梯价格模式,起步价 0.65 美元,尽量减轻成本负担。
TWS 加入语音 AI 将成为趋势。对于品牌耳机来说,能够在硬件方面更进一步,打通硬件品质、软件服务的体验;白牌耳机则可以在保证高性价比的前提下提供更丰富的功能。
目前,国芯已经打通了杰理、恒玄、络达、瑞昱、博通、易兆微、中科蓝讯等蓝牙合作方,这将为设备商大大节省具有 AI 语音能力的 TWS 研发周期。
“国芯尽量通过技术优化提升 AIoT“入口”建设的便利性,并提升产品的体验。通过在 AI 语音领域的持续耕耘,将 AI 技术应用到各种场景,之前已经有了高性能的产品应用在智能家居和车载领域,GX8002 的推出补齐了低功耗和近场的应用”,凌云表示,“目前我们完成了人 - 车 - 家的全场景覆盖,AI 语音产品可以说是国内市场上较为齐全的。”
当前,AI 的两大应用当属语音和视觉,这两大领域之间也有着一定的传承性和关联性。语音 AI 仍是一个早期成长中的市场,国芯一方面在扩大覆盖场景,另一方面也在寻找体量较大的细分市场(例如车载、TWS 等),进行更深入、更有针对性地布局。据凌云透露,未来,国芯会在语音业务的基础上,开拓视觉 AI 业务,以及语音+视觉的多模态产品方向。
上一篇:格力电器AI语音空调将搭载海思芯片,实现100%国产化产品
下一篇:苹果正或将中国产线转移至印度,涉及多条生产线
推荐阅读最新更新时间:2024-11-13 07:40
- 使用 ROHM Semiconductor 的 BU4324 的参考设计
- Elrs_Tx
- 用于医疗的 2.5V ADC 单端至差分转换
- EVAL-CN0211-EB1Z,基于 ADG904-R 的中频带通滤波器组交换网络评估板,用于无线基础设施
- LTC1588 的典型应用 - 具有可编程输出范围的 12 位 SoftSpan DAC
- LT8495IFE 450kHz、5V 输出 SEPIC 转换器的典型应用电路
- 使用 Analog Devices 的 LT1305CS8 的参考设计
- [STC8G1K08A]51单片机核心板
- 使用 ROHM Semiconductor 的 BD4959 的参考设计
- LTC3634IFE 降压稳压器的典型应用电路,具有使用两个输入电源的 2 相 VTT 终端