说一声“启动汽车”,引擎马上开启;下班回家对着智能门锁喊一声“开门”,门锁应声而开;对着智能电视喊个话,它就能为你播放专属的视频内容……阿里巴巴用“芝麻开门”打开了宝藏,我们能用声纹识别做什么?
近日,从人工智能产业发展联盟 - 得意音通声纹技术联合实验室获悉,声纹识别在过去一年,从场景侧不断下沉,更加落地。作为语音赛道一个重度垂直的领域,声纹识别终于从“等风来”,成为站在“风口”上的技术。
根据清华大学人工智能研究院听觉智能研究中心、人工智能产业发展联盟 - 得意音通声纹技术联合实验室、中国电信股份有限公司研究院联合发布的《中国声纹识别产业发展白皮书 2.0》,2020 年,声纹技术厂商融资事件达到过去 4 年最多,投资总额仅次于 2018 年。虽融资热度和频次无法与最热门的应用领域相比,但在疫情当下以及贯穿 2019-2020 始末的资本寒冬中,已经算是例外了。
从白皮书对百度、京东、微信等搜索词分析来看,声纹识别与支付、反欺诈、门禁、门锁、考勤等具体应用场景紧密联系在一起,这也从一定程度上反映出了声纹技术当前主要的落地方向。
国内声纹厂商主要有哪些?
<与非网>对国内 20 多家声纹识别企业进行了汇总分析,这些企业也从一定程度上反映了语音技术的三个发展阶段:
早期以 2000 年~2007 年成立的专注于声纹技术的厂商为代表,如得意音通、中科信利、远鉴科技、厦门天聪等,主要背靠清华大学、厦门大学、中科院声学所、自动化研究所等高校和科研机构,这些老牌企业掌握了深厚的技术积累和核心专利。
2007-2015 年间,思必驰、云知声等算法厂商入局,凭借对场景的理解和核心技术的布局,抓住了语音发展的先机。
2016 年开始,人工智能的发展带动了一批初创企业,声扬、声智、中科昊音等都是在这波 AI 红利中成长和诞生的公司,这些企业融资节奏通常比较快,正加紧在专利布局、落地上发力。
2020 年声纹识别三大落地应用
疫情下声纹考勤兴起
今年声纹技术主要的落地场景之一就是声纹考勤。在疫情的非接触需求下,今年 2 月,国务院印发《企事业单位复工复产疫情防控措施指南》,明确要求暂时停用指纹考勤机,改用其他方式对进出人员进行登记。
同时,人脸支付也被“降温”。2 月,中国人民银行营业管理部就制定的《北京市非银行支付机构复工复产防疫工作指引》中提出,要优化和丰富“非接触式服务”渠道和场景,强调疫情防控期间,暂缓人脸识别支付商户拓展。
语音具有天然的“非接触”特性,具体到声纹这个细分领域,它可以根据每个人的语音特征和发音习惯进行动态识别,非常适用于进行身份认证的场景应用中。
在与清华大学人工智能研究院听觉智能研究中心主任、得意音通创始人郑方博士的交流中,笔者曾获悉,“无接触”将沉淀为今后遴选生物识别技术的核心要素之一,特别是在 B 端场景(例如考勤)。声纹天然具有“无接触”的特点,并且不怕被口罩遮挡,应用成本低,声纹产品将成为考勤市场中强有力的竞争者。
他认为考勤产品未来主要有两大方向:一是从集中转向分布、线下转为线上线下结合,也就是说,不再需要单一的考勤机设备,而是直接由员工在各自手机上完成打卡,既提高效率,又保障卫生;二是单纯的考勤功能可能会与门禁功能结合,可以是集中,也可以是分布。得意音通在声纹考勤迭代上主要有三个方向:一是更“轻”,如增加小程序等入口;二是更“重”,注重与门禁等设备结合;三是更安全,还可与人脸技术结合,具体会根据市场反馈来规划。
金融 / 政务服务依旧是大市场
除了疫情下酝酿的新应用,声纹识别最早实现规模化商用的是在金融领域。金融领域因其丰富的场景、海量的数据、对可靠性的高要求和广泛的用户反馈等,一直是前沿技术在民用领域(相较于公共安全领域)的理想试金石。声纹识别也不例外,4G 时代,金融行业催生了手机银行这一形态并迅速普及,使得金融级远程身份认证的需求激增,而声纹识别刚好可以满足这个需求。
根据白皮书显示,到 2020 年下半年,约有 30 家银行机构采购了声纹识别技术产品,其中“动态声纹密码”的声纹登录成为第一大应用场景,可用于账户登录、大额转账、无卡取款、密码找回等业务场景。微信和支付宝也上线了基于声纹动态口令的登录方式。此外,在信贷业务中引入声纹识别技术作为反欺诈手段,还可有效降低冒用他人身份进行骗贷以及多头贷款等事件的发生率。
在政务服务市场,声纹识别也发掘到一个极具潜力的应用——城乡养老保险是社会保障体系的重要组成部分,然而冒领养老金的事件时有发生,每年冒领总金额以亿元计,但若要求高龄老人亲临现场验明身份又非常不便。社保局通过预装声纹身份认证系统,通过 1:1 声纹确认技术,就可以进行远程身份认证。
另据白皮书显示,随着电信诈骗案件频发,声纹特征在公共安全领域的应用价值越来越凸显出来。公安部将声纹识别技术已经纳入防治方案,建库规范提上日程。
智能生活成为蓝海
除了上述应用,声纹识别的下一个蓝海市场有望在智能生活场景中产生,目前已经开始落地的有智能家居、智能车载等应用。
按任务分类的话,声纹识别有 1:1 和 1:N 两大类应用,前者主要进行声纹确认,上面提到的金融、社保等都属于 1:1 确认,通过给定一个说话人的声纹模型和一段只含一名说话人的语音,判断该语音是否是该说话人所说。而在 1:N 应用中则属于声纹辨认,是根据一组候选说话人的声纹模型和一段语音,来判断该语音是哪个说话人所说,适用于公安、安防、智能生活等场景。
随着语音交互场景的成熟,各种个性化的服务需求渐渐浮现出来。通过 1:N 的声纹辨认技术,可支持智能音箱、智能语音助手等提供个性化服务,如针对家庭用户中的老年人、儿童等不同年龄段用户,按照兴趣推荐不同的歌曲、新闻,以及开放特定的功能权限等;利用声纹检出和追踪技术,可在会议纪要中标注每段话所对应的说话人,即可轻松完成多人会议记录,这一功能在市面上一些录音笔中已包括。此外,声纹识别还可完成个人日常生活中各种事物访问控制的授权,比如智能手机锁屏、各类网络账号的声控密码锁、电脑声控锁、声控安全门、汽车声控锁等。
思必驰目前在其全链路对话式 AI 中,特别针对车载场景下通过声纹识别进行优化升级,提供更多个性化的服务方式。
云知声也将声纹识别技术引入到深度学习领域,联手平安好医生打造客户端“声纹登录系统”,并与国家电网合作了会议系统声纹识别项目。
以计算机视觉起家的依图科技,近两年也开始在智能语音发力,2019 年宣称在全球声纹识别竞赛中夺得第一,虽然后续并无太多声纹方面的成果更新,但也反映出依图对声纹的重视,多模态应该是其未来的布局方向。
智能家居是民用场景中最早拥抱声纹技术的,例如长虹已经在电视、空调中先后加入声纹识别功能,使得家电也能够智能识别用户身份,开启私人订制模式。
互联网厂商也在积极布局。
百度前几年在国际上发布过声纹识别方面的论文,今年在小度智能屏中,声纹识别功能已经成为卖点之一。
阿里约在 3 年前开始推广声纹识别,主要运用于平台用户的身份核验,比如在线身份校验服务,用户可通过声纹识别在手机淘宝进行密码修改等。
腾讯云也与微信智能团队共同推进声纹识别,借助云端大数据的优势,根据个人属性提供更多差异化服务内容,并进一步提升安全性,运用在安保、金融、智能硬件等领域。
写在最后
在 AIoT 的推动下,声纹识别技术有望推动一些场景的升级迭代,在未来的人机交互中,带动从硬件到软件在更多商用场景中的发展。多模态的技术应用可能会率先兴起,比如在身份识别场景中,通过声纹+人脸融合验证,在精度要求、安全保障以及不同场景下的体验提升都能得到满足。
这从当前的国际技术趋势上也可以看到一些发展轨迹,例如通过多模态建模,将人脸和声纹中的信息和参数融合在一个架构和模型中,实现语音内容和说话人身份同时识别、语种和说话人身份同时识别等。
上一篇:2020年全球LCD电视面板产能呈下降趋势
下一篇:讯飞智能出元旦惊喜礼盒,助力孩子成绩“牛”气冲天!
推荐阅读最新更新时间:2024-11-10 12:58
- 基于STSPIN32F0601Q的三相逆变器
- ADA4627-1ACPZ-RL带保护反相放大器的典型应用电路
- 使用 Dialog Semiconductor 的 SLG46140V 的参考设计
- MC33071DR2G 交流/直流接地电流监测器的典型应用
- 用于两相、±6A 单 VTT 输出的 LTC3634IFE 降压稳压器的典型应用电路
- 来自 12Vin 的 LTC3859EUHF 高效三路 24V/1V/1.2V 转换器的典型应用电路
- STM32 Extend
- WeAct-MiniH750-LTDC扩展板
- 用于电源管理的 14 位 1 通道 DAC
- AN54,使用 LTC1142 的应用电路,6.5 至 14V,3.3V/2A,5V/2A,12V/0.15A) 三路输出降压转换器