谷歌用新的语音数据扩增技术大幅提升语音识别准确率

发布者:meirong最新更新时间:2019-04-24 来源: 数读公司关键字:语音识别  谷歌  人工智能 手机看文章 扫描二维码
随时随地手机看文章

把一段输入音频转换为一段文本的任务「自动语音识别(ASR)」,是深度神经网络的流行带来了极大变革的人工智能任务之一。如今常用的手机语音输入、YouTube 自动字幕生成、智能家电的语音控制都受益于自动语音识别技术的发展。不过,开发基于深度学习语音识别系统还不是一个已经完善解决的问题,其中一方面的难点在于,含有大量参数的语音识别系统很容易过拟合到训练数据上,当训练不够充分时就无法很好地泛化到从未见过的数据。

当对于图像分类任务,当训练数据的数量不足的时候我们可以使用各种数据扩增(data augmentation)方法生成更多数据,提高网络的表现。但是在自动语音识别任务中情况有所不同,传统的数据扩增方法一般是对音频波形做一些变形(比如加速、减速),或者增加背景噪声,都可以生成新的训练数据,起到把训练数据集变大的效果,帮助网络更好地学习到有用的特征。不过,现有的传统音频数据扩增方法会带来明显的额外计算能力开销,有时也避免不了需要使用额外的数据。

在谷歌 AI 的近期论文《SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition》(SpecAugment:一个用于自动语音识别的简单数据扩增方法,https://arxiv.org/abs/1904.08779)中,谷歌的研究人员们提出了一种扩增音频数据的新方法,主要思路是把它看做是一个视觉问题而不是音频问题。具体来说,他们在 SpecAugment 不再直接使用传统的数据扩增方法,而是在音频的光谱图上(音频波形的一种视觉表示)施加扩增策略。这种方法简单、计算力需求低,而且不需要额外的数据。它能非常有效地提高语音识别系统的表现。雷锋网 AI 科技评论根据谷歌技术博客介绍如下。

新的音频数据扩增方法 SpecAugment

对于传统语音识别系统,音频波形在输入网络之前通常都需要编码为某种视觉表示,比如编码为光谱图。而传统的语音数据扩增方法一般都是在编码为光谱图之前进行的,这样每次数据扩增之后都要重新生成新的光谱图。在这项研究中,作者们尝试就在光谱图上进行数据扩增。由于直接作用于网络的输入特征,数据扩增过程可以在网络的训练过程中运行,而且不会对训练速度造成显著影响。

音频波形(时间-振幅)关系转化为梅尔频谱图(时间-梅尔频率),然后再输入网络

SpecAugment 对光谱图的修改方式有:沿着时间方向扭曲,遮蔽某一些频率段的信号,以及遮蔽某一些时间段的发音。作者们选择使用的这些扩增方式可以帮助网络面对时间方向的变形、部分频率信号的损失以及部分时间段的信号缺失时更加鲁棒。这些扩增策略的示意图如下。

图中的梅尔频谱图经过了时间方向扭曲、多个频率段信号遮蔽(横条)以及多个时间段遮蔽(纵向条)。图中的遮蔽程度有所夸张。

作者们在 LibriSpeech 数据集上用实验测试了 SpecAugment 的效果。他们选取了三个语音识别常用的端到端 LAS 模型,对比使用数据扩增和不使用数据扩增的网络表现。自动语音识别模型表现的测量指标是单词错误率(WER),用模型输出的转录文本和标准文本对比得到。在下面的对比试验中,训练模型使用的超参数不变、每组对比中模型的参数数量也保持固定,只有训练模型用的数据有区别(使用以及不使用数据扩增)。试验结果表明,SpecAugment 不需要任何额外的调节就可以提高网络的表现。

在 LibriSpeech 数据集上的测试中,每组测试中经过数据增强(蓝色条)都取得了更低的单词错误率。Test-other 数据集含有噪声,Test-clean 数据集不含有噪声

更重要的是,由于 SpecAugment 扩增后的数据里有故意损坏的部分,这避免了模型过拟合到训练数据上。作者们进行了对比试验如下,未使用数据扩增的模型(棕黄色线)在训练数据集上取得了极低的单词错误率,但是在 Dev-other(有噪声测试集)和 Dev-clean(无噪声数据集)上的表现就要差很多;使用了数据扩增的模型(蓝色线)则正相反,在训练数据集上的单词错误率较高,然后在 Dev-other 和 Dev-clean 上都取得了优秀的表现,甚至在 Dev-clean 上的错误率还要低于训练数据集上的错误率;这表明 SpecAugment 数据扩增方法不仅提高了网络表现,还有效防止了过拟合的发生。

借助 SpecAugment 取得前所未有的模型表现

由于 SpecAugment 可以带来没有过拟合的表现提升,研究人员们甚至可以尝试使用更大容量的网络,得到表现更好的模型。论文作者们进行了实验,在使用 SpecAugment 的同时,使用参数更多的模型、更长的训练时间,他们分别在 LibriSpeech 960h 和 Switchboard 300h 两个数据集上都大幅刷新了此前的最佳表现记录(SOTA)。

作者们也为这种方法的出色表现感到惊讶,甚至于,以往在 LibriSpeech和 Switchboard 这样较小的数据集上有优势的传统语音识别模型也不再领先。

借助语言模型再上一层楼?甚至都不需要

自动语音识别模型的表现还可以通过语言模型进一步提高。在大量纯文本数据上训练出的语言模型可以学到一些语言规律,然后用它来更正、优化语音识别模型的输出。不过,语言模型通常需要独立于语音识别模型训练,而且模型的体积很大,很难在手机之类的小型设备上使用。

在 SpecAugment 的研究中,作者们意外发现借助 SpecAugment 训练的模型,在不使用语言模型增强的情况下就已经可以击败之前的所有使用语言模型增强的模型。这不仅意味着语音识别模型+语言模型的总体表现也被刷新,更意味着未来语音识别模型完全可以抛弃语言模型独立工作。

以往的自动语音识别系统研究多数都关注于找到更好的网络结构,谷歌的这项研究也展现了一个被人忽略的研究方向:用更好的方法训练模型,也可以带来大幅提升的网络表现。


关键字:语音识别  谷歌  人工智能 引用地址:谷歌用新的语音数据扩增技术大幅提升语音识别准确率

上一篇:松下将OLED显示屏融于家具中
下一篇:轻量级AR眼镜的四种6DoF方案对比

推荐阅读最新更新时间:2024-10-12 02:41

OPEN AI LAB推出专为嵌入式平台设计的AI推理框架—Tengine
边缘AI应用正处于大规模落地的前夕,巨大的IoT市场和革命性的AI技术产生的剧烈交互将带来前所未有的应用革命和商业机会。那么在边缘设备部署AI应用的瓶颈都有哪些? n 有人有现成的芯片和应用场景,却为缺乏算法和平台苦恼。 n 有人有自己的算法,却为缺乏一个好用的嵌入式跨平台框架而苦恼。 n 有人有自己的算法和硬件平台,却为嵌入式平台有限算力苦恼。 OPEN AI LAB看到了业界痛点,顺应市场需求推出了专为嵌入式平台设计的AI推理框架——Tengine。 专门针对Arm嵌入式设备优化的神经网络推理引擎 OPEN AI LAB于2016年12月成立,由Arm中国联合产业伙伴发起,致力于推动芯片、硬件、算法、软件整个产业链的深度合
[嵌入式]
OPEN <font color='red'>AI</font> LAB推出专为嵌入式平台设计的<font color='red'>AI</font>推理框架—Tengine
谷歌Nexus 6概念图曝光:5.7寸屏幕
    全新的谷歌Nexus 6将会配备更大的显示屏   新浪手机讯 5月7日上午消息,近日国外媒体曝光了一组谷歌Nexus 6概念设计图,并透露了Nexus 6的一些配置信息。   全新的谷歌Nexus 6将会配备更大的显示屏——5.7英寸,搭载高通骁龙810 64位处理器,内置3GB内存,有16、32、64GB三个容量版本可选,内置500万前置+1200万后置摄像头,支持4K视频录制。   同时,全新谷歌Nexus 6将很有可有由HTC代工,将于今年下半年发布。(基德)
[手机便携]
基于ARM处理器的非特定人语音识别系统设计
  随着高新技术在军事领域的广泛运用,武器装备逐步向高、精、尖方向发展。传统的军事训练由于训练时间长、训练费用高、训练空间窄,常常不能达到预期的训练效果,已不能满足现代军事训练的需要。为解决上述问题,模拟训练应运而生。   为进一步提高训练效果,本文利用智能语音交互芯片设计了某模拟训练器的示教与回放系统。示教系统为操作人员生动的演示标准操作流程及相应的操作现象,极大地缩短了对操作人员的培训时间,提高了培训效果。回放系统通过记录操作训练过程中各操作人员的口令、声音强度、动作、时间、操作现象等,待操作训练结束后通过重演训练过程,以便操作者及时纠正自己的问题。示教系统也可理解为对标准操作训练过程的回放。该系统不需要虚拟现实技术的支持,在小
[单片机]
基于ARM处理器的非特定人<font color='red'>语音识别</font>系统设计
AI已来 我们该担心的是生命还是生命的意义?
如果AI消灭了人类生存的意义的话,又有多少人会关心AI会不会毁灭人类生命呢?下面就随嵌入式小编一起来了解一下相关内容吧。 AI已来 我们该担心的是生命还是生命的意义?  编者按:知名科技博主Ben Thompson从近期比较热门的两篇人工智能方面的文章谈起,探讨了人工智能的定义与历史,并从一个更加广泛的角度分析人工智能未来对人类的影响——相对于担心将来超级AI会不会威胁人类的生命,AI更加迫在眉睫的威胁也许是消灭了人类存在的意义? Chris Dixon在《大西洋》上面写了一篇文章,题目叫做《亚里士多德如何创造了计算机》,这篇文章实在是太出色了: 计算机史往往是从实物史的角度进行讲述,先是算盘,然后是巴贝奇差分机,再到二
[嵌入式]
谷歌Pixel 6a曝光:采用家族式外观设计,预装Android 12L系统
虽然有粉丝希望谷歌在今年 5 月举行的 I / O 开发者大会上宣布 Pixel 6a 平价手机,但有爆料称该机将于 7 月 28 日发布 Pixel 6a 手机,然后在 10 月推出传闻中的谷歌自家的智能手表 Pixel Watch 和全新的 Pixel 7 / Pro 手机。   今天,techxine 曝光了谷歌 Pixel 6a 的包装盒,展示了该机外观。从图中可以看出,谷歌似乎正在尝试采用一种标志性的家族式外观设计,统一在其智能手机的设计语言,因为 Pixel 6a 采用了明显类似于 Pixel 6 的外观,并且与 5a 和 4a 差距有点大。   与 Pixel 6 和 Pixel 6 Pro 相比,Goog
[手机便携]
物联网、云计算、大数据、人工智能之间关系浅析
物联网,云计算,大数据,人工智能是近两年科技、产业界的热门话题。分别什么意思?之间又有什么关系呢?笔者也非常感兴趣,经过学习了解,查阅资料,一点浅显认识和总结与朋友们分享。下面就随网络通信小编一起来了解一下相关内容吧。 物联网IoT(Internet of things) 物联网是互联网的应用拓展,与其说物联网是网络,不如说物联网是业务和应用。因此,应用创新是物联网发展的核心,以用户体验为核心的创新是物联网发展的灵魂。 以下图为例,物联网大致分为以下几个层级:感知层,网络层,应用层。 物联网、云计算、大数据、人工智能之间关系浅析 感知层相当于人的感官和神经末梢,用来感知和采集应用环境中的各种数据。包括温度、湿度、速度、位置、
[网络通信]
无处不在的 Arm 软硬件生态赋能开发者 AI 创新
作者:Arm 战略与生态部开发者平台副总裁 Geraint North 人工智能 (AI) 是当今最重大的技术变革之一,并正以前所未有的速度推动着各行各业的发展。 作为应用最为普及的计算架构,Arm 为广泛的应用市场提供全面且多样化的计算平台,并在此基础上,携手合作伙伴,共同构筑起坚实的软硬件生态系统,使 Arm 成为最高效、最易访问的计算平台,持续赋能开发者进行 AI 创新。随着计算变得愈发复杂,计算效率的重要性更胜以往。高性能和出色能效一直是 Arm 的 DNA,这一优势使得 Arm 技术能够很好地满足企业在 AI 时代的业务需求。 软件成为差异化的关键 要使硬件发挥其作用,离不开软件的支持,软硬件的协同发展方能充
[嵌入式]
小广播
最新家用电子文章
换一换 更多 相关热搜器件
随便看看

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

About Us 关于我们 客户服务 联系方式 器件索引 网站地图 最新更新 手机版

站点相关: 电视相关 白色家电 数字家庭 PC互联网 数码影像 维修拆解 综合资讯 其他技术 论坛

词云: 1 2 3 4 5 6 7 8 9 10

北京市海淀区中关村大街18号B座15层1530室 电话:(010)82350740 邮编:100190

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved