嵌入式实时音乐语音识别系统的实现

发布者:技术掌门最新更新时间:2012-03-20 来源: 微计算机信息 关键字:语音识别  端点检测  Mel倒谱系数 手机看文章 扫描二维码
随时随地手机看文章

引言

随着电子音乐的快速发展, 迫切需要一种更智能、更便捷的用户操作系统。自动音乐语音识别系统能够提供便利的人机交互[1],方便人们自己学习音乐知识, 将成为一种主要方法,也是一个发展的方向。目前, 实验室环境中自动语音识别系统已经取得了很好的效果,但是应用于电子音乐方面的自动音乐语音识别却很少。当自动语音识别应用于电子音乐时, 必须对识别方法进行相应改进,才能满足其对运算速度、内存资源等方面的要求。为了解决这个问题, 本文将结合音乐语音的特点,设计并实现嵌入式音乐语音识别系统。

1系统硬件电路设计系统

硬件电路设计的原理框图如图1所示,它主要由音乐语音信息采集部分、音乐语音处理DSP部分、程序数据存储器FLASH部分、数据存储器SRAM部分、键盘管理部分、音源芯片语音输出部分、以及电源部分组成。音乐语音信息采集部分主要由MCU GPL162001来完成,该芯片自带12bit ADC和72个I/O口,方便键盘管理,。音乐语音处理DSP部分选用了目前通用的TI公司的TMS320VC5402 16位微处理器,处理速度快,最快运行速度可达100MIPS,功耗低,是一款理想的DSP处理器。考虑到速度要求较快,DSP的晶振选用100MHZ的晶振。另外,由于音乐输出要求有专业的乐音效果,电路中选择了由中芯微公司提供的64和弦MIDI音频处理芯片。此外,TMS320VC5402片上没有 FLASH且片内RAM只有16K,考虑到语音数据比较大,我们外扩了1M的FLASH芯片和64K的SRAM芯片。 DSP(TMS320VC5402) 是整个硬件系统的信号处理中心,完成音乐语音识别工作, 进行RAM及FLASH 存储芯片的数据管理与调度,并向主控芯片 MCU 提供反馈信息。电源的工作电压为3.3V。

           

图1  系统原理图     [page]            

2系统的软件实现

和大部分语音识别系统一样,音乐语音识别系统本质也是一种模式识别系统。它的基本流程图如图2所示,主要包括语音信号预处理,端点检测,特征参数求取和语音识别等几个步骤。

                       

图2 系统识别算法流程图

2.1语音信号预处理

语音信号预处理主要是对语音信号进行前期的优化处理,方便后面的端点检测和语音识别,语音信号预处理主要包括分帧处理、预加重处理、加窗处理、滤波和消除毛刺处理等。

2.1.1语音信号的分帧

语音信号的特征是随着时间而变化的,只有在一段短的时间间隔中,语音信号才保持相对稳定一致的特征, 通常这段时间取5~50ms。在程序中取200个采样点,对于8k的采样频率,即相当于25ms。帧间重叠为100个采样点,亦即12.5ms。

2.1.2预加重

由于语音信号平均功率谱受声门激励和口鼻辐射影响,800HZ以上的高频信号按6DB/倍频跌落,所以求语音信号频谱时,频率越高相应成分越少,高频部分的频谱比低频部分难求,所以要进行预加重处理。在数字语音信号处理中,数字语音信号通常都通过一个低阶的系统(典型的是一个一阶的滤波器),即  式中, 为预加重系数,通常 最为常用的取值是在0.95附近。由于本系统采用的是 =0.94

2.1.3加窗

对每一帧语音进行加窗实质是语音波形乘窗函数,为减少时间窗两端的坡度,使窗口边缘两端平滑过渡到零,减小语音帧的截断效应, 这里采用典型的应用在语音识别系统中加hamming窗。 [page]

2.1.4滤波、消除毛刺

由于语音信号包含很多噪声信号,这些噪声信号在时域中表现出高频随机、毛刺等信号,这些信号很可能影响识别的效果,所以,对信号进行带通滤波和消除毛刺处理能很好提高识别的精度。由于人声主要在60-1000HZ ,采用50-1000HZ的FIR带通滤波器对原信号进行滤波,即可获得良好的效果。消除毛刺影响主要采用语音信号峰谷值检测的方法,把相邻两峰值之间很不明显的谷值和相邻两谷值之间很不明显的峰值去掉,对语音曲线中一些较小的毛刺进行曲线整形,消除那些明显的毛刺!

2.2端点检测

端点检测是语音识别中的的一个关键,也是一个难点,端点检测的好坏直接影响后面的语音特征参数提取,影响语音识别的效果。其目的就是从带有噪声的语音中检测出说话人的语音命令, 找出语音段开始和结束的时点。本系统使用语音信号的能量曲线结合过零率来进行端点检测[5],整个过程如图3所示。由于人声的乐音信号范围在50-1000HZ,首先对原语音信号进行不同频段的信号滤波,得到六个频段滤波后的能量曲线, E(1)为50-1000HZ段的语音信号,E(2)100-1000HZ段的语音信号,E(3)200-1000HZ段的语音信号,E(4)400-1000HZ段的语音信号,E(5)600-1000HZ段的语音信号,E(5)800-1000HZ段的语音信号。能量分割是依据峰谷点检测来进行的,利用能量曲线峰谷点地变化,把能量曲线中的语音段分割出来,且把语音段的起点和终点作为我们要求得端点。但是由于语音信号变化情况复杂,尤其是语音连读紧密的情况下,基于能量曲线的语音分割方法可能分割不开,所以,本系统采用了改进的能量曲线分割算法,通过对语音信号能像曲线分析,我们发现,不同频段的能量曲线反映的特征不同,对语音信号进行不同频段的滤波最后得到的能量曲线放映的语音端点信息也不同,有些语音信号在高频段的能量曲线中能很好的分割开,所以,对语音信号进行六个频段的滤波得出的基于能量曲线分割的改进算法,在判决依据中,赋予E(1)的权值为1,而E(2)、 E(3)、E(4)、E(5)、E(6)要求两个以上相同才被视为端点。基于所有能量曲线的分割点都要看过零率的门限是否满足要求,改进算法的用意是在尽可能准确的情况下尽量分割开语言信号, 尽量保证不错分, 尽量提高分割的准确度,避免误分。

       

 图3 端点检测流程图[page]

2.3语音特征参数提取

语音识别参数的提取较多,由于噪声的的存在,考虑音乐语音识别系统的对识别的精度要求较高,本系统采用了经典的美尔频标倒谱参数MFCC[4],MFCC参数建立在 Fourier 频谱分析的基础上,它的核心思想是利用人耳的感知特性,在语音的频谱范围内设置若干个带通滤波器,每个滤波器具备三角或者正弦的形滤波特性,计算相应滤波器组的信号能量,再通过 DCT 计算对应的倒谱系数,

图4 MFCC参数求取过程

2.4语音信号的训练与识别 

音乐语音识别系统是一个专业性很强的词汇量较小的语音识别系统,由于识别的速度要求较快,乐音中的词汇量较少,通常情况下人声能唱到的乐音的范围只有几十个(一般在4个八度以内)。本系统采用采用了计算相对简单而有效的DTW算法来进行语音识别。该算法基于动态规划的思想,将语音信号的每一帧信号的特征参数提取出来,就转化成了一组特征向量。语音识别就是要将这个特征向量同模板库中已存的语音特征向量(参考模板)进行模板匹配,寻找距离最短的模板。语音识别需要语音模板库的建立,也就是语音模型的训练。参照音乐语音音高频率对照表,我们只对人声范围(60HZ-1000HZ即乐音中音名从C- )共四个八度32个音高进行训练,针对每首曲子中音高的范围都是在一定范围以内的,所以往往我们训练训练的样本更少,较小的词汇量使乐音识别的速度得到大大提高。

3实验结果与分析

我们对系统的识别性能进行了测试。由6个测试者(3男3女音乐专业人士)在安静室内环境下,选择方向性较好的麦克风,进行测试实验。由于男生和女生一般能发音的音高不一样,一般男生比女生偏低,首先让6位测试者对照音名表把他(她)能发的音的全部录音、训练,再随机选择几首曲子进行测试,实验结果表明, 在对特定人的乐音识别中,由于女生发音口齿比较清晰,男生比较发音浑厚,男生的正确识别率在95%以上,女生的正确识别率在97%以上,平均正确识别率在 96%以上,满足实用化要求。

4结 论

本文介绍了一种基于DSP的嵌入式音乐语音识别系统的软硬件系统。在传统的语音识别方法上结合音乐语音的特点作了一些改进,叙述了音乐语音识别系统硬件结构、软件流程,采用了一种基于多频段能量曲线分割结合过零率来检测端点的新方法,简化了运算量,进一步提高了识别性能,把语音识别技术很好的用在电子音乐方面,实现了嵌入式实时音乐语音识别,实验结果表明,本系统精度高,基本能满足实用化需求。

本文作者创新点:

(1)把语音识别方法应用于电子音乐方面,设计并实现专业的音乐语音识别软硬件系统,巧妙采用了滤波、消除毛刺等预处理方法,训练了专业的音乐语音样本,提高语音识别精度。

(2)建立了一种基于多频段能量曲线分割结合过零率来检测端点的新方法,在保证不错分的情况下,提高了语音分割的正确率,同时结合过零率的门限,提高了端点检测的精度。

参考文献

[1] 蔡莲红,黄德智,蔡锐.现代语音技术基础与应用[M].北京:清华大学出版社,2003.

[2] 胡光锐.语音处理与识别[M].上海:上海科技文献出版社,1994.

[3] 王炳锡,屈丹,彭煊.实用语音识别基础[M].国防工业出版社,2005.

[4] 陈斐利. 汉语连续语音识别中的动态特性建模方法研究上海[D].上海交通大学.2002

[5] 江官星,王建英.一种改进的检测语音端点的方法[J].微计算机信息.2006,No.13,P.138-139

作者简介

1.梁文彬 (1982-),男(汉族),湖南新邵人,湖南大学电气与信息工程学院控制理论与控制工程硕士研究生,研究方向:嵌入式系统及其应用

2.张 帆 (1967-),男(汉族),湖南长沙人,湖南大学电气与信息工程学院副教授,研究方向:嵌入式系统及其应用

3.程 京 (1968-),女(汉族),湖南长沙人,湖南大学软件学院教授,研究方向:嵌入式系统及其应用

4.赵新宽 (1982-),男(汉族),湖北钟祥人,湖南大学电气与信息工程学院控制理论与控制工程硕士研究生,研究方向: 嵌入式系统及其应用

关键字:语音识别  端点检测  Mel倒谱系数 引用地址:嵌入式实时音乐语音识别系统的实现

上一篇:针对S698系列处理器的Windows平台集成开发环境
下一篇:基于嵌入式纸币识别系统的设计与实现

推荐阅读最新更新时间:2024-03-16 12:56

特定人语音识别技术在汽车控制上的应用
1 引言   从20世纪50年代开始对语音识别的研究开始,经过几十年的发展已经达到一定的高度,有的已经从实验室走向市场,如一些玩具、某些部门密码语音输入等,随着DSP和专用集成电路技术的发展,快速傅立叶变换以及近来 嵌入式 操作系统的研究,使得特定人识别尤其是计算量小的特定人识别成为可能。因此,对特定人语音识别技术在汽车控制上的应用的研究是很有前途的。 2 特定人语音识别的方法   目前,常用的说话人识别方法有模板匹配法、统计建模法、联接主义法(即人工神经网络实现)。考虑到数据量、实时性以及识别率的问题,笔者采用基于矢量量化和隐马尔可夫模型(HMM)相结合的方法。   说话人识别的系统主要由语音特征矢量提取单元(前端处
[汽车电子]
特定人<font color='red'>语音识别</font>技术在汽车控制上的应用
CEVA基于神经网络的WhisPro™语音识别技术
用于Always-On设备的Trigger Phrase SDKit扩展了CEVA的智能声音IP产品组合,为客户提供了用于智能手机、智能扬声器、蓝牙耳机等语音控制设备的整体解决方案。 CEVA,全球领先的智能和互联设备信号处理平台和人工智能处理器IP授权许可厂商 (纳斯达克股票交易所代码:CEVA) 宣布推出基于神经网络的语音识别技术WhisPro™,瞄准智能云服务和前端设备使用语音作为主要人机接口的快速增长。 WhisPro充分利用CEVA在低功耗语音和音频处理方面的丰富专业知识,是一种始终聆听的多关键词触发技术,允许新智能手机、智能扬声器、蓝牙耳机和其它语音设备的用户与基于云的语音助理服务进行交
[手机便携]
语音识别技术完善 攸关智能型装置未来发展
    未来将是物联网(IoT)的时代,为智能型装置发展便捷的操作介面为首要之务,其中尤以语音控制最为合适。然而语音识别技术现仍存在诸多难题,实际普及率不高。   据Wired网站报导,美国汽车协会(American Automobile Association)近来针对汽车免持系统的潜在安全风险进行调查,结果显示即使驾驶直视前方且手握方向盘,音控系统仍有可能导致驾驶分心,危险度与驾驶途中发送简讯不相上下。   以往智能型装置的语音识别系统稳定性及可靠度不足,难以发挥优势,仅能做为娱乐用途。尼尔森公司(Nielsen)旗下行销技术公司Affinnova调查指出,在重要事务上,大众往往倾向选择较为稳定的解决方案。
[手机便携]
基于STM32的嵌入式语音识别模块设计
介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统μC/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。 服务机器人以服务为目的,因此人们需要一种更方便、更自然、更加人性化的方式与机器人交互,而不再满足于复杂的键盘和按钮操作。基于听觉的人机交互是该领域的一个重要发展方向。目前主流的语音识别技术是基于统计模式。然而,由于统计模型训练算
[单片机]
基于STM32的嵌入式<font color='red'>语音识别</font>模块设计
基于STM32的嵌入式语音识别电路模块设计
 介绍了一种以ARM为核心的嵌入式语音识别模块的设计与实现。模块的核心处理单元选用ST公司的基于ARM Cortex-M3内核的32位处理器STM32F103C8T6。本模块以对话管理单元为中心,通过以LD3320芯片为核心的硬件单元实现语音识别功能,采用嵌入式操作系统μC/OS-II来实现统一的任务调度和外围设备管理。经过大量的实验数据验证,本文设计的语音识别模块具有高实时性、高识别率、高稳定性的优点。    主控制器电路   本文的主控制器选用的是ST公司的STM32F103C8T6芯片。该芯片基于ARM Cottex-M3 32位的RISC内核,工作频率最高可达72 MHz,内置高速存储器(64 KB的闪存和20 KB的S
[电源管理]
基于STM32的嵌入式<font color='red'>语音识别</font>电路模块设计
新型语音识别电路AP7003及其应用
    摘要: 介绍了新型、低成本语音识别电路AP7003的性能、引脚、指令等内容,并给出了应用电路原理图及详细的应用方法。     关键词: 语音识别 键盘控制 CPU控制 存储体 1 AP7003简介     AP7003是一款新型、低成本语音识别专用集成电路,内置有麦克风放大器、A/D转换器、语音处理器和I/O控制器,经预处理后可识别12组不同的字词,每组1.5秒时长,可连词或单词识别。AP7003包括AP7003-01(由CPU串行控制)和AP7003-02(由按键直接控制)两种型号,且最有高度的I/O可编程性,使用简单方便,可广泛应用于玩具、识别转控、自动答录等领域。     A
[半导体设计/制造]
详解语音识别技术在汽车上的应用
  随着语音识别技术应用的不断深化,汽车工程师也在寻求将其更好地整合到汽车系统中的方法。在开发人员将语音作为复杂的人机界面的核心时,控制技术领域必将发生颠覆性的改变。   语音控制被看作是让驾驶者管理大量消费类电子产品的最可行方式。这种方式可以让人们在做一些相对较复杂的事情时不必将注意力从前方的道路上转移开,比如在M P 3播放器上找一首歌等。   不过语音识别也不是灵丹妙药。有些操作很简单,只需要用手按一下按钮或拨一下滑动按钮。随着显示屏逐渐成为汽车中控台的核心组件,触摸式输入方式已经成为另外一种操作选择方式。   事实上,各种控制技术都有其存在和发展的空间。消费者带进汽车的各种电子产品本身也有丰富的功能。随着语音和触摸技术的不
[嵌入式]
鸡肋的语音助手怎么会变成三星的新重点
EEWORLD智能管理小编午间播报:根据外媒 The Verge 报导,3月20日三星正式对外介绍手机虚拟助理 Bixby,并称 Bixby 将会在本月稍晚发布 Galaxy 8 同时亮相。同样都是手机虚拟助理,和苹果 Siri、亚马逊 Alexa 以及微软 Cortana 最不一样的地方,就是 Bixby 在 Galaxy 8 上会有一个属于自己的按键。 唤醒手机助理的作业复杂度对许多使用者来说一直是个门槛,让用户在真正急切需要帮助时无法快速进入界面,相较于嵌进手机系统里的语音唤醒方式,Bixby 的物理按键可让唤醒变得像锁屏一样自然。 三星软件和服务部门执行副总裁兼研发主管 Injong Rhee 用打电话的方式说明一个物理按
[安防电子]
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
设计资源 培训 开发板 精华推荐

最新单片机文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved