基于TMS320VC5402的孤立词语音识别系统设计

发布者:SparklingEyes最新更新时间:2009-11-06 来源: 现代电子技术关键字:语音识别  端点检测  Mel尺度倒谱参数  动态时间规整  DSP 手机看文章 扫描二维码
随时随地手机看文章

0 引 言

    在孤立词语音识别中,最为简单有效的方法是采用动态时间规整(Dynamic Time Warping,DTW)算法,该算法解决了发音长短不一的模板匹配问题,是语音识别中出现最早、较为经典的一种算法。用于孤立词识别,该算法较现在比较流行的HMM算法在相同的环境条件下,识别效果相差不大,但HMM算法要复杂的多,这主要体现在HMM算法在训练阶段需要提供大量的语音数据,通过反复计算才能得到模型参数,而DTW算法的训练中几乎不需要额外的计算。所以在孤立词语音识别中,DTW算法仍得到广泛的应用。本系统就采用了该算法。

1 系统概述

    语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理,包括预滤波、采样和量化、加窗、断点检测、预加重等。语音信号经过预处理后,接下来重要的一环就是特征参数提取,其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型,在识别的时候将输入的语音特征同声学模型进行比较,得到最佳的识别结果。

2 硬件构成

2.1 系统构成

    这里采用DSP芯片为核心(图2),系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。

2.2 系统主要功能模块构成

    语音处理模块采用TI TMS320VC5402,其主要特点包括:采用改进的哈佛结构,一条程序总线(PB),三条数据总线(CB,DB,EB)和四条地址总线(PAB,CAB,DAB,EAB),带有专用硬件逻辑CPU(40位算术逻辑单元(ALU),包括1个40位桶形移位器和二个40位累加器;一个17×17乘法器和一个40位专用加法器,允许16位带或不带符号的乘法),片内存储器(八个辅助寄存器及一个软件栈),片内外专用的指令集,允许使用业界最先进的定点DSP C语言编译器。TMS320VC5402含4 KB的片内ROM和16 KB的双存取RAM,一个HPI(HostPortInterface)接口,二个多通道缓冲单口MCBSP(Multi-Channel Buffered SerialPort),单周期指令执行时间10 ns,带有符合IEEE1149.1标准的JTAG边界扫描仿真逻辑。语音输入、输出的模拟前端采用TI公司的TLC320ADSOC,它是一款集成ADC和DAC于一体的模拟接口电路,并且与DSP接口简单,性能高、功耗低,已成为当前语音处理的主流产品。16位数据结构,音频采样频率为2~22.05 kHz,内含抗混叠滤波器和重构滤波器的模拟接口芯片,还有一个能与许多DSP芯片相连的同步串行通信接口。TLC320AD50C片内还包括一个定时器(调整采样率和帧同步延时)和控制器(调整编程放大增益、锁相环PLL、主从模式)。TLC320AD50C与TMS320VC5402的硬件连接,如图3所示。

3 语音识别算法实现

3.1 语音信号的端点检测

    语音的端点检测是语音识别中最基本的模块,在嵌入式语音识别系统中更是占有非常重要的地位:一方面端点检测的结果不准确,系统的识别性能就得不到保证;另一方面如果端点检测的结果过于放松,虽然语音部分被很好地包含在处理的信号中,但是增加过多的静音则会增加系统的运算量,同时对识别性能也有负面影响。因此为能量和过零率两个参数分别设定两个门限,一个是比较低的门限,数值比较小,对信号的变化比较敏感,很容易就被超过。另一个是比较高的门限,数值比较大,信号必须达到一定的强度,该门限才可能被超过。低门限被超过未必就是语音的开始,有可能是时间很短的噪声引起的。高门限被超过,则基本确信是由于语音信号引起的。

    整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束。程序中使用一个变量status来表示当前所处的状态。在静音段,如果能量或过零率超越了低门限,就应该开始标记起始点,进入过渡段。在过渡段中,由于参数的数值比较小,不能确信是否处于真正的语音段,因此只要两个参数的数值都回落到低门限以下,就将当前状态恢复到静音状态。而如果在过渡段中两个参数中任意一个超过了高门限,就可以确信进入语音段了。一些突发性的噪声可以引发短时能量或过零率的数值很高,但是往往不能维持足够长的时间,这些可以通过设定最短时间门限来判别。当前状态处于语音段时,如果两个参数的数值降低到低门限以下,而且总的计时长度小于最短时间门限,则认为这是一段噪音,继续扫描以后的语音数据。否则就标记好结束端点,并返回。

3.2 语音特征参数的提取

    近年来,一种能够比较充分利用人耳这种特殊的感知特新的参数得到了广泛的应用,这就是Mel尺度倒谱参数(Mel-scaled Cepstrum Coefficients,MFCC)。它和线性频率的转换关系是:

    fMel=2 596log10(1+f/700)

    MFCC参数是按帧计算的。首先要通过FFT得到该帧信号的功率谱,转换为Mel频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器Hm(n)。MFCC参数的计算流程为:

    (1)确定每一帧语音采样序列的点数,本系统采取N=256点。对每帧序列s(n)进行预加重处理后再经过离散FFT变换,取模的平方得到离散功率谱s(n)。

    (2)计算s(n)通过M个Hm(n)后所得的功率值,即计算s(n)和Hm(n)在各个离散频率点上乘积之和,得到M个参数Pm,m=0,1,…,M-1。

    (3)计算Pm的自然对数,得到Lm,m=0,1,…,M-1。

    (4)对L0,L1,…,LM-1计算其离散余弦变换,得到Dm,m=0,1,…,M-1。

    (5)舍去代表直流成分的D0,取D1,D2,…,DK作为MFCC参数。此处K=12。

3.3 特定人语音识别算法

    在孤立词语音识别中,最为简单有效的方法是采用DTW动态时间规整算法,设参考模板特征矢量序列为A={a1,a2,…,aj),输入语音特征矢量序列为B={b1,b2,…,bk),j≠k。DTW算法就是要寻找一个最佳的时间规整函数,使得语音输入B的时间轴k映射到参考模板A的时间轴j上总的累计失真最小。

    将己经存入模板库的各个词条称为参考模板,一个参考模板可以表示为{R(1),R(2),…,R(M)},m为训练语音帧的时序标号,m=1为起点语音帧,m=M为终点语音帧,因此M为该模式包含的语音帧总数,R(m)为第m帧语音的特征矢量。所要识别的一个输入词条语音称为参考模板,可表示为{T(1),T(2),…,T(N)),n为测试语音帧标号,模板中共包含N帧音,T(n)为第n帧音的特征矢量。

    为了比较它们的相似度,可以计算,它们之间的失真D[T,R],失真越小相似度越高。为了计算这一失真,应从T和R中各个对应帧之间的失真算起。将各个对应帧之间的失真累计起来就可以得到两模式间的总失真。很容易想到的办法是当两模式长度相等时,直接以相等的帧号相匹配后累加计算总失真,而当两个模式长度不等时则利用线性扩张或线性压缩的方法使两模式具有相等长度,随后进行匹配计算失真度。但由于人类发音具有随机的非线性变化,这种方法效果不可能是最佳的。为了达到最佳效果,可以采用动态时间规整的方法。如图4所示,横坐标对应“1”这个字音的一次较短的发音,经过分帧和特征矢量计算后共得到一个长度为43帧的语音序列,而纵坐标对应“1”这个字音的一次较长的发音,该语音特征序列共有56帧。为了找到两个序列的最佳匹配路径,现把测试模式的各个帧号n=1~N(图4中N=43)在一个二维直角坐标系中的横轴上标出,把参考模式的各帧号m=1~M(图4中M=56)在纵轴上标出。

    通过这些表示帧号的整数坐标画一些纵横线即可形成一个网格,网格中何一个节点(n,m)表示测试模式中的某一帧和参考模式中的某一帧的交汇点。动态时间规整算法可以归结为寻找一条通过此网格中若干交叉点的路径,路径通过的交叉点即为参考模式和测试模式中进行失真计算的帧号。路径不是随意选择的,首先任何一种语音的发音快慢可能有变化,但是各部分的先后顺序不可能改变,因此所选的路径必定从左下角出发,在右上角结束。其次为了防止漫无目的的搜索,可以删去那些向n轴方向或者m轴方向过分倾斜的路径(例如,过分向n轴倾斜意味着R(m)压缩很大而T(n)扩张很大,而实际语音中这种压、扩总是有限的)。为了引入这个限制,可以对路径中各通过点的路径平均斜率的最大值和最小值予以限制。通常最大斜率定为2,最小平均斜率定为1/2。路径的出发点可以选择(n,m)=(1,1)点,也可以选择(n,m)=(1,2)或(1,3)或(2,1)或(3,1)…点出发。前者称为固定起点,后者称为松弛起点。同样,路径可在(n,m)=(N,M)点结束,也可以在(n,m)=(N,M-1)或(N,M-2)或(N-1,M)或(N-2,M)…点结束。前者称为固定终点,后者称为松弛终点。

    使用DTW算法为核心直接构造识别系统十分简单,首先通过训练得到词汇表中各参考语音的特征序列,直接将这些序列存储为模板。在进行识别时,将待识语音的特征序列依次与各参考语音特征序列进行DTW匹配,最后得到的总失真度最小且小于识别阈值的就认为是识别结果。该方法最显著的优点是识别率极高,大大超过目前多数的HMM语音识别系统和VQ语音识别系统。但其最明显的缺点是由于需要对大量路径及这些路径中的所有节点进行匹配计算,导致计算量极大,随着词汇量的增大其识别过程甚至将达到难以接受的程度,因此无法直接应用于大、中词汇量识别系统。

4 结 语

    以本系统为基础开发了一种语音拨号系统,经过大量实验表明,该系统电路运行稳定,且识别率可以达到90%。系统成本低,稍加改进就可把该语音识别模块移植应用到各种系统设备中。

关键字:语音识别  端点检测  Mel尺度倒谱参数  动态时间规整  DSP 引用地址:基于TMS320VC5402的孤立词语音识别系统设计

上一篇:德州仪器全新 6 核 DSP 力助 Dapco 工业公司
下一篇: FPGA的技术市场特点

推荐阅读最新更新时间:2024-05-02 20:54

基于DSP的智能电源系统设计
摘要: 介绍了一种基于DSP 的智能电源管理系统设计和实现方案。本系统以TI 公司的TMS320LF2407A DSP 为控制核心,主要由信号采集模块,电路调理模块,DSP 处理模块,显示模块,键盘模块,DC-DC 并联供电模块和辅助供电模块等组成。设计采用BUCK 降压变换电路实现DC /DC 变换,设计和制作了高效率的两路DC-DC 变换器并联供电,此并联供电系统能够将36 V 直流电压转化为12V 直流电压,允许电流达到20 A 长时间工作,并且两个并联开关电源模块的电流可按照默认分流比例分流和控制分配比例分流两种模式工作。另外系统进行了抗干扰设计,使其具有较好的抗干扰能力,保证系统可靠工作。   0 引言   随着社会
[嵌入式]
基于<font color='red'>DSP</font>的智能电源系统设计
基于DSP的自动对焦系统
现代社会是一个高度信息化的社会,多媒体技术的发展使 图像 信息的获取及其传输手段倍受瞩目。自动对焦技术是计算机视觉和各类成像 系统 的关键技术之一,在照相机、摄像机、显微镜、内窥镜等成像系统中有着广泛的用途。传统的自动对焦技术较多采用测距法,即通过测出物距,由镜头方程求出系统的像距或焦距,来调整系统使之处于准确对焦的状态。随着现代计算技术的发展和数字图像处理理论的日益成熟,自动对焦技术进入一个新的数字时代,越来越多的自动对焦方法基于图像处理理论对图像有关信息进行分析计算,然后根据控制策略驱动 电机 ,调节系统使之准确对焦。   本文利用数字式CMOS图像传感器作为感像器件,运用DSP芯片采集图像信息并计算系统的对焦评价函数,
[应用]
DSP编程技巧之:编译流程与处理器选项
  在我们有关DSP的论坛、博客和一些互动活动中,网友经常会问一些有关“编程技巧”的问题。   关于编程技巧的定义,也没有一个统一的标准,例如实现一个很复杂的多层嵌套的指针设计算是一种编程熟练的体现吧;又或者用C/C++的高级特性做了很复杂的功能,但是编译器不能完全支持,例如某种内存的动态重分配方法,这时对编译器特性的熟悉就显得很重要了。   接下来我们就聊一聊DSP编程技巧里面有关编译技巧的一些问题,具体的分类包括编译器的选项、代码的优化、库文件的使用、代码实现标准、实时运行环境等等;了解了这些具体的问题,对于解决在编译和链接程序的时候经常遇到的让人摸不着头脑的警告和错误也是很有帮助的;因为程序的语法错误很容易被编译器发现并定位
[嵌入式]
<font color='red'>DSP</font>编程技巧之:编译流程与处理器选项
CEVA授权Percello采用DSP开发毫微微蜂窝基站
      硅产品知识产权 (SIP) 平台解决方案和数字信号处理器 (DSP) 内核授权厂商CEVA公司宣布无晶圆厂的半导体公司Percello已获授权使用CEVA-TeakLite-III DSP内核,用于先进的毫微微蜂窝基站 (Femtocell) 基带芯片组的开发。       Femtocell接入点是一种新兴技术,可为住宅和小型商务环境提供低成本及全集成的手机服务。Percello的处理器架构充分发挥了CEVA-TeakLite-III DSP功能强大及完全可编程的优势,实现高集成度且具成本效益的Femtocell解决方案,提供前所未有的性能和功能性水平。       Percello首席执行官Shlomo
[嵌入式]
CEVA授权Percello采用<font color='red'>DSP</font>开发毫微微蜂窝基站
如何充分利用数字信号处理器上的片内FIR和IIR硬件加速器
摘要 有限脉冲响应(FIR)和无限脉冲响应(IIR)滤波器都是常用的数字信号处理算法---尤其适用于音频处理应用。因此,在典型的音频系统中,处理器内核的很大一部分时间用于FIR和IIR滤波。数字信号处理器上的片内FIR和IIR硬件加速器也分别称为FIRA和IIRA,我们可以利用这些硬件加速器来分担FIR和IIR处理任务,让内核去执行其他处理任务。在本文中,我们将借助不同的使用模型以及实时测试示例来探讨如何在实践中利用这些加速器。 简介 图1.FIRA和IIRA系统方框图 图1显示了FIRA和IIRA的简化方框图,以及它们与其余处理器系统和资源的交互方式。 FIRA和IIRA模块均主要包含一个计算引擎(乘累
[嵌入式]
如何充分利用<font color='red'>数字信号处理器</font>上的片内FIR和IIR硬件加速器
基于DSP的移动机器人的设计与实现
摘要:智能交通系统是21世纪城市交通的发展方向,移动机器人作为智能车辆控制系统实验平台的一个主要部分,对智能交通系统的关键技术的研究具有十分重要的意义。介绍了面向智能交通系统的SJTNC-1移动机器人的组成和结构,并详细叙述了基于数字信号处理器TMS320LF2407A的控制系统的设计和实现。 关键词:智能交通系统 移动机器人 数字信号处理器 智能交通系统(ITS)的概念是美国智能交通学会于1990年提出的,它将先进的信息技术、通信技术、自动控制技术、电子技术及计算机处理技术综合运用于整个运输管理系统中,通过对交通信息的采集、传输和处理,对交通运输进行协调和管理,建立起实时、准确、高效的综合交通运输管理体系,从而提高了交通效率
[应用]
DSP的并行处理方法
  在通信、雷达等系统中,特别是在3G无线基站等系统中,随着输入语音 数字和分组数据量急剧增加,系统的处理能力也需要急剧增加,这需要一种功能强大的大型并行阵列信号处理系统。系统往往需要进行非常复杂的数据处理,虽然 DSP技术得到了飞速的发展,出现了高速DSP芯片,但是使用单个DSP芯片还是不能适用系统的需求,迫切需要把多个DSP组成互联系统,以增强整体数据 处理能力。本文主要研究TI公司的TMS320C6x系列DSP的主机接口(HPI)、多通道缓冲串口(McBSP)以及AD公司的ADSP2106x系 列DSP的链路口(Link),介绍了利用其组成DSP并行系统时各种互连方法和优缺点。   1 TMS320C6x简介   
[嵌入式]
<font color='red'>DSP</font>的并行处理方法
电力电子装置控制系统的DSP设计方案
摘 要 以TI公司的电机控制专用芯片TMS320LF2407aDSP为例,介绍电力电子装置中控制系统的硬件设计方案。包括DSP的电平转换、时钟、复位、译码、片外存储、键盘、液晶显示和E2PROM电路与必要的外围电路。 关键词 DSP 硬件设计 电力电子装置 PCB 引言 在现代高性能电力电子和交流电机控制系统中,DSP已经取代了微控制器成为控制器的核心。其快速强大的运算和处理能力以及并行运行的能力,满足了电力电子装置控制系统对实时性和处理算法复杂性的要求,并为不断发展的新理论和新算法的应用奠定了技术基础。 C240x系列DSP是面向数字控制系统的新一代数字信号处理器。该控制器集实时处理能力和控制器设计功能于一身,为控
[应用]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved