基于DSP的孤立词语音识别系统的设计-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

1 引言

　　随着语音信号处理技术的不断发展与成熟，语音识别正逐步成为信息技术中人机接口的关键技术。DSP 芯片，即数字信号处理器，是专门为快速实现各种信号处理算法而设计的、具有特殊结构的微处理器，其处理速度比最快的CPU还快10~50倍。本文介绍的就是基于TMS320VC5402配合TLC320AD50C和AT89S52的实验室用机器人的孤立词语音识别系统。

　　2 语音识别系统的基本介绍

　　2.1 语音识别系统的组成

　　计算机语音识别过程与人对语音识别处理过程基本上是一致的。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性，动态性，瞬时性和连续性等。目前主流的语音识别技术是基于统计模式识别的基本理论。一个完整的语音识别系统可如图1所示。

　　2.2 语音识别系统的分类

　　根据对说话人说话方式的要求，可以分为孤立词语音识别系统，连续字语音识别系统和连续语音识别系统;根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统;根据词汇量大小，可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。

　　3 硬件系统设计

　　此语音识别系统的目的让机器人能听懂我们所发出的简单的命令，首先由TLC320AD50C采集计算机声卡的语音，经过转换后送给TMS320VC5402, TMS320VC5402完成语音信号处理，即识别出所发出的语音，然后把结果送给AT89S52显示，同时通过串行通讯送给机器人(PC-104)，以使机器人能够控制自己的行动。其结构框图如图2所示。

　　该系统以TMS320VC5402为核心电路，对孤立词语音信号进行采集和处理，AIC为TMS320VC5402的模拟接口电路，包括放大、滤波、和A/D转换的电路，把由话筒采集进来的模拟语音信号，转换成数字语音信号。其中SRAM和Flash分别为TMS 320VC5402的数据存储器和程序存储器。键盘和显示部分则由AT89S52来控制，AT89S52把键盘操作转换为控制信号再传送给TMS320VC5402，控制系统的工作是训练还是识别，TMS320VC5402把要显示的系统状态通讯给AT89S52，以实现LCD显示。这些硬件工作过程如图3所示。

　　3.1 TMS320VC5402与TLC320AD50C的接口设计

　　TMS320VC5402提供了两个增强型的高速、全双工多通道缓存串行口McBSP， McBSP具有全双工的通信机制以及双缓存的发送寄存器和三缓存的接收寄存器，允许连续的数据流传输，数据长度可以为8，12，16，20，24，32;同时还提供了A-律和μ律压扩，多达128个通道的发送与接收。McBSP通过7个引脚使得一个数据通路和一个控制通路与外部设备相连。McBSP的引脚如下：

　　① DX：发送引脚，与McBSP相连发送数据。

　　② DR：接收引脚，与接收数据总线相连。

　　③ CLKX：发送时钟引脚。

　　④ CLKR：接收时钟引脚。

　　⑤ FSX：发送帧同步引脚。

　　⑥ FSR：接收帧同步引脚。

　　TLC320AD50C集成了16位A/D，D/A转换器，采样速率最高可达80kHz。在TLC320AD50C内部DAC之前有插值滤波器，ADC之后有抽样滤波器，接收和发送可同时进行。TLC320AD50C主机时钟信号来源于外部，通过MCLK引脚输人。帧同步信号从内部产生，由MCLK导出，其频率由控制寄存器4设定。SCLK时钟可以由内部产生也可由外部插入，在内部产生时，其频率为帧同步信号频率的256倍。其主要特点如下：

　　① 可采用单5V电源供电也可以采用5V模拟、3.3V数字双电源供电;

　　② 内含16位精度的Σ-△ADC和DAC;

　　③ 器件中的ADC为64倍过采样，DAC为256倍过采样(内部);

　　④ 具有85dB的最小信噪比;

　　⑤ 带有内建抗混叠滤波器和sinx/x补偿;

　　⑥ 可配置成主机或从机方式，一个串行接口可支持4个TLC320AD50器件;

　　TLC320AD50C与TMS320VC5402串行通信可以分为首次通信和二次通信。在首次通信中，有两种数据传送模式，16位传送模式和15+1位传送模式，可通过控制寄存器设定。省却情况下为15+1位传送模式。

　　TMS320VC5402与TLC320AD50C的硬件接口电路如图4所示。

　3.2 TMS320VC5402与AT89S52的通信

　　AT89S52和TMS320VC5402各自独立工作，其信息和数据交换通过共享一片外部存储器来实现，它们之间信号联络通过硬连接和软件判断来实现。

　　外部存储器采用的是CY7C133，它是高速的2K X 16bit的静态异步双端口RAM，其存储速度为25ns。它有两套独立的地址线、数据线和控制信号线，允许两个控制器件中的数据通过共同连接的存储器来进行通信。该双端口RAM允许两个控制器同时读取任何存储单元(包括同时读同一单元)，但不允许同时写或者一读一写统一地址单元。

　　对于TMS320VC5402，数据存储器CY7C133的对应地址为4000H~47FFH。

　　对于AT89S52，数据存储器CY7C133的对应地址为2000H~27FFH。

　　4 软件系统设计

　　由图1可知，软件系统的设计主要包括端点检测、特征量提取和模式匹配。

　　4.1 端点检测

　　从背景噪声中找出语音的开始和终止，这在很多语音处理领域中是基本的问题。特别是在孤立词的自动识别中，找出每个单词的语音信号范围是很重要的，确定语音信号的开始和终止的方案可以用来减少非实时系统中的大量计算，使该系统仅处理语音输入。本语音识别系统实时、精确的端点检测可以排除无声段的噪声干扰，使后面的识别性能得以较大的提高。

　　汉语的音节末尾都是浊音，只用短时能量就能较好地判断一个词语的末点。而汉语词语的起点检测不仅有一定的难度，而且检测是否准确对语音识别性能影响颇大，因为大多数声母都是清声母，还有送气与不送气的塞音和塞擦音，将它们与环境噪声分辨是比较困难的。这里用短时相对能频积的方法对语音信号的端点进行检测。

　　语音信号一般可分为无声段、清音段、浊音段。无声段的平均能量最低，浊音段的平均能量最高，清音段的平均能量居于两者之间。在有噪声环境下，语音刚开始的一段，其短时能量的大小与背景噪声的短时能量差不太多。清音段的过零率大多数情况下最高，无声段的过零率变化范围较大，一般情况下比浊音段低一点，但有时会比浊音段稍高一点或者差不多。

　　在系统刚启动时，正常情况下语音信号的前100ms是无声段，所以我们可以提取这段语音信号的平均能量、平均过零率、它们的乘积(称为能频积) 作为进行判断的特征参数。

　　4.2 特征量提取

　　原始语音信号不能直接用于模板训练和模式匹配，这是因为(1)原始语音信号数据量太大，系统的运算和存贮负担过重;(2)原始语音信号包含太多的随机因素，极大的影响了系统的识别率。

　　语音识别系统进行模板训练和模式匹配的数据是从预处理后语音信号中提取的特征参数。通过预处理和特征参数提取技术，一方面使得进行模板训练和模式匹配的数据特征明显，提高了系统的识别率;另一方面进行了信息压缩，降低了系统的运算量和存贮量。

　　特征参数提取就是从语音信号中提取有代表性的、合适的特征参数，进行适当的数据压缩。时域参数的优点是计算量比较少，对于区别语音段和静音段及清/浊音段比较方便，效果也比较明显。但由于人耳对声音的频域特性比较敏感，时域参数不能恰当地反映这种特征。

　　线性预测分析法是最有效的语音分析技术之一。线性顶测分析所包括的基本概念是，一个语音抽样能够用过去若干个语音抽样的线性组合来逼近。通过使实际语音抽样和线性预测抽样之间差值的平方和(在一个有限间隔上)达到最小值，能够决定唯一的一组预测器系数(预测器系数是线性组合中所用的加权系数)。

　　线性预测系数(LPC)倒谱系数其实是复倒谱。复倒谱是信号通过z变换以后取对数，再求反G变换而得到的。线性预测分析方法是一种谱估计的方法，而且其声道模型系统函数H(z)反映了声道的频率响应和原始信号的谱包络，因此用lgH(z)做反Z变换即可求出其复倒谱系数。该复倒谱系数是根据线性预测模型直接得到的，因此又称之为LPC倒谱系数。

　　4.3 模式匹配

　　模板匹配法是多维模式识别系统中最常用的一种相似度计算方法。在训练过程中，经过特征提取和特征维数的压缩，并采用聚类方法，针对每个模式类各产生一个或几个模板，识别阶段将待识别模式的特征矢量与各模板进行相似度计算，然后判别它属于哪个类。语音识别也可以用模板匹配法进行相似度计算，但它在特征维数方面存在一个时间对准问题，是通常模式识别匹配计算时不具备的一些特殊情况。孤立词识别时，每个类是一个词，每个词由一个或多个音素或类音素构成。在训练或识别过程中，每次说同一个词时，其持续时间长度和各个词的各音素或类音素的相对时长都会随机地改变。因此在匹配时如果只对特征矢量序列进行线性时间规整，其中的音素或类音素就可能对不准。而应该采用某种非线性时间对准算法。动态时间规整(DTW)就是效果最好的一种非线性时间规整模板匹配算法。

　　不同的人所发的语音信号，其模式有很大的差异，即使是同一个人，在不同的时间由于方法不同，其语音特征参数也有变化。在模式匹配时，由于这些变化会影响测度的估计，从而识别率降低。为了提高识别率，首先要把语音信号的起始点检测出来;其次，为了克服两次同样的语音而发音时间长短的不同，采用对标准模式的语音信号均匀地伸长或缩短直到它与未知语音信号长度相一致。这种方法能达到的识别精度完全取决于端点检测的精度。

　　5 结语

　　本系统主要工作是服务于实验室智能机器人的孤立词语音控制。实践证明，本系统能够对机器人常用的一些命令词进行识别，并且比实验室的传统机器人的控制方式方便得多，经过改进可以用到工业机器人的控制系统中去。

　　本文作者创新点是利用DSP对A/D采集来的语音信号进行处理，然后和计算机通信，同时将处理结果送给单片机实现LCD显示。

关键字：DSP 语音识别 TMS320VC540 引用地址：基于DSP的孤立词语音识别系统的设计

上一篇：基于DSP的雷达视频信号数字采集与检测
下一篇：德州仪器开发出1.2 GHz TMS320TCI6487

推荐阅读最新更新时间：2024-05-02 20:46

基于DSP+ARM的便携式电能质量分析仪设计

　　随着国家工业规模的扩大和科学技术的发展，电网负荷结构发生了很大的变化，一方面，非线性、冲击性和不平衡负荷的大量增长使得电能质量恶化;另一方面，随着信息技术的发展。越来越多的敏感负载对电能质量的要求也越来越高。这就要求电能质量检测分析设备具有实时检测、快速分析、实时显示的能力。采用高性能数字信号处理器( DSP )和嵌入式计算机系统( ARM )双处理器架构设计电能质量分析仪能满足上述要求。 DSP 系统实现电压、电流信号的实时采集处理，通过加窗傅里叶变换和小波算法得到电能质量参数; ARM 嵌入式平台运行WinCE操作系统完成人机交互、数据存储、实时显示等功能。该系统为仪器的可扩展性和智能化建立了良好的软硬件平

[嵌入式]

基于<font color='red'>DSP</font>+ARM的便携式电能质量分析仪设计

教你了解DSP与单片机的区别

本内容简单介绍了DSP与单片机的区别 1 存储器结构不同单片机使用冯.诺依曼存储器结构。这种结构中，只有一个存储器空间通过一组总线（一个地址总线和一个数据总线）连接到处理器核。大多数DSP采用了哈佛结构，将存储器空间划分成两个，分别存储程序和数据。 2 定点计算大多数DSP使用定点计算，而不是使用浮点。为了不使用浮点机器而又保证数字的准确，DSP处理器在指令集和硬件方面都支持饱和计算、舍入和移位。 3 专门的寻址方式 DSP处理器往往都支持专门的寻址模式，例如，模块（循环）寻址、位倒序寻址。这些非常专门的寻址模式在GPP中是不常使用的，只有用软件来实现。 4 对密集的乘法运算的支持单片机不是设计来做密集乘法任务的，即使是一

[嵌入式]

DSP 与PC 机串行通讯的设计

摘要：以TMS320F240 系列为例，简要介绍了数字信号处理器串行通信接口SCI 模块和RS485 串口通信，并编程实现了TMS320F240 与PC 机串行通信接口电路。 1 引言 DSP 既是Digital Signal Pricessing 的缩写，也是Digital Signal Pricessor 的缩写。前者是指数字信号处理的理论和方法，后者则是指用于数字信号处理的可编程微处理器。TMS320F240 系列是在TMS320F2000TM 平台下的一种定点DSP 芯片，是专为数字电机控制和其他控制应用系统而设计的16位定点运算的DSP。它集合了DSP 的高速运算功能与电机的强大控制能力，为控制系统应用提

[嵌入式]

<font color='red'>DSP</font> 与PC 机串行通讯的设计

CEVA将在IIC上展示移动多媒体IP产品组合

在国际集成电路研讨会暨展览会 (IIC China) 上海8F07展位上，参观者将可一睹CEVA公司展示最新的便携式多媒体解决方案。CEVA是专业向无线、消费电子和多媒体应用提供硅产品知识产权平台解决方案和数字信号处理器 (DSP) 内核的授权厂商。除了交互式应用展示外，参观者还有机会与CEVA的技术专家会面，以便深入了解CEVA的解决方案如何为其设计提供真正的优势。在展会期间，CEVA将举办一个题为 “开发高效HD音频引擎” 的研讨会，介绍CEVA最新的DSP产品系列，并阐释用于先进高清 (HD) 音频应用的全面单核解决方案CEVA-HD-Audio™ 如何能满足不断演进的高端音频处理需求。

[嵌入式]

基于CEVA最新一代图像和视觉DSP平台，酷芯微电子新一代Edge AI

在2018世界人工智能大会期间，上海酷芯微电子有限公司 (以下简称“酷芯微电子”) 针对无人机、无人新零售、智能安防、家庭服务机器人、工业视觉、IOT应用和通信等市场，推出了新一代 AR9000 系列高性能、低功耗的Edge AI 边缘智能处理SoC。据悉，该系列芯片集成了自主研发的远距离无线基带和射频、高性能ISP (Image Signal Processing)、神经网络专用加速器、视频编解码等核心技术，并且集成有 USB3.0、千兆以太网、PCIE、CAN总线等丰富的外围接口。酷芯微电子董事长姚海平表示，本次发布的AR9000系列，包含了AR9101T、AR9201两款SoC，这两颗芯片都已经进入批量量产阶

[手机便携]

基于定点DSP的CMOS数字视频监控终端

　　引言　　CMOS图像传感器CCD相比，由于能将时序处理电路和图像信号的前端放大与数字化部分集成于一个芯片内，因此，它的发展一直受到业界的高度重视。现在，随着技术与工艺的发展，CMOS图像传感器不仅在噪声上得到了有效改善，而且分辨率也已得到了明显提高。一般的彩色CMOS图像传感器都能达到100万像素。好的CMOS图像传感器甚至能达300万像素以上。因此，CMOS图像传感器将以其低廉的价格、实用的图像质量、高集成度和相对较少的功耗，在视频监控领域得到更加广泛的应用。　　TI公司的TMS320C54X系列DSP是一款性能价格比很高的16位定点DSP。以TMS320C5402为例，它的运行速度可以达到100MIPS，而且内部集

[嵌入式]

DSP 的IC 引导装载方法的研究与实现

　　DSP 芯片的片上引导装载程序（Bootloader）用于在系统上电时将用户程序从外部非易失性慢速存储器（如FLASH 等）或外部控制器（如ARM 等）中装载到片内或者片外的高速存储器中高速运行。DSP 芯片一般都提供多种引导装载模式，如Host 引导装载、EMIF 引导装载、I2C 引导装载、Serial RapidIO 引导装载等。相比其它几种模式而言，I2C 引导装载具有体积小、功耗低、连接简单等优点。本文以TI 公司的DSP 芯片TMS320C6455 （以下简称C6455）为例，详细介绍了I2C 引导装载模式的实现步骤，并构建了一个小系统验证引导装载的实现过程。　　1 C6455 的引导装载模式介绍　　

[嵌入式]

TMS320C54x DSP在线烧写FLASH存储器并实现自举引导的方法

摘要：通过一个完整的实例，详细阐述了TMS320C54x系列DSP芯片在线烧写FLASH存储器。并实现自举引导的方法。给出了硬件连接方案和完整的C语言烧写程序。关键词：TMS320C54x FLASH 烧写自举引导在DSP系统中通常贴片式FLASH存储器保存程序，并且在上电或复位时再将存储在FLASH中的程序搬移到DSP片内或者片外的RAM中全速运行。这个“程序搬移”的过程叫做自举加载。本文以TMS320C5416 DSP对MBM29LV400BC存储器的操作为例，详细阐述了在线烧写FLASH并实现自举加载的方法。该方法适合于大多数C54x系列DSP对符合JEDEC标准的FLASH的操作。为便于读者使用，本文的程序

[应用]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■验证并选择心仪MOSFET，探寻选型奥秘！注册、体验双重好礼等你拿~

■评论有奖：元器件采购的秘密法宝，助你做个自带“松弛感”的职场人！

■新栏目器件口碑专辑上线~快来点评吧！

■中星联华直播 | 高速信号完整性分析与测试 — “码”上行动系列线上讲堂