支持向量机语音识别算法在OMAP5912上的移植-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

　　随着语音识别和语音合成技术的不断更新与发展，将语音识别技术应用于嵌入式产品中已得到广泛应用。SVM(支持向量机)作为统汁概率模型已经被证明是一种很好的识别模型。OMAP5912处理器是由TI公司的TMS320C55X 型DSP内核与低功耗、增强型ARM926EJ-S微处理器组成的双核应用处理器。ARM核可满足控制和接口方面的需要，DSP核以其低功耗高性能来实现多媒体应用。目前存0MAP平台上实现的多媒体应用有语音、音频、图像、视频等。在实验室开发的基于0MAP5912嵌入式语音识别系统上进行基于SVM 的语音识别程序开发。

　　1 SVM多类分类方法

　　SVM最初是为处理两类分类问题而设计的，如何有效地处理多类分类问题目前仍是一个持续研究的课题。采用SVM中的“一对一”方法实现多类分类，下面对这种方法进行简单介绍。

　　S．Knerr等在1990年首次介绍了“一对一”方法。J．Friedman在1996年和U KreBel在1999年分别首次在支持向量机中使用这种方法。它需要构造k(k-1)／2个分类器，每个分类器由特定的某两类训练样本训练得到，判定测试样本的类别时，结合所有两类分类器对测试样本类别的判定意见，采用“投票法”的策略，并认为得票数最多(Max Wins)的类别就是测试样本所属的类别。具体如下：考虑K类的分类问题，设训练集

　　首先对所有的(i，j)∈{(i，j)|i≤j，i，j=1，…，K}进行运算：从训练集中抽取所有y=i和y=j的样本点。基于这些样本点组成一个训练集Ti-j，每个两类分类SVM解决问题

　　约束条件为：

　　通过求解式(3)的最优化问题得到k(k-1)／2个决策函数，如果函数判断x属于i类，则i类的得票数增加1；否则j类的得票数增加1。最终判定得票数最多的类别就是测试样本x所属的类别。

　　“一对一”方法的特点是训练时需要构造k(k-1)／2个分类器，预测时则采用投票选择策略。这样做的优点是：每一个分类问题的规模较小，需要求的问题较简单，样本数量不很大时训练速度较快，而且由于类别有较少的重合，改善了样本拒分、错分的范同；缺点是：投票法可能存在得票相同的类，即可能存在一个样本同时属于多个类的情况。这可以使用其他方法解决，这里重点研究SVM算法在0MAP上的实现。

　　2 嵌入式系统开发环境的搭建

　　0MAP5912处理器是由TI公司的TMS320C55x 型DSP内核(192 MHz)与低功耗、增强型ARM926EJ-S微处理器(192 MHz)组成的双核应用处理器，采用0．13μm CMOS工艺制造。TMS320C55x型DSP可提供对低功耗应用的实时多媒体处理的支持；ARM926EJ-S MPU可满足控制和接口方面的处理需要。基于双核结构的0MAP5912具有极强的运算能力和极低的功耗，采用开放式、易于开发的软件设施，支持广泛的操作系统。嵌入式系统开发在解决了硬件平台的设计和操作系统的搭建后就需要考虑应用程序如何编译、主机如何与开发板通信、程序如何调试、程序如何下载到开发板这几个方面的问题。

　　2．1 通信环境

　　采用minicom通信终端程序，通过minicom可以设置、监视串口工作状态，接收、显示串口收到的信息、并且在宿主机和开发板之间传递数据和控制指令，从而实现通过宿主机上调试开发板的目的。

　　设置minicom参数值如下：“Serial Device”为／dev／ttyrSO(使用串口1)；主机串口波特率为：115 200；数据位为：8位；停止位为：1位；奇偶校验位为：无；数据流控制为：无。完成后保存设置重启Minicom。

　　2．2 程序下载环境

　　在程序开发期间，经常需要把程序下载到开发板上进行测试，采用通用开发模式：将宿主机和开发板通过以太网连接，在宿主机上运行minicom作为开发板的显示终端，通过NFS(Network File System，网络文件系统)来挂载宿主机硬盘，让应用程序直接运行在开发板上。

　　2．3 交叉编译环境的建立

　　宿主机系统为Ubuntu version 2．6．27，将交叉编译工具arm-linux-gcc-3．4．1解压缩到／usr／local／arm目录下，然后在终端执行命令：#gedit／root／．bashrc，修改／root／．bashrc文件，在文件中加入export PATH=“$PATH：／sbin：／usr／local／arm／3．4．1／bin：／usr／local／bin：／usr／local”，最后在终端执行命令#source．bashrc．至此，交叉编译环境搭建完成。资源文件和库文件都

　　安装在／usr／local／arm／3．4．1／arm-linux目录下。交叉编译过程如图l所示。

　　2．4 安装NFS《Network File System)

　　在开发阶段采用NFS比较方便，这样开发板的根文件系统可以放在宿主机上，然后通过NFS来挂载和运行。内核同样也可放在宿主机上，然后由引导器使用 TFTP(Trivial FileTransferProtocol)协议通过以太网来获取。开发板同时具有以太网口和串口，且以太网连接的传输速度远比串口连接要快，因此，用以太网接口下载内核和根文件系统，而串口作为调试和控制台来使用。

　　2．4．1安装NFS

　　Ubuntu上默认是没有NFS服务的，首先要安装NFS服务程序，#sudo apt-get install nfs-kernel-server，使宿主机相当于NFS服务器。同样地，开发板作为NFS的客户端，需要安装NFS客户端程序：#sudo apt-get install nfs-commmon。

　　2．4．2 配置portmap服务

　　nfs-common和nfs-kernel-setver都依赖于portmap，所以需要配置portmap。#sudo dpkg-reconfigure portmap，对Shouldportmap be bound to the loopback address?选N。

　　在／etc／hosts．deny和／etc／hosts．allow两文件中设置对portmap的访问：首先在／etc／hosts．deny中，禁止所有用户对portmap的访问，然后在／etc／hosts．allow中，允许特定用户对portmap进行访问。文件修改完后执行#sudo／etc／init．d／pottmap restart，重启portmap daemon使改动后的内容生效。

　　2．4．3 配置／etc／exports

　　NFS挂载目录及权限由／etc／expotts文件定义。在该文件最后添加语句：

　　／data／rootfs2．6 192．168．0．*(rw，sync，no_root_squash)

　　使192．168．O．*网段内的NFS客户端能够共享NFS服务器／data／rootfs2．6目录内容，不仅有渎写权限，而且进入／data／rootfs-2．6目录后的身份为root。更新配置，重启NFS服务。

　　　　#sudo　exportfs-r
　　　　#sudo／etc／init．d／nfs-kernel-server　restait

　　2．4．4 拷贝根文件系统

　　拷贝根文件系统到／data／rootfs2．6目录下，这时就可以启动minicom，作为虚拟终端，可以通过它来操作开发板。

　　2．5 修改开发板启动项

　　bootargs参数设置Linux系统启动时挂载在NOR Flash上的JFFS2根文件系统。挂载宿主机上的网络文件系统，则bootargs参数应设置

　　setenv bootargs=console=ttyS0，115200n8 noinitrd rw ip=192．168．0．158 root=／dev／nfs nfsroot=192．168．0．204：／data／rootfs2．6．nolock mem=62M

　　#sayenv保存设置后重启u-boot，之后将顺利进入到开发板，调试应用程序。

　　3 实验及结果分析

　　基于VC++6．0编程实现一种多类分类SVMs算法，PC机环境为Ubuntu version 2．6．27，开发板为Omap5912的ARM926ej-s，其环境为Lin-ux version 2．6．18；Boot Loader采用u-boot version 1．1．6；交叉编译工具链arm-linux-gcc version3．4．1。

　　采用16个人分别对50个词的孤立词发音，在不同信噪比下(15、20、25、30 dB和无噪音)得到的语音数据作为样本，采用由MFCC特征提取算法得到的特征参数作为识别网络的输入。语音信号采样率为11．025 kHz，帧长N=256点，帧移M=128点。词汇量分别为10、20、30、40和50个词。训练样本由9人每人对每词在15、20、25、30 dB、无噪音下发音3次得到．测试样本由另外7人在相应SNR下对每词发音3次得到。识别算法采用RBF核函数的SVM算法，采用交叉验证和网格搜索法进行核参数选择并建立模型，对测试样本进行分类识别。核函数参数取最优为(c，y)=(32．0，O．000 122 070 312 5)。实验结果见表l所示，识别率均在95％以上。表1中同时列出同样条件下使用HMM识别网络的识别结果。

　　HMM模型是典型的语音识别模型，它是目前语音识别效果最好的少数几种方法之一。在相同特征参数下将SVM与HMM模型进行对比，从实验结果看出：1)SVM比HMM模型具有更高的识别率；2)比较相同信噪比和词汇量下的测试精度，可发现HMM模型的测试精度有明显下降，而SVM的测试结果下降较少，说明SVM比HMM模型具有更强推广性。

　　4 结束语

　　提出一种基于SVM的0MAP5912非特定人嵌入式语音识别系统的实现方法。在搭建的开发环境下运用SVM算法巾的“一对一”方法进行语音识别，获得良好结果。通过实验可以得出，对中小词汇量采用MFCC特征参数，“一对一”SVM作为后端识别方法可以得到较好的识别结果，比传统的HMM模型有明显优势。同时SVM算法作为应用程序集成到0MAP5912嵌入式系统里，存储量需求小，能够满足实用要求。

关键字：语音识别多类分类向量机(SVM) OMAP5912 引用地址：支持向量机语音识别算法在OMAP5912上的移植

上一篇：DSP数字信号处理主导摄像机的发展进程
下一篇：基于改进平衡Winnow算法的短信过滤系统

推荐阅读最新更新时间：2024-05-02 21:14

基于STM32F103的语音识别汽车空调控制系统设计

引言现在汽车上使用的电器越来越多，驾驶员需要手动操作的电器开关也越来越多，不但增加了驾驶员的负担，还影响了行车安全。本文以STM32F103VET6(以下简称STM32)芯片为控制核心，采用高性能LD3320语音识别芯片，设计基于语音识别的汽车空调控制系统。该系统可以用语音有效控制汽车空调，减轻了驾驶员的操作负担，保证行车过程中的安全。 1 系统硬件设计运用语音识别技术，结合各种传感器对车身内外的环境(如气温、阳光强度等)以及制冷压缩机的状态等多种参数进行实时检测，与设定参数相比较，微控制器经过运算处理做出判断，输出相应的调节和控制信号。执行机构经过实时调整和修正，实现对车厢内空气环境全方位、多功能的调节和控制。系统的执行

[单片机]

基于STM32F103的<font color='red'>语音识别</font>汽车空调控制系统设计

微软智能语音识别出错率低至5.1%，达到专业速录员水平

微软公司在当地时间周日宣布，其对话式语音识别系统的出错率达到5.1%，创下目前为止的最低水平，超过了去年微软人工智能及研究事业部一组研究人员所实现的5.9%出错率，达到了专业速录员的同等水平。在此次研究中，专业速录员具备重复收听录音等优势。下面就随手机便携小编一起来了解一下相关内容吧。据科技博客TechCrunch北京时间8月21日报道，微软公司在当地时间周日宣布，其对话式语音识别系统的出错率达到5.1%，创下目前为止的最低水平，超过了去年微软人工智能及研究事业部一组研究人员所实现的5.9%出错率，达到了专业速录员的同等水平。在此次研究中，专业速录员具备重复收听录音等优势。这两次研究转录的是Switchboard语料库中的录

[手机便携]

stm32c8t6利用语音识别与播报检测DHT11温湿度

其他串口利用printf函数输出文字首先，你要想用printf函数的话需要配置串口的相关参数，也就是初始化，学过stm32的都清楚串口初始化的大概配置过程，这里我就不细讲了，重点讲一下printf函数，这个printf函数在MDK5里面好像是找不到的，看了网上很多教程，发现是在fputc这个函数里面修改串口的输出，而这个fput函数一般在usart.c文件里面，如下所示： //重定义fputc函数 int fputc(int ch, FILE *f) {/*这个可以发送文字*/ while((USART3- SR & 0X40) == 0); //循环发送,直到发送完毕,给串口3发送数据 USART3- DR = (u8

[单片机]

stm32c8t6利用<font color='red'>语音识别</font>与播报检测DHT11温湿度

语音识别系统中增加图像识别技术的设计

摘要：采用机器视觉对语音对象进行跟踪，利用说话人正常发音时，嘴部的开合状况提取语速信息，实时调整语音识别的工作速度，匹配语音韵律，将有效提高语音识别准确性。讨论了系统的设计原理和实现技术，着重介绍了对应辅助图像识别的设计分析。关键词：语音识别机器视觉图像识别语音识别是机器自动语音识别（automatic speech recognition by machine）的简称。语音识别技术关系到多学科的研究领域，不同领域中的研究成果都对语音识别的发展作出了贡献。让机器识别语音的困难在某种程度上就像一个外语不好的人听外围人讲话一样，它与说话人、说话速度、说话内容、环境条件有关。语音信号本身的特点造成了语音识别的困难。这些

[手机便携]

新型语音识别电路AP7003及其应用

摘要：介绍了新型、低成本语音识别电路AP7003的性能、引脚、指令等内容，并给出了应用电路原理图及详细的应用方法。关键词：语音识别键盘控制 CPU控制存储体 1 AP7003简介 AP7003是一款新型、低成本语音识别专用集成电路，内置有麦克风放大器、A/D转换器、语音处理器和I/O控制器，经预处理后可识别12组不同的字词，每组1.5秒时长，可连词或单词识别。AP7003包括AP7003-01（由CPU串行控制）和AP7003-02（由按键直接控制）两种型号，且最有高度的I/O可编程性，使用简单方便，可广泛应用于玩具、识别转控、自动答录等领域。 A

[嵌入式]

基于ARM的非特定人语音识别系统的设计方案

　　0 引言　　语音交互是人类交流和交换信息中最便捷的手段和最重要的媒体，长久以来，人们都希望找寻一种新的途径解决人类与机器的交互方式，希望机器设备能够“听”懂人类的语音信息进行交互，识别其含义并响应、从而做出相应动作，这样的交互方式更能被使用者接受，取代原有的键盘、按钮、开关等传统交互方式，基于非特定人的语音识别技术已然成为人机交互新方式的一个重要发展方向和研究热点。　　语音信号的识别涉及众多学科知识体系，与计算机、语言学、通信、数理统计、信号处理和人工智能等学科都有着密切的关系，由于语音信号具有信息量大、不确定性、动态性和连续性的特点，在语音信号的预处理、特征提取等阶段处理数据量非常大，对软件的处理算法和硬件的处理能力

[单片机]

基于ARM的非特定人<font color='red'>语音识别</font>系统的设计方案

便宜芯片与简单AI，Google 打造抛弃式语音识别产品

　　 Google 工程师PeteWarden在英国ARM研究高峰论坛表示，他希望打造超便宜的语音识别产品，搭载只要50美分的超低价芯片，一个硬币大小的电池，足以维持一年的电力，再搭配简单的人工智能算法，就可以让语音识别产品快速普及。下面就随网络通信小编一起来了解一下相关内容吧。　　麻省理工科技评论(MITTechnologyReview)报导，这种超便宜的语音识别芯片可用来生产便宜的对话玩偶，或是简单的家用电器，如可被语音驱动的灯。在工业环境应用，这种芯片可辨识不寻常的声响，或是农田里的蟋蟀。　　Warden为 Google 的云端人工智能工具开发行动和嵌入式应用，称为TensorFlow，他在开发过程中发现亚马逊的 AI

[网络通信]

国内语音识别公司有哪些

与机器进行语音交流，让机器明白你说什么，这是人们长期以来梦寐以求的事情。中国物联网校企联盟形象得把语音识别比做为“机器的听觉系统”。语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。语音识别技术车联网也得到了充分的引用，例如在翼卡车联网中，只需按一键通客服人员口述即可设置目的地直接导航，安全、便捷。语音识别是一门交叉学科。近二十年来，语音识别技术取得显著进步，开始从实验室走向市场。人们预计，未来10年内，语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。语音识别听写机在一些领域的应用被美

[家用电子]

热门资源推荐
热门放大器推荐

小广播

热门活动

换一批

■TI 有奖直播 | 使用基于 Arm 的 AM6xA 处理器设计智能化楼宇

■Follow me第二季第3期来啦！与得捷一起解锁高性能开发板【EK-RA6M5】超能力！

■报名直播赢【双肩包、京东卡、水杯】| 高可靠性IGBT的新选择——安世半导体650V IGBT

■30套RV1106 Linux开发板（带摄像头），邀您动手挑战边缘AI~