支持向量机语音识别算法在OMAP5912上的移植

发布者:剑戟辉煌最新更新时间:2014-10-14 来源: eefocus关键字:语音识别  SVM  OMAP  向量机 手机看文章 扫描二维码
随时随地手机看文章

      随着语音识别和语音合成技术的不断更新与发展,将语音识别技术应用于嵌入式产品中已得到广泛应用。SVM(支持向量机)作为统汁概率模型已经被证明是一种很好的识别模型。OMAP5912处理器是由TI公司的TMS320C55X型DSP内核与低功耗、增强型ARM926EJ-S微处理器组成的双核应用处理器。ARM核可满足控制和接口方面的需要,DSP核以其低功耗高性能来实现多媒体应用。目前存 0MAP平台上实现的多媒体应用有语音、音频、图像、视频等。在实验室开发的基于0MAP5912嵌入式语音识别系统上进行基于SVM的语音识别程序开发。

1 SVM多类分类方法

      SVM最初是为处理两类分类问题而设计的,如何有效地处理多类分类问题目前仍是一个持续研究的课题。采用SVM中的“一对一”方法实现多类分类,下面对这种方法进行简单介绍。
     S.Knerr等在1990年首次介绍了“一对一”方法。J.Friedman在1996年和U KreBel在1999年分别首次在支持向量机中使用这种方法。它需要构造k(k-1)/2个分类器,每个分类器由特定的某两类训练样本训练得到,判定测试样本的类别时,结合所有两类分类器对测试样本类别的判定意见,采用“投票法”的策略,并认为得票数最多(Max Wins)的类别就是测试样本所属的类别。具体如下:考虑K类的分类问题,设训练集


    首先对所有的(i,j)∈{(i,j)|i≤j,i,j=1,…,K}进行运算:从训练集中抽取所有y=i和y=j的样本点。基于这些样本点组成一个训练集Ti-j,每个两类分类SVM解决问题


约束条件为:


     通过求解式(3)的最优化问题得到k(k-1)/2个决策函数,如果函数判断x属于i类,则i类的得票数增加1;否则j类的得票数增加1。最终判定得票数最多的类别就是测试样本x所属的类别。

    “一对一”方法的特点是训练时需要构造k(k-1)/2个分类器,预测时则采用投票选择策略。这样做的优点是:每一个分类问题的规模较小,需要求的问题较简单,样本数量不很大时训练速度较快,而且由于类别有较少的重合,改善了样本拒分、错分的范同;缺点是:投票法可能存在得票相同的类,即可能存在一个样本同时属于多个类的情况。这可以使用其他方法解决,这里重点研究SVM算法在0MAP上的实现。

2 嵌入式系统开发环境的搭建

   OMAP5912处理器是由TI公司的TMS320C55x型DSP内核 (192 MHz)与低功耗、增强型ARM926EJ-S微处理器(192 MHz)组成的双核应用处理器,采用0.13μm CMOS工艺制造。TMS320C55x型DSP可提供对低功耗应用的实时多媒体处理的支持;ARM926EJ-S MPU可满足控制和接口方面的处理需要。基于双核结构的OMAP5912具有极强的运算能力和极低的功耗,采用开放式、易于开发的软件设施,支持广泛的操作系统。嵌入式系统开发在解决了硬件平台的设计和操作系统的搭建后就需要考虑应用程序如何编译、主机如何与开发板通信、程序如何调试、程序如何下载到开发板这几个方面的问题。

2.1 通信环境

     采用minicom通信终端程序,通过minicom可以设置、监视串口工作状态,接收、显示串口收到的信息、并且在宿主机和开发板之间传递数据和控制指令,从而实现通过宿主机上调试开发板的目的。
     设置minicom参数值如下:“Serial Device”为/dev/ttyrSO(使用串口1);主机串口波特率为:115 200;数据位为:8位;停止位为:1位;奇偶校验位为:无;数据流控制为:无。完成后保存设置重启Minicom。

2.2 程序下载环境

    在程序开发期间,经常需要把程序下载到开发板上进行测试,采用通用开发模式:将宿主机和开发板通过以太网连接,在宿主机上运行minicom作为开发板的显示终端,通过NFS(Network File System,网络文件系统)来挂载宿主机硬盘,让应用程序直接运行在开发板上。

2.3 交叉编译环境的建立

宿主机系统为Ubuntu version 2.6.27,将交叉编译工具arm-linux-gcc-3.4.1解压缩到/usr/local/arm目录下,然后在终端执行命令:#gedit/root/.bashrc,修改/root/.bashrc文件,在文件中加入export PATH=“$PATH:/sbin:/usr/local/arm/3.4.1/bin:/usr/local/bin:/usr/local”,最后在终端执行命令#source.bashrc.至此,交叉编译环境搭建完成。资源文件和库文件都
安装在/usr/local/arm/3.4.1/arm-linux目录下。交叉编译过程如图l所示。


2.4 安装NFS《Network File System)

     在开发阶段采用NFS比较方便,这样开发板的根文件系统可以放在宿主机上,然后通过NFS来挂载和运行。内核同样也可放在宿主机上,然后由引导器使用 TFTP(Trivial FileTransferProtocol)协议通过以太网来获取。开发板同时具有以太网口和串口,且以太网连接的传输速度远比串口连接要快,因此,用以太网接口下载内核和根文件系统,而串口作为调试和控制台来使用。[page]

2.4.1安装NFS
    Ubuntu上默认是没有NFS服务的,首先要安装NFS服务程序,#sudo apt-get install nfs-kernel-server,使宿主机相当于NFS服务器。同样地,开发板作为NFS的客户端,需要安装NFS客户端程序:#sudo apt-get install nfs-commmon。

2.4.2 配置portmap服务
   nfs-common和nfs-kernel-setver都依赖于portmap,所以需要配置portmap。#sudo dpkg-reconfigure portmap,对Shouldportmap be bound to the loopback address选N。
     在/etc/hosts.deny和/etc/hosts.allow两文件中设置对portmap的访问:首先在/etc/hosts.deny中,禁止所有用户对portmap的访问,然后在/etc/hosts.allow中,允许特定用户对portmap进行访问。文件修改完后执行#sudo/etc/init.d/pottmap restart,重启portmap daemon使改动后的内容生效。

2.4.3 配置/etc/exports
    NFS挂载目录及权限由/etc/expotts文件定义。在该文件最后添加语句:
   /data/rootfs2.6 192.168.0.*(rw,sync,no_root_squash)
    使192.168.O.*网段内的NFS客户端能够共享NFS服务器/data/rootfs2.6目录内容,不仅有渎写权限,而且进入/data/rootfs-2.6目录后的身份为root。更新配置,重启NFS服务。
     #sudo exportfs-r
    #sudo/etc/init.d/nfs-kernel-server restait

2.4.4 拷贝根文件系统

    拷贝根文件系统到/data/rootfs2.6目录下,这时就可以启动minicom,作为虚拟终端,可以通过它来操作开发板。

2.5 修改开发板启动项
    bootargs参数设置Linux系统启动时挂载在NOR Flash上的JFFS2根文件系统。挂载宿主机上的网络文件系统,则bootargs参数应设置
    setenv bootargs=console=ttyS0,115200n8 noinitrd rw ip=192.168.0.158 root=/dev/nfs nfsroot=192.168.0.204:/data/rootfs2.6.nolock mem=62M
      #sayenv保存设置后重启u-boot,之后将顺利进入到开发板,调试应用程序。

3 实验及结果分析
    基于VC++6.0编程实现一种多类分类SVMs算法,PC机环境为Ubuntu version 2.6.27,开发板为Omap5912的ARM926ej-s,其环境为Lin-ux version 2.6.18;Boot Loader采用u-boot version 1.1.6;交叉编译工具链arm-linux-gcc version3.4.1。
    采用16个人分别对50个词的孤立词发音,在不同信噪比下(15、20、25、30 dB和无噪音)得到的语音数据作为样本,采用由MFCC特征提取算法得到的特征参数作为识别网络的输入。语音信号采样率为11.025 kHz,帧长N=256点,帧移M=128点。词汇量分别为10、20、30、40和50个词。训练样本由9人每人对每词在15、20、25、30 dB、无噪音下发音3次得到.测试样本由另外7人在相应SNR下对每词发音3次得到。识别算法采用RBF核函数的SVM算法,采用交叉验证和网格搜索法进行核参数选择并建立模型,对测试样本进行分类识别。核函数参数取最优为(c,y)=(32.0,O.000 122 070 312 5)。实验结果见表l所示,识别率均在95%以上。表1中同时列出同样条件下使用HMM识别网络的识别结果。

 


    HMM模型是典型的语音识别模型,它是目前语音识别效果最好的少数几种方法之一。在相同特征参数下将SVM与HMM模型进行对比,从实验结果看出:1)SVM比HMM模型具有更高的识别率;2)比较相同信噪比和词汇量下的测试精度,可发现HMM模型的测试精度有明显下降,而SVM的测试结果下降较少,说明SVM比HMM模型具有更强推广性。

4 结束语
   提出一种基于SVM的0MAP5912非特定人嵌入式语音识别系统的实现方法。在搭建的开发环境下运用SVM算法巾的“一对一”方法进行语音识别,获得良好结果。通过实验可以得出,对中小词汇量采用MFCC特征参数,“一对一”SVM作为后端识别方法可以得到较好的识别结果,比传统的HMM模型有明显优势。同时SVM算法作为应用程序集成到0MAP5912嵌入式系统里,存储量需求小,能够满足实用要求。

关键字:语音识别  SVM  OMAP  向量机 引用地址:支持向量机语音识别算法在OMAP5912上的移植

上一篇:基于三星S3C2410A的无线多床位心电监护仪的设计
下一篇:基于嵌入式Linux的智能手机电话短信实验模块

推荐阅读最新更新时间:2024-03-16 13:42

基于TI DM642和OMAP5912 DSP实现行车安全辅助记录系统的设计
研究动机与介绍 随着工业的进步,行车安全以及车辆防盗的问题已摆在世界人民面前。根据报导,中国每年超过11万人死于车祸,大部分的事故皆由人为因素引起,而疲劳与分心则是主要的原因。虽然瞌睡侦测、脑电波等相关研究都致力于提醒驾驶员,但是其效果并非相当令人满意;加上系统的反应时间以及系统成本因素,无法全面普及。 除了行驶安全的问题让人担忧之外,车辆本身的防盗装置亦使人烦心。根据资料显示,中国每年有超过7.2万辆汽车失窃,平均每7分钟就有一辆汽车遭窃,即使目前的车辆在出厂时都配备防盗 锁 ,且使用者自己也会加装防盗窃装置,但是效果并不显著,目前 监控 系统最多做到传送文字短信至使用者手机作为提醒,但是无法将实时监控的影像连续不断地传
[汽车电子]
基于TI DM642和<font color='red'>OMAP</font>5912 DSP实现行车安全辅助记录系统的设计
车内语音识别技术,让汽车活起来
随着CarPlay、Android Auto以及Echo Auto等平台渗透乘用车市场,车内语音识别技术预期将成为主流;但仍有一个答案未知的问题是:市场上有任何语音启动技术已经准备好随机应对车内的关键任务了吗? 在今年1月举行的国际消费性电子展(CES)上,当媒体看到高通(Qualcomm)展示了在其车内Smart Audio平台上的Amazon Alexa语音识别功能,就对未来发展有了一些想象。高通的展示预示,车内虚拟助理将会使得语音成为驾驶人与车辆之间的自然沟通接口。 高通的展示中最令人印象深刻的一幕,是Alexa在高通的某个高层说话时打断他,说:“不对!这不是真的。”欧喔…在展示中发生这种小“突槌”事件在所难免
[汽车电子]
车内<font color='red'>语音识别</font>技术,让汽车活起来
从五大核心元素看车载智能操控未来发展
自动驾驶和车联网技术的快速发展,带动汽车自动化、智能化和网联化程度日趋提升的同时,使得人类操控汽车的方法也随之发生改变。放眼市场,当前人们在驾驶汽车过程中要进行某些操作,除了传统的物理操控模式,新增了很多智能化途径,如语音控制、手势控制等,大大提升了驾乘安全性。 那么,随着车载智能操控技术越来越广泛地被应用于汽车上,并逐渐成为未来汽车操控模式的主流,与之相关的一些核心组成会呈现怎样的发展呢?在日前举办的2017 T行神州系列活动首站上海站活动过程中,来自英国汽车咨询公司SBD的Victor Zhang从中控、仪表盘、抬手显示、语音识别、手势控制五项技术未来的发展对该问题进行了解答,从而为下一阶段车载系统、娱乐系统以及车内交互系统的
[汽车电子]
使用TPS62200作为OMAP1510的动态电压缩放器
毫无疑问的,延长可携式电子产品之电池使用寿命将有助于该产品的销售。对微处理器而言,降低内部时脉频率以及/或降低核心电压均有助于降低其功率消耗。动态电压缩放(Dynamic voltage scaling , DVS)技术常用来降低核心电压以降低功率消耗。本文将说明如何使用TPS62200降压型转换器来实现动态电压缩放技术并作为OMAP1510处理器之电源。 下列式子将说明使用TI-DSP核心之微处理器的功率消耗计算方式: PC " (VC)2 %26;#215; f 其中PC代表核心功率消耗,VC为核心电压,f则为核心时脉频率 因此,降低内部时脉频率以及/或降低核心电压均可降低核心之功率消耗。动态电压缩放技术一般常用来降低核
[应用]
德州仪器与Ideaworks3D共同打造“OpenKODE-Ready”OMAP 游戏平台
增强型平台简化和加速面向多个手机的游戏开发工作 推动优质多媒体与游戏功能的发展 2007 年 3 月 6 日,北京讯 德州仪器 (TI) 与 Ideaworks3D 正在扩展 OMAP 游戏平台的功能,以支持OpenKODE 1.0 规范,满足从功能电话到高端多媒体手机的更广阔市场的需求。作为业界率先采用 OpenKODE Khronos 开放式开发环境的平台之一,该平台将进一步简化面向多个手机的新游戏开发与部署工作,为游戏发行商开创更广阔的市场机遇。 为了帮助开发人员能够面向最广阔的潜在市场开展工作,TI进一步扩展该游戏平台,其中包含了 OMAP 2 与 OMAP-Vox 产品系列。此外,TI推出的平台通过 Ideawor
[焦点新闻]
TMS320C54x代码在OMAP5910上的实现
摘要:TMS320C54x DSP已经得到了广泛应用。为了充分利用TMS320C54x DSP上的软件开发成果,节省开发成本,需要将TMS320C54x的程序移植到OMAP5910平台的TMS320C55x DSP上运行。介绍了利用MASM55对代码进行重新编码、对不能移植的代码进行手工修改、重新编写系统级代码等方法成功地实现了TMS320C54x到TMS320C55x的代码移植,正确地实现了程序的功能。充分利用TMS320C55x新增特征,对部分运算量大的函数进行手工代码优化,大幅度地降低了程序的运算量,提高了代码的执行效率和性能。 关键词:OMAP5910 TMS320C55x TMS320C54x 代码移植 代码优化
[嵌入式]
雷达和MEMS麦克风结合音频处理器实现无与伦比的语音识别
2017年3月17日,英飞凌科技股份公司(FSE: IFX / OTCQX: IFNNY)携手XMOS有限公司推出全新的语音识别构件。该构件将英飞凌的雷达和硅麦克风传感器与XMOS 的音频处理器相结合,通过音频波束成形和雷达目标位置检测进行远场语音识别。这些器件融合在一起能够实现最优语音识别,并能实现语音控制设备的完美执行。目标应用主要包括智能家居、智能电视和机顶盒、安全无钥匙进入系统和其他声控消费电子设备。 当前MEMS 麦克风的性能会限制系统的有效性:在多人语音时,声源的真实性和位置不能被准确识别,而且无法与无生命体噪音分离。英飞凌带有天线的60 GHz 2Tx/4Rx雷达IC和70dB SNR麦克风可以帮助克服这些问题。
[传感器]
雷达和MEMS麦克风结合音频处理器实现无与伦比的<font color='red'>语音识别</font>
基于DSP语音识别系统的硬件设计
摘要:语音识别是当前研究热点之一,应用十分广泛。系统浮点运算量很大,所以采用浮点型DSP。文章主要研究以DSP处理器为核心的硬件系统,包括电源电路,复位电路,时钟电路,JTAG接口电路,外部存储电路和语音处理电路等,并对每个电路模块进行详细的阐述。该方案已经可以作为模板电路实现。 关键词:DSP;TMS320C6713;硬件设计;语音识别 0 引言 随着超大规模集成电路和数字信号处理(DSP)的快速发展,DSP应用越来越广泛,涉及到各个领域如语音处理,图像处理等方面。现在语音识别中许多复杂算法已经能够在硬件上实现。最近十多年来,己研发出不少应用于不同领域的便携式语音识别系统。DSP处理速度快、灵活、精确,满足了对信号快速、
[嵌入式]
基于DSP<font color='red'>语音识别</font>系统的硬件设计
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
设计资源 培训 开发板 精华推荐

最新单片机文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved