摘要:提出使用肌电信号的语音识别系统。研究证实从面部肌肉中提取的肌电信号存在语音信息。实验使用(0~9)十个数字,受试者每隔10s重复单词。讲话时用电极记录五个通道表面肌电信号。用短时傅里叶变换提取信号的特征量,并通过主成分分析降维,有效地提取特征量进行模式识别。分类错误范围在15%以下。实验表明表面肌电信号的语音识别系统有着极好的前景。
关键词:EMG信号 语音识别 短时傅里叶变换 模式识别 生物信号处理
股电图EMG(electromyography)是研究或检测肌肉生物电活动,借以判断刘经股肉系统机能及形态学变化,并有助于神经肌肉系统的研究或提供临床诊断的科学。
肌电信号(EMG)发源于作为中枢神经一部分脊髓中的运动神经元,是电极所接触到的许多运动单元发放的支作电位的总和,反映了神经肌肉的活动、功能状态。表面肌电信号是从人体骨骼肌表面通过电极记录下来的神经肌肉活动发放的生物电信号。肌电信号不仅在临床医学、运动学等领域被广泛应用,而且研究证实肌肉关节内的生理肌电信号存在着相应的语音信息。不同的肌肉运动模式是由不同的肌群收缩发生的,其所伴随的表现肌电信号是不同的。而发音时肌肉对应着不同的运动模式,完全有可能从不同的表面肌电信号特征中找到对应的肌肉动作模式。随着信号处理方法和计算机技术的发展,如何从生理肌电信号中识别出语音信号,已引起越来越多人的关注。
以前有些用肌电信号识别语音的研究,研究目的是使用肌电信号作为输入来弥补语音信息。肌电语音识别系统与常规语音识别标准相比,识别准确度较差,但准确度远高于随便猜测的准确度。这表明在肌肉关节内的生理肌电信号存在着语音信息。语音识别中使用肌电信号的优点是能够帮助发音障碍者交流;且信号不受声音噪声干扰;还有一些字在声学上发音相似,但说话方式和嘴的位置不同,在表面肌电信号中信号的特征是有区别的。这意味着肌电信号能用来区别听起来相似的字。Day研究表明,识别准确度在听起来相似和不相似的词汇中保持相同。使用面部肌电信号的语音识别系统一个应用是帮助操作高性能飞机的飞行员,一旦系统识别出飞行员讲的话,能使用信息控制设备,如显示器、雷达、无线电通信和飞行导航,但飞行舱内是高噪声的环境,声学噪声能掩盖飞行员的所有口头讲话,严重降低了常规的语音识别系统的准确度和性能,在飞行舱内使用面部肌电信号能提高语音识别性能。
本文使用表面肌电信号(EMG)的语音信号识别系统改善噪声条件下的声音性能或帮助发音障碍的人。有些人发音有障碍,但讲话时面部肌肉与正常人有同样的动作模式,这样使用表面肌电信号能帮助这些发音障碍的人发出简单的指令,用来交流。
1 原理和方法
本研究只使用肌电信号的信息识别孤立的单词、(0~9)十个数字。使用脑电图仪EEG-1100K(electroen-cephalograph,EEG)采集肌电信号,采用双极导联模式,采样频率1000Hz。使用(0~9)十个单词做试验。在实验中,受试者每10s重复词汇表中的单词,每个单词重复10次。受试者以相似的方式重复讲每个单词,保持音量和快速最小变化。
表面肌电信号从五组面部肌肉中采样,五路信号如图1所示。提肌口(LAI)、颧肌部分(ZYG)、颈阔肌(PLT)、压板口(DAO)、二腹的前面腹部(ABD)。使用五对表面电极采集肌电信号,每个电极用电极膏改进电极—皮肤界面,降低电阻。参考电极放在鼻根部。图2是部分数据(0~3)的五路肌电信号(通道LAI、ZYG、PLT、DAO、ABD)时序图。
肌电信号分析,首先对采集的信号进行预处理,端点检测。再使用短时傅里叶变换(STFT)处理数据,提取特征量。通过主成分分析(PCA)减少这些特征集系数的维度。5个肌电通道每个都保留6个PCA系数,这样一共有30个特征量。使用线性判别分析分类器分类(0~9)十个数字。表面肌电信号中语音识别系统的构成如图3所示。
2 特征量提取
肌电信号本质上是具有非平稳定特性的生理电信号,时频分析是研究非平衡信号的一种有效方法。该方法在时频面上表述信号的时变特征,能够更清晰地反映出信号的频率特性随时间的变化。本研究使用短时傅里叶变换方法对讲不同词的肌电信号进行分析,由于变换后特征向量的维度很高,为了成功的分类需要采用合适的降维方法,本文通过主成分分析PCA(Principal Component Analysis)减少这些征集系数的维度。
2.1 短时傅里叶变换
短时傅里叶变换基本原理:把信号划分成许多小的时间间隔,分析每一个时间间隔,确每个间隔存在的频率,频谱的总体表示频谱在时间上的变化。
信号s(t)短时傅里叶变换定义为:
2.2 主成分分析(PCA)
主成分分析(PCA)是总结多变量分析属性的方法,经常用于特片提取或数字压缩上的线性变换。在统计模式识别方面,主成分分析提供降低维度的有效方式,有效地减少特片系数表示的数量。PCA是把特征映射到特征向量上,保留那些最大的特征值。
p维随机向量x的n次采样值构成样本阵X(n%26;#215;p),n个p维列向量zi构成矩阵Z,如式(1)。
Z=XT=(z1 z2 …zp) (1)
式中T=(t1 t2 … tp)为正交阵,其列向量ti为样本方差矩阵的特征值λi所对应的单位特征向量,且有λ1≥λ2…≥λp,则z1,z2,…,zp分别为样本阵X的第1主成分,第2主部分,…,第p主成分,而且主成分z1表达了x最主要的信息,Z2表达了x次主要的信息,依次类推,前m个主成分一起表达x的主要特征。
3 特征分类
对肌电信号中的语音识别来说,特征提取是基础,有效地进行分类是关键。本文的模式识别分类要用线性判别分类LDA(linear discriminant analysis),分类(0~9)十个数字。
线性判别分析,亦称为Fisher线性判别,是较常用的方法。Fisher准则函数就是为了发现使得样本类间离散度和样本类内离散度的比值最大的投影方向。即在一投影方向上,同一个类的样本聚集在一起,而不同类的样本相对比较分散。
样本类间隔散度矩阵定义为:
其中,μi是Ci类的均值,μ是所有样本的均值,样本类内离散度矩阵定义为:
其中,Si=E[(x-μi)(x-μi)T]x∈Ci]投影后希望样本类间离散度越大越好,而样本类内离散度越小越好。因此,如果Sw是非奇异矩阵,最优的投影方向Wopt就是使得样本类间离散度矩阵和样本类内离散度矩阵的行列式比值最大的那些正交特征向量。因此,Fisher准则函数定义为:
通过线性代数理论知,Wopt就是满足等式SbWi=λiSwWi(i=1,2,…,m)的解,对应于矩阵Sw-1Sb较大的特征值λi的特征向量。
4 实验与结论
在实验中,使用脑电图仪(EEG-1100K),采用五对电极从面部肌肉同时采集五路肌电信号,受试者每10s讲(0~9)十个数字,每个数字重复讲十次。对采集的肌电信号首先预处理端点检测,然后对采集的五路肌电信号分别作短时傅里叶变换,分析窗选用矩形窗,窗宽为1024点。提取短时傅里叶变换频谱图的结果矩阵,做主成分分析降低维度,构造特征矢量,输入线性判别分析分类器进行识别。
由于傅氏变换特征向量的维度很高,为了成功地分类需要降低维度,通过主成分分析(PCA)减少特征集系数的维度。本文将不同数字的五路肌电信号的短时傅里叶变换的幅度矩阵进一步做主成分分析降维,构造相应数字的特征矢量,x=[o11,…o16,…,o51,…o56]。其中o11,…,o16是第一路降维后的主成分;o51,…,o56是第五路信号降维后的主成分。
表1列出了实验中(0~9)十个数字降维后ABD通道主成分的部分特征向量。从表1中的数据可以看出由信号傅里叶变换系数的幅度进行主成分分析,提取的特征量有很好的分离性。
本文线性模式分类采用基于fisher准则的线性判别分析分类器,对特征矢量分别计算类间散度、类内散度,寻求一最优投影方向。图4表明了(0~9)十个数字分类后的散点图。经过分类器的识别,对(0~9)十个数字的分类错误率在15%以下。
通过实验可以得到:短时傅里叶变换后再做生成分分析降维提取特征里,提取的特征稳定且易于识别。面部肌肉记录的表面肌电信号实现语音信号语音识别,辅助发音障碍者交流。研究结果证明,对10个数字的词汇使用股电信号有较好的分类准确度。实验表明用表面肌电信号提高常规的语音识别系统有着极好的前景。但是做使用肌电信号实现语音识别系统的可行性结论前,还需进一步研究。首先,必须研究扩展测试条件,如连续的语音、更少强强发音、讲话速率的最小变化。生理上的变化也可能影响肌电信号。
编辑: 引用地址:EMG在语音信号识别中的应用
上一篇:带I2C接口的数字温度传感器TMP101及其应用
下一篇:采用高速高分辨率信号采集卡构成超声探伤系统
- 热门资源推荐
- 热门放大器推荐