基于SPCE061A单片机设计的语音电子门锁系统

发布者:WhisperingWind最新更新时间:2014-08-12 来源: 21ic关键字:SPCE061A  语音电子门锁系统  生物识别技术 手机看文章 扫描二维码
随时随地手机看文章
生物识别技术是利用人体生物特征进行身份认证的一种技术,是目前公认的最为方便与安全的识别技术。由于每个人的生物特征具有与其他人不同的唯一和在一定时期内不变的稳定性,不易伪造和假冒,所以利用牲识别和技术进行身份认证,安全、准确、可靠。 在生物识别领域中,声纹识别,也称为说话人识别,以其独特的方便性、经济性和准确性等优势受到世人瞩目,并且益成为人们日常生活和工作中重要且普遍的安全认证方式。声纹识别是一种根据说话人语音波形中反映说话人生理和行为特征的语音参数,自动识别说明人身份的技术。 声纹识技术可分为两类,即说话人辨认和说话人确认。前者用以判断某段语音是若干人中的哪一个所说的,是多选一的问题;而后者用以确认某段语音是若干人中的哪一个所说的,是多选一的问题;而后者用以确认某段语音是否是指定的某个人所说的,是一对一判别的问题。从另一方面,声纹识别又有与文本有关和与文本无关两种,根据特定的任务和应用,应用范围不同。与文本有关的声纹识别系统要求用户按照规定的内容发音,每个人的声纹模型逐个被精确地建立,而识别时也必须按规定的内容发音,因此可以达到较好的识别效果;而与文本无关的识别系统则不规定说话人的发音内容,模型建立相对困难,但用户使用方便,应用范围较宽。 本文介绍的语音电子门锁是一种在凌阳16位单片机SPCE061A上实现的与文本有关的说话人确认系统。该系统主要由说话人识别模块、门锁控制电机以及门锁等部分组成。在训练时,说话人的声音通过麦克风进入说话人语音信号采集前端电路,由语音信号处理电路对采集的语音信号进行特征化和语音处理,提取说话人的个性特征参数并进行存储,形成说话人特征参数数据库。在识别时,将待识别语音与说话人特征参数数据库进行匹配,通过输出电路控制门锁电机,最终实现对门锁的控制。
1.png

1 算法原理 说话人识别算法原理框图如图1所示。

1.1 预处理

(1)去噪 对麦克风输入的模拟语音信号进行量化和采样,获得数字化的语音信号;再将含噪的语音信号通过去噪处理,得到干净的语音信号后并通过预加重技术滤除低频干扰,尤其是50Hz或60Hz的工频干扰,提升语音信号的高频部分,而且它还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的作用。

(2)端点检测 本系统采用语音信号的短时能量和短时过零率进行端点检测。语音信号的采样频率为8kHz,每帧数据为20ms,共计160个采样点。每隔20ms计算一次短时能量和短时过零率。通过对语音信号的短时能量和短时过零率检测可以剔除掉静默帧、白噪声帧和清音帧,最后保留对求取基音、LPCC等特征参数非常有用的浊音信号。

1.2 特征提取 在语音信号预处理后,接着是特征参数的提取。特征提取的任务就是提取语音信号中表征人的基本特征。 1.2.1 特征参数的选取 选取的特征必须能够有效地区分不同的说话人,且对同一说话人的变化保持相对稳定,同时要求特征参数计算简便,最好有高效快速算法,以保证识别的实时性。 说话人特征大体可归为下述几类:

(1)基于发声器官如声门、声道和鼻腔的生理结构而提取的参数。如谱包络、基音、共振峰等。其中基音能够很好地刻画说话人的声带特征,在很大程度上反映了人的个性特征。

 (2)基于声道特征模型,通过线性预测分析得到的参数。包括线性预测系数(LPC)以及由线性预测导出的各种参数,如线性预测倒谱系数(LPCC)、部分相关系数、反射系数、对数面积比、LSP线谱对、线性预测残差等。根据前人的工作成果和实际测试比较,LPCC参数不但能较好地反馈声道的共振峰特性,具有较好地识别效果,而且可以用比较简单的运算和较快的速度求得。

(3)基于人耳的听觉机理,反映听觉特性,模拟人耳对声音频率感知的特征参数。如美国尔倒谱系数(MFCC)等。MFCC参数与基于线性预测的倒谱分析相比,突出的优点是不依赖全极点语音产生模型的假定,在与广西无关的说话人识别系统中MFCC参数能够比LPCC参数更好地提高系统的识别性能。 此外,人们还通过对不同特征参数量的组合来提高实际系统的性能。当各组合参量间相关性不大时,会有较好的效果,因为它们分别反映了语音信号的不同特征。 在计算机平台的仿真实验中,通过各种参数的实际比较,采用MFCC参数比采用LPCC参数有更好的识别效果。但在SPCE061A平台上做实时处理时,与 LPCC系统相比,MFCC系数计算有两个缺点:一是计算时间长;二是精度难以保证。由于MFCC系统的计算需要FFT变换和对数操作,影响了计算的动态范围;要保证系统识别的实时性,就只有牺牲参数精度。而LPCC参数的计算有递推公式,速度和精度都可以保证,识别效果也满足实际需要。 本系统采用了基音周期和线性预测倒谱系数(LPCC)共同作为说话人识别的特征参数。

1.2.2 LPCC参数的提取 基于线性预测分析的倒谱参数LPCC可以通过简单的递推公式由线性预测系数求得。递推公式如下:

其中p为LPC模型的阶数,也是模型的极点个数。 (1)LPC模型阶数p的确定 为使模型假定更好地符合语音产生模型,应该使LPC模型的阶数p与共振峰个数相吻合,其次是考虑声门脉冲形状和口唇辐射影响的补偿。通常一对极点对应一个共振峰,10kHz采样的语音信号通常有5个共振峰,取p=10,对于8kHz采样的语音信号可取p=8。此外为了弥补鼻音中存在的零点以及其他因素引起的偏差,通常在上述阶数的基础上再增加两个极点,即分别是p=12和p10。实验表明,选择LPC分析阶数p=12,对绝大多数语音信号的声道模型可以足够近似地逼近。P值选得过大虽然可以略微改善逼近效果,但也带来一些负作用,一方面是加大了计算量,另一方面有可能增添一些不必要的细节。 (2)线性预测系数的求取 自相关解法主要有杜宾(Durbin)算法、格型(Lattice)算法和舒尔(Schur)算法等几种递推算法。其中在杜宾算法是目前最常用的算法,而且在求取LPC系数时计算量也量小,本系统采用该递推算法。 图2 1.2.3 基音参数的提取 基音估计的方法很多,主要有基于短时自相关函数和基于短时平均幅度差函数(AMDF)等基音估计方法。 (1)基于短时自相关函数的基音估计 短时自相关函数在基音周期的整数倍位置存在较大的峰值,只要找出第一最大峰值的位置就可以估计出基音周期。 (2)基于短时平均幅度差函数(AMDF)的基音估计 基于短时平均幅度差函数(AMDF)在基音周期的整数倍位置存在较大的谷值,找到第一最大谷值的位置就可以估计出基音周期。这种方法的缺点是当语音信号的幅度快速变化时,AMFD函数的谷值深度会减小,从而影响基音估计的精度。 实际上第一最大峰(谷)值点的位置有时并不能与基音周期吻合,第一最大峰(谷)值点的位置与短时窗的长度有关且会受到共振峰的干扰。一般窗长至少应大于两个基音周期,才可能获得较好的估计效果。语音中最长基音周期值约为20ms,本系统在估计基音周期时窗长选择40ms。为了减小共振峰的影响,首先对语音进行频率范围为[60,900]Hz的带通滤波。因为最高基音频率为450Hz,所以将上限频率设为900Hz可以保留语音的一、二次谐波,下降频率为 60Hz是为了滤除50Hz的电源干扰。

以上两种方法都是对语音信号本身求相应的函数。本系统采用的基音估计方法是:首先对带通滤波后的短时语音信号进行线性预测,求取预测残差;再对残差信号求自相关函数,找出第一最大峰值点的位置,即得到该段语音的基音估计值。实验表明,通过残差求取的基音轨迹比直接通过语音求取的基音轨迹效果更好,如图2所示。图2中横坐标为语音帧数,纵坐标为8000/f,其中f为基音频率。

2.png

1.3 模式匹配 目前针对各种特征参数提出的模式匹配方法的研究越来越深入。典型的方法有:矢量量化方法、高斯混合模型方法、隐马尔可夫模型方法、动态时间规整(DTW)方法和人工神经网络方法。 这些方法都有各自的优点和缺点。其中DTW算法对于较长语音的识别,模板匹配运算量太大,但对短语音(有效语音长度低于3s)的识别既简单又有效,而且并不比其他方法识别率低,特别适用于短语音、与文本有关的说话人识别系统。本系统采用端点松驰两点的(DTW)算法,端点松驰引起的计算量增加并不大,还可以放松对端点检测的精度要求。 动态时间规整(DTW)算法基于动态规划的思想,解决了说话人不同时期发音长短、语速不一样的匹配问题。DTW算法用于计算两个长度不同的模板之间的相似程度,用失真距离表示。假设测试模板和参考模板分别用T和R表示,按时间顺序含有N帧和M帧的语音参数(本系统为12维LPCC参数),失真距离越小,表示T、R越接近。把测试模板的各个帧号n=1~N在一个二维直角坐标系中的横轴上标出,把参考模板的各帧号m=1~M在纵轴上标出,如图3所示。通过这些表示帧号的整数坐标画出纵横线即形成网络,网格中的每一个交叉点(n,m)表示测试模板中某一帧与参考模式中某一帧的交会点,对应两个向量的欧氏距离。 DTW算法可以归结为寻找一条通过此网格中若干交叉点的路径,使得该路径上节点的距离和(即失真距离)为最小。对于端点松弛的情况,路径搜索原理相同,只是增加了搜索路径。

2 硬件系统 语音电子门锁系统的核心是说话人识别模块。包括按键输入、语音信号采集、语音信号处理、FLASH存储扩展、扬声器输出、控制输出以及LCD模组等。说话人识别模型的原理框图如图4所示。其核心为语音信号处理,本系统选用特别适用于数字语音识别领域的凌阳16位单片机SPCE061A,并通过 SPCE061A实现对其他各组成部分的编程控制。 SPCE061A是凌阳公司开发的一种性价比非常高的16位单片机。在2.6V~3.6V工作电压范围内,工作频率范围为 0.32MHz~49.152Mhz,较高的处理速度使其能够非常容易、快速地处理复杂的数字信号;中断系统支持10个中断向量以及14个可来自系统时钟、定时器/计数器、时间基准发生器、外部中断、键唤醒、通用异步串行通信及软件中断的中断源,非常适合实时应用领域;内嵌2K字的SRAM和32K字的 FLASH,具有32位可编程的多功能I/O端口;包含有7通道10位通用A/D转换器和内置麦克风放大器与自动增益控制AGC功能的单通道声音A/D转换器,以及具有音频输出功能的双通道10位D/A转换器;SPCE061A采用CMOS制造工艺,同时增加了软件激发的弱振方式、空闲方式和掉电方式,系统处于备用状态下(时钟处于停止状态),耗电仅为2μA3.6V,极大地降低了其功耗;另外,μ’nSPTM的指令系统还提供具有较高运算速度的16 位%26;#215;16位的乘法运算指令和内积运算指令,为其应用增添了DSP功能,在复杂的数字信号处理方面既非常便利,又比专用的DSP芯片便宜得多. 说话人识别模块各组成部分完成的功能如下: (1)按键输入部分:共有数字键、训练键、删除键、确认键和取消键等16个按键,用于密码输入和工作模式选择。采用4%26;#215;4矩阵式键盘输入,只使用具有键唤醒功能IOA的低8位,可以合理利用硬件资源,且编程灵活。 (2)语音信号采集部分:通过SPCE061A内置麦克风放大器与自动增益控制AGC功能的单通道声音A/D转换器完成8kHz语音信号采集。 (3)FLASH存储扩展部分:用于存储说话人的个性特征参数参考模板。 (4)扬声器输出部分:通过SPCE061A具有音频输出功能的双通道10位D/A转换器完成用户训练、识别等各种操作的语音提示。 (5)控制输出部分:通过SPCE061A的可编程I/O口控制门锁控制电机。 (6)LCD模组部分:用以显示系统的工作状态,该部分根据成本和实际需要可选。

3.png

(7)SPCE061A:说话人的语音信号处理以及各部分的编程控制均由SPCE061A完成。 说话人识别模块有三种工作模式:训练模式、认证模式和密码模式,这三种模式都可通过工作模式按键选择。 (1)训练模式,说话人的声音通过麦克风进入语音信号采集前端电路。第一次语音输入时,由16位单片机SPCE061A对采集的语音信号进行处理,提取说话人的个性特征参数,并存储到外扩的FLASH内,形成说话人特征参数模板。可以进行三次训练,第二语音输入时,提取的个数特征参数与由第一次语音输入形成的特征参数模板进行匹配,在匹配距离小于模板更新阈值时,将说话人特征参数模板更新为两次特征参数的平均值。第三次语音输入时,提取的个性特征参数与由第一、二次语音输入形成的特征参数模板进行匹配,在匹配距离小于模板更新阈值时,将说话人特征参数模板更新为三次特征参数的平均值,形成最后的该说话人的特征参数模板。 (2)认证模式,同样通过麦克风录入说话人的声音,再由SPCE061A对采集的语音信号进行处理,将提取的说话人特征参数与存储在外扩FLASH内的特征参数模板进行匹配,匹配距离小于认证阈值时,通过认证;然后再判断匹配距离是否小于认证模式下的模板更新阈值,决定是否对模板进行更新。 (3)密码工作模式,在说话人感冒或其他使其声音发生暂时改变的情况下,可以采用长密码方式进行认证,以免因为非常原因被拒之门外。 另外,每个用户都有一个短密码(用户可自行修改),无论在训练模式还是认证模式都要输入此密码,以形成或找到与该用户相对应的特征参数模板。系统还设置一个具有长密码的超级管理员用户,可以通过键盘对用户模板进行添加或删除。 3 实验结果 对于说话人确认系统,表征其性能的最重要的两个参量是拒识率和误识率。前者是拒绝真实的说话人而造成的错误,后者是接受假冒者而造成的错误,二者与匹配阈值的设定相关。匹配阈值的设定与语音锁系统的应用场合、功能侧重有关,对于家庭、宾馆等门锁用户,要求误识率尽可能低,甚至为零;若用于公司员工考勤等同类功能,就不能有太高的拒识率。表1是对以下每种情况各进行100次实时匹配的结果,其中设定的阈值适合门锁用户。 表1 100次实时匹配结果 发音分类次数同一个人相同发音同一个人相似发音同一个人不同发音不同人相同发音不同人相似发音不同人不同发音 拒绝次数 8 85 100 100 100 100 接受次数 92 15 0 0 0 0 由以上实验结果可知,对于同一个人相同发送的拒识率为8%;对于同一个人相似发音情况,因为系统是对说话的人进行判别,对于这种情况,无论拒绝或接受都是合理的;对于同一个人不同发音和不同人发音的情况,误识率为零。使用录音机进行多次实验,通过认证的次数为零。对于门锁用户,这个结果十分理想的。若用于考勤等同类功能,可通过修改匹配阈值值实现。 声纹识别与其他生物识别技术相比,除具有不会遗失和忘记、不需记忆、使用方便等优点外,还具有以下特性:用户接受程度高,由于不涉及隐私问题,用户无任何心理障碍;声音输入设备造价低廉,而其他生特识别技术的输入设备通常造价昂贵。与利用虹膜、指纹和人脸等技术的门锁相比,基于SPCE061A构建的语音电子门锁系统具有成本低、使用方便、保密性好等优点。经大量实验测试表明,该系统性能稳定、识别效果好。下一步将进行小批量的试用,以发现问题并加以完善。但是,在环境噪声或干扰信号高于语音信号时,该系统将无法进行正确的语音识别,在背景噪声处理及其工程实际上还要进一步改进。

关键字:SPCE061A  语音电子门锁系统  生物识别技术 引用地址:基于SPCE061A单片机设计的语音电子门锁系统

上一篇:太阳能应用于手机充电器的解决方案
下一篇:掌上电脑集成无线通信功能的设计及实现

推荐阅读最新更新时间:2024-03-16 13:39

利用AI语音生物识别技术进行身份​​验证
人工智能的发展现在使语音生物统计具有足够的准确性,不仅可以用于识别和个性化,还可以用于支付认证等应用。Synaptics和ID R&D的新解决方案提供了可在边缘设备中的Synaptics SoC上运行的AI语音识别技术和反欺骗算法。具体来说,该软件已针对Synaptics的VS600系列中的神经处理单元(NPU)进行了优化,以用于智能家居设备,例如机顶盒(STB),智能扬声器和安全系统。 Synaptics将其具有AI功能的SoC出售给需要处理视频流,音频流和图像的智能家居产品。例如,典型的用例可能是机顶盒,其中包含用于视频会议的摄像机。 智能冰箱中的语音生物识别 语音生物识别技术现在已经足够准确,可以在智能家居设备
[嵌入式]
利用AI<font color='red'>语音</font><font color='red'>生物识别</font><font color='red'>技术</font>进行身份​​验证
基于SPCE061A的智能血液参数分析系统
摘要:智能化的医疗设备可以减少人为错误,保证测量的精度准确率。采用SPCE061A单片机为核心设计了智能血液参数分析系统,智能控制整个液路,包括被测样本的走向和压力泵。通过以EPM7128为核心的逻辑判断系统,检测电磁阀,其工作状态用LED灯指示,使用通用异步串口和其他部分进行通信,根据系统的实时状态和功能实现语音提示。 关键词:智能;SPCE061A;语音处理;血液参数 0 引言 随着智能控制的发展,对血细胞状态及参数的分析也不断采用最新的电子、光学、化学和计算机技术,从而满足临床工作对血液细胞分析的要求。智能的仪器可以减少人工劳动的强度,加快标本的处理速度,同时使得许多操作更加标准化及减少操作者之间的个体差异。 1 系
[工业控制]
基于<font color='red'>SPCE061A</font>的智能血液参数分析<font color='red'>系统</font>
基于SPCE061A智能小车机器人语音辨识系统的研究
0 引言 随着科技的发展,智能设备大量涌现,其中智能汽车作为典型代表之一,对其进行研究开发也相当普遍,当然人与这些智能化设备之间快捷可靠的交互方式很多,其中语音辨识技术以其独特的趣味性成为了人与智能系统交互方式中的热点。本文所设计的智能小车利用语音辨识技术,实现自动前进、后退、左拐、右拐和停车。 1 智能车语音辨识系统的开发平台SPCE061A 采用语音辨识技术构建的智能小车的语音辨识系统实现了小车的自动行驶,而SPCE061A控制器是构建语音辨识系统的开发平台。 SPCE061A是一款16位独具语音特色的控制器,片内采用的μ‘nSPTM(microcontroller and signal processor)核心
[工业控制]
基于<font color='red'>SPCE061A</font>智能小车机器人<font color='red'>语音</font>辨识<font color='red'>系统</font>的研究
基于16位单片机的语音电子门锁系统
摘要:介绍采用声纹识别技术、在凌阳SPCE061A单片机上实现的一种语音电子门锁身份认证系统。实验结果表明,系统性能稳定,识别效果好,可以推广使用。 关键词:声纹识别 基于周期 线性预测 模式匹配 DTW 生物识别技术是利用人体生物特征进行身份认证的一种技术,是目前公认的最为方便与安全的识别技术。由于每个人的生物特征具有与其他人不同的唯一和在一定时期内不变的稳定性,不易伪造和假冒,所以利用牲识别和技术进行身份认证,安全、准确、可靠。 在生物识别领域中,声纹识别,也称为说话人识别,以其独特的方便性、经济性和准确性等优势受到世人瞩目,并且益成为人们日常生活和工作中重要且普遍的安全认证方式。声纹识别是一种根据说话人语音波形中反映说
[应用]
生物识别技术的优胜劣汰 静脉PK指纹
    指纹识别的应用相对较早,在门禁考勤等重的应用也较成熟,但是也随着应用的增加使得本身的缺陷越来越突出,一方面,我们在想办法解决这些问题,另一方面我们也在积极地寻求新的识别办法。静脉识别是的唯一性和稳定性被发现之后,对于静脉识别的前景就十分看好,但是由于发展较晚,应用还存在很多技术的,目前还是在医学领域常识。     生物特征识别技术是通过计算机与光学、声学、生物传感器和生物统计学原理等高科技手段密切结合,利用人体固有的生理特性,(如指纹、脸象、虹膜等)和行为特征(如笔迹、声音、步态等)来进行个人身份的鉴定。依据人的生物特征的生理特性或行为方式可分为多种生物特征身份识别。生理特征有手形、指纹、脸形、虹膜、视网膜、耳廓等;行
[安防电子]
未来的移动支付技术 生物识别或成为导向
    如果你还在捧着现金或者怀揣鼓鼓的钱包去逛街,那真的是太落伍。刷卡时代已经来临很久,现在大家都已经迈向更便捷的大路了——移动支付。     现在市场上的移动支付技术有很多种,他们的技术原理不同,所以使用上也有一定的差别,这里主要从用户习惯的角度去对比这几种移动支付方式。 NFC     NFC是RFID技术的一种演变,它集成了标签和读写器的功能。现在很多手机都在加入NFC技术,而且POS机也在慢慢加装NFC芯片。在使用NFC支付时,只需要像刷卡一样,将手机靠近带有NFC功能的POS机上即可。这种方法不需要输入密码,支付过程仅需2-3秒,非常方便,而且符合用户的刷卡习惯,所以这是目前主推且主流的移动支付技术。
[医疗电子]
基于VC++的数据监视系统
引言 : 目前主要的监视系统软件大多是由组态软件或VB实现的。组态软件将功能模块化,对于较小的系统有一些多余的功能是用不上的,导致了资源的浪费。而VB功能有限,运行效率不高。随着Windows操作系统的普及和其强大的功能,越来越多的程序支持Windows操作系统。由于VC是微软的产品,用它来编写Windows程序有强大的程序接口和丰富的开发资源的支持,加之VC严谨的内存管理,在堆栈上良好的分配处理,生成代码的体积小,稳定性高的优点,所以VC++就成为目前程序的主流开发工具。本文主要介绍如何用VC++编写监控程序,本程序用在基于凌阳单片机SPCE061A的数据采集及无线传输系统中监视现场采集的数据。 1 . 系统筐架及各部分
[单片机]
基于Cyclone EP1C6和SPCE061A的LED大屏幕系统设计
目前采用的LED大屏幕显示系统的控制电路大多由单个或多个单片机及复杂的外围电路组成,单片机编程比较复杂,整个电路的调试比较麻烦,可靠性和实时性难以得到保证。针对这种情况,本文提出了一种基于SPCE061A和Cyclone EP1C6的LED大屏幕解决方案。该设计方案无须外挂FLASH ROM和RAM,无须任何外部功能电路,所有功能均由一片EP1C6和一片SPCE061A实现,数据处理速度快、可靠性高。 SPCE061A和Cyclone EP1C6简介 SPCE061A是凌阳科技的一款16位微控制器,内嵌32KB闪存和2KB字SRAM,CPU最高可工作在49MHz的主频下,较高的处理速度使SPCE061A能够非常容易、快速
[电源管理]
小广播
添点儿料...
无论热点新闻、行业分析、技术干货……
设计资源 培训 开发板 精华推荐

最新单片机文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved