基于Julius的机器人语音识别系统构建

发布者:RadiantGaze最新更新时间:2011-11-17 关键字:机器人  语音识别  HMM  HTK  Julius 手机看文章 扫描二维码
随时随地手机看文章
引言
    随着现代科技和计算机技术的不断发展,人们在与机器的信息交流中,需要一种更加方便、自然的交互方式,实现人机之间的语音交互,让机器听懂人话是人们梦寐以求的事情。语音识别技术的发展,使得这一理想得以实现,把语音识别技术与机器人控制技术相结合,正成为目前研究的热点,不但具有较好的理论意义,而且有较大的实用价值。
    语音识别技术应用于机器人系统大多是针对特定的环境,设计出语音命令来进行控制的。只需要对几十个字或词的命令行进语音识别,便可使得原本需要手工操作的工作由语音轻松完成。本文针对现有机器人平台,设计一个非特定人的孤立词语音识别系统。

1 语音识别原理及JuliUS简介
1.1 基于HMM的语音识别原理
    语音识别系统是一种模式识别系统,系统首先对语音信号进行分析,得到语音的特征参数,然后对这些参数进行处理,形成标准的模板。这个过程称为训练或学习。当有测试语音进入系统时,系统将对这些语音信号进行处理,然后进行参考模板的匹配,得出结果。此时便完成了语音识别的过程。
    目前,HMM作为语音信号的一种统计模型,是语音识别技术的主流建模方法,正在语音处理各个领域中获得广泛的应用。现在许多商用语音软件,以及各种具有优良性能的语音识别系统,都是在此模型上开发的,已经形成了完整的理论框架。
    基于HMM模式匹配算法的语音识别系统表现为:在训练阶段,采用HMM训练算法为每一个词条建立一个HMM模型。词条经过反复训练后,将得到的对应HMM模型加入HMM模型库中以数据的形式保存。在匹配阶段,也就是识别阶段,采用HMM匹配算法将输入的未知语音信号与训练阶段得到的模型库中的模型进行匹配,输出语音识别的结果。
1.2 JuliUS简介
    Julius是日本京都大学和日本IPA(Information-tech-nology Promotion Agency)联合开发的一个实用高效双通道的大词汇连续语音识别引擎。目前已经能较好地应用于日语和汉语的大词汇量连续的语音识别系统。Julius由纯C语言开发,遵循GPL开源协议,能够运行在Lin-ux、Windows、Mac:OS X、Solaris以及其他Unix平台。Julius最新的版本采用模块化的设计思想,使得各功能模块可以通过参数配置。
    Julius的运行需要一个语言模型和一个声学模型。利用Julius,通过结合语言模型和声学模型,可以很方便地建立一个语音识别系统。语言模型包括一个词的发音字典和语法约束。Julius支持的语言模型包括:N-gram模型,以规则为基础的语法和针对孤立词识别的简单单词列表。声学模型必须是以分词为单位且由HMM定义的。
    应用程序可以有两种方式与Julius交互:一种是基于套接字的服务器一客户端通信方式,另一种是基于函数库的嵌入方式。在这两种情况下,要识别过程结束,识别结果就被送入应用程序中,应用程序就能得到Julius引擎的现有状态和统计,并可以操作官。Julius概述如图1所示。


[page]

2 系统框架
2.1 硬件结构
    在语音识别的机器狗控制系统中Atom Z510为训练学习机大脑(1.1 GHz主频的Intel Atom Z510嵌入式控制平台),它主要完成语音识别的功能。PXA270控制器(Intel公司于2003年底推出的性能强劲的PXA27x系列嵌入式处理器,基于ARMv5E的XScale内核,最高频率可达624MHz)作为机器狗本体上的核心智能控制器,接收Atom Z510识别后的结果,发出控制命令。ATmega128控制器(Atmel公司的8位系列单片机中的一种,运行频率16 MHz)完成基于串行总线的数字舵机控制,完成对机器狗的前后腿以及尾巴等关节控制。机器狗硬件结构平台如图2所示。


2.2 软件结构
    整个机器人系统包括3个模块:Julius语音识别模块、GUI人机界面、机器人控制模块。Julius将识别的语音命令提交给GUI模块,并在GUI上显示;同时GUI将语音命令转化为动作控制命令并发给机器人控制模块;GUI还可以控制Julius的启动和停止。其中机器人控制模块主要在PXA270上,而语音识别和GUI是在Atom Z510上。系统软件模型如图3所示。



3 语音识别系统构建
    一个完整的语音识别系统一般包括3部分:声学模型、语言模型和识别器。在本系统中只建立基于控制命令(动词)的识别语法,其他词忽略,因此没有构建语言模型;识别器采用Julius开源平台,此部分只用配置参数和相关文件。本文主要工作是声学模型训练和语音识别系统构建。
3.1 声学模型训练
    声学模型是识别系统的底层模型,是语音识别系统中最关键的一部分,它是每个声学单元的声学模型参数集合。本系统的声学模型是使用HTK对采集的语音库进行多次迭代训练后提取的,基于词的声学特征向量集。HTK(HMM Tools Kit)是由英国剑桥大学工程系的语音视觉和机器人技术工作组(Speech Vision and Robotics Group)开发,专门用于建立和处理HMM的实验工具包,主要应用于语音识别领域,也可用于语音模型的测试和分析。其具体训练步骤如下:
    (1)数据准备
    收集汉语标准普通话的语料库,并将语料库中的语音标记,创建语音识别单元元素列表文件。
    (2)特征提取
    本系统采用MFCC进行语音的特征参数提取,训练中将每一个语音文件用工具HCopy转换成MFCC格式。
    (3)HMM定义
    在训练HMM模型时要给出模型的初始框架,本系统中的HMM模型选择同一个结构,如图4所示。该模型包含4个活动状态{S2,S3,S4,S5),开始和结束(这里是S1.S6),是非发散状态。观察函数bi是带对角矩阵的高斯分布,状态的可能转换由aij表示。

[page]


    (4)HMM训练
    本系统先使用HInit工具对HMM模型进行初始化,再用HCompv工具来对模型进行平坦初始化。HMM模型的每个状态给定相同的平均向量和变化向量,在整个训练集上全局计算而得。最后用HRest的多次估计迭代,估计出HMM模型参数的最佳值,经多次迭代,将训练得到的单个HMM模型整合到一个hmmsdef.mmf文件中。声学模型HTK训练流程如图5所示。


3.2 Julius应用
3.2.1 Julius部署
    在本系统中语音识别部分是部署在Atom Z510上,而Atom Z510上首先需要移植linux操作系统(本系统采用的是ubuntu8.10)以上步骤在此不详细介绍,文献中有详细说明。语音识别的核心部分是Julius识别器,需要将Julius源码编译部署到Atom Z510平台。其步骤如下:
    ①要确保linux系统中有以下支持库:Zlib、flex、OSS音频驱动接口、ESounD和libsndfile。
    ②从Julius官网下载源代码Julius-4.1.5。
    ③解压:tar-zxjf julius-4.1.5。
    ④编译:%./configure,%make,%make install。
3.2.2 Julius配置
    Julius全部采用C语言代码实现,采用模块化设计方式,而且各功能模块可配置。在使用前需要将配置参数写入jconf文件,此文件作为运行参数载入系统,系统扫描参数配置并启动各功能块。其中重点介绍以下几个配置参数:
    ◆-dfa rtdog.dfa,指定语法文件rtdog.dfa;
    ◆-v rtdog.dict,指定字典文件;
    ◆-h rtdog.binhmm,指定HMM模型文件;
    ◆-lv 8000,设定音频的阈值便于滤去噪音;
    ◆-rejectshort 600,设定最小的语音长度;
    ◆-input mic,设定语音的输入方式为microphone。
3.3 语音识别系统软件设计
3.3.1 GUI设计
    本系统为了方便测试,采用QT4的图形库来开发人机界面(GUI),同时加入了手动控制的按钮。其总体功能如图6所示。通信线程是本系统的数据传输枢纽,十分重要。在QT中通过对线程类QThread继承来实现新的线程设计。该类提供了创建一个新线程以及控制线程运行的各种方法。线程是通过QThread::run()重载函数开始执行的。在本系统中设计了1个数据通信线程,用它来不断地读取共享内存中的语音命令,然后将其转化为控制命令传给机器人控制模块。

[page]

3.3.2 模块间通信
    由于系统的3个模块不在同一个平台上部署,运行过程中需要进行数据通信。GUI和Julius都部署在Atom Z510平台上,但属于2个进程,它们之间可以通过共享内存来交互数据。而GUI和机器人控制模块就需要通过网络通信来实现数据交互。这里采用的是基于TCP的socket编程接口来实现模块间的通信,模块间通信流程如图7所示。



4 实验测试
    演示系统界面如图8所示。本文使用大量的语音样本来完成HTK的训练和模式构建,语音样本采用16 kHz采样,16位量化。独立的语音识别测试中,将训练集以及测试集中语音样本和识别结果进行了对比分析。本文语音样本的内容包括训练集(语料库中的语音成分)和测试集(本实验中采集的语音)。由于本系统只用提取语音命令,不需要完整句子的识别,所以没有针对句子做测试。


    本文对于训练集基于词的识别率为71.7%,测试集基于词的识别率为56.5%,测试结果如表1所列。


    表中各符号所表示的意义如下所示:
    H,正确;S,替代错误;D,删除错误;I,插入错误;N,标记文件中单元总数;SENT,句子,WORD:基本单元。
   

结语
    本文在给定的实验室机器人平台上,设计了基于语音控制的机器狗系统。其中,语音识别子系统通过HTK和Julius的开源平台构建而成。经过测试分析,该系统能够较好地识别人发出的语音命令,简化了机器人的操作,使机器与人的交互更加智能化。

 

 

关键字:机器人  语音识别  HMM  HTK  Julius 引用地址:基于Julius的机器人语音识别系统构建

上一篇:基于加速度传感器的无线人体动作测量设备
下一篇:无线传感器网络节点节能管理方式的研究

推荐阅读最新更新时间:2024-05-02 21:43

机器人制造成为产业巨头抢食的新领域
  在机器人及自动化装备业界,中国被公认为是潜力最大的市场,未来3至5年中国有望成为全球机器人装机量最大的国家。许多生产工业机器人的国际巨头,如今都把中国市场看做“决胜未来的战场”。   虽然中国制造领域的工业机器人保有量只有数万台,但据测算,“十二五”期间,国内工业机器人市场需求将呈井喷式发展,需求量将以每年15%的速度增长,预计未来我国工业机器人年均市场规模将在40亿元以上。   实施“机器人战略”的富士康,目前拥有机器人制造硬件、关键零组件、软件、系统集成以及远端遥控等五项技术。而早在2007年,富士康自动化机器人事业处就已成立。在业界看来,富士康机器人项目的启动,不仅将推动企业内部转变生产方式,也将带动地方相关产业以及中国
[机器人]
【前沿】这六款机器人号称是全球最厉害的机器人
   cubestormer3机器人   英格兰的两位工程师打造了一个堪称可神速解开魔方的机器人--CUBESTORMER3,其所用的时间只有3.253秒。它的体内安装了一台装有用于分析魔方并发送对应操作指令的Android软件的GalaxyS4。    adeptquattro   “Quattro”是世界上最快的并联机器人,主要用于平滑运动,高吞吐量的应用,如挑选、组装和包装。    robotjanken   日本东京大学IshikawaOku实验室日前研发出了一种专门进行剪刀石头布游戏的机器人——JankenRobot。Janken机器人唯一感兴趣的就是剪刀石头布游戏,它配备了高速摄像头和高速手臂系统,旨在模拟人
[机器人]
墨影科技创始人杨一鸣荣获“维科杯·OFweek 2022中国机器人行业年度风云人物奖”
由中国高科技行业门户OFweek维科网及旗下权威的 机器人 专业媒体-OFweek维科网·机器人共同举办的“维科杯·OFweek 2022中国机器人行业年度评选(OFweek Robot Awards 2022)”最终结果于4月20日在颁奖典礼上正式揭晓。 该评选是中国机器人行业内的一大品牌盛会,亦是高科技行业具有专业性、影响力的评选之一,“OFweek Robot Awards ”奖项设立迄今已有十余年,作为中国高科技产业的核心评选活动,已在各行业成功举办几十场高科技评选活动,被誉为业界“高科技行业奥斯卡奖”。 活动旨在为机器人行业的产品、技术和企业搭建品牌传播展示平台,并借助OFweek平台资源及影响力,向行业用户和市场推介创
[机器人]
选择实用型扫地机器人 首先考虑国际化口碑大品牌
说起家居清洁,扫地机器人应该是当下大多数家庭首选的室内清洁电器,因其更智能、更强的清洁能力而深受消费者们青睐,但它也因此吸引了更多商家们的目光。纵观消费市场,各类扫地机器人品牌众多,哪个牌子更好呢?专家表示,选择实用型扫地机器人,优选国际化口碑大品牌! 高端科技带来智能清洁之享 备受大众欢迎的斐纳TOMEFON作为室内清洁国际化口碑品牌的代表,其总部设在德国斯图加特,在行业内具有极高的市场地位。斐纳TOMEFON在扫地机器人的生产制作上坚持采用全球,全新斐纳A8智能芯片结合14类的采用,自动分区准确构建房屋清扫地图,智能识别弓形路线不走冤枉路,提高清扫覆盖率的同时避免跌撞,为家居清扫提供更智能的清洁保障。而且,斐纳TOM
[机器人]
还不了解机器视觉你就Out了
近年来,工资上涨和劳动力短缺也促使企业加大投资自动化技术,以提高生产效率,机器视觉正是可以帮助工厂减少污染并且以更低的成本获得高效率的工具。 随着制造业“机器换人”的演变,作为设备智能化过程必不可少的机器视觉也会随之迅速发展。可以预计的是,随着机器视觉技术自身的成熟和发展,它将在现代和未来制造企业中得到越来越广泛的应用。    据一项权威发布的行业预测报告,中国机器视觉行业的市场规模将持续增长,在2016年将达到38亿元,到2018年以前达到50亿美元。全球机器视觉市场带来的新商机已经成为业界厂商关注的焦点。 机器视觉技术主要应用在半导体及电子行业,诸如电路板印刷、电子封装、SMT表面贴装、电子电路焊接等,均需要
[嵌入式]
餐饮服务机器人发展迅速 已经越来越常见
不知道什么时候,发现小区楼下的火锅店已经用起了机器人揽客,唱歌跳舞、扭来扭去,荧光屏上面循环做着几个固定表情,吸引了非常多小朋友的驻足。 不禁感慨,餐饮服务机器人已经越来越常见了,但是从日常接触到的机器人来看,他们的智能性似乎并不强大,成本相对也很低廉,更像是一个大个儿的玩具,顶多有个拿号功能,还不能算是服务机器人。 因此,很多人对于部署服务机器人的必要性存在质疑,之前在一次参加机器人行业活动的时候,就曾有专家表示:从当前市场来看,服务机器人的应用场景并不明朗,还缺乏必要性,因此,对于服务机器人并不太看好。 不过,从近年来大型餐饮公司部署服务机器人的情况来看,服务机器人的发展速度似乎比我们想象的要快。 比较典型的
[机器人]
阿里巴巴在机器人领域选择保守策略,没有亮点
阿里巴巴的机器人策略,选择别人也看到的市场,而且是有把握短期回收的市场,对于有中国庞大本土市场依靠,而且在全球尺度知名度的公司来说有点可惜。 阿里巴巴 Lab,配合他们天猫精灵搭载的语音使用者介面,AI Lab发表两款针对办公大楼型态的服务机器人,外型相当可爱的太空蛋和太空梭服务机器人,最快将在双十一期间开幕的未来酒店正式运转。 太空蛋针对旅馆的需求设计,像是旅客入住之后,缺少什么东西,或是要叫客房送餐服务,皆可以靠叫天猫精灵下命令,再由太空蛋送到客房处理,不用透过传统打总机,请总机传达房务送达。 ▲ 太空蛋的流线型造型相当抢眼,并且能在设定的旅馆环境,昏暗灯光下能够用灯号表明去处。 太空梭则是针对医院中护理
[机器人]
【维科杯】灵动科技参评“维科杯·OFweek 2023中国机器人行业年度应用创新奖”
维科杯· OFweek 2023中国 机器人 行业年度评选(简称OFweek Robot Awards 2023),是由中国高科技行业门户OFweek维科网及旗下权威的机器人专业媒体-OFweek维科网·机器人共同举办。该评选是中国机器人行业内的一大品牌盛会,亦是高科技行业具有专业性、影响力的评选之一。 此次活动旨在为机器人行业的产品、技术和企业搭建品牌传播展示平台,并借助OFweek平台资源及影响力,向行业用户和市场推介创新产品与方案,鼓励更多企业投入技术创新;同时为行业输送更多创新产品、前沿技术,一同畅想机器人行业的未来。 维科杯· OFweek 2023中国机器人行业年度评选“OFweek Robot Awards 2023
[机器人]
小广播
最新嵌入式文章
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved