LD3320的嵌入式语音识别系统的应用-电子工程世界

分享到: 微博; QQ; 微信; LinkedIn

1 概述
在现代社会，“懒人科技”大行其道。当面临众多繁琐的按键操作和菜单选择的时候，简单地说出指令，是最具有人情味的人机操作界面。让身边的各种电子设备可“听从”人类的语音，是从电影“星球大战”就开始的科技发展目标。虽然目前的科技还不能做到让计算机完全理解人类的所有自然语音，但是可以在一定程度上实现这个梦想。

2 特定人语音识别技术及原理
特定人语音识别(ASR，Auto Speech Recognition)技术是基于“关键词语列表”的识别技术，它是对大量的语音数据(相当于对数千人采集的数万小时的有效声音数据)经语言学家语音模型分析，建立数学模型，并经过反复训练提取基元语音的细节特征，以及提取各基元间的特征差异，得到在统计概率最优化意义上的各个基元语音特征，最后才由资深工程师将算法以及语音模型转换成硬件芯片并应用在嵌入式系统中。
ASR技术每次识别的过程就是把用户说出的语音内容，通过频谱转换为语音特征，再将这个转换后的语音特征和“关键词语列表”中的条目一一进行匹配，最优匹配的一条即作为识别结果。比如ASR技术在语音控制的手机应用中，这个“关键词语列表”的内容就是电话本中的人名、手机的菜单命令或手机存储卡中的歌曲名字。不论这个列表的条目内容是什么，只需要用户设置相关的寄存器，就可以把相应的待识别条目内容以字符形式传递给识别引擎。
由此可见，语音识别芯片完成的工作就是：把MIC(麦克风)输入的声音进行频谱分析后提取语音特征，再和关键词语列表中的关键词语进行对比匹配，最后找出得分最高的关键词语作为识别结果输出。
通常基于ASR技术的语音识别芯片能在两种情况下给出识别结果：
①外部送入预定时间的语音数据(比如5 s的语音数据)，芯片对这些语音数据运算分析后，给出识别结果。
②外部送入语音数据流，语音识别芯片通过端点检测(VAD，Voice Activity Detection)技术检测出用户停止说话，把用户开始说话到停止说话之间的语音数据进行运算分析后，给出识别结果。
对于第一种情况，可以理解为设定了一个定时录音(如5 s的语音数据)，芯片在5 s后会停止把声音送入识别引擎，并且根据已送入引擎的语音数据计算出识别结果。
对于第二种情况，需要了解VAD的工作原理：VAD技术是在一段语音数据流中，判断出哪个时间点是人声音的开始，哪个时间点是人声音的结束。判断的依据是，在背景声音的基础上有了语音发音，则视为声音的开始。而后，检测到一段持续时间的背景音(比如600 ms)，则视为人声说话结束。通过VAD判断出人声说话的区域后，语音识别芯片会把这期间的声音数据进行识别处理，计算出识别结果。
除了以上两种情况外，语音识别算法无法“主动”地判断出是否识别出了一个结果。这是因为，在计算过程中的任何时刻，语音识别器都会对已送人识别芯片的声音数据进行分析，并根据匹配程度为识别列表中的关键词语进行打分，最匹配的打分最高。但是，由于识别算法不知道用户后面是否还继续说话，所以无法主动地判断已经识别出的结果。

3 语音识别芯片LD3320的工作原理
3．1 语音识别系统原理结构
LD3320语音识别芯片采用的就是ASR技术，图1就是由LD3320和单片机(或嵌入式系统)组成的语音识别系统原理框图。图中给出了LD3320的内部原理结构，本文中选用的MCU是STC10L08XE单片机。

语音识别芯片LD3320是ICRoute公司的产品，它采用ASR技术，提供了一种脱离按键、键盘、鼠标、触摸屏等GUI操作方式且基于语音的用户界面VUI(Voice User Interface)，使得用户对该系统的操作更简单、快速和自然。
用户只需要把识别的关键词语以字符串的形式传送进芯片，即可以在下次识别中立即生效。比如，用户在51等主控MCU的编程中，简单地通过设置芯片的寄存器，把诸如“你好”这样的识别关键词语的内容动态地传入芯片中，芯片就可以识别所设定的关键词语了。每个关键词语可以是单字、词组、短句或者任何的中文发音的组合。基于LD3320的语音识别系统可以随着使用流程，在运行时动态地更改关键词语列表的内容，这样可以用一个系统支持多种不同的场景，同时也不需要用户作任何的录音训练。
3．2 LD3320的用户使用模式
LD3320有两种用户使用模式，即“触发识别模式”和“循环识别模式”。用户可以通过编程，设置两种不同的用户使用模式。
触发识别模式：系统的主控MCU在接收到外界一个触发后(比如用户按动某个按键)，启动LD3320芯片的一个定时识别过程(比如5 s)，要求用户在这个定时过程中说出要识别的语音关键词语。这个过程结束后，需要用户再次触发才能再次启动一个识别过程。
循环识别模式：系统的主控MCU反复启动识别过程。如果没有人说话就没有识别结果，则每次识别过程的定时到时后再启动一个识别过程；如果有识别结果，则根据识别作相应处理后(比如播放某个声音作为回答)再启动一个识别过程。

4 语音识别系统软硬件设计
4．1 硬件系统设计
由图l可知，由LD3320组成的语音识别系统硬件有单片机(或嵌入式系统)及LD33202。图2和图3分别是由单片机STC10L08XE构成的主控芯片和由LD3320A构成的语音识别主系统。

4．2 软件系统设计
语音识别的操作顺序是：先进行语音识别的初始化，然后写入识别列表，系统即开始进行语音识别，并准备好中断响应函数，打开中断允许位。这里如果不用中断方式，也可以通过查询方式工作。在“开始识别”后，读取寄存器B2H的值，如果为21H就表示有识别结果产生。
下面是语音识别的初始化程序段，按照以下序列来设置寄存器：[page]

初始化后是写入识别列表。识别列表的规则是：每个识别条目对应一个特定的编号(1个字节)，不同识别条目的编号可以相同，而且不用连续。LD3320芯片最多支持50个识别条目，每个识别条目是标准普通话的汉语拼音(小写)，每2个字(汉语拼音)之间用1个空格间隔。表1是一个简单的例子。

图4是由LD3320组成的语音识别系统主程序流程，图5是语音识别系统中断服务程序流程。

5 声控电视遥控器
声控电视遥控器最有用的地方是，在更换频道时可以直接说出频道名称，而不是去记忆频道名称和频道数字的联系。同时，在使用电视遥控器时，遥控器是用电池工作，不能让识别芯片一直处于工作状态。因此在设计时，可以在遥控器上设置一个大一点的按键，用户在使用时，按一下这个按键，启动LD3320语音识别芯片，此时可以播放一声“嘀”的提示音，然后在限定的时间内(如5s)，接收用户的语音命令，并给出识别结果。比如用户说“体育台”，识别芯片把识别结果提供给遥控器的主控MCU。随后遥控器的主控MCU就根据事先设定好的对应关系，发出对应频道的红外编码，实现换台。可以不加确认过程直接换台。图6为声控电视遥控器工作流程。

结语
这种语音识别系统也容易引起误识别，如当用户说的内容不在识别列表内时，必然会引起误识别。为了克服这些缺点，降低误识别率，可在设定好要识别的关键词语后，再添加一些与识别列表内的单词有联系的任意其他词汇，用来吸收错误识别，从而达到降低误识别率的目的。
由LD3320组成的语音识别系统有很广泛的应用，如语音控制的点歌系统、语音控制的手机、音控智能导航仪、音控智能家电产品等。

关键字：语音识别 LD3320 STC10L08XE 引用地址：LD3320的嵌入式语音识别系统的应用

上一篇：基于PowerPC的单板计算机的设计
下一篇：基于Blackfin处理器的嵌入式数码相框

推荐阅读最新更新时间：2024-03-16 13:46

XMOS推出智能家居设备用语音处理器

英国智能物联网芯片公司XMOS推出用于智能家居设备的 XVF3610 语音处理器；推出新平台的采用 Amazon 唤醒词的变体 XVF3615，并启动面向“Avona”语音参考设计的 alpha 计划英国布里斯托尔，2021 年 11 月 19 日 — 英国芯片公司 XMOS 今日宣布推出 XVF3610 和 XVF3615 语音处理器：下一代高性能双麦克风语音接口，适用于无线扬声器、电视、机顶盒、智能家电、网关产品等。 XVF3610 和 XVF3615 建立在XMOS 的 xcore.ai 芯片基础架构之上，以经济高效且易于集成的封装提供行业领先的语音处理解决方案。这些设计标志着 Amazon Alexa 系统中已采

[嵌入式]

全球最低功耗移动设备语音识别解决方案现已面世

英国爱丁堡，2013年2月26日—全球消费电子市场中领先的高性能混合信号半导体及音频解决方案供应商欧胜微电子有限公司，以及消费电子领域中领先的语音技术厂商Sensory公司日前宣布：现可供应Sensory的完全免提语音控制方案（TrulyHandsfree Voice Control）和基于欧胜最新的超低功耗平台的、用于移动电话音频通道处理的音频监测前端。此次实现的这种前沿性嵌入式软件与DSP技术的结合，为移动设备的语音操作和免提运行（操作）带来了史无前例的性能。欧胜和Sensory已在欧胜业界领先的WM5110高清（HD）音频系统级芯片（SoC）、以及欧胜的WM0010和WM0011数字信号处理器（DSP）产品上实现了Sen

[手机便携]

解析设计ARM语音识别系统的步骤

伴着高新技能在军事范畴的大范围利用，武器装备逐渐向高、精、尖方面开展。传统的军事练习因为练习时刻长、练习费用高、练习空间窄，常常不能到达预期的练习作用，已不能满意现代军事练习的需求。为解决上述问题，模仿练习应运而生。为进一步提高练习作用，这篇文章利用智能语音交互芯片规划了某模仿练习器的示教与回放系统。示教系统为操作人员生动的演示规范操作流程及相应的操作表象，极大地缩短了对操作人员的练习时刻，提高了练习作用。回放系统经过记载操作练习进程中各操作人员的口令、声响强度、动作、时刻、操作表象等，待操作练习结束后经过重演练习进程，以便操作者及时纠正自个的问题。示教系统也可理解为对规范操作练习进程的回放。该系统不需求虚拟现实技能的撑持，

[单片机]

解析设计ARM<font color='red'>语音识别</font>系统的步骤

宝马很忙，智能语音识别系统研发也要掺一腿

据报道，宝马、三星和松下三家公司近日与语音识别公司Nuance合作开发新智能辅助技术。这项技术使得汽车语音系统处理特定的口音时将更加容易。汽车语音系统不能识别方言的时代即将结束。随着汽车越来越智能化，语音系统必须随之提高，以识别口音的细微差别。在未来，汽车系统还必须能够区分指令与随意性的话语。 Nuance公司希望软件应用程序开发人员首先建立互联网连接轿厢，然后为应用程序的具体需求定制语音识别，以识别语境、语义或自然会话语言。这种识别系统还可以进一步开发，区分特定区域的口音。例如，语音软件会分辨出你的口音是纽约、洛杉矶或是其他区域的口音。Nuance Mobile执行副总裁和总经理Mike Tho

[嵌入式]

人工智能或将开启幼儿教育新时代

智能时代的儿童教育，不是教育变简单了，而是体验更轻便了。随着二胎政策的开发，关于幼儿教育的话题又一次火热起来。此前，某网站曾做过一个关于家庭消费预期的调查，其中最大的一笔开支计划就是“孩子教育”，占比高达45.6%。幼儿教育逐渐成为社会刚需，这从当下千金难求的学区房和遍地开花的补习培训班中就可以得到印证。但目前国内的幼教事业并不完善，供不应求，而很多父母也缺乏自行教育的条件，多重矛盾之下，随着人工智能技术的迅速发展，为了满足市场上对幼儿教育的强烈需求，早教机器人产业也由此催生，并带起了一波热潮。早教机器人，顾名思义，也就是能够提供幼儿早教，帮助开发幼儿潜能、促进孩子培养学习兴趣的教育类电子产品

[嵌入式]

深度学习如何在物联网领域大展身手

基础服务 1）图像识别： IoT的一大部分应用场景中，输入深度学习的数据是图片或视频。每天，每个人都在用手机的高清摄像头拍摄者图片和视频，除此之外，家居、校园或工厂也在使用智能摄像头。所以，图像识别、分类、目标检测是这类设备的基础应用。 2）语音识别：随着智能手机和可穿戴设备的普及，语音识别也成了人们和自己的设备互动的一种自然而方便的方式。Price等人搭建了一个专用的低功耗深度学习芯片，用于自动语音识别。这种特制芯片的能量消耗要比目前手机上运行的语音识别工具的能量消耗低100倍。 3）室内定位：室内定位在IoT领域有许多应用，例如智能家居、智能校园、或智能医院。例如DeepFi系统，在线下训练阶段，通

[工业控制]

针对iPhone的语音识别应用软件【Nuance】

声龙听写(Dragon Dictation)与声龙搜索（Dragon Search）是 Nuance 公司于12/9/2009和12/17/2009在美国推出的针对iPhone™手机用户的两款语音识别应用软件。一经推出，首月下载量过一百万，语音输入过九百万，每天有6万至8万典型用户使用应用，人均使用应用的频率为每天两次。在苹果App Store下载排行#2，获纽约时报、商业周刊、华尔街日报、 CNET专题报道。时代杂志读者调查评选声龙听写(Dragon Dictation) 为2010年度10大iPhone 应用软件。声龙听写(Dragon Dictation)现时被选为苹果App Store

[手机便携]

针对iPhone的<font color='red'>语音识别</font>应用软件【Nuance】

未来智能手机趋势:基于语音识别云计算和传感器

今年以来，特别是进入9月份之后，国内外手机厂商纷纷发布旗舰产品，与往年只有苹果和三星站台形成巨大反差，今年国产手机纷纷发力中高端市场。国产品牌手机凭借硬件做工逐步完善和用户体验的完美优化，在高端与国外手机巨头的正面战争一触即发。值得肯定的是，国产手机厂商在产品研发、制造和通信技术上已经有所积累和沉淀，同时依靠与运营商深入的合作，依靠社会渠道商强大的渠道拓展能力，国产品牌手机在国内取得了巨大优势。但是另一方面，国产手机厂商的品牌建设依然需要加强，关键零部件和核心技术依然缺失，而这些优势劣势，终归反映在具体的产品身上。 3G到4G的过渡对于国内广阔的3G智能手机市场，以及未来4G时代来临，4G智能手机的普及大潮，都让国内外众

[手机便携]