3G 手机语音识别应用中DSP的选择策略

发布者:SparklingSoul最新更新时间:2010-03-18 来源: EDN China关键字:手机  语音识别  DSP  应用  3G 手机看文章 扫描二维码
随时随地手机看文章

  随着DSP技术的进步,计算能力更强、功耗更低和体积更小的DSP已经出现,使3G手机上植入更精确更复杂的自动语音识别(ASR)功能成为可能。目前,基本ASR应用可以分成三大类:1. 语音-文本转换(语音输入);2. 讲者识别;3. 语音命令控制(语音控制)。
  
  这三类功能包含了3G所需的众多ASR性能。语音-文本转换的典型实例是语音拨号和电子邮件听写。讲者识别功能可以通过语音识别安全地读出存储器中的个人数据,从而满足信用卡定购和银行服务等保密性高的应用需要。语音命令控制功能包括连接语音扩展标记语言(VXML)网站内容的语音接口,它支持财经服务与目录助理等业务。目前VXML被用于规范网站内容的语音标签。

  语音识别的两种方法

  3G手机的ASR应用设计可分为两类,即以终端为中心和以客户/服务器为中心的应用。如图1所示为以终端为中心的设计方法,3G手机(终端)执行整个语音识别过程并送出识别结果。在图2所示的客户/服务器方法中,终端只是执行预处理特征提取,然后通过一个误码受保护的数据信道将这些参数发送给中心服务器,中心服务器最终完成语音识别。如果采用以客户/服务器为中心的设计方法,3G手机应使用数据信道而非移动信道来将语音发送给服务器进行识别,因为移动信道所用的低速率语音编码会严重影响语音识别的性能。

  各种ASR系统的差异主要体现在词汇量上。一个简单的网络设备可能只需要16字的词库就能实现所要求的语音识别功能,而3G移动手机则需要更大的专业词库。这些词汇可以跟讲者相关(训练语音识别设备使之熟悉用户的声音特征)或跟讲者无关(语音识别设备可以识别任何人的声音),DSP的计算负荷就随着词汇量和训练数据的增加而增大。

  例如,根据隐性马尔可夫模型(HMM)可以分析一个典型的跟讲者无关的100条命令识别的应用实例。假设HMM模型从左到右没有跳跃地顺序摆放,共有6个状态、5个具有对角协方差的混合高斯分布,包含39个特征(13唛-频率对数系数或MFCC,及其一阶和二阶差分),具有16位精度,那么,HMM声学模型的大小就是100×5×5×(39+2)×2=240kB。

  为了实现输入语音样本差分、窗口截获、MFCC抽取、概率计算和维特比搜索等运算的实时性,典型情况下需要消耗DSP的1千万个乘法-累加周期(MMAC)。对于连续语音识别来说,上千个三音素模型和多种语法模型需要更多的存储空间,也需要更快的DSP处理速度。

  因此,移动电话中ASR系统的成败很大程度上取决于DSP的功能和设计。第三代系统本身就需要比第二代系统更强性能的DSP,而增加ASR功能就对DSP提出了更高的要求。从结构角度看,对DSP性能的要求是处理速度快、功耗低和代码密度高。

  采用高速DSP是关键

  由于系统要实时对语音进行处理和取样,因此语音识别系统需要具有巨大的计算能力。下面的数字和计算假设采用的是围绕终端的设计方法。如果将DSP计算资源的20%分配给一个10MMAC的语音识别系统使用,那么就需要一个具有50MMAC的DSP才能满足这一功能需要,并可提供足够的空间执行3G手机所需的其它DSP任务,如处理软猫。如果采用较慢的DSP,如25MMAC的DSP,那么词汇表中的命令数量就要减半,或减少HMM参数,这样会降低整个系统性能。

  DSP的速度决定了语音识别系统的复杂性和性能。举例来说,如果一个基本的跟讲者无关的连续语音识别系统需要100MMAC,DSP计算资源的50%用于满足3G手机的其它DSP任务的需求,那么DSP的处理速度就需要达到200MMAC。 [page]

  成本、性能和效率的折衷

  DSP的速度越快,就越便于利用现代的HMM技术,如信道匹配和声域匹配技术,因此,理论上讲,DSP速度越快,ASR系统的性能就越好。然而,并行处理方法在提高ASR系统吞吐量中也扮演着重要角色。例如,一个具有4 ALU(算术逻辑单元)的200MHz DSP比只有1 ALU但运行于400MHz的DSP具有更高的吞吐量。根据具体应用的不同,2到3个单ALU DSP提供的性能与一个具有4 ALU的DSP相仿。相对一个具有4 ALU的DSP处理器方案来说,多个单ALU的DSP会提高手机的成本,因此对于适销对路产品要充分权衡成本与性能之间的折衷。

成本性能和效率的折衷

  总之,当比较一个600MHz的单ALU DSP和一个300MHz但有4 ALU的DSP时,设计工程师始终应把握的最终目标是高效的运算吞吐量,具有多个ALU的DSP也许是最好的解决方案。

  性能与功耗

  顶级性能的DSP采用并行结构来获得最佳的性能空间。有个著名的平衡型并行结构StarCore SC140就采用了指令级并行结构,它具有4个并行ALU以及一个称为变长执行集(VLES)的改进型甚长指令字模型。VLES的优点在于它支持在内存中完成高效的指令调度、执行和打包。它能通过一个指令队列对前端提供反馈,并通过调度器控制后端,因此除非需要执行计算,VLES处理一般不消耗功率。

   在并行VLES结构中,一些特殊指令需要成组以避免空操作(Nop),由于减少了时钟周期,处理时间也相应减少了。比较而言,在甚长指令字计算中,所有执行步骤都必须按顺序排列,因此在一个8字节的执行集甚至是1字节数据时,系统就需要7个占位符(placeholder)或Nop。

  由于VLES结构不需要Nop,VLES设计中的复杂性从硬件或编程器转移到了编译器。由于每个周期都充满了数据,因此每个周期就具有更高的效率,从而也提高了电源与内存的使用效率。

  电源管理
  
  由于ASR系统需要连续处理语音数据,会使DSP成为消耗电能的主要部件,因此高效利用电源对设备成功走向市场至关重要。
  
  在高性能DSP中,选择16位指令集而非32位指令集能提高代码密度,进一步减少对内存、功耗和体积的需求,一部分原因是由于更短的16位指令集可以减少寄存器和数据线数量。例如在ASR应用中,存储的词汇量可能达到2.5MB(对于1024簇的三音素状态,5个合成和39个参数来说,声学HMM状态模型是400KB;一本有1万个三态三音素代码本是60KB;三音素状态转移概率矩阵是500KB;一个具有40个杂乱态2万字的双字母组是1.6MB)。如果DSP具有高的代码密度,能为ASR系统提供固定数量的存储器,那么就可以获得更好更大的声学和语言模型。

  片上和片外存储器

  对于ASR系统中使用的DSP来说,有效地利用片上和片外存储器是另外一个重要的课题。由于ASR系统需要大量的存储空间用于词汇与模式识别数据的存储,一个灵活的存储结构在这里将显得特别重要。例如,一个具备统一寻址存储器的DSP能使设计工程师很好地平衡程序和数据,还能平衡系统算法的复杂性与声学和语言模型的大小以获得最优化的性能。

  例如,如果具有100条命令的识别系统模型只有100kB的片上系统内存,总共内存空间需求是240kB,那么采用二次识别方法能更有效地利用片上快速存储器。

  第一次(原始识别阶段)只使用39个参数中的13个MFCC,因此模型大小为80kB,可以载入片上内存。原始识别阶段的候选命令数量要比原来的100个少,比方说是33个命令,但可信度高达99.9%。

  第二次(精确识别阶段)把33个候选命令的39个参数作为模型使用,大小是80kB,因此又可以把该模型装载入片上内存。这种二次识别方法会引入一些延时,但延时非常小,大约只有10ms,说话人一般不会觉察到。

  统一寻址存储器能够支持较大的词汇库或命令集,还能支持较大的HMM模型或神经网络系数,因此能简单化实时任务。例如为ASR系统的程序和数据准备100kB的存储器,设计工程师就能平衡好算法复杂性与词汇量或命令集大小之间的关系。如果程序要占50kB,那么数据只能是50kB。如果允许降低识别精度而将程序代码压缩到20kB,那么命令集就能用到80kB,也就是增加了词汇库容量。

  在ASR系统中,高度并行化、高代码密度和有效利用存储器等优点还能使DSP完成语音识别以外的任务。在大多数情况下,设计工程师可以将部分计算资源分配给语音识别之用,而将剩余资源用来执行信道处理系统中所需的其它任务。[page]

  除了DSP内核以外的其他要求
  
  在选中最优化的DSP后,要想获得高性能的ASR用系统级芯片还需要增加一些功能,例如快速缓存或快速指令/数据存取以及实时操作系统(RTOS)才能使ASR系统真正完成实时性能。多任务RTOS能使系统同时运行多个应用如双通道语音识别,因此能极大地提高系统性能。
  
  复杂SoC应用(如信道处理系统)设计工程师能从使用高效的高级语言编译器的DSP和SoC中获益,因为这些编译器允许设计工程师使用C或C++语言进行编程。采用增强的片上仿真和调试功能还可以进一步缩短设计时间。对于3G移动手机应用中各层次的元器件与系统设计来说,除了实时性能和简化设计流程外,功率管理控制同样非常重要。在设计SoC时,选择具有可调功率功能的内核将获益非浅。例如当移动用户在说话时,DSP需要全速运行(如300MHz)。当未使用ASR功能时,SoC电源管理电路可以逐步降低到较低的时钟速度(如100MHz),从而有效地降低漏电和功耗。
  
  由于ASR系统对计算速度的需求会根据识别特征的差异产生很大变化,例如孤字识别或连续语音识别、词汇量和跟讲者无关的语音识别等,因此,能支持ASR功能的信道处理系统的复杂性变化也很大。

  SoC非常适合于构造芯片的基础架构,因此在以客户/服务器系统为中心的设计中是非常理想的选择,但SoC器件由于功能太强大,因此并不非常适合于用户端以终端为中心的设计。然而,随着ASR系统的逐渐成熟以及3G手机支持越来越复杂的应用和复杂ASR,这类功能强大的SoC也能成功地运用到用户端。
  
  在SoC上使用多个DSP能使系统在完成语音识别的同时更容易地执行其它任务。例如三个内核中的一个可以专门指定用来完成多信道的服务器端ASR,而其它二个内核用于执行像语音信道和互联网数据处理这样的任务。将来如果手机键盘不复存在的话,ASR将成为用户与手机之间的唯一接口,到时这一功能将占用大部分的工作时间。
  
  采用多个DSP内核还能提供强大的计算能力,从而使执行非常复杂的ASR任务成为可能,如电子邮件听写中的连续语音识别、安全交易和VXML中的“口令+讲者验证”等。多个DSP再加上统一的大型片上存储器可以极大地缩短跟讲者无关的训练过程,因为在统计型ASR中训练过程的计算负载比识别处理过程的负载重得多。

  本文小结

  尽管3G手机要想赢得市场,人们对其功能和设计仍将拭目以待,但这些系统需要高性能的信号处理平台以满足多媒体任务需求是不容置疑的,而随着ASR系统的不断普及,3G手机肯定需要具备运行多任务能力的多DSP SoC作为解决方案。

关键字:手机  语音识别  DSP  应用  3G 引用地址:3G 手机语音识别应用中DSP的选择策略

上一篇:基于互联网音视频的手机视频监控幼儿园应用方案
下一篇:Maxim推出完全集成的2:1 VGA复用器

推荐阅读最新更新时间:2024-12-18 23:08

谷歌再出手整治安卓碎片化 推Project Treble加速系统升级
腾讯科技讯 据外媒报道,与iOS相比,安卓系统有一个致命弱点,那就是新版本系统升级太慢,除了谷歌(微博)Nexus和Pixel等亲儿子机型,其他OEM商的机型更新新系统需要用户漫长的等待,这也造成了安卓平台的碎片化问题。谷歌一直在努力解决这一问题,但却一直见不到成效。在2017年Google I/O大会前,搜索巨人又出手了,它们推出了Project Treble,试图从Android O开始让系统升级变的更简单、更迅速,同时为OEM商节省更多资金。 Project Treble的点子来源于安卓兼容性测试(CTS),在CTS的框架下,开发者无需针对特定机型进行调整就能写出安卓设备通用的应用。 在Project Treble的全新模块
[手机便携]
互联网企业做手机吃“软”饭
靠硬件赚钱的少,通过应用服务、广告谋取利益   以雷军的小米手机开始,互联网企业正纷纷踏入智能手机这条河。阿里云、百度这两家互联网巨头都已经涉足其中,奇虎360和盛大手机也将在本月上市,最新的消息是,腾讯、网易、人人网也将要下河湿湿鞋。如此多的互联网企业涉足手机行业,它们靠什么来赚钱呢?    百度靠搜索 360靠应用   中国移动终端公司一位人士对《IT时报》记者表示,虽然小米推出了1499元的低配小米青春版手机,但从整体成本来看,小米是可以从手机上直接赚到钱的。而其余互联网企业所推出的智能手机,都基本定位在千元机的范围。大多数互联网企业涉足智能手机的模式不外乎,先说服手机厂商低利润甚至零利润供货,最好能再拉上运营商用预存
[手机便携]
2008关注10大技术及其应用
  新技术就像礼物,年年都有。虚拟化正给解决方案供应商该来销售和利润增长,现在还无法看到虚拟化的热潮何时结束。虚拟化将IT解决方案的优化深入到第N层,你可对从服务器到存储器到应用程序的所有方面都进行虚拟化。这是自从dot.com大爆炸以来出现的对游戏规改变最大的技术。哈利路亚,赞美上帝,虚拟化就是从天而降的吗哪(《圣经》故事所述,古以色列人经过荒野所得的从上帝而来的天赐食物)。    软件即服务(SaaS)带来的微软Office软件的杀手   如果非要为小型企业采用软件即服务(Software-as-a-Service, SaaS)找一个原因,那就是以购买微软公司的Office办公软件成本的一小部分就能获得相应的功能。如果你
[焦点新闻]
高压直流UPS应用在数据中心中常出现的问题
数据中心的可靠性要求非常严格,然而问题也是层出不穷的。UPS系统本身也随着客户需要和技术进步飞速发展,其“需求”和“功能”是共同的驱动力量。“需求驱动”是从IT负载的供电需求角度讲的,永远会追求更高的可靠性,更低的建设成本、运行成本和更好的可适应性。 当前USP已经不单单是为了改善IT负载供电的可靠性而产生的供电设备,还为了持续不断地追求可靠性,已经完成了从产品到系统备份的演变,在目前的架构下,进一步追求可靠性显得步履艰难。 此外,从产品到系统的演变在某种程度上是以高昂的建设成本和运行成本为代价的,对于数据中心使用者来讲,很难接受越来越高昂的成本。从建设的角度说,系统的冗余就以为这投资的倍增;从运营商的角度来讲,
[电源管理]
国产低价手机新活法 “正牌军”也难逃宿命
    功能机时代,国产低价手机异军突起,成就了一段辉煌,然而智能机时代的到来让他们陷入大萧条,以旧模式制造手机的风险日益加剧,厂商们显然还没准备好加入智能机的大潮。   据深圳的水货手机商透露,在华强北,越来越多的手机柜台转而卖配件,山寨手机沦落到还没有配件的利润高。   就在很多厂商生死徘徊之际,智能手机制造逐渐透明化,原器件的成本逐渐走低,联发科、高通和英特尔持续在低端3G解决方案的投入,给了他们绝处逢生的机会,越来越多的厂商转型智能机,并将目标市场由国外转向国内,这以前,以前大部分厂商都是做贴牌手机,销往东南亚、南美等地区。   但游戏规则显然已经变了,以前追求短平快,赚一把迅速抽身的方式已经不适用,在智能手机时代,消费者对
[手机便携]
英特尔将推65nm手机闪存 手机存储量增一倍
  2007年,采用英特尔公司的超密集NOR闪存芯片制造的移动电话可存储的照片数可能是今天的两倍。英特尔将采用65nm技术实现这种超密集芯片。与标准的90nm闪存相比,65nm芯片不必堆叠两个芯片,可在单个存储层上存储1Gb数据。英特尔公司称,今年第四季度交付这种代号为Capulet的闪存样品,并称将至少比竞争对手Spansion和三星电子提前半年。按照这样的交付计划,65nm闪存的推出与90nm StrataFlash蜂窝存储器芯片的推出仅相隔一年。   三星电子公司日前宣布批量生产70nm 1Gb OneNAND芯片,这是一种广泛使用的存储器件,性能高于普通闪存。三星转用70nm技术以后,与目前整个行业使用的90nm工艺技术
[焦点新闻]
工业以太网在现场总线控制系统中的应用
一、前言     现场总线控制系统(FCS)是顺应智能现场仪表而发展起来的。它的初衷是用数字通讯代替4-20mA模拟传输技术,但随着现场总线技术与智能仪表管控一体化(仪表调校、控制组态、诊断、报警、记录)的发展,在控制领域内引起了一场前所未有的革命。控制专家们纷纷预言:FCS将成为21世纪控制系统的主流。     然而就在人们沸沸扬扬的对FCS进行概念炒作的时候,却没有注意到它的发展在某些方面的不协调,其主要表现在迄今为止现场总线的通讯标准尚未统一,这使得各厂商的仪表设备难以在不同的FCS中兼容。此外,FCS的传输速率也不尽人意,以基金会现场总线(FF)正在制定的国际标准为例,它采用了ISO的参考模型中的3层(物理层、数
[嵌入式]
平面变压器的结构原理与应用
    摘要: 大多数DC/DC变换器都需要隔离变压器而平面变压器技术在隔离变压器的许多方面实现了重要的突破。介绍了平面变压器的结构、性能和使用方法。     关键词: 隔离变压器 平面变压器 开关电源     在DC/DC变换中,基本的Buck、Boost、Cuk变换器是不需要开关隔离变压器的。但如果要求输出与输入隔离,或要求得到多组输出电压,就要在开关元件与整流元件之间使用开关隔离变压器,所以绝大多数变换器都有隔离变压器。目前开关电源的发展趋势是效率更高、体积更小、重量更轻,而传统的隔离变压器在效率、体积、重量等方面严重制约了开关电源的进一步发展。同时由于变压器涉及到的主要参数有电压、电流、频率、
[电源管理]
小广播
最新手机便携文章

 
EEWorld订阅号

 
EEWorld服务号

 
汽车开发圈

电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2024 EEWORLD.com.cn, Inc. All rights reserved