语音合成(TTS)的概念及分类

最新更新时间:2021-10-18来源: eefocus关键字:语音合成  计算机系统  数据库 手机看文章 扫描二维码
随时随地手机看文章

语音合成

 

Speech Synthesis 或Text to Speech(TTS)

语音合成(Speech Synthesis)是人类语音的人工合成。用于此目的的计算机系统称为语音计算机或语音合成器,可以在软件或硬件产品中实现。文本到语音(TTS)系统将普通语言文本转换为语音;其他系统则把像音标这样的符号语言表示法翻译成语音。其他系统则使用符号语言表征例如标音法翻译成语音。(other systems render symbolic linguistic representations[2] like phonetic transcriptions into speech.[1] )

 

1. Allen, Jonathan; Hunnicutt, M. Sharon; Klatt, Dennis (1987). From Text to Speech: The MITalk system. Cambridge University Press. ISBN 978-0-521-30641-6.

 

2. A symbolic linguistic representation符号语言表征是一种话语的表征,它使用符号来表征话语的语言信息,如语音、音位、形态学、句法或语义的信息。符号语言表征不同于非符号表征,如录音,因为它们使用符号来表示语言信息,而不是测量。

 

合成语音可以通过连接存储在数据库中的记录语音片段来创建。系统存储的语音单元大小不同;存储音素和亚音素(phones and diphones)[3]的系统提供最大的输出范围,但可能缺乏清晰度。对于特定的使用领域,整个单词或句子的存储允许高质量的输出。或者,合成器可以结合声道模型和其他人类声音特征来创建一个完全“合成”的声音输出。

 

3.语音学(Phonetics)是语言学的一个分支,研究人类语言的声音,或者,在手语中,是手语的等效方面。它涉及语音或信号(电话)的物理特性:它们的生理产生、声学特性、听觉感知和神经生理状态。另一方面,音韵学是研究声音或符号系统的抽象语法特征。

 

语音合成器的质量是由它与人类声音的相似性和它被清晰理解的能力来判断的。一种可理解的文本-语音转换程序允许有视觉障碍或阅读障碍的人在家用电脑上听书面文字。自上世纪90年代初以来,许多计算机操作系统都包含语音合成器。

 

文本到语音系统(或“引擎”)由两部分组成:前端和后端。前端有两个主要任务。首先,它将包含数字和缩写等符号的原始文本转换为相当于输出的单词。这个过程通常称为文本规范化、预处理或标记化。然后前端为每个单词分配语音转录,并将文本划分和标记为韵律单位,如短语、子句和句子。将音标分配给单词的过程称为文本到音素或字母到音素的转换。音标和韵律信息共同构成了前端输出的符号语言表征。后端通常被称为合成器,然后将符号语言表示转换成声音。在某些系统中,这部分包括计算目标韵律(音高轮廓,音素时长),然后将之加到输出语音上。(^ van Santen, Jan P. H.; Sproat, Richard W.; Olive, Joseph P.; Hirschberg, Julia (1997). Progress in Speech Synthesis. Springer. ISBN 978-0-387-94701-3.)

 

之前的文章有提到过,目前国内的主流语音合成方案有科大讯飞、搜狗、云知声、思必驰等。

 

而语音合成目前市面上一般使用参数合成,或者拼接合成,前者的音库都是在10小时左右,基本用不到20小时,对于合成人声效果的自然度,更依赖算法,而拼接则对于数据的需求量很高,对合成人声效果的自然度,更依赖数据量。很多听起来很自然的音库时长在100~200小时左右。

 

以及,TTS模型通常也会分为中文,英文,或者中英混输的。做训练的文本,有很多文字比较拗口,故而对录音声优的功力有要求,中英混输的模型数据就更难了。如果是普通的中文TTS模型,以刚才的例子“马上为您播放周杰伦的《晴天》live版本”,这种就可以在录音时加入一些简单的字母,单词,短语等等。

 

合成的wav文件回传到终端音箱,并播放出来,如此,完成了一环基础的用户与智能硬件之间的对话。

 

方法上:波形拼接合成和参数合成

波形拼接语音合成:

基于统计规则的大语料库拼接语音合成系统

 

超大规模音库制作:语料设计;音库录制;精细切分;韵律标注;

 


优点:音质最佳,录音和合成音质差异小,正常句子的自然度也好

 

缺点:非常依赖音库的规模大小和制作质量,尺寸大,无法在嵌入式设备中应用,仍然存在拼接不连续性

 

参数语音合成技术:

对于引得频谱特性参数进行建模,生成参数合成器,来构建文本序列映射到语音的映射关系

 


优点:尺寸小,语音自然度好

 

缺点:音质不如拼接合成


关键字:语音合成  计算机系统  数据库 编辑:什么鱼 引用地址:语音合成(TTS)的概念及分类

上一篇:TWS耳机通话降噪中的技术
下一篇:苹果新品发布会定了:9月15日

推荐阅读

苹果新款 MacBook Pro 现身监管数据库:支持 Wi-Fi 6E,消息称本周发布
苹果于 1 月 11 日在加拿大监管数据库中提交了一款型号为A2779的未发布版本 MacBook Pro,有望在不久后推出。IT之家查询发现,根据文件中提到的无线频率范围,新款 MacBook Pro 似乎将支持 Wi-Fi 6E,它将 Wi-Fi 扩展到 6GHz 频段,以获得更多带宽、更快的速度和更低的延迟。当前的 14 英寸和 16 英寸 MacBook Pro 支持标准 Wi-Fi 6,仅限于 2.4GHz 和 5GHz 频段。爆料人Wade Penner 也称,该笔记本将搭载苹果 M2 Pro 或者 M2 Max 芯片,支持 WiFi 6E / 6GHz 频段。此外,据爆料者 Jon Prosser 称,苹果公司将于当地
发表于 2023-01-17
苹果新款 MacBook Pro 现身监管<font color='red'>数据库</font>:支持 Wi-Fi 6E,消息称本周发布
基于51单片机+LD3320语音模块+SYN6288语音合成——语音识别智能分类垃圾桶
基本介绍这个一个基于51单片机做的一个语音识别分类智能垃圾桶,我这里用的是STC89C52 通过我们说话来对垃圾词语进行分类。比如:垃圾桶(一级指令)易拉罐(垃圾词语),我们通过说话 说出关键字 让语音模块 接收到 —— 语音模块通过串口发指令给51单片机,针对指令 51单片机发指令和语音合成模块,让喇叭说话、 并且控制指令对应的舵机从而实现对垃圾桶开盖。实现起来其实不难。器件51单片机LD3320语音模块我用的是这个 飞音云店铺的 开源的。SYN6288语音合成SG90舵机(4个)180°不带限位。usb-ttl模块垃圾桶四个(4个)面包板(建议用)其他还有什么杜邦线啥的这里就不说了。实现思路与接线实现流程图这图自己画的哈哈哈 也
发表于 2022-09-20
基于51单片机+LD3320<font color='red'>语音</font>模块+SYN6288<font color='red'>语音</font><font color='red'>合成</font>——<font color='red'>语音</font>识别智能分类垃圾桶
英特尔oneAPI工具大幅提升腾讯云数据库MySQL的性能
英特尔oneAPI工具大幅提升腾讯云数据库MySQL的性能使用英特尔oneAPI工具,中国领先的公有云服务商腾讯实现了腾讯云数据库MySQL显著性能提升。腾讯实现了数据库托管服务腾讯云数据库MySQL性能的大幅提升,这一服务基于开源关系型数据库管理系统MySQL,在英特尔®至强®处理器上开发而成。此次腾讯云数据库MySQL性能提升是通过使用先进的英特尔®oneAPI DPC++/C++编译器和英特尔®VTune™测评器(英特尔®oneAPI基础工具包的一部分)实现的。英特尔副总裁兼软件产品和生态事业部总经理Joe Curley表示:“腾讯云数据库MySQL的优化结果说明了使用英特尔oneAPI DPC++/C++编译器等最新开发工具
发表于 2022-09-02
英特尔oneAPI工具大幅提升腾讯云<font color='red'>数据库</font>MySQL的性能
欧拉开源操作系统成功适配VisionFive RISC-V单板计算机
欧拉开源操作系统成功适配VisionFive RISC-V单板计算机近日,欧拉开源操作系统在赛昉科技的昉·星光 RISC-V 单板计算机 VisionFive 上成功运行。openEuler 与 VisionFive 的适配工作由 RISC-V SIG 开发者袁穗聪(Samuel Yuan)负责并完成。目前,openEuler 在 VisionFive 上的基础软件适配成功,整体运行过程较为流畅,外设工作正常。VisionFive 由 RISC-V 软硬件生态领导者赛昉科技推出,是全球首批基于 Linux 的高性价比的 RISC-V 单板计算机。VisionFive 为开源软件在 RISC-V 的移植提供了开源硬件保障,驱动 RIS
发表于 2022-05-12
欧拉开源操作<font color='red'>系统</font>成功适配VisionFive RISC-V单板<font color='red'>计算机</font>
Akamai 推出 Linode Managed Database
Akamai 推出 Linode Managed Database支持 MySQL、PostgreSQL、Redis 和 MongoDB 数据库2022 年 5月 11日——负责支持和保护数字化体验且深受全球企业信赖的解决方案提供商阿卡迈技术公司(Akamai Technologies, Inc.,以下简称:Akamai),于近日推出由 Linode 提供技术支持的 Managed Database,实现对 MySQL、PostgreSQL、Redis 和 MongoDB 的支持。Akamai 的 Linode Managed Database 简化了数据库部署流程,不仅有助于帮助开发人员降低风险、提高效率,而且最大限度地降低了人工
发表于 2022-05-11
realme V23i现身产品数据库 价格1399元
realme V23i可能即将发布,因为这款手机已经出现在中国电信的产品数据库网站上。这款智能手机早在今年3月就进入了工信部网站。信息显示,即将推出的realme V23i将配备6.56英寸的LCD屏幕,以及搭载联发科天玑700 SoC。realme V23i已经出现在中国电信产品数据库网站上,型号为RMX3576。信息显示,即将推出的这款手机可能配备了1300万像素的主摄像头和200万像素的辅助摄像头。在正面,它可能有800万像素的镜头,用于自拍和视频通话。信息还显示,这款智能手机的售价为1399元。之前的爆料显示,这款手机将由5000mAh的电池供电,支持33W快速充电。这款手机预计厚度为8.1毫米,重量为185.5克。
发表于 2022-05-09
realme V23i现身产品<font color='red'>数据库</font> 价格1399元

推荐帖子

C/C++的主函数为什么返回0
在C++或则C中,不同的开发平台有不同的main函数形式。 1.intmain(); 1.1int说明返回值是int型,在结束函数时需要使用return关键字来返回一个int型值。 一般正常返回时使用return0; 1.1.1为什么返回0?返回值给谁? 关于这个返回值,返回值并不是返回给程序的其他部分,而是返回给操作系统。 example: UNIX外壳脚本和windows命令行批处理文件都被设计成运行程序, 并测试它们的返回值(通常叫做退出值)。 退出值为0
Jacktang DSP 与 ARM 处理器
[请问]WinCE下上层应用程序和硬件驱动的接口是什么?
[请问] WinCE下上层应用程序和硬件驱动的接口是什么? 我现在只知道2000下边是CreateFile和DeviceIoControl、ReadFile、WriteFile[请问]WinCE下上层应用程序和硬件驱动的接口是什么?
lmcfxl WindowsCE
有关模拟电路求助求助!!!!!!!!!
电路参数如下:V2+是24V,V1+是正负13V的方波,现在小弟想理论上得到VF1点的波形,求哪位模电大神能不能给我从理论上仔细分析分析VF1点的波形呀!小弟万分感谢呀!!!! 有关模拟电路求助求助!!!!!!!!!
一条咸鱼 模拟电子
仪器仪表类
本帖最后由paulhyde于2014-9-1503:16编辑器件清单出来了,亲们,你们觉得今年仪器仪表类会考什么呢??? 仪器仪表类
风飘啊 电子竞赛
XPT2046触摸屏的读数一直为FFF,求助?
各位大侠,最近测试了一下触摸屏,控制器是XPT2046,无论是软件模拟SPI,还是用硬件SPI,从2046读回来的X,Y坐标都是一个值4095(FFF),不知道是怎么回事?请大侠们帮助解决一下,非常感谢!XPT2046触摸屏的读数一直为FFF,求助?
fengye5340 stm32/stm8
汽车电子主题月:满满干货助你成为技术领域高手
汽车电子是电子信息技术和汽车制造技术的结合,汽车电子产品一般可归纳为两类,一类是汽车电子控制装置,另一类是车载电子装置。自动驾驶、车联网、新能源技术正在加速汽车产业发展,促使汽车电子进入创新成长期,随之带来的汽车新技术应用不断满足消费者日益增长的安全、舒适和节能环保的需求。为了能够使更多人了解和学习现代汽车电子技术,小编特此将相关资源和文集汇集整理在一起,希望能帮助到大家。也欢迎大家在下载中心分享汽车电子资料,共同学习成长。新能源汽车 电动汽车能量源 电动汽车整车性能参数
arui1999 下载中心专版
小广播
何立民专栏 单片机及嵌入式宝典

北京航空航天大学教授,20余年来致力于单片机与嵌入式系统推广工作。

换一换 更多 相关热搜器件
电子工程世界版权所有 京B2-20211791 京ICP备10001474号-1 电信业务审批[2006]字第258号函 京公网安备 11010802033920号 Copyright © 2005-2023 EEWORLD.com.cn, Inc. All rights reserved