语音数据与语音合成.ppt

上传人:sh****n 文档编号:7448835 上传时间:2020-03-21 格式:PPT 页数:44 大小:5.86MB
返回 下载 相关 举报
语音数据与语音合成.ppt_第1页
第1页 / 共44页
语音数据与语音合成.ppt_第2页
第2页 / 共44页
语音数据与语音合成.ppt_第3页
第3页 / 共44页
点击查看更多>>
资源描述
语音音库与合成江源2009 6 11 语音合成技术 什么叫语音合成TextToSpeech过程 简称TTS作用 将文本状态的文字信息转化为可听的声音信息 电脑会说话 发声机理 语音产生的生理过程 总纲 1 数字语音信号2 语音合成技术3 数据制作与合成4 合成效果测听 数字语音信号 什么是数字语音信号语音 说话 声波传递的语言语音信号 记录下来的声波振动模拟语音信号 磁带 唱片 数字语音信号 模拟信号数字化 wavmp3CD 计算机应用的需要如何数字化取样 采样率 时间尺子 8K 16K 44K 每秒样点数量 量化 量化精度 幅度尺子 16bit 32767 32768范围 数字语音信号 取样和量化 数字语音信号 波形不能说明内容 数字语音信号 频域介绍一段任意波形可以由一系列正弦波形组合而成离散傅里叶变换数学表示 最高值 采样率的一半 16Kwav maxfreq 8KHz 人可听辨的频率范围 20Hz 20kHz 电话语音信道的频率范围 60Hz 3400Hz 数字语音信号 语谱图 数字语音信号 清音和浊音浊音 声带的快速振动 声带能够将稳定气流转换成振动振动频率称为基频 准周期性清音 紊乱气流 肺部气流通过声道中的狭窄处产生爆破音 突然爆破 数字语音信号 声学特征如此杂乱多变的信号 如何描述 如何恢复 语音信号产生的数字模型 源 滤波器模型 数字语音信号 声学特征基频 发浊音时声带振动引起的周期变化 我们听感音调高低主要由基频决定 中文声调还用于区分语义谱参数 描述声道和口唇辐射共振峰 LPC 倒谱参数 总纲 1 数字语音信号2 语音合成技术3 数据标注与合成4 合成效果测听 语音合成技术 主流技术路线基于统计规则的大语料库拼接语音合成系统基于HMM的参数语音合成系统基于HMM的语料库拼接语音合成系统两条道路 要么是波形切分再拼合起来 要么是声学参数转化出来 语音合成技术 基于统计规则的大语料库拼接语音合成系统传统大语料库合成 InterPhonic5 0之前单元挑选波形拼接超大规模音库制作语料设计 音库录制 精细切分 韵律标注规则统计 针对不同发音人的细致调整优点 音质最佳 正常句子的自然度也很好缺点 非常依赖音库的规模大小和制作质量 存在一定稳定性问题 不能应用在小型设备中样例 输入文本 拼音信息和韵律结构信息 每个单元将取多个候选s1s2s3s4 目标代价挑选候选单元 词典等文本分析知识 大规模语音库 再考虑连接代价决定最后选定单元s1s2s3s4s5s6 输出语音 语音合成技术 InterPhonic系统处理流程 语音合成技术 基于HMM的参数语音合成系统首先进行语音特征参数的提取以音素为单位 中文为声韵母 使用HMM HiddenMarkovModel 对自然语流的频谱特征参数进行建模采用基于决策树的聚类方法对上下文相关模型进行聚类 以提高模型的鲁棒性 得到预测参数最后生成参数输入合成器 得到合成语音优点 所需音库规模小 标注精度要求相对降低 自然度高 系统小 灵活度高 ViviVoice AiSound缺点 音质相对较差 带有合成器风格样例 语音合成技术 参数语音合成系统框架 语音合成技术 HMM参数建模用声学参数针对音素建模为什么要建模 描述的音素特征变化隐马尔科夫模型 HiddenMarkovModel HMM 语音合成技术 决策树模型聚类有了模型怎么使用 来一句话怎么预知用哪个模型 基于上下文的信息的决策树聚类 语音合成技术 基于HMM的语料库拼接语音合成系统利用HMM目标模型和连接模型来指导单元挑选结合参数训练模型的数学统计模型优势和波形拼接的高音质 相对以前的大语料库技术在自然度上有较大提升自主原发 意义重大优点 拥有明确目标和度量准则 音质好 自然度高 系统搭建自动化程度高 InterPhonic5 5以上版本缺点 仍然需要很大规模的语料库 计算量较大样例 语音合成技术 基于HMM的单元挑选系统结构图 总纲 1 数字语音信号2 语音合成技术3 数据制作与合成4 合成效果测听 数据制作与合成 数据与合成的关系音库数据是合成系统的基石 离开了音库谈合成就是 无源之水无本之木 一份音库的制作质量 直接决定了该发音人合成系统的能达到什么效果 数据制作与合成 数据制作过程音库设计音库录制音素切分韵律标注音素检错基频修正索引制作 数据制作与合成 音库设计与合成一个设计良好的音库要有较好的音素 韵律覆盖率广泛的语料来源 保证超大规模库的稳定某方向定制语料 提升某特应用场合的效果 对语料库拼接技术很重要 还烦请大家收集更多更好的语料文本 数据制作与合成 音库录制与合成录音控制很重要录音室环境 隔除噪音话筒的摆放 能量幅度范围如何保持发音人的发音状态轻松心态 自然流程 不要带情绪 除非这是情感库适度原则 不要疲劳录音 宁缺勿滥批次比对 及时与之前数据做比对 可加入重复句 还请大家多关注录音质量 数据制作与合成 音素切分与合成切分精度精切 大语料库拼接标准 周期下降沿粗切 参数合成与HMM拼接 模型具有一定内部切分调整能力粗切不代表切分不重要 好的初始位置能帮助模型自切 电脑未必比人聪明 清浊好定 浊浊也难定 还需修正停顿位置什么地方有Sp silv pau 标准L3层以上边界 30ms以上计算机才能使用如果本来有停顿却没有加silv 停顿段会影响前后音素单元质量一些录音缺陷也可塞给停顿位置 鼻息 口水音合成样例 The psychotropic airplanes underwrote the dispassionate song 数据制作与合成 音素切分与合成音变处理连续语流总存在一些规则音变或者不规则音变 导致所读不是原来词典音素音素是身份牌 这个错了后果很严重 修改标准 尊重录音中文 声调变化 儿化 轻读 没被改过的音变就是地雷英文 连读 吞音 弱化 缩写词吞音标准 有无音位 或者我去掉这个读有无差别英文音素短 不是母语 更需小心 还请大家切音时多细心 数据制作与合成 韵律标注与合成韵律标注是音素的档案 据此来分门别类 听候取用良好的韵律标注帮助我们构建正确有效的统计预测结构 上下文韵律决策树如果韵律标注是错误的 连锁毁灭性破坏韵律标错 聚类分错 模型建错 预测走错 参数找错 挑选看错 合成出错 客户很生气 gameover 数据制作与合成 韵律标注与合成中文韵律 调型 停顿层次 L0L1L2L3L4L5 英文韵律 ToBI ToneandBreakIndex 停顿层次 ToneBreak边界调 PhraseTone重读 PitchAccent 数据制作与合成 韵律标注与合成标注不同对合成的影响实例重读But I did not H enjoy it long 边界调Now run along L H and tell them to hurry 数据制作与合成 韵律标注与合成一致性 一致性非常重要 统一标准面对模棱两可的地方 如何取舍 个人尊重大家意见新人咨询资深意见多讨论 多比对对新录库可以按批次做一致性检查 还请大家细致统一的标注韵律 数据制作与合成 音素检错与基频修正评测会给数据打分纠错 合成也需要挑出音库中可能存在的地雷检错种类 浊浊修正调型修正音素修正基频修正特点 直接锁定位置判断 规律性强 还请大家多反馈检错时的规律总结 数据制作与合成 索引制作与合成音库索引将音库韵律和参数信息整理保存合成需要从索引中提取数据 拼接合成在系统挑选时还需要直接使用索引较为固定 但一旦出错不易更改某个词性错位问题遗留很久才被发现 技术人员的错误 制库工作很繁琐 烦劳大家了 总纲 1 数字语音信号2 语音合成技术3 数据制作与合成4 合成效果测听 合成效果测听 测听与合成效果测听是评判合成系统好坏的硬性指标常用测听项目音质自然度相似度主观打分标准 meanopinionscore MOS 合成效果测听 测听与合成音质测听注意事项对音质由技术路线主导 但敏感度因人而异 主观好恶16K原始录音音质可打5分16k原始分析合成可到4分波形拼接合成音质可超4分参数合成系统音质在3分附近尽量减少自然度上的错误对音质打分的影响一般测听要求黑盒 防止惯性打分0 5分间隔 提高一致性测听数量不能少 要有覆盖率和代表性一只好耳机 包住耳朵 提高音量其实 5分很高 2分很低 合成效果测听 测听与合成自然度测听注意事项同样是主观打分 个人标准看待说话人原始录音也只能接近5分参数合成较为流畅 相对平淡拼接合成存在不稳定性 波动较大自然度测听强调对不自然处的扣分同样尽量减少不同音质对自然度打分的影响一般测听要求黑盒 防止惯性打分0 5分间隔 提高一致性保证一定数据量 如果数量很多 可以分批测听5分太高 2分很丢人 合成效果测听 测听与合成相似度测听注意事项一般会提供目标人的录音作参照重点考察音色 兼顾基频 时长 口音一般测听要求黑盒不重要0 5分间隔 提高一致性 合成效果测听 测听与合成偏向性测听注意事项在两个较为接近的效果中取舍测听要求一定要黑盒 可以用黑盒工具 固定0 1打分偏向性选择只能选一个在特别说明时 对难以区分的 可以同时选或不选 合成效果测听 测听与合成外教测听注意事项对外语种合成效果测听 native人士的感觉很重要一般只对整体感觉打分 综合音质自然度测听要求多交流说明我们的目的对关注的问题需要直接沟通控制测听时间和数量 保证测听质量 合成效果测听 测听与合成一句话总结 还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合成语音做出客观 细致 有代表性的评判 谢谢 欢迎提问
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!