资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,新员工入职培训,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,新员工入职培训,语音音库与合成,江源,2009-6-11,语音合成技术,什么叫语音合成,Text To Speech,过程,简称,TTS,作用:将文本状态的文字信息转化为可听的声音信息,“电脑会说话”,键 盘,光电扫描,手写识别,网络/数据库,文 本,语言处理,韵律处理,语音合成,结果输出,词典/规则,语音库,发声机理,语音产生的生理过程,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据制作与合成,4 .,合成效果测听,数字语音信号,什么是数字语音信号,语音:,说话,声波传递的语言,语音信号:记录下来的声波振动,模拟语音信号,:(,磁带,唱片),数字语音信号,:,模拟信号数字化(,wav mp3 CD,),-,计算机应用的需要,如何数字化,取样:采样率(时间尺子,,8K,,,16K,,,44K,,每秒样点数量),量化:量化精度(幅度尺子,,16bit,,,-3276732768,范围),数字语音信号,取样和量化,数字语音信号,波形不能说明内容,数字语音信号,频域介绍,一段任意波形可以由一系列正弦波形组合而成,离散傅,里叶变换,数学表示:,最高值,采样率的一半(,16K wav,;,max freq=8K Hz,),人可听辨的频率范围:,(,20Hz 20kHz,),电话语音信道的频率范围(,60Hz 3400Hz,),数字语音信号,语谱图,数字语音信号,清音和浊音,浊音:声带的快速振动,声带能够将稳定气流转换成振动,振动频率称为,基频,,准周期性,清音:紊乱气流,肺部气流通过声道中的狭窄处产生,爆破音:突然爆破,数字语音信号,声学特征,如此杂乱多变的信号,,如何描述,如何恢复?,语音信号产生的数字模型(,源,-,滤波器模型,),数字语音信号,声学特征,基频:发浊音时声带振动引起的周期变化,我们听感音调高低主要由基频决定,中文声调还用于区分语义,谱参数:描述声道和口唇辐射,共振峰,,LPC,,倒谱参数,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据标注与合成,4 .,合成效果测听,语音合成技术,主流技术路线,基于统计规则的大语料库拼接语音合成系统,基于,HMM,的参数语音合成系统,基于,HMM,的语料库拼接语音合成系统,两条道路:,要么是波形切分再拼合起来,要么是声学参数转化出来,语音合成技术,基于统计规则的大语料库拼接语音合成系统,传统大语料库合成,,InterPhonic 5.0,之前,单元挑选波形拼接,超大规模音库制作,语料设计,音库录制,精细切分,韵律标注,规则统计,针对不同发音人的细致调整,优点:音质最佳,正常句子的自然度也很好,缺点:非常依赖音库的规模大小和制作质量,存在一定稳定性问题,不能应用在小型设备中,样例:,输入文本,拼音信息和韵律结构信息,每个单元将取,多个候选,s1 s2 s3 s4,目标代价挑选候选单元,词典等文本分析知识,大规模语音库,再考虑连接代价决定最后选定单元,s1 s2 s3 s4 s5 s6,输出语音,语音合成技术,InterPhonic,系统处理流程,语音合成技术,基于,HMM,的参数语音合成系统,首先进行语音特征参数的提取,以音素为单位(中文为声韵母),使用,HMM,(,Hidden Markov Model,),对自然语流的频谱特征参数进行建模,采用基于决策树的聚类方法对上下文相关模型进行聚类,以提高模型的鲁棒性,得到预测参数,最后生成参数输入合成器,得到合成语音,优点:所需音库规模小,标注精度要求相对降低,自然度高,系统小,灵活度高,,ViviVoice,,,AiSound,缺点:音质相对较差,带有合成器风格,样例:,语音合成技术,参数语音合成系统框架,语音合成技术,HMM,参数建模,用声学参数针对音素建模,为什么要建模?描述的音素特征变化,隐马尔科夫模型(,Hidden Markov Model -HMM,),语音合成技术,决策树模型聚类,有了模型怎么使用?来一句话怎么预知用哪个模型?,基于上下文的信息的决策树聚类,语音合成技术,基于,HMM,的语料库拼接语音合成系统,利用,HMM,目标模型和连接模型来指导单元挑选,结合参数训练模型的数学统计模型优势和波形拼接的高音质,相对以前的大语料库技术在自然度上有较大提升,自主原发,意义重大,优点:拥有明确目标和度量准则,音质好,自然度高,系统搭建自动化程度高,,InterPhonic 5.5,以上版本,缺点:仍然需要很大规模的语料库,计算量较大,样例:,语音合成技术,基于,HMM,的单元挑选系统结构图,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据制作与合成,4 .,合成效果测听,数据制作与合成,数据与合成的关系,音库数据是合成系统的基石,离开了音库谈合成就是,“,无源之水 无本之木,”,一份音库的制作质量,直接决定了该发音人合成系统的能达到什么效果,数据制作与合成,数据制作过程,音库设计,音库录制,音素切分,韵律标注,音素检错,基频修正,索引制作,数据制作与合成,音库设计与合成,一个设计良好的音库要有较好的音素,韵律覆盖率,广泛的语料来源,保证超大规模库的稳定,某方向定制语料,提升某特应用场合的效果,对语料库拼接技术很重要,“还烦请大家收集更多更好的语料文本”,数据制作与合成,音库录制与合成,录音控制很重要,录音室环境,隔除噪音,话筒的摆放,能量幅度范围,如何保持发音人的发音状态,轻松心态,自然流程,不要带情绪,除非这是情感库,适度原则,不要疲劳录音,宁缺勿滥,批次比对,及时与之前数据做比对,可加入重复句,“还请大家多关注录音质量”,数据制作与合成,音素切分与合成,切分精度,精切:大语料库拼接标准,周期下降沿,粗切:参数合成与,HMM,拼接,模型具有一定内部切分调整能力,粗切不代表切分不重要,好的初始位置能帮助模型自切。,电脑未必比人聪明,清浊好定,浊浊也难定,还需修正,停顿位置,什么地方有,Sp,,,silv,,,pau,?,标准,L3,层以上边界,,30ms,以上计算机才能使用,如果本来有停顿却没有加,silv,,停顿段会影响前后音素单元质量,一些录音缺陷也可塞给停顿位置,鼻息,口水音,合成样例:,The*psychotropic*airplanes#underwrote*the*dispassionate*song,。,数据制作与合成,音素切分与合成,音变处理,连续语流总存在一些规则音变或者不规则音变,导致所读不是原来词典音素,音素是身份牌,这个错了后果很严重!,修改标准:,尊重录音,中文:声调变化,儿化,轻读。没被改过的音变就是地雷,英文:连读,吞音,弱化,缩写词,吞音标准:有无音位,或者我去掉这个读有无差别,英文音素短,不是母语,更需小心,“还请大家切音时多细心”,数据制作与合成,韵律标注与合成,韵律标注是音素的档案,据此来分门别类,听候取用,良好的韵律标注帮助我们构建正确有效的统计预测结构,上下文韵律决策树,如果韵律标注是错误的,,连锁毁灭性破坏,韵律标错,-,聚类分错,-,模型建错,-,预测走错,-,参数找错,-,挑选看错,-,合成出错,-,客户很生气,-,game over,数据制作与合成,韵律标注与合成,中文韵律:调型,停顿层次,(,L0 L1 L2 L3 L4 L5,),英文韵律:,ToBI(Tone and Break Index),停顿层次:,Tone Break,边界调:,Phrase Tone,重读:,Pitch Accent,数据制作与合成,韵律标注与合成,标注不同对合成的影响实例,重读,But*I*did*not,(H*),*enjoy*it*long,。,边界调,Now*run*along,(L-H%),,,and*tell*them*to*hurry,。,数据制作与合成,韵律标注与合成,一致性!,一致性非常重要,统一标准,面对模棱两可的地方,如何取舍?,个人尊重大家意见,新人咨询资深意见,多讨论,多比对,对新录库可以按批次做一致性检查,“还请大家细致统一的标注韵律”,数据制作与合成,音素检错与基频修正,评测会给数据打分纠错,合成也需要,挑出音库中可能存在的地雷,检错种类:,浊浊修正,调型修正,音素修正,基频修正,特点:直接锁定位置判断,规律性强,“还请大家多反馈检错时的规律总结”,数据制作与合成,索引制作与合成,音库索引将音库韵律和参数信息整理保存,合成需要从索引中提取数据,拼接合成在系统挑选时还需要直接使用索引,较为固定,但一旦出错不易更改,某个词性错位问题遗留很久才被发现,(技术人员的错误,),“制库工作很繁琐,烦劳大家了”,总纲,1 .,数字语音信号,2 .,语音合成技术,3 .,数据制作与合成,4 .,合成效果测听,合成效果测听,测听与合成,效果测听是评判合成系统好坏的硬性指标,常用测听项目,音质,自然度,相似度,主观打分标准,(,mean opinion score,,,MOS,),MOS,分,主观意见,5,分,优,察觉不到任何不自然,4,分,良,刚察觉若干不自然,3,分,可,能察觉不自然但可以接受,2,分,差,明显察觉但可忍受,1,分,坏,不可忍受,合成效果测听,测听与合成,音质测听注意事项,对音质由技术路线主导,但敏感度因人而异,主观好恶,16K,原始录音音质可打,5,分,16k,原始分析合成可到,4,分,波形拼接合成音质可超,4,分,参数合成系统音质在,3,分附近,尽量减少自然度上的错误对音质打分的影响,一般测听要求,黑盒:防止惯性打分,0.5,分间隔:提高一致性,测听数量不能少,要有覆盖率和代表性,一只好耳机,包住耳朵,提高音量,其实,,5,分很高,,2,分很低,合成效果测听,测听与合成,自然度测听注意事项,同样是主观打分,个人标准看待,说话人原始录音也只能接近,5,分,参数合成较为流畅,相对平淡,拼接合成存在不稳定性,波动较大,自然度测听强调对不自然处的,扣分,同样尽量减少不同音质对自然度打分的影响,一般测听要求,黑盒:防止惯性打分,0.5,分间隔:提高一致性,保证一定数据量,如果数量很多,可以分批测听,5,分太高,,2,分很丢人,合成效果测听,测听与合成,相似度测听注意事项,一般会提供目标人的录音作参照,重点考察音色,兼顾基频,时长,口音,一般测听要求,黑盒不重要,0.5,分间隔:提高一致性,合成效果测听,测听与合成,偏向性测听注意事项,在两个较为接近的效果中取舍,测听要求,一定要黑盒!,可以用黑盒工具,固定,0,,,1,打分,偏向性选择只能选一个,在特别说明时,对难以区分的,可以同时选或不选,合成效果测听,测听与合成,外教测听注意事项,对外语种合成效果测听,,native,人士的感觉很重要,一般只对整体感觉打分,综合音质自然度,测听要求,多交流说明我们的目的,对关注的问题需要直接沟通,控制测听时间和数量,保证测听质量,合成效果测听,测听与合成,一句话总结,“还请大家用灵巧的耳朵和聪慧的心灵帮助我们对每一句合成语音做出客观,细致,有代表性的评判”,谢谢!,欢 迎 提 问,
展开阅读全文