语音信号处理_第八章_语音合成

资源描述

,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,语音信号处理,第,8,章语音合成,1,第,8,章语音合成,8.1,概述,8.2,共振峰合成法,8.3,线性预测合成法,8.4,文语转换系统,2,8.1,概述,8.1.1,语音合成的定义,8.1.2,语音合成的应用,8.1.3,语音合成的方法,3,8.1.1,语音合成的定义,语音合成是通过机械的、电子的方法产生人造语音的技术。它的目的是使一些以其他方式表示或存储的信息能转换为清晰可懂的语音，从而让人们能够利用听觉获取这些信息,4,8.1.1,语音合成的定义,Intention-To-Speech,Concept-To-Speech,Text-To-Speech,按照人类语言功能的不同层次，语音合成也可分为三个层次，即：,1.,从文字到语音的合成（,T,ext-,t,o-,S,peech,）,2.,从概念到语音的合成（,C,oncept-,t,o-,S,peech,）,3.,从意向到语音的合成（,I,ntention-,t,o-,S,peech,）,5,8.1.2,语音合成的应用,传统语音系统的缺陷,需要对信息文本进行录音并保存为声音文件，占用存储空间和工作量大,不能动态反映信息的更新，应用范围有很大局限,WAV,格式文件所占容量,(KB)=(,取样频率,X,量化位数,X,声道,)X,时间,/8,，每一分钟,WAV,格式的音频文件的大小约为,10MB,6,8.1.2,语音合成的应用,语音合成技术的优势,无需对信息文本进行录音，极大地节省了存储空间和减少了工作量,能动态反映信息的变化，应用范围广,7,几个语音合成应用的实例,查询系统,话费查询、考试结果查询、股票交易查询等,8,几个语音合成应用的实例,有声词典,单词、例句朗读等,电脑游戏,目前游戏中人物只能说出事先录好的语音。利用语音合成技术可以让人物说出任意语句，同时具有不同说话风格和语气，从而大大加强游戏的趣味性和互动性,9,8.1.3,语音合成的方法,8.1.3.1,波形合成法,8.1.3.2,参数合成法,8.1.3.3,规则合成法,10,8.1.3.1,波形合成法,波形合成法一般分为两种，一种是,波形编码合成,，另一种是,波形编辑合成,。波形合成法是一种相对简单的合成技术，通常只能合成有限词汇的语音段。许多专门用途的语音合成器都采用这种方式，如自动报号、报时、报站、报警等,11,8.1.3.1,波形合成法,12,8.1.3.2,参数合成法,主要步骤：,利用语音信号的短时平稳性，提取出每帧语音信号的声学参数，将这些参数编码后组成一个语音参数库,输出时，从语音参数库中取出相应的参数，利用合成算法恢复语音,主要的合成参数有：控制音强的幅度参数、控制音高的基频参数和控制音色的共振峰参数,共振峰合成和线性预测合成是该类合成技术中的重要方法,13,8.1.3.2,参数合成法,优点,所需音库一般较小,整个系统能适应的韵律特征范围较大,音质适中,缺点,算法复杂，参数多,压缩比较大时合成的语音不够自然清晰,14,8.1.3.3,规则合成法,主要步骤,系统中预先存储音素的声学参数，以及由音素组成音节、音节组成词、词组成句子和控制音调、轻重音等韵律的各种规则,给出需要合成的语句后，系统根据相应规则自动将它们转换成语音声波,15,8.1.3.3,规则合成法,特点,合成的词汇表不是事先确定,可以合成无限词汇的语句,16,小贴士：语音合成的基本术语,1,合成单元,(Synthesis Unit),也称为合成单位，是语音合成系统所处理的,最小,的语音学基本单位,按由小到大的顺序排列，语音学中的音素、双音素、半音节、音节、词、短语和句子都可以用作合成单元，合成单元越大，合成语音音质越好，但合成语音的数量及其数码率也越大,在,波形合成,中，合成单元较大，多为词、短语或句子,在,参数合成,和,规则合成,中，有些语言（如英语或日语）的合成多采用音素，辅音加元音和元音加辅音等合成单元；有些语言（如汉语）的合成单元多采用音节和声、韵母作合成单元,17,小贴士：语音合成的基本术语,2,合成参数,(Synthesis Parameters),在参数合成和规则合成方式中，控制语音合成器以输出所需语音的一组参数,合成参数分为两类,音色参数,（音段参数），常用的有：共振峰频率，线性预测系数和生理发音参数,韵律参数,（超音段参数），主要有控制音强的幅度参数，控制音高的基频参数，控制音长的时间参数等,18,小贴士：语音合成的基本术语,3,合成语音库,(Database for Synthesis),在语音合成系统中，所有合成单元的编码数据或合成参数数据的集合称为合成语音库,对于,波形合成,，语音库中存储的是合成单元的波形编码,对于,参数合成,，语音库中存储的是各合成单元逐帧的合成参数,对于,规则合成,，语音库中存储的是各合成单元的声学参数和一系列合成规则,19,PSOLA,算法,核心思想：直接对存储于音库的语音运用,PSOLA,算法进行拼接从而合成完整的语音,主要特点：有别于传统概念中只是将不同的语音单元进行简单拼接，,PSOLA,系统首先要在大量语音库中，,选,择最合适的语,音,单元用于拼接，使合成波形既保持了原始发音的主要音段特征，又能使拼接单元的韵律特征符合上下文的要求，从而获得很高的清晰度和自然度,20,选音,对于同一个合成单元，由于语境不同，重音表现不同，其声学特征有很大不同，因此可以建立多样板语音数据库，合成时根据某种规则或模型选择最合适的单元,选音过程中往往采用多种复杂的技术，包括多项统计学上的技术或神经网络技术，如日本,ATR,推出的多语种语音合成系统，就采用了统计学上的隐马尔可夫模型来进行选音,21,PSOLA,算法,本质上说，,PSOLA,算法是利用短时傅里叶变换重构信号的叠加法,信号,x(n,),的短时傅里叶变换为,22,PSOLA,算法,由于语音信号短时平稳，因此在时域每隔若干个（例如,R,个）样本取一个频谱函数就能重构信号,x(n,),，即可令,23,PSOLA,算法,上式的傅里叶逆变换为,然后叠加就能得到原信号,24,PSOLA,算法实现语音合成的主要步骤,1.,基音同步分析,同步分析的功能主要是对语音合成单元进行同步标记设置,以同步标记为中心，选择适当窗长做加窗处理，得到一组短时信号,25,PSOLA,算法实现语音合成的主要步骤,2.,基音同步修改,增加基频,减小基频,分析基音标记和合成基音标记未必是一一对应关系，很有可能出现一对多或多对一的情况,26,PSOLA,算法实现语音合成的主要步骤,3.,基音同步合成,谱相等意义下,最小均方误差意义下,在一定约束条件下，上述两种方法得到的合成信号表达形式完全一致，均为,27,8.2,共振峰合成法,8.2.1,概述,8.2.2,共振峰合成的原理,8.2.3,共振峰合成的特点,28,8.2.1,概述,语音生成的数学模型认为，语音是在激励信号的激励下，声波经谐振腔（声道）传输，最终由嘴或鼻向外辐射生成。习惯上，把声道传输频率响应上的极点称之为共振峰，而语音的共振峰频率（极点频率）的分布特性决定着该语音的音色,音色各异的语音具有不同的共振峰模式，因此，以每个共振峰频率及其带宽作为参数，可以构成共振峰滤波器。再用若干个这种滤波器的组合来模拟声道的传输特性（频率响应），对激励源发出的信号进行调制，再经过辐射模型就可以得到合成语音,29,8.2.2,共振峰合成的原理,F,0,冲激发生器声门波形成,X +,级联型调制器,幅度,噪声发生器,X +,辐射效应语音,幅度,基音,调制,X,并联型调制器,幅度,共振峰合成器的系统模型,30,8.2.1,共振峰合成的原理,合成浊音语音时用周期冲激序列；合成清音语音时用伪随机噪声；合成浊擦音时用周期冲激调制的噪声,级联型结构可模拟声道谐振特性，能很好地逼近原音的频谱特性；并联型结构能模拟谐振和反谐振特性，被用来合成辅音,辐射模型可用一阶差分逼近,31,8.2.3,共振峰合成的特点,优点,共振峰模型的理论基础是对声道的一种比较准确的模拟，因而可以合成出自然度比较高的语音,共振峰参数有着明确的物理意义，直接对应于声道参数，因此共振峰可以解释自然语音中的各种现象，进而可以利用声学规律用于共振峰合成系统,缺点,若建立的声道模型不够精确会影响合成质量,共振峰模型虽然描述了语音信号最基本的一些特征，但对于有些细微特征仍无法描述，势必会对合成语音的自然度造成影响,共振峰合成器往往十分复杂，需要控制的参数（如幅度、基频、清浊音开关等）很多,32,8.3,线性预测合成法,8.3.1,概述,8.3.2,直接递归型,LPC,合成器,8.3.3,格型合成滤波器,33,8.3.1,概述,线性预测思想：一个语音的采样能够用过去若干个语音采样的线性组合来逼近,将语音生成模型简化，将声门激励、声道和辐射模型进行组合，统一用一个时变数字滤波器来表示,冲激,序列,发生器,随机,噪声,发生器,x(n),u(n),LPC,语音合成器,34,8.3.2,直接递归型,LPC,合成器,直接用预测器系数,a,i,合成的语音样本为,优点：简单，易于实现,缺点：对系数变化非常敏感，可能出现不稳定现象,35,8.3.3,格型合成滤波器,采用反射系数,k,i,合成的语音样本为,所用参量,浊音、清音标志,音高,总体振幅水平,反射系数,36,8.4,文语转换系统,8.4.1,概述,8.4.2,文本分析,8.4.3,韵律控制,8.4.4,语音合成,37,8.4.1,概述,文语转换,(Text to Speech,TTS),是指将文本文件通过一定的硬软件转换后由计算机等语音系统输出语音的过程,文本分析,、,韵律控制,和,语音合成,是文语转换系统的三个核心部分,38,8.4.1,概述,文本分析：首先根据发音字典，将输入的文字串分解为带有属性标记的词及其读音符号。,语音生成：文字串,就变换为代码串，规则合成系统就可以据此合成抑扬顿挫和不同语气的语句。,韵律生成：根据语义规则和语音规则，为每个词、每个音节确定重音等级和语句结构及语调、以及各种停顿等。,39,8.4.2,文本分析,文本分析的主要功能是使计算机能够识别文字，并根据文本的上、下文关系在一定程度上对文本进行理解，将发音的方式告诉计算机，另外，还要让计算机知道文本中哪些是短语、句子，发音时到哪应该停顿，停顿多长等等,40,文本分析大致流程,自动分词,多音字处理,声调判断,特殊声调调整,特殊符号,停顿处理,系统词库,多音字词库,变调规则库,特殊声调,规则,41,8.4.3,韵律控制,韵律特征包括声调、语气、停顿方式、发音长短等。这些特征通过基频、音长、音强等声学参数来体现，通过控制这些参数达到对韵律的控制。具体包括基音同步帧周期的调整、合成语音幅度的调整、声调曲线的修正等,42,8.4.4,语音合成,拼音信息,声母,韵母,声调,基音同步帧、,过渡音和鼻音库,声调曲线库,声母库,合成韵母,幅度调整,叠接,合成语音,43,一个文语转换的实例,讯飞语音云开发者,44,谢谢！,45,

展开阅读全文

语音信号处理_第八章_语音合成

最新文档