第十讲-语音信号处理第5章分析课件

上传人:txadgkn****dgknqu... 文档编号:241592505 上传时间:2024-07-07 格式:PPT 页数:22 大小:324.05KB
返回 下载 相关 举报
第十讲-语音信号处理第5章分析课件_第1页
第1页 / 共22页
第十讲-语音信号处理第5章分析课件_第2页
第2页 / 共22页
第十讲-语音信号处理第5章分析课件_第3页
第3页 / 共22页
点击查看更多>>
资源描述
回顾回顾5.55.5隐马尔科夫模型的各种结构类隐马尔科夫模型的各种结构类型型5.65.6隐马尔科夫模型的一些实际问隐马尔科夫模型的一些实际问题题回顾第5章 隐马尔科夫模型5.5 5.5 隐马尔可夫模型的各种结构类隐马尔可夫模型的各种结构类型型 按照按照HMMHMM的状态转移概率矩阵(参数)分类的状态转移概率矩阵(参数)分类 各态历经型或遍历型各态历经型或遍历型HMMHMM(Ergodic HMMErgodic HMM):严格的讲,所严格的讲,所谓的遍历模型就是经过有限步的转移后,系统能达到任何谓的遍历模型就是经过有限步的转移后,系统能达到任何一个状态。即系统从一个状态允许转移到任何一个状态。一个状态。即系统从一个状态允许转移到任何一个状态。在某些应用系统中,常遇到的是一步遍历模型,即经过一在某些应用系统中,常遇到的是一步遍历模型,即经过一步跳转,系统可达到任何一个状态。这样的步跳转,系统可达到任何一个状态。这样的HMMHMM的状态转的状态转移矩阵中的每一个元素均为大于零的数,没有零元素。显移矩阵中的每一个元素均为大于零的数,没有零元素。显然,各态历经型然,各态历经型HMMHMM不符合时间顺序的要求,因为它可以不符合时间顺序的要求,因为它可以回到以前到过的状态,所以只能用于不要求时间顺序的语回到以前到过的状态,所以只能用于不要求时间顺序的语音信号处理,如:与文本无关的说话人识别等。音信号处理,如:与文本无关的说话人识别等。5.5 隐马尔可夫模型的各种结构类型 按照HMM的状态转从左到右型从左到右型HMMHMM(Left-to-Right HMMLeft-to-Right HMM):):所谓的从左到右模所谓的从左到右模型,就是指随着时间的增加,状态的转移只能是从左到右进型,就是指随着时间的增加,状态的转移只能是从左到右进行或停留在原来的状态,而不能出现返回到以前状态的情况,行或停留在原来的状态,而不能出现返回到以前状态的情况,即从编号高的状态(如第状态)到编号低的状态(如第即从编号高的状态(如第状态)到编号低的状态(如第n-1n-1或或n-2n-2等等状态等等状态)跳转的情况(这实际上是一个时序的问题,)跳转的情况(这实际上是一个时序的问题,因为按照时间顺序,总是从编号低的状态向编号高的状态转因为按照时间顺序,总是从编号低的状态向编号高的状态转移)。因此,其状态转移矩阵具有如下的形式,它是一个上移)。因此,其状态转移矩阵具有如下的形式,它是一个上三角矩阵,而表示终止状态的最后一行除了最后一个元素外三角矩阵,而表示终止状态的最后一行除了最后一个元素外全为零(当终止状态没有自转移时,则最后一行全为零)。全为零(当终止状态没有自转移时,则最后一行全为零)。从左到右型HMM(Left-to-Right HMM):所谓另外从状态转移结构上另外从状态转移结构上HMMHMM还有还有其他的一些变体,如由图其他的一些变体,如由图5-5-5 5(c c)所示的由两条并行的从左)所示的由两条并行的从左到右模型组成的到右模型组成的HMMHMM,又称为,又称为HMMHMM网络。它不是一般的情况,是由网络。它不是一般的情况,是由标准模型组合的变体,用于特殊标准模型组合的变体,用于特殊的应用场合。这种模型较复杂,的应用场合。这种模型较复杂,所以性能一般要比单个左右模型所以性能一般要比单个左右模型要好。要好。另外从状态转移结构上HMM还有其他的一些变体,如由图5-5(按照按照HMMHMM的输出概率分布(的输出概率分布(B B参数)分类参数)分类 离散离散HMMHMM(DHMMDHMM):离散离散HMMHMM就是上面一直在介绍的就是上面一直在介绍的HMMHMM。在这种。在这种HMMHMM中,每一个状态的输出概率是按观中,每一个状态的输出概率是按观察字符离散分布的,每一次转移时状态输出的字符,察字符离散分布的,每一次转移时状态输出的字符,是从一个有限的离散字符集中按照一定的离散概率是从一个有限的离散字符集中按照一定的离散概率分布选出的。在语音信号处理中,经过特征分析后,分布选出的。在语音信号处理中,经过特征分析后,语音信号先被分割成若干帧,每帧求取一个特征参语音信号先被分割成若干帧,每帧求取一个特征参数向量,即每帧是用一个特征参数向量表示的。此数向量,即每帧是用一个特征参数向量表示的。此时若要使用离散时若要使用离散HMMHMM,则需要将语音特征参数向量的,则需要将语音特征参数向量的时间序列进行矢量量化,通过矢量量化使每一帧语时间序列进行矢量量化,通过矢量量化使每一帧语音信号由特征参数向量表示转变为用码字符号表示音信号由特征参数向量表示转变为用码字符号表示的形式。的形式。按照HMM的输出概率分布(B参数)分类 连续型连续型HMMHMM(Continuous HMMContinuous HMM,简称为,简称为CHMMCHMM):在连续):在连续HMMHMM中,中,由于可以输出的是连续值,不是有限的,所以不能用矩阵表由于可以输出的是连续值,不是有限的,所以不能用矩阵表示输出概率,而要改用概率密度函数来表示。即用示输出概率,而要改用概率密度函数来表示。即用 表示:在表示:在 和和 之间观察矢量的输出概率。这里之间观察矢量的输出概率。这里 称称为参数为参数 的概率密度分布函数,输出的概率密度分布函数,输出 的概率可以通过的概率可以通过 计算出来。计算出来。一般用高斯概率密度函数,由于一般用高斯概率密度函数,由于 是多维矢是多维矢量所以要用多元高斯概率密度函数量所以要用多元高斯概率密度函数连续型HMM(Continuous HMM,简称为CHMM)根据协方差矩阵是全协方差矩阵还是对角协方差矩阵,可以根据协方差矩阵是全协方差矩阵还是对角协方差矩阵,可以把连续把连续HMMHMM分成全协方差矩阵分成全协方差矩阵CHMMCHMM和对角协方差矩阵和对角协方差矩阵CHMMCHMM。另一方面,由于在实际的语音信号处理系统中,往往用一个另一方面,由于在实际的语音信号处理系统中,往往用一个高斯概率密度函数不足以表示语音参数的输出概率分布,所高斯概率密度函数不足以表示语音参数的输出概率分布,所以一种常用于语音信号处理的概率密度函数,称之为以一种常用于语音信号处理的概率密度函数,称之为“高斯高斯元混合密度元混合密度”,即用多个高斯概率分布的加权组合来表示输,即用多个高斯概率分布的加权组合来表示输出概率密度函数。出概率密度函数。连续混合密度连续混合密度HMMHMM为多个正态分布线性相加的为多个正态分布线性相加的HMMHMM系统,当系统,当M M值较大(如值较大(如M M为为4 4或或5 5)时,系统的识别率较高,但其运算量)时,系统的识别率较高,但其运算量较大。另一方面,每个模型中每个状态的概率密度由较大。另一方面,每个模型中每个状态的概率密度由M M个正个正态分布函数叠加而成,它比前者有更多的自由度,因而逼近态分布函数叠加而成,它比前者有更多的自由度,因而逼近实际分布的效果更好一些,这样识别效果也会更佳,随着词实际分布的效果更好一些,这样识别效果也会更佳,随着词汇量的增加,这一优点更加突出,因而,对一些大词汇量的汇量的增加,这一优点更加突出,因而,对一些大词汇量的与说话人无关的语音识别系统,连续混合密度与说话人无关的语音识别系统,连续混合密度HMMHMM受到重视。受到重视。根据协方差矩阵是全协方差矩阵还是对角协方差矩阵,可以把连续H半连续型半连续型HMMHMM(Semi-Continuous HMMSemi-Continuous HMM:简称为:简称为SCHMMSCHMM):离):离散散HMMHMM的模型参数少,对训练数据量要求不高,而且离散的模型参数少,对训练数据量要求不高,而且离散HMMHMM的计算量较少,易于实时实现,但是离散的计算量较少,易于实时实现,但是离散HMMHMM的缺点是识别的缺点是识别精度不高。连续型精度不高。连续型HMMHMM虽然不使用离散概率分布不需要对输虽然不使用离散概率分布不需要对输入信号进行量化,从而提高了识别率,但这是以运算量的增入信号进行量化,从而提高了识别率,但这是以运算量的增加为代价的,而且连续型加为代价的,而且连续型HMMHMM尤其是连续混合密度尤其是连续混合密度HMMHMM的模型的模型参数教多,训练数据不够时训练的模型精度较低。为了结合参数教多,训练数据不够时训练的模型精度较低。为了结合这两种模型的优点,弥补这两种模型的缺点。人们提出了半这两种模型的优点,弥补这两种模型的缺点。人们提出了半连续型连续型HMMHMM,它的输出概率的形式如下式所示:,它的输出概率的形式如下式所示:这样,对于离散这样,对于离散HMMHMM,半连续型,半连续型HMMHMM用多个正态分布线性相加用多个正态分布线性相加作为概率密度函数弥补了离散分布的误差;对于连续型作为概率密度函数弥补了离散分布的误差;对于连续型HMMHMM,半连续型,半连续型HMMHMM用多个各状态共有的正态分布线性相加作为用多个各状态共有的正态分布线性相加作为概率密度函数弥补了参数数量多,计算量大的缺陷。概率密度函数弥补了参数数量多,计算量大的缺陷。半连续型HMM(Semi-Continuous HMM:简称 其他一些特殊的其他一些特殊的HMMHMM的形式的形式 空转移(空转移(Null TransitionsNull Transitions):在这种类型的在这种类型的HMMHMM中,系统的中,系统的输出是与转移弧相联系的,允许不产生输出的转移,即从一输出是与转移弧相联系的,允许不产生输出的转移,即从一个状态转移到其他状态时,无观察符号(或矢量)输出。这个状态转移到其他状态时,无观察符号(或矢量)输出。这样的转移称为空转移。样的转移称为空转移。在连续语音识别系统中,单词或语句在连续语音识别系统中,单词或语句的的HMMHMM都是由基元都是由基元HMMHMM的连接形成的,一般在连接时,一个基的连接形成的,一般在连接时,一个基元元HMMHMM的终止状态和一个基元的终止状态和一个基元HMMHMM的初始状态相连接,这种连的初始状态相连接,这种连接产生的转移弧就是空转移,如图接产生的转移弧就是空转移,如图5-65-6所示。所以在大词汇所示。所以在大词汇连续语音识别系统中大量使用了这种模型。连续语音识别系统中大量使用了这种模型。其他一些特殊的HMM的形式 基元基元HMMHMM的连接的连接 基元HMM的连接 参数捆绑(参数捆绑(Parameter tieingParameter tieing):参数捆绑的基本思想是在参数捆绑的基本思想是在HMMHMM的不同状态转移弧的参数之间建立一定的关系,使得不的不同状态转移弧的参数之间建立一定的关系,使得不同状态转移弧使用相同的参数,其目的就是使模型中的独立同状态转移弧使用相同的参数,其目的就是使模型中的独立的状态参数减少,从而使得参数估计变得较为简单。参数捆的状态参数减少,从而使得参数估计变得较为简单。参数捆绑是解决训练数据不足问题的重要方法,因为模型的参数越绑是解决训练数据不足问题的重要方法,因为模型的参数越多,则需要的训练数据数量就越大,否则训练出的模型精度多,则需要的训练数据数量就越大,否则训练出的模型精度就不够。所以可以通过参数捆绑来降低模型参数数量,减少就不够。所以可以通过参数捆绑来降低模型参数数量,减少对训练数据量的压力。参数捆绑常用于两个或多个状态的输对训练数据量的压力。参数捆绑常用于两个或多个状态的输出观察向量的概率密度分布近似相同的情况,提取的语音特出观察向量的概率密度分布近似相同的情况,提取的语音特征参数可以认为在这些状态转移弧上符合相同的分布。实际征参数可以认为在这些状态转移弧上符合相同的分布。实际上,在如图上,在如图5-75-7所示的连续型所示的连续型HMMHMM中,一个状态的自转移弧和中,一个状态的自转移弧和互转移弧的参数必须进行参数捆绑,因为,对于一个训练参互转移弧的参数必须进行参数捆绑,因为,对于一个训练参数的时间序列,实际上互转移弧上只通过了一帧的语音数据,数的时间序列,实际上互转移弧上只通过了一帧的语音数据,而用一帧的语音数据估计正态分布概率密度函数是不可能的。而用一帧的语音数据估计正态分布概率密度函数是不可能的。参数捆绑(Parameter tieing):参数捆绑的基具有参数捆绑的连续型具有参数捆绑的连续型HMMHMM 具有参数捆绑的连续型HMM 5.6 5.6 隐马尔可夫模型的一些实际问隐马尔可夫模型的一些实际问题题 下溢问题下溢问题在计算在计算HMMHMM的三个问题时,需要计算前向变量的三个问题时,需要计算前向变量 和后向变和后向变量量 ,他们是通过递归运算求得的,例如在,他们是通过递归运算求得的,例如在 ViterbiViterbi算算法中,计算前向变量所用的递归公式如下:法中,计算前向变量所用的递归公式如下:在上式中,在上式中,和和 项均为小于的项均为小于的1 1数(甚至远小于数(甚至远小于1 1),因),因此在实际运算中,此在实际运算中,较较 要小,随着要小,随着t t的增加,的增加,就就有明显得降低,最后,该变量变得非常小,以致会超出计有明显得降低,最后,该变量变得非常小,以致会超出计算动态范围的下限,即使采用双精度运算,当算动态范围的下限,即使采用双精度运算,当t t相当大时,相当大时,几乎所有的几乎所有的 都趋向于都趋向于0 0,后向变量,后向变量 的计算也有类似的计算也有类似的情况,这就是计算中的下溢问题。因此,在进行相关计的情况,这就是计算中的下溢问题。因此,在进行相关计算时,必须加入定标过程。算时,必须加入定标过程。5.6 隐马尔可夫模型的一些实际问题 下溢问题 参数的初始化问题参数的初始化问题 从理论上而言,基于标准从理论上而言,基于标准ML(Maximum Likelihood MethodML(Maximum Likelihood Method,简称,简称为为MLML法法)判据的判据的Baum-WelchBaum-Welch前后向重估训练算法能够给出似然函数前后向重估训练算法能够给出似然函数的局部最大点,一个关键的问题是如何恰当地选择的局部最大点,一个关键的问题是如何恰当地选择HMMHMM的初始参数,的初始参数,使局部最大值尽量的接近全局最优点。此外,好的初值选择还可使局部最大值尽量的接近全局最优点。此外,好的初值选择还可以保证达到收敛所需的迭代次数最小,即计算效率较高。初始概以保证达到收敛所需的迭代次数最小,即计算效率较高。初始概率和状态转移系数矩阵的初值较易确定。由迭代算法可知,如果率和状态转移系数矩阵的初值较易确定。由迭代算法可知,如果任何一个参数的初值定为任何一个参数的初值定为0 0,那么以后的迭代运算中恒为零。因此,那么以后的迭代运算中恒为零。因此,通常对这两组参数的初值设置为均匀分布之值或非零的随机数,通常对这两组参数的初值设置为均匀分布之值或非零的随机数,据有关文献介绍,据有关文献介绍,和和 的初值设置对识别率的影响不是太大。的初值设置对识别率的影响不是太大。参数参数B B的初值设置较其它两组参数的设置更至关重要也更困难。对的初值设置较其它两组参数的设置更至关重要也更困难。对离散型离散型HMMHMM等较简单的情况,等较简单的情况,B B的设置较容易,可以采取均匀的或的设置较容易,可以采取均匀的或随机的设置每一字符出现的概率初值。在连续分布随机的设置每一字符出现的概率初值。在连续分布HMMHMM的的B B中,包中,包含的参数越多越复杂,则参数初值的设置对于迭代计算的结果越含的参数越多越复杂,则参数初值的设置对于迭代计算的结果越至关重要,一种较简单的至关重要,一种较简单的B B初值的设置方法是用手工对输入的语音初值的设置方法是用手工对输入的语音进行状态划分并统计出相应的概率分布作为初值,这适合于较小进行状态划分并统计出相应的概率分布作为初值,这适合于较小的语音单位。对于较大的语音单位,目前普遍采用分段的语音单位。对于较大的语音单位,目前普遍采用分段K-K-均值算均值算法,该算法的基本思想和计算流程如图法,该算法的基本思想和计算流程如图5-85-8所示。所示。参数的初始化问题 用分段用分段K-K-均值算法求模型的参数初值均值算法求模型的参数初值用分段K-均值算法求模型的参数初值 提高提高HMMHMM描述语音动态特性的能力描述语音动态特性的能力为了保证为了保证HMMHMM计算的有效性和训练的可实现性,基本的计算的有效性和训练的可实现性,基本的HMMHMM模模型本身隐含了以下三个假设:型本身隐含了以下三个假设:假设假设1 1:状态转移概率与观察序列无关,且时不变;:状态转移概率与观察序列无关,且时不变;假设假设2 2:状态观察概率密度函数与过去状态无关;:状态观察概率密度函数与过去状态无关;假设假设3 3:状态观察概率密度函数与过去观察无关。:状态观察概率密度函数与过去观察无关。由于语音是发音系统连续变化所产生的,具有很强的相关性,由于语音是发音系统连续变化所产生的,具有很强的相关性,以上基本以上基本HMMHMM的假设无疑是不合理的。因此,虽然隐马尔可的假设无疑是不合理的。因此,虽然隐马尔可夫模型是现在最流行的语音识别模型,然而基本型的夫模型是现在最流行的语音识别模型,然而基本型的HMMHMM采采用状态输出独立假设是它的一个固有的缺陷。它影响了用状态输出独立假设是它的一个固有的缺陷。它影响了HMMHMM描述语音信号时间上帧间相关动态特性的能力。描述语音信号时间上帧间相关动态特性的能力。提高HMM描述语音动态特性的能力为了弥补这一缺陷,最早人们采用的方法是在利用语音静态为了弥补这一缺陷,最早人们采用的方法是在利用语音静态参数参数 的同时,增加如下式(的同时,增加如下式(5-635-63)所示的语音的动态特)所示的语音的动态特性参数,即以时刻性参数,即以时刻t t(帧)为中心,(帧)为中心,(帧)为幅度的线(帧)为幅度的线性回归系数性回归系数 :然而这些扩展都没有从根本上解决然而这些扩展都没有从根本上解决HMMHMM假设的不合理性,因假设的不合理性,因而其对识别性能的改进也必然是有限的。因此,基于语音段而其对识别性能的改进也必然是有限的。因此,基于语音段的统计建模方法正是在此基础上于八十年代末、九十年代初的统计建模方法正是在此基础上于八十年代末、九十年代初应运而生了,提出许多方法,如使用线性或非线性预测器法、应运而生了,提出许多方法,如使用线性或非线性预测器法、利用多项式回归函数法、利用条件概率利用多项式回归函数法、利用条件概率HMMHMM的方法和复数帧的方法和复数帧段输入段输入HMMHMM方法等。方法等。为了弥补这一缺陷,最早人们采用的方法是在利用语音静态参数 利用语音帧间相关信息最直接最简便的方法,是采用相继的利用语音帧间相关信息最直接最简便的方法,是采用相继的复数帧组成的特征参数矢量作为输入特征量的方法。这种方复数帧组成的特征参数矢量作为输入特征量的方法。这种方法最初是由井手等人提出,法最初是由井手等人提出,OstendorfOstendorf等人把这一方法推广等人把这一方法推广到了连续语音识别系统。利用这一设想,可以较好地改善传到了连续语音识别系统。利用这一设想,可以较好地改善传统输出独立统输出独立HMMHMM的缺陷,是一种有效而简便的利用帧间相关的缺陷,是一种有效而简便的利用帧间相关信息的方法。信息的方法。利用语音帧间相关信息最直接最简便的方法,是采用相继的复数帧组 HMM HMM训练方法的改进训练方法的改进 现在作为现在作为HMMHMM的模型的代表性训练方法是被称为的模型的代表性训练方法是被称为Baum-WelchBaum-Welch算法的最大似然推定法算法的最大似然推定法(ML(ML法法)。这种方法是以学习样本生成。这种方法是以学习样本生成的似然函数值最大为学习准则,而没有考虑各学习类别之间的似然函数值最大为学习准则,而没有考虑各学习类别之间的关系,所以不能保证用的关系,所以不能保证用MLML法训练的模型产生的识别误差率法训练的模型产生的识别误差率为最小,即模型间鉴别力最大。为最小,即模型间鉴别力最大。针对针对HMMHMM的模型的训练方法的问题,提出了许多改进的训练的模型的训练方法的问题,提出了许多改进的训练方法。其中,基于最小分类误差基准的学习方法(方法。其中,基于最小分类误差基准的学习方法(Minimum Minimum Classification Error MethodClassification Error Method,以下简称,以下简称MCEMCE法)效果较好。法)效果较好。HMM训练方法的改进 直接利用状态持续时间分布概率的直接利用状态持续时间分布概率的HMMHMM系统系统 由由ViterbiViterbi算法以及上面介绍的算法以及上面介绍的k-k-均值均值HMMHMM训练法可以知道,训练法可以知道,实际上语音信号中各个稳定段是与相应的实际上语音信号中各个稳定段是与相应的HMMHMM状态相对应的。状态相对应的。然而在标准然而在标准HMMHMM中,观察符号(矢量)序列在任何一个状态中,观察符号(矢量)序列在任何一个状态的停留时间或持续时间的概率分布并没有在系统的参数组中的停留时间或持续时间的概率分布并没有在系统的参数组中表现出来。表现出来。在在HMMHMM三个基本问题的解决中,不是孤立地通过状态转移矩三个基本问题的解决中,不是孤立地通过状态转移矩阵估计每个状态的持续时间,而是用阵估计每个状态的持续时间,而是用ViterbiViterbi算法从总体上算法从总体上估计最可能出现的总体序列。估计最可能出现的总体序列。直接利用状态持续时间分布概率的HMM系统 为了能够在为了能够在HMMHMM中很好地表现和利用持续时间这一明显有用中很好地表现和利用持续时间这一明显有用的参数,有下列解决方法:的参数,有下列解决方法:(1 1)增加)增加HMMHMM的状态数。的状态数。(2 2)采用后处理的方法。)采用后处理的方法。(3 3)采用状态持续时间分布的)采用状态持续时间分布的HMMHMM系统。系统。第十讲-语音信号处理第5章分析课件标准标准HMMHMM和采用状态持续时间分布的和采用状态持续时间分布的HMMHMM 标准HMM和采用状态持续时间分布的HMM
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!