资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,梅尔频率倒谱系数,梅尔频率倒谱系数,主要内容,倒谱,人的听觉感知过程及听觉特性,梅尔频率及梅尔滤波器组,梅尔频率倒谱系数,求解方法,基于,MATLAB,的,MFCC,主要内容 倒谱,倒谱,-,同态信号处理,同态信号处理,:,将非线性问题转化为线性问题的处理方法。,同态系统可分解为三个子系统,倒谱-同态信号处理,倒谱,-,同态信号处理,同态信号处理,:,将非线性问题转化为线性问题的处理方法。,同态系统可分解为三个子系统,第一个子系统,D,*,完成将卷积性信号转化为加性信号的运算,即对于信号,x(n)=x,l,(n)*x,2,(n),进行了如下运算处理:,倒谱-同态信号处理,同态信号处理的基本原理,由于,x,(n),为加性信号,所以第二个子系统可对其进行需要的线性处理得到,y,(n),。,第三个子系统是逆特征系统,D,*,-1,,它对,y,(n)=,y,1,(n)+y,2,(n),进行逆变换,使其恢复为卷积性信号,即进行了如下处理:,从而得到卷积性的恢复信号。,同态信号处理的基本原理,复倒谱和倒谱,虽然,D,*,与,D,*,-1,系统中的,x,(n),和,y,(n),信号也均是时域序列,但它们所处的离散时域显然不同于,x(n),和,y(n),所处的离散时域,所以我们把它称之为“,复倒频谱域,”。,x,(n),是,x(n),的“复倒频谱”,简称为“复倒谱”,有时也称作对数复倒谱。其英文原文为“,Complex Cepstrum”,,,Cepstrum,是一个新造的英文词,它是由,Spectrum,这个词的前四个字母倒置而构成的。,同样,序列,y,(n),也是,y(n),的复倒谱。,复倒谱和倒谱,复倒谱和倒谱,在绝大多数数字信号处理中,,X(z),,,X,(z),,,Y(z),,,Y,(z),的收敛域均包含单位圆,因而,D,*,与,D,*,-1,系统有如下形式:,D,*,=,D,*,-1,=,复倒谱和倒谱,设,:,则取其对数得,:,即复数的对数仍是复数。如果,我们只考虑,X,(e,j,),的实部,令:,显然,c(n),是序列,x(n),对数幅度谱的傅里叶逆变换。,c(n),称为“,倒频谱,”或简称为“倒谱”,有时也称“对数倒频谱”。,倒谱对应的量纲是“,Quefrency”,,它也是一个新造的英文词,是由“,Frequency”,转变而来的,因此也称为“倒频”,它的量纲是时间。,c(n),实际上就是我们要求取的语音信号倒谱特征。,设:,人的听觉感知过程,外耳:,中耳:,内耳:,声音在听觉器官中的传递过程:,耳廓,外耳道,鼓膜,耳蜗,听小骨,人的听觉感知过程外耳:声音在听觉器官中的传递过程:耳廓耳蜗听,1.,人的听觉特性之一,人的听觉对频率是有选择性的,虽然语音信号的大部分功率包含在低频分量中,但是它们对清晰度的贡献并不大,人耳听到声音的高低与,声音频率,不成线性关系,而是与该,声音频率的,对数,近似成线性正比关系,人的听觉对信号的幅度是有选择性的,.,语音信号的大部分信息都保留在其低幅值的部分,高幅值的部分作用不大,1.人的听觉特性之一人的听觉对频率是有选择性的人的听觉对信号,人耳的听觉特性之二,人类并不能有效地,分辨所有的频率分量,。,只有当两个频率分量相差一定带宽时,人类才能将其区分,否则人就会把两个音调听成一个,这称为屏蔽效应,这个带宽被称为,临界带宽,(Critical Bandwidth),,其计算公式如下:,当中心频率在,1000Hz,以下时,临界带宽基本恒定,约为,100Hz,。,当中心频率超过,1000Hz,时,随中心频率的增长,临界带宽呈,指数,增长。,人耳的听觉特性之二人类并不能有效地分辨所有的频率分量。只有当,人耳的听觉特性之三,基于以上两点考虑,我们构造,(,1,),Mel,频率尺度;,人耳感知的对数关系,(,2,),Mel,滤波器组,,屏蔽效应,来模仿人耳的感知特性。,这组滤波器需要满足:,(,1,)中心频率在,Mel,频率域内呈线性分布;,(,2,)每一个滤波器的带宽在其临界带宽之内。,人耳的听觉特性之三基于以上两点考虑,我们构造,梅尔频率,线性频率与,Mel,频率间的转换公式如下:,在,Mel,频域内,人对音调的感知度为,线性关系,。,举例来说,如果两段语音的,Mel,频率相差两倍,则人耳听起来两者的音调也相差两倍。,梅尔频率线性频率与Mel频率间的转换公式如下:在Mel频域内,线性频率与,Mel,频率间的对应关系如图:,梅尔频率,线性频率与Mel频率间的对应关系如图:梅尔频率,类似于临界频带的划分,,Mel,滤波器组将语音频率划分成一系列三角形的滤波器序列,即,Mel,滤波器组。,如下图所示,:,Mel,滤波器组,Mel,频率,线性频率,ml,ml,ml,梅尔滤波器组,类似于临界频带的划分,Mel滤波器组将语音频率划分成一系列三,在,Mel,频率轴上配置,L,个三角形滤波器,L,的值由信号的截止频率决定,.,每个三角形滤波器的,中心频率,c,(,l,),在,Mel,频率轴上等间隔分配,o,(,l,),c,(,l,),和,h,(,l,),分别是第,l,个三角形滤波器的下限,中心和上限频率,相邻三角形之间的下限,中心和上限频率的关系,:,相邻三角形滤波器之间的关系,f,c,(,l,),h,(,l,-1),o,(,l,+1),l,l,-1,l,+1,c,(,l,+1),h,(,l,),c,(,l,-1),o,(,l,+1),梅尔滤波器组,在Mel频率轴上配置L个三角形滤波器,L的值由信号的截止频,中心频率,f,(,m,),可以用下面的方法定义:,其中 、为滤波器的频率应用范围的最低频率和最高频率,N,为,DFT(,或,FFT),窗宽,为采样频率,而 为,B,的逆函数:,梅尔滤波器组的中心频率,当,m,值小时,相邻,f,(,m,),之间的间隔也小,随着,m,的增加,f,(,m,),的间隔逐渐变大,这些中心频率在线性频域是非线性划分的,但是转换到,Mel,频谱域则是均匀划分的。,中心频率f(m)可以用下面的方法定义:其中 、,Mel,频率滤波器组即为在语音的频谱范围内设置的若干个带通滤波器,M,为滤波器的个数。每个滤波器具有三角滤波特性,其中心频率为,f,(,m,),每个带通滤波器的传递函数为:,梅尔滤波器组的传递函数,Mel频率滤波器组即为在语音的频谱范围内设置的若干个带通滤波,梅尔频率倒谱系数,人的听觉系统,是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的。在语音特征的提取上,,人类听觉系统,做得非常好,它不仅能提取出语义信息,而且能提取出说话人的个人特征,这些都是,现有的语音识别系统,所望尘莫及的。如果在语音识别系统中能模拟人类听觉感知处理特点,就有可能提高语音的识别率。,梅尔频率倒谱系数,(Mel Frequency Cepstrum Coefficient,MFCC),考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的,Mel,非线性频谱中,然后转换到倒谱上。,MFCC,参数具有良好的识别性能和抗噪能力。,梅尔频率倒谱系数人的听觉系统是一个特殊的非线性系统,它响应不,MFCC,的定义,MFCC 的定义,使用的最广泛的特征之一,考虑了人耳的听觉生理特征,在语音识别中,相比于,LPC,系数、,PARCOR,系数,,MFCC,有更强的鲁棒性和可靠性,MFCC,的应用,使用的最广泛的特征之一MFCC的应用,MFCC,的计算方法,FFT,LPC,变换法,MFCC的计算方法FFT,求,MFCC,流程,输入语音,预加重、分帧和加窗,FFT(Fast Fourier transform),取绝对值或平方值,Mel,滤波,取对数,DCT(Discrete cosine transform),输出特征向量,动态特征,(Delta MFCC),求MFCC流程输入语音预加重、分帧和加窗FFT(Fast,原始语音信号经过预加重、分帧和加窗处理后,需要将时域信号变换到频域。,常用的变换方法为,“,傅立叶变换,(DFT)”,或者其快速算法“快速傅里叶变换,(FFT)”,在实际应用中,常常通过,FFT,(蝶形算法)进行时域到频域的变换,求,MFCC-FFT,原始语音信号经过预加重、分帧和加窗处理后,需要将时域信号变换,将上述线性频谱利用前面提到的,Mel,滤波器组进行,Mel,滤波,Mel,滤波器组,则有线性频谱到对数频谱的中传递函数为:,Mel,滤波,求,MFCC,将上述线性频谱利用前面提到的Mel滤波器组进行Mel滤波Me,取对数,同态变换,(,同态滤波,),:,实现将卷积关系和乘积关系变换为求和关系的分离处理,将非线性信号处理变为线性信号处理的过程。,语音信号,x,(,n,),可视为声门激励信息,u,(,n,),及声道脉冲响应,h,(,n,),的卷积:,x,(,n,)=,u,(,n,)*,h,(,n,),。某些信道(录音设备)也可视为与语音信号作卷积运算。有必要将语音信号的声门激励信息、声道响应信息、信道信息,由卷积关系变为线性关系,,从而利用其它方法提取出基音周期、声道特性和信道特性。,对卷积信号,作如下变换:,取对数,求,MFCC,取对数同态变换(同态滤波):实现将卷积关系和乘积关系变换为,取对数:对三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。,倒谱,(cepstrum),:一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。,倒谱的计算过程:,DFT,ln|,逆,DFT,时域信号,信号频谱,对数谱,倒谱,取对数,求,MFCC,取对数:对三角窗滤波器组的输出求取对数,可以得到近似于同态,由于各个滤波器组输出的幅度或能量之间具有很强的相关性,因此,有必要,去除各维信号之间的相关性,并将信号映射到低维空间。(如,HMM,中,假设各维特征独立,以使用对角协方差矩阵,从而减小计算量),在,MFCC,中,对滤波器组的输出使用了离散余弦变换(,DCT,)来去除相关性并获得倒谱系数,c,(,n,),:,当,n,=0,时,,c,(0),为第,0,阶,MFCC,,反应频谱能量,DCT(Discrete cosine transform),求,MFCC,由于各个滤波器组输出的幅度或能量之间具有很强的相关性,因此有,LPC,转换法,参数转换公式,求,MFCC,Generally,a cepstral representation with Qp coefficients is used,where Q=(3/2)p,LPC转换法参数转换公式求MFCCGenerally,a,MFCC weighting,The sensitivity of the low-order cepstral coefficients to overall spectral slope,The sensitivity of the high-order cepstral coefficients to noise(and other forms of noiselike variability).,It has become a standard technique to weight the cepstral coefficients by a tapered window so as to minimize these sensitivities.,MFCC weightingThe sensitivity,MFCC,特征参数主要反映语音的,静态特征,(每一帧的特征)。,语音是连续变化的,每一个语音帧不是孤立的。,The portion of the utterance where spectral variation was locally maximum contained the most important phonetic i
展开阅读全文