语音信号的短时分析技术

上传人:guoc****ang 文档编号:243141383 上传时间:2024-09-16 格式:PPT 页数:51 大小:1.07MB
返回 下载 相关 举报
语音信号的短时分析技术_第1页
第1页 / 共51页
语音信号的短时分析技术_第2页
第2页 / 共51页
语音信号的短时分析技术_第3页
第3页 / 共51页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,语音信号的短时分析技术,分析是处理的前提和基础;,分析的目的是提取需要的信息,获取特征表示参数;,可分为时域分析、频域分析、同态分析等;模型分析与非模型分析等;,分析技术:短时分析1030,ms,相对平稳(550,ms,20200ms),分析帧长一般为20,ms,常用的短时分析技术有:,短时能量,短时平均幅度,短时过零率,短时自相关函数,短时平均幅度差函数,短时频谱,短时功率谱,预滤波,预滤波的目的,防止混叠干扰,抑制,50Hz,的电源干扰,预滤波实际上是一个带通滤波器,其上下截止频率分别为,f,H,和,f,L,。,对于绝大多数语音编码器而言,要求,f,H,=3400Hz,f,L,=60100Hz,,,f,s,=8KHz.,对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则,f,H,=4500Hz,或,8000Hz,f,L,=60Hz,,,f,s,=10KHz,或,20KHz,帧和加窗的概念,短时分析将语音流分为一段一段来处理,每一段称为一“帧”;,帧长:1030,ms,20ms,常见;(帧率)帧移:01/2帧长,帧与帧之间的平滑过渡;,为了减小语音帧的截断效应,需要加窗处理;,矩形窗,Hamming,Hann,不同的窗口选择(形状、长度),将决定短时平均能量的性质。什么样的窗口,其短时平均能量才能更好的反映语音信号的振幅变化哪?,首先是,窗口的形状,窗口有多种形状,他们都是中心对称的,。,其次是,窗口的长度,无论什么形状的窗口,窗口序列的长度,N,将起决定性的作用。,N,选得太大,滤波器的通带变窄,波形的振幅变化细节就看不出来,反之,如果,N,太小,则滤波器的通带变宽,信号得不到足够的平均。,所谓,窗口长度的长短,都是相对于语音信号的基调周期而言的。通常认为在一个语音帧内,应含有,17,个基调周期为好。,可是人的语音的基调周期值是变化的,从女性小孩的,2ms,到老年男子的,14ms,(,即基调频率为,500Hz,至,70Hz,),,所以,N,的选择是比较困难的。通常折衷的,选择,N,为,100200,点为宜,。若采用频率为,10KHz,,,则相当于每帧的长度(即窗口序列的长度)约为,1020ms,为宜。若采样频率为,8KHz,,,200,点相当于,25ms,,,40,帧,/s,;,120,点相当于,15ms,,,66,帧,/s.,窗函数及其比较,三种窗函数都有,低通特性,,通过分析三种窗的频率响应幅度特性可以发现:,矩形窗的主瓣宽度最小,旁瓣高度最高,会导致泄漏现象,,,哈明窗的主瓣最宽,旁瓣高度最低,,可以有效的克服泄漏现象,具有更平滑的低通特性,应用更广泛。,窗口的形状和长度对分析影响很大,不同的分析方法对窗函数的要求不尽一样;,Hamming,Hann,矩形窗,语音信号的短时能量(语音信号强度的度量参数),如果窗的起点是,n=0,,短时能量为,如果窗的起点为,n=m,,短时能量为:,不同窗口宽度的短时能量函数示意图,短时平均能量的主要用途,可以从语音中区别出浊音来,,因为浊音时短时平均能量的值要比清音时短时平均能量的值大很多;,可以用来区别声母和韵母的分界、无声和有声的分界等,最为一种超音段信息,用于语音识别中。,语音信号的短时平均幅度,如果窗的起点是,n=0,,短时平均幅度为,如果窗的起点为,n=m,,短时平均幅度为:,短时过零率,波形穿过横轴(零电平)的次数,短时过零可以看作信号频率的简单度量,语音信号的短时过零率,Z,过零就是指信号通过零值。过零率就是每秒内信号值通过零值的次数。,对于离散时间序列,过零则是指序列取样值改变符号,过零率则是每个样本的改变符号的次数。对于语音信号,,则是指在一帧语音中语音信号波形穿过横轴,(,零电平)的次数,。可以用相邻两个取样改变符号的次数来计算。,如果窗的起点是,n=0,,,短时过零率,Z,为,将,Z,应用于语音信号分析中,发浊音时,声带振动,因而声门激励是以此音调频率为基频来使声道共振;尽管有若干个共振峰,但其能量的分布集中于低于,3KHz,的频率范围内。,发清音时声带不振动,声道某部分阻塞产生类白噪声激励,通过声道后其能量集中在比浊音时更高的频率范围内。,浊音时能量集中于较低频率段内,具有较低的过零率,而清音时能量集中于较高频率段内,具有较高的过零率。,浊音和清音情况下典型的平均过零率的直方图。直方图的分布形状与高斯分布很吻合,而且,浊音时的短时平均过零率的均值为,14,过零,/10ms,,,清音时短时过零率的均值为,47,过零,/10ms,。,注意到浊音和清音有一个交叠区域,此时很难分清是浊音还是清音,尽管如此,平均过零率仍可以粗略的判断清音和浊音。,短时平均能量和短时平均过零率两个参数,也都可以用于语音识别中。主要用于识别无声段和语音段的起点和终点的位置。,在背景噪声比较小的时候用平均能量来识别比较有效,在背景噪声比较大的时候用平均过零率来识别比较有效,但是通常情况是两个参数联合进行识别。,E、M、Z,的条件概率密度函数,浊音、清音、无声的短时特性,S,(无声),U,(清音),V,(浊音)三种情况下短时平均幅度的条件概率密度的示意图。可以看出,,浊音的短时平均幅度最大,无声的短时平均幅度最小。,清音的短时过零率最大,无声居中,浊音的短时,过零率最小,。,语音有声和无声,在许多语音处理技术中需要判断一段输入信号中哪些是语音段,哪些是无声段(只有背景噪声),在语音识别中正确的决定所要识别语音的起点、终点对于提高识别率往往是重要的。,对于数字移动通信的手持机编译码器,在较长的无声段应降低发射功率以节约其电池的消耗。,语音有声和无声,对于已经判定为语音段的部分,尚需决定其清音或浊音,无论对于语音识别还是低速语音编译码器这都是很重要的。这些问题可以概括为无声,/,有声判决以及更细致的,S/U/V,判决。,能够实现这些判决的依据在于不同性质的语音的各种短时参数具有不同的概率密度函数以及相邻的若干帧语音应具有一致的语音特性,它们不会在,S,、,U,、,V,之间跳来跳去。,判断语音信号的起点和终点,在独立词(字)语音识别系统中需正确判定每一个输入语音的起点和终点,利用短时平均幅度和短时过零率可以做到这一点。,首先,可根据浊语音情况下短时平均幅度,M,的概率密度函数,P(M/V),确定一个阈值参数,M,H, M,H,的值定得比较高。当一帧输入信号的,M,值超过,M,H,时,就可以十分肯定该帧语音信号不是无声,而有相当大的可能性是浊音。,判断语音信号的起点和终点,根据,M,H,可判定输入语音中的前后两个点,N,1,和,N,2, N,1,和,N,2,之间肯定是语音段,但是语音的精确起点、终点还要在,N,1,之前和,N,2,之后仔细查找。为此在设置一个低阈值参数,M,L,,由,N,1,向前找,当短时平均幅度,M,由大到小减至,M,L,时可以确定点,N,1,。,类似由,N,2,向后找,可以确定,N,2,。在,N,1,和,N,2,之间仍能肯定是语音段。,判断语音信号的起点和终点,由,N1,向前和,N2,向后继续用短时过零率,Z,进行搜索。根据无声情况下短时过零率,Z,的均值,设置一个参数,Z0,,,如果由,N1,向前搜索时,Z,始终大于,Z0,的,3,倍,则认为这些信号仍属于语音段,直至,Z,突然下降到低于,3Z0,值时,这时可以确定语音的精确起点(为了保证可靠,由,N1,向前搜索时间不超过,25ms,)。,对终点做同样的处理。采取这一算法的原因在于,,N1,以前可能是一段清辅音段(,如,f,s,),,它的能量相当弱,依靠能量不可能把他们与无声段区别开,而他们的过零率明显高于无声,因而能用这个参数来精确的判断二者的分割点,也就是语音真正的起点。,判断语音信号的起点和终点,另一种判断的方法是如果能够求出,S,、,U,、,V,三种情况下短时平均幅度,M,和短时过零率,Z,的条件联合概率密度函数,P(M,、,Z/S), P(M,、,Z/U), P(M,、,Z/V),,,那么就可以采用统计学中的最大似然算法,根据一帧信号的,M,和,Z,值,来判断它的,S/U/V,。,就是计算后验概率:,P(X/M,Z)=P(M,Z/X)P(X)/P(M,Z),其中,,X=S,或,U,或,V,。,后验概率最大者即作为判决结果。,事实上,仅依靠,M,和,Z,两个参数还是不够的,通常要选择更多的参数,如相关函数等。,短时自相关函数,1、是偶函数;,2、,s(n),是周期的,那么,R(k),也是周期的;,3、可用于基音周期估计和线性预测分析;,语音信号的短时自相关函数,假设 一段加窗语音信号,非零区间为,n=0N-1,的自相关函数称为语音信号的短时自相关函数,,可以证明,自相关函数是偶函数,且在,l=0,处取得最大值,且值为短时能量,修正的自相关函数,短时自相关函数的特点,浊音是周期信号,浊音的短时自相关函数也呈现明显的周期性,自相关函数的周期就是浊音信号的周期,。,清音接近于随机噪声,请音的短时自相关函数不具有周期性,且随着,l,的增大迅速减小,。,根据这个性质可以判断一个语音信号是清音还是浊音,还可以判断浊音的基音周期。,语音信号的短时频谱,的离散时域付里叶变换,称为语音信号的短时频谱,称为语音信号的短时功率谱,语音信号的短时频谱,窗函数,w(n),语音信号,S(n),加窗语音信号,Sw(n,),DTFT,S(exp(jw,),DTFT,W(,exp(jw,),DTFT,S,w,(,exp(jw,),计算短时频谱一般采用哈明窗,短时平均幅度差函数(,AMDF),Average Magnitude Difference FunctionRoss,等人于,1974,年提出的,短时基音周期估计,基于短时自相关函数的基音周期估计,最大峰与基音周期不一致,要求帧长大于两个基音周期;,受共振峰的干扰,可以采取滤波或中心消波预处理。,基于短时,AMDF,的基音周期估计,需进行谷值点清晰度检查、比较复杂的阈值判决;,预处理可以改善效果;,对幅度变化比较敏感。,基于短时自相关函数的基音周期估计方法,短时自相关函数在基音周期的各个整数倍点上取得最大值,只要能找到第一最大峰值点的位置并计算它与,l,=0,点的间隔,便能估计出基音周期。,实际上,第一最大峰值点的位置有时不能与基音周期相吻合。因此很多时候并不是计算,l,=0,点的距离作为基音周期。产生这种情况的原因:,与窗的选取长度有关,窗口过长或过短都会导致不一致。,通常认为窗长至少应大于两个基音周期,语音信号中最长的基音周期约为,20ms,因此在基音周期估计时窗长应选的大于,40ms,。,与声道特性的影响有,,有时窗长足够长,但是第一最大值与基音周期仍不一致,这是主要由声道的共振峰特性造成的干扰。(,1,、,60900Hz,的带通滤波器滤波,并用滤波信号的自相关函数进行基音周期的估计;,2,、对语音信号进行非线性变换后求自相关函数,一种有效的非线性变换是中心削波,削波后基音周期的峰起更尖锐,),语音信号的短时平均幅度差函数(,AMDF,),为了求基音周期,还可以采用短时平均幅度差函数,对于周期语音信号,其短时平均幅度差函数也是周期性的。在估计基音周期时,不论计算短时自相关函数还是短时平均幅度差函数,一般都采用矩形窗,基于短时平均幅度差函数的基音周期估计方法的特点,基音周期的谷点锐度比峰点的锐度要尖锐,估计的精度更高,计算短时平均幅度差函数不用乘法,计算量小,可以通过对语音信号进行谱平滑(去除共振峰的影响)和中心削波处理来改善基音周期估计的效果,短时平均幅度差函数对于语音信号的快速变化比较敏感。,对基音周期轨迹的平滑,中值滤波 平滑点附近左右各取,L,个点,将,2L+1,个点按大小排列,取队列中间值作为平滑器的输出,线性滤波 通过一个低通滤波器,组合平滑 可以将两个中值平滑串联,或者将中值平滑和线性平滑串联,基音估计的其他方法:,倒谱法(,CEP),简化的逆滤波器法(,SIFT),小波变换的方法,基于短时自相关函数的基音周期估计方法,短时自相关函数在基音周期的各个整数倍点上取得最大值,但是很多时候并不是计算,l=0,点的距离作为基音周期,与窗的选取长度有关,与声道特性的影响有关(,1,、滤波;,2,、对语音信号进行非线性变换后求自相关函数),语音信号的短时谱,语音信号的主要特征表现在它的 “短时频谱”(“短时谱”)上,短时谱的求得,短时功率谱,浊音、清音短时谱的特点,浊音短时谱的特点:,具有明显的周期性起伏结构,具有明显的凸起点,称为“共振峰”(,formant,),清音短时谱的特点:随机噪声,短时功率谱示例,功率谱与自相关函数的关系,短时谱包络需要用到线性预测的方法,同态滤波与倒谱分析,作业,给定两段信号判断其是否为语音信号;,如是语音信号判断其起点和终点的位置;,判断其为浊音信号还是清音信号;,如是浊音信号,进行基音周期的估计。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!