语音信号处理第14章优秀PPT

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,14.1 概述,语音信号作为信息的最普遍最干脆的表达方式，在很多领域具有广泛的应用前景。现实生活中的语音不行避开的要受到环境的影响。,噪声分类：,按类别：可分为环境噪声等的加性噪声和残响及电器线路干扰等的乘法性噪声,按性质：平稳噪声和非平稳噪声,LomBard现象：在噪声环境下，说话者心情会发生变更，从而引起声带的变更（对语音处理系统的影响相对较小）,国内外语音信号处理探讨成果,目前国内外的探讨成果从增加思想上主要分为以下三类：,1）接受语音增加算法，提高语音识别系统前端预处理的抗噪声实力，提高输入信号的信噪比。（与后端应用无关）,2）其次类方法是找寻稳健的耐噪声的语音特征参数。如接受短时修正的相干系数（Short-Time Modified Coherence Coefficient，简称为SMC）作为语音特征参数。,3）第三类方法是基于模型参数适应化的噪声补偿算法，如针对加法性噪声的HMM合成法，和针对乘法性噪声的Stochastic Matching法等。通常只考虑到噪声环境是平稳的，在低信噪比语音以及非平稳噪声环境中的效果并不志向。,14.2语音特性、人耳感知特性及噪声特性,14.2.1语音特性,语音信号是一种非平稳的随机信号,任何语言的语音都有元音和辅音两种音素，依据发音机理的不同，辅音又可以分为清辅音和浊辅音。,语音信号，作为非平稳、非遍历随机过程的样本函数，其短时谱的统计特性在语音增加中又着举足轻重的作用。（据中心极限定理，语音的短时谱的统计特性听从高斯分布。）,14.2.2 人耳感知特性,对于声波频率凹凸的感觉与实际频率的凹凸不呈线性关系，而近似为对数关系；对频率的辨别实力受声强的影响；对语音信号的幅度谱较为敏感，对相位不敏感。,人耳掩蔽效应：产生一个声音由于另外一个声音的出现而导致该声音能被感知的阀值提高的现象。,语音增加的最终效果度量是人耳的主观感觉，所以在语音增加中可以利用人耳感知特性来削减运算代价。,14.2.3 噪声特性,噪声可分为：,平稳和非平稳噪声,加法性噪声：冲激噪声、周期噪声、宽带噪声、语音干扰,乘法性噪声：残响及传输网络的电路噪声（非加性噪声往往可以通过某种变换，犹如态滤波，转为加性噪声）,（1）冲激噪声：例如放电，打火，爆炸都会引起冲激噪声，它的时域波形是类似于冲激函数的窄脉冲。消退冲激噪声影响的方法通常有两种：对带噪语音信号的幅度求均值，将该均值做为推断阈，凡是超过该阈值的均判为冲激噪声，在时域中将其滤除；当冲激脉冲不太密集时，也可以通过某些点内插的方法避开或者平滑掉冲激点，从而能在重建语音信号去掉冲激噪声。,（2）周期噪声：最常见的有电动机，风扇之类周期运转的机械所发出的周期噪声，50Hz沟通电源哼哼声也是周期噪声。在频谱图上它们表现为离散的窄谱，通常可以接受陷波器方法予以滤除。,3）宽带噪声：说话时同时伴随着呼吸引起的噪声，随机噪声源产生的噪声，以及量化噪声等都可以视为宽带噪声，应用中常近似为Gauss噪声或白噪声。其显著特点是噪声频谱遍布于语音信号频谱之中，导致消退噪声较为困难。一般须要实行非线性处理方法。,（4）语音干扰：干扰语音信号和待传语音信号同时在一个信道中传输所造成语音干扰称为语音干扰。区分有用语音和干扰语音的基本方法是利用它们的基音差别。考虑到一般状况下两种语音的基音不同，也不成整数倍，这样可以用梳状滤波器提取基音和各次谐波，再复原出有用语音信号。,（5）传输噪声：这是传输系统的电路噪声。与背景噪声不同，它在时间域里是语音和噪声的卷积。处理这种噪声可以接受同态处理的方法，把非加性噪声变换为加性噪声来处理。,通过语音增加技术来改善语音质量的过程如图14-1所示,14.3滤波法语音增加技术,14.3.1 陷波器法,对于周期噪声接受陷波器是较为简便和有效的方法，其基本思路和要求是设计的陷波器的幅频曲线的凹处对应于周期噪声的基频和各次谐波如图14.2所示，并通过合理设计使这些基频处的陷波宽度足够窄。,简洁的数字陷波器的传递函数如下：,由可以看出的频率将被滤除掉。依据数字信号处理的基本学问可以知道，数字滤波器的极零点接近时，信号频谱变更较为缓慢，而在陷波频率处急剧衰减，故引入反馈：,当越接近1时，分母在零点旁边处由抵消作用，梳齿带宽变得越窄，通带较为平坦，陷波效果越好。其模拟框图如图14-3所示,14.3.2 自适应滤波器,1.基本型,自适应滤波器最重要的特性是能有效地在未知环境中跟踪时变的输入信号，使输出信号达到最优，因此可以用来构成自适应的噪声消退器，其基本原理框图如图14-4所示。,图中s(t)为语音信号，n(t)为未知噪声信号，y(t)带噪语音信号，r(t)为参考噪声输入，r(t)与s(t)无关,而与n(t)相关。,图14-4中将看作是r(t)估计y(t)而得到的误差，据最小均方准则，当为最小时的误差也就是降噪后的。这里接受LMS递推算法简要说明横向滤波器系数的求法。,设横向滤波器的加权向量记为，误差信号，则有：,为噪声的输入向量。设代价函数为：,对上式求导，可以得到最小均方意义下的最佳系数向量为：,下面不加证明的给出Widrow-Hoff的LMS算法加权系数递推公式：,2对称自适应去相关的改进型,实际应用中，参考输入 r(t)除包含与噪声相关的参考噪声外，还可能含有低电平的信号重量。图14-5给出了原始语音信号 s(t)通过一个传输函数为 J(t)的信道泄露到参考输入中的情景。,为了解决信号重量的泄露导致系统性能恶化的问题，D.Van Compernolle 提出了对称自适应去相关（SAD）算法，其基本原理如图14-6所示。,3 用延迟的改进型,从图14-4和图14-6中可以看出自适应滤波器须要有与n(t)相关的参考噪声r(t)输入，这在实际应用中往往比较困难，假如噪声相关性较弱时（例如白噪声），有如图14-7所示的改进型。,14.4利用相关特性的语音增加技术,14.4.1 自相关处理抗噪法语音增加技术,此方法利用语音信号本身相关，而语音与噪声、噪声与噪声可认为互不相关的性质，对带噪语音信号作自相关处理，可以得到与不带噪语音信号同样的自相关帧序列。下面说明：,设带噪语音为：,其中，为纯净语音信号，为近似白噪声的噪声信号。考虑到他们的短时平稳的特性，计算的自相关函数,式中为短时平稳所加的时间窗函数。上式第一项为纯净语音信号的自相关，其次项到第四项分别为语音与噪声、噪声与噪声的相关函数。由于语音信号与噪声、噪声与噪声可认为相互不相关。所以上式其次项到第四项的积分结果可认为是近似为零或甚小。这样就有：,即与噪声无关，只约等于纯净语音的自相关函数。所以，假如将自相关系数作为识别系统的特征，就可以达到抗噪的目的。,由于自相关处理时会产生二次谐波，因此不宜干脆用带噪语音信号y(t)的自相关系数作为识别特征，而应接受帧信号平方的自相关系数作为识别特征。即如图14-8所示。,14.4.2 利用复数帧段主重量特征的降噪方法,复数帧段特征量就是接受相继的复数帧组成的特征参数矢量作为语音识别输入特征量的方法，它是在语音识别中利用语音帧间相关信息最干脆最简便的方法。,为了在复数帧特征中进一步加强降噪措施，可利用主重量分析方法，求取复数帧段参数特征的主重量特征。方法如下：,设有N个D维样本，则依据这些抽样样本，由（14-11）和（14-14）两式求取相关矩阵R。,这里，是相关系数，是样本的方差或协方差，是样本各维变量的均值。然后求出满足式（14-13）的矩阵R的本征值和本征向量,这里，D维的本征向量又被称为主重量基向量。,14.5非线性处理法语音增加技术,14.5.1 中心削波法,对于噪声频谱遍布于语音信号频谱之中的宽带噪声，假如噪声振幅比大部分的语音信号低，则削去低振幅成分也就削去了宽带噪声。,我们在频域中接受中心限幅的方法，即让带噪语音信号通过一限幅滤波器，高幅度频谱可以通过而低幅不允许通过，实现抗噪。,14.5.2 通态滤波法,加性噪声适用线性滤波，非加性则适用同态滤波法，其降噪过程的原理框图如图14-9所示。,同台滤波器可以用于识别系统的预处理，常适用倒谱这一特征，所以求出带非加性噪声的语音信号的倒谱以后，可以利用倒谱均值规整（CMN）降噪声技术，清晰带非加性噪声的语音信号的倒谱的噪声成分，从而获得语音增加的倒谱。,利用CMN方法抑制由输入和传输电路系统引起的乘法性噪声的原理是：,设对于第t帧语音，带噪语音的倒谱是、纯净语音的倒谱是、噪声的倒谱是、除噪后增加语音的倒谱是，则有关系：,设为整个带噪语音输入语句（共N帧）的倒谱平均值，由于每一帧的噪声的倒谱相同，则有：,利用CMN法处理得到的语音增加的倒谱为：,以上的方法是传统的CMN方法，由于它用整个带噪语音输入语句（共N帧）来求倒谱平均值，所以又称为长时CMN方法。,这种方法存在两个问题，一是由于输入语句中音素的出现频率会变更的大小，干脆影响规整的效果。二是必需到终点为止计算完成以后，才能算出，影响了实时性。为此，可以仿照HMM参数的最大后验概率（MAP）学习算法，利用（MAP）算法来提高计算的精度，即：,MAP算法是渐进自适应方式，样本是逐个输入的，k随着逐个输入而增加。式中是自适应训练系数，可由试验确定。,是表示先验部分的初始估计值，可由学习数据确定。,14.6减谱法语音增加技术,14.6.1 基本原理,减谱法是处理宽带噪声较为传统和有效的方法，其基本思想是在假定加性噪声与短时平稳的语音信号相互独立的条件下，从带噪语音的功率谱中减去噪声功率谱，从而得到较为纯净的语音功率谱。,假如设为纯净语音信号，为噪声信号，为带噪语音信号，则有：,用分别表示的傅里叶变换，可得下式：,由于假定语音信号与加性噪声是相互独立的，因此有：,因此，假如用分别表示的功率谱，则有：,而由于平稳噪声的功率谱在发声前和发声期间可以认为基本没有变更，这样可以通过发声前的所谓的“安静段”（认为在这一段里没有语音只有噪声）来估计噪声的功率谱，从而有：,这样减出来的功率谱可以认为是较为纯净的语音功率谱，然后，从这个功率谱可以复原降噪后的语音时域信号。,在具体计算时，为防止出现负功率谱的状况，减谱时当,时，令，即完整的减谱公式如下：,减谱法语音增加技术的基本原理图如图14-10所示。图中处理频域过程只考虑了功率谱的变换，而最终IFFT变换中须要借助相位谱来复原降噪后的语音时域信号。依据人耳对相位不敏感之一特点，这时可用原带噪语音的相位谱来代替估计之后的语音信号的相位谱来复原降噪后的语音时域信号。,14.6.2 基本减谱法的改进,1.被减项加权值处理,如式（14-23）的基本减谱法对于整个语音段接受减去相同噪声功率谱的方法，实际处理效果不是很志向，缘由：,语音能量集中于某些频段，其幅度相对较高，尤其是共振峰处的幅度一般远大于噪声，不应用同一标准处理。,有时减谱后仍旧会有较大的残余噪声。,改进的方法是在幅度较高的时帧处减去，这样可以更好的突出语音谱，抑制纯音噪声，改善降噪性能；其次，在语音谱中保留少量的宽带噪声，在听觉上可以起到掩蔽纯音的作用。,考虑到这两个方面，改进后的减谱公式如下：,2.功率谱修正处理,将图14-10中的功率谱计算和改进为和可以得到新的更据一般性的减谱法形式。这种方法称为功率谱修正处理，它可以增加敏捷性，修正后的功率谱为：,令,代入公式（14-23）或式（14-24）即得减谱法的改进形式。适当调整式（14-24）中的a b k取值可以得到更佳的增加效果，其敏捷性也不言而喻。,3.具有输入幅值谱自适应的减谱法,传统的减谱法考虑噪声为平稳噪声，a一般取相同的值，而在非平稳噪声的实际环境下，接受相同的权值a有可能发生减除过多或过少的问题，使得有的区段要么噪声消退不够，要么减除过多产生失真。为此，应当对传统的减谱法坐如下修改。首先，对于噪声功率估计，接受如下式，在整个区域用语音以外的

展开阅读全文

语音信号处理第14章优秀PPT

最新文档