资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,回声的产生,在实时通信中,回声是不可避免的,,A,端发送的声音在,B,端放出后,会随着,B,的声音再传送到,A,端,形成回声。,当,A-B,间延时很小,则,A,的回声与,A,语音近似重叠,人耳无法分辨。在,PSTN,网中,对于普通的市话呼叫,就属于这种情况。如果,A-B,延时较大,则回声和语音就能被人耳所分辨,形成干扰。卫星电话和,IP,电话就属于这种情况,A,B,Echo of A,Vout,Vin,回声的分类,分为声回声,(Acoustic Echo),和线回声,(Line Echo),声回声:,Vout,播放出来,经空气传播,通过直射、反射等各种方式,形成,Vin,。声回声形成复杂,回声路径多样化,回声延时较大。,线回声:在公用电话网中,干线传输采用,4,线方式(收、发各两线),而到交换局和电话终端之间,则采用,2,线方式(收发语音合并)。在,2-4,线转换过程中,由于阻抗匹配的问题,总会有些语音直接回传到发端,形成回声。这种回声路径比较固定(就是,2-4,线转换器),回声延时也比较小。,线回声抵消技术,对于,Line Echo,,由于回声路径固定,回声延时较小,一般采用自适应滤波技术,用一个滤波器来模拟回声路径,并将滤波器输出与实际的采样语音相减,从而抵消掉回声。,2-4,2-4,Echo,Canceller,Filter,-,128,阶滤波器,可抵消,16ms,的回声。一般采用,LMS,算法估计滤波器系数。,声回声抵消技术,与,Line Echo,相比,,Acoustic Echo,的回声路径更加复杂,而且路径的时变性更大,因此,LMS,算法已无法及时跟踪。而且由于回声延时很大,如果继续采用线性滤波器,则运算量将大幅增加。,首先要选择更好的自适应滤波算法,有更快的收敛速度。其次要采用一些特殊的滤波器结构,以减小运算量。还可以采用多点语音输入输出方式,利用他们的空间相对位置进行计算。,在多媒体通信中的应用,和公用电话网相比,基于,Internet,的语音通信有巨大的延时。,编解码延时(,10-30ms,),网络延时(几十至几百,ms,),处理延时(取决于处理器,一般几,ms,),因此收发两端延时往往能达到上百,ms,,必须采用回声抵消技术。,在端对端通信中,一般采用线回声抵消,在会议通信中,一般采用声回声抵消。,语音降噪,在一些恶劣的通信环境下,往往通话中含有极大的噪声(如坦克之间的通信),对通信造成很大的影响。,噪声和语音在特性上有很大的不同。可以利用这些特征,将噪声和语音分离,再单独对语音作编码。,语音的例子,噪音的例子。,语音编辑处理软件,CoolEdit2000,噪音和语音的特征,过零率:噪音的过零率高,而语音的过零率低。,基因周期:噪声没有周期性,而语音有比较明显的周期特征。,短时能量:噪声的短时能量稳定,语音的短时能量变化较大。,增益控制,在企业的会议通信中,两个,Group,之间的会议是很典型的应用。此时一个,Group,中的每个成员,距离通信终端的距离都不同。,自动增益控制(,AGC,)通过检测输入信号的能量,并进行调整,使得发送到对端的语音信号能量基本相同,让对端有一个较好的听觉效果。,增益控制(二),增益控制的基本技术是让语音的短时能量逼近其长时能量。长时能量的更新较慢,比较稳定。短时能量变化虽然快,但对于每个音节来说,相差不大。因此由于距离调整所引起的短时能量变化,如果向长时能量逼近,则可以保持语音能量的平稳性。,对于更复杂的增益控制算法,应考虑对噪声放大所产生的问题。,语音压缩,声音的分类,语音编码的性能评价指标和国际标准,语音的特点和模型,几种基本的语音编码技术,CELP,编码模型的分析,声音的分类,语音,(Telephone Speech),,,2003400Hz,,,8KHz,采样,主要应用于数字电话,波形编码,参数编码,混合编码,宽带语音(,Wideband Speech,),,507000HZ 16KHz,采样,主要应用于会议电视,相当于调幅广播质量,音频,(Audio),,,10-20000Hz,,主要应用在娱乐与欣赏,对于重建信号的音质有很高的要求,目前采用比特率较高的波形编码技术进行压缩。,语音编码性能指标,1.,编码速率(,KBPS,、,KB/S,),信号带宽:,2003400Hz,、,507000Hz,、,1020000Hz,采样频率:,8K,、,16K,、,32K,、,44.1/48K,(,Hz,),压缩码流速率,(,kb/s,),2.,编解码延时,公用电话网,510ms,,移动蜂窝网不超过,100ms,3.,算法复杂度和可扩展性,用,MIPS,衡量,现在的,DSP,运算能力达到几百上千,MIPS,。,G729,和,G729A,,可扩展性的例子。,4.,抗误码,抗丢包的能力,5.,鲁棒性,对不同音源,不同环境下有同样的质量。系统级联后多次编码解码后语音的质量。,语音编码性能评价,1.,编码速率(,KBPS,、,KB/S,),信号带宽:,2003400Hz,、,507000Hz,、,1020000Hz,采样频率:,8K,、,16K,、,32K,、,44.1/48K,(,Hz,),压缩码流速率,(,kb/s,),2.,重建语音质量,客观评价:信噪比,主观评价:,MOS,分(,1-5,分),3.,编解码延时(,ms,),4.,算法复杂度,5.,抗误码,抗丢包的能力,多次编码解码后语音的质量,语音编码质量评价(一),可懂度评价:判断韵字测试,改进韵字测试,音质评价:,MOS,(,Mean Opinion Score),DMOS(Degradation MOS),得分,MOS,DMOS,5,优,不察觉,4,良,刚察觉,3,中,有察觉,稍觉可厌,2,差,明显察觉,勉强忍受,1,劣,不可忍受,语音编码的速率、复杂度和语音质量有着相互制约的关系。速率和复杂度都有客观的评价标准,而语音质量更多的是主观感受。,主观评价方法:可懂度评价和音质评价。可懂度反映对语音内容的识别程度,音质包括语音的自然度和讲话人的可识别性。音质高,-,可懂度高;反之不一定成立。,语音编码质量评价(二),时域测度,信噪比,(SNR),,分段信噪比。越大越好。,频域测度,对数谱距离,倒谱距离,,Mel,谱。越小越好,主观评价方法的执行受人员的很大制约,受到测试者的内在的不可重复性的影响,而且无法直接反映出系统参数的一些影响。为此需要客观标准。一般采用下图进行客观质量评价,其关键点是同步。,待测语音系统,同步,客观评价标准,评价结果,输出语音,输入语音,一些语音编码标准,名称,采样率,KHz,编码速率,Kb/s,编码制式,年代,MOS,DRT,备注,G.711,8,64,PCM,1972,4.3,95,G.726,8,1640,ADPCM,198488,4.1,94,32kb/s,G.728,8,16,LD-CELP,1992,4.1,94,G.729,(A/D/E),8,8/6.4/11.4,CS-ACELP,1995,4.1,G.723.1,8,5.3,ACELP,1995,3.8,G.723.1,8,6.3,MP-MLQ,1995,4.0,G.722,16,4864,SUB-ADPCM,1988,3.74.1,发声特点,时变性,短时不变性,发声器官:喉(激励),声道(滤波器),嘴,清音与浊音,声母与韵母,发声模型,周期脉冲,发生器,声门脉冲,模型,G(z),声道模型,V(z),辐射模型,R(z),随机噪声,发生器,X,X,基音频率,F0,声道参数,Av,Av,语音,语音编码技术的分类,有损压缩,波形编码:主要基于语音波形预测,目标是使重建语音波形保持不变。语音质量好,简单易实现,但编码速率较高。,参数编码:通过语音信号的数学模型提取语音的参数并编码,目标是使重建信号尽可能保持原信号的语意。一般我们称之为声码器。一般用于,4.8kb/s,以下的低速信道。,混合编码:结合波形编码的高质量和参数编码的低码率,被广泛采用。,波形编码,PCM,:对每个样点独立编码,利用非均匀量化,将每个样点编码为,8,比特。,DPCM,:利用相邻两个样点的相关性,对相邻样点的差值进行编码,这样减小了编码数据的动态范围,用较少的比特就可以得到同样的量化误差。,M,:类似,DPCM,,但只用一个比特对差值进行编码,因此需要较高的采样率。,以上编码方法都属于波形编码,其特点是对采样点逐点处理。,参数编码(一),由于人的发声器官的特点,发声过程可以被抽象为一定的模型。参数编码就是将实际语音信号作为模型输出,去求模型输入与模型参数,并将其作为编码结果。,语音存在周期性,为了提取该周期,需要的语音数据长度至少要大于一个周期。一般选,10ms,的倍数,最低为,10ms,。,参数编码(二),重要的语音参数:,基因频率:语音时域波形周期性信号的频率。男性一般是,60-200Hz,,女性和儿童是,200-450Hz,。,共振峰:频谱中的凸起点。与声道的谐振频率相对应。,短时过零率:单位时间内,语音信号过零点的次数。,短时能量:,短时自相关函数:,混合编码,参数编码得到的解码语音,和原始语音相比,有较多的损伤,原因是模型的参数无法控制语音的所有特性。因此,为了得到较高质量的解码语音,必须引入波形编码的一些技术。,事实上,语音的激励信号中的固定码本,就是利用大量实际语音统计得到的。,预测编码,(,一,),由于语音信号存在关联性,可利用前面的一个或多个信号对下一个信号进行预测,得到预测值,然后将实际值和预测值求差,并对差值信号进行编码传送。由于差值信号的动态范围很小,用较少的比特就可以精确的量化,从而压缩数据。,线形预测编码,(LPC,Linear Predictive Coding),采样值为,f(n),,预测值为,f(n),。,差值为,e(n)=f(n)-f(n).,线形预测器,f(n),e(n),f(n),预测编码,(,二,),调制与DPCM,调制是PCM的变形,是对实际采样信号与预测信号差值的极性进行编码。若差值大于量化阶,输出为1,否则输出0,每个样点编码为1个比特。当输入信号变化过快,就会出现斜率过载。,DPCM,用上一个样点值作为本次样点的预测值,对差值进行编码。,CELP,编码,采用分帧技术,帧长,20-30ms,。基于合成分析,(A-B-S),的搜索过程,感觉加权矢量量化和线性预测技术。,CELP,一般将每一帧语音分为,2-5,个子帧,在每个子帧内搜索最佳的码矢量。,CELP,编码模型,固定码本,自适应码本,+,线性预测,滤波器,1/A(z),感觉加权,滤波器,W(z),+,最小感觉加权误差,gs,ga,码本的获得,固定码本:经过大量语音的统计获得,自适应码本:随着输入语音的变化而变化,编解码两端同步更新。一般当前帧所用的自适应码本,是由前一帧或若干帧构成。,这种方式,对丢包很敏感。新的自适应码本生成方式,都是采用本帧的语音信息,生成本帧使用的码本,如,ilbc.,作业,1,利用C语言,完成Huffman编码与解码。要求:,1)自由选择编码的输入文件,2)提交源程序,3)计算所处理的文件中符号的熵率,以及实际的编码效率。,检查方法是使用老师这里的一个文本文件作为输入,检查输出与输入是否一致。,
展开阅读全文