语音信号处理第八章.ppt

资源描述

,8.1概述,1,8.2语音编码的分类及特性,8.3语音编码性能的评价指标,3,8.4语音信号波形编码,4,8.5语音信号参数编码,5,2,第8章语音编码,6,8.7语音信号宽带变速率编码,7,8.6语音信号混合编码,8.1概述,语音数字通信的优越性主要体现在：更好的话音质量；更强的抗干扰性，易于进行加密；节省带宽，更有效地利用网络资源；更易于存储和处理。最简单的数字化方法是直接对语音信号进行模/数转换，只要满足一定的采样率和量化要求，就能够得到高质量的数字语音。但这时语音的数据量仍旧非常大，因此在进行传输和存储之前，往往要对其进行进行压缩编码，以减少其传输码率或存储量。,传输码率也称为数码率或编码速率，表示传输每秒钟语音信号所需的比特数。语音编码的目的：在保证语音音质和可懂度的条件下，采用尽可能少的比特数来表示语音。通常所说的“话音编码”，是特指通信传输系统中代表口语发声的300Hz3400Hz的信号。本章以前面学习过的语音信号处理技术和方法为基础，介绍语音编码基本原理和常用的编码方法。,8.2语音编码的分类及特性,按编码方式语音编码分为三种：波形编码参数编码混合编码,波形编码是将时间域或变换域信号直接变换为数字信号，力求使重建语音波形保持原始语音信号的波形形状。要求重建语音信号的各个样本尽可能地接近原始语音信号s(n)的样本值，因此在波形编码中，信噪比总是一个有用的性能评定标准。,8.2.1波形编码,波形编码优点：适应能力强，算法简单，易于实现，语音质量好。波形编码缺点：编码速率高，一般在16kbit/s64kbit/s之间。传统的波形编码方法分类：脉冲编码调制(PCM)自适应增量调制(ADM)自适应差分脉冲编码调制(ADPCM),脉冲编码调制PCM编码速率:64kbit/s自适应增量调制ADM编码速率:32kbit/s-16kbit/s自适应差分脉冲编码调制ADPCM编码速率:32kbit/s,8.2.2参数编码参数编码又称声码器编码，是将信源信号在频域或其它变换域提取特征参数，然后对这些特征参数进行编码和传输，在译码端再将接收到的数字信号译成特征参数，根据这些特征参数重建语音信号。这种编码方法重建语音信号与原始语音信号样本之间没有一一对应关系。合成语音的音质好坏需要借助于主观评定，缺少客观的评定标准。,参数编码优点:编码速率低，且这类编码器对讲话环境噪声较敏感，需要安静环境才能给出较高的可懂度。参数编码器有：共振峰声码器线性预测声码器余弦声码器。,8.2.3混合编码二十世纪80年代产生混合编码。优点：保留参数编码技术精华，并引用波形编码准则去优化激励源信号，克服了原有波形和参数编码的弱点，而吸取了它们各自的长处。缺点：算法复杂、运算量很大。编码速率：4kbit/s16kbit/s包括：多脉冲激励线性预测编码(MPELP)码本激励线性预测编码(CELP),8.2.4语音压缩编码的依据,语音编码的目的：在给定的编码速率下，使编解码后恢复出的重构语音的质量尽可能高。提高语音编码效率的基本途径：充分利用语音信号冗余度和人耳的听觉特性。语音的冗余度主要来源于两个方面：语音信号幅度分布的非均匀性；语音样点之间的相关性。,语音信号幅度统计特性：具有动态的、时变的、多维的暂态概率密度分布的随机过程。统计时间长度不同，它表现的概率密度分布形式不同。一般长时(几十秒以上)统计幅度特性接近于gamma分布，短时(几到几十毫秒)统计幅度特性接近于高斯分布。但无论哪种统计特性，语音信号总是小幅度出现概率大，大幅度出现概率小。,语音信号具有冗余度的另一原因：语音样点之间存在相关性。利用语音信号的相关性，在时域上采用短时和长时预测，在频域上采用谱平整方法，可以达到压缩编码比特率的目的。,语音压缩编码的第二个途径是利用人耳的听觉特性。人类听觉有一个特点：“听觉掩蔽效应”，是指一个强音能抑制一个同时存在的弱音的听觉。听觉掩蔽效应在语音压缩编码中有非常重要的作用。,8.3语音编码性能的评价指标评价一个语音编码算法性能的基本指标包括：编码速率、语音质量评价、编解码延时以及算法复杂度。这四个因素之间有着密切的联系，在具体评价一种语音编码算法的优劣时，需要根据具体的实际情况，综合考虑四个因素进行性能评价。,8.3.1编码速率,编码速率直接反映了语音编码对语音信息的压缩程度。度量方法有：“比特/秒”(bit/s)：代表编码的总速率，一般用I表示；“比特/样点”(bit/p)：代表平均每个语音样点编码时所用的比特数，用R表示。平均每样点比特数R越高，语音质量越容易提高，对传输带宽或存储容量要求也就越高。,降低编码速率是语音编码的首要目标，根据编码速率和输入语音的关系可将编码器分成两类：固定速率编码器和可变速率编码器。现在大部分编码标准都是固定速率编码，其范围为0.8kbit/s64kbit/s。其中：保密电话的编码速率为：0.8kbit/s4.8kbit/s数字蜂窝移动电话和卫星电话编码器编码速率为：3kbit/s13kbit/s蜂窝系统总的编码速率达到：20kbit/s30kbit/s普通电话网的编码速率为：16kbit/s64kbit/s宽带编码器编码速率为：48/56/64kbit/s,可变速率编码是近年来出现的新技术。根据统计，两方通话大约只有40%的时间是真正有声音的，因此一个自然的想法是采用通、断状态编码。通状态对应有声期，采用固定编码速率；断状态对应无声期，传送极低速率信息（如背景噪声特征等），甚至不传送任何信息。更复杂的多状态编码还可以根据网络负荷、剩余存储容量等外部因素调节其码率。,可变速率编码主要包括两个算法：一是话音激活检测(VAD)，主要用于确定输入信号是语音还是背景噪声；二是舒适噪声的生成(CNG)，主要用于接收端重建背景噪声。除以上两种算法外，可变速率编码还包括以下两个关键技术：速率判决技术(RDA,RateDecisionAlgorithm)以及差错隐藏。,8.3.2编码质量,编码质量评价是语音编码性能的最根本指标，分为两类：主观评价方法和客观评价方法。1语音质量主观评价方法方法实现：在一组测试者对原始语音和合成语音进行对比试听的基础上，根据某种事先约定的尺度来对语音质量划分等级。常用的方法包括：平均意见得分MOS：MeanOpinionScore判断韵字测试DRT：DiagnosticRhymeTest判断满意度测量DAM：DiagnosticAcceptabilityMeasure,主观评价方法符合人听话时对语音质量的感觉，目前得到了广泛应用。常用方法是平均意见得分(MeanOpinionScore，简称MOS得分)等。MOS得分为五级评分标准，如表8.1所示，多人收听完测试语音后打分，求出平均值，为MOS分。主观评价方法一般都是由较大的通信组织来完成，个人很少采用。,表8.1MOS分五级标准及对应语音质量,2语音质量客观评价方法,该方法建立在原始语音和合成语音的数学对比之上，分为时域客观评价和频域客观评价两类。时域客观评价方法有信噪比、加权信噪比、平均分段信噪比等。频域客观评价方法有巴克谱失真测度BSD和MEL谱测度等。特点：计算简单、结果客观、不受个人主观因素的影响。缺陷：不能完全反映人类对语音的听觉效果。,分段SNR(SNRseg)评价法：是把每隔(10ms30ms)短时间所测定的SNR的dB值在长时间声音区间取平均而得到的值来表示的方法，能够反映出量化器对不同电平输入段的量化质量，具有与主观值对应比较好的特征。SNR是经常采用的一种客观评价方法。,设为第m段的输入语音信号，为第m段的合成语音信号，每段中有M个语音样点，则第m段的语音分段信噪比定义为：(dB)如果输入语音共有N段，平均分段信噪比为：,(dB),3PESQ语音质量评价法,2001年2月，感知语音质量评价PESQ方法被ITU-T确定为P.862建议，成为了窄带电话网络和语音编解码器端到端语音质量的客观评价方法。P.862建议提供了(-0.5，4.5)内的原始输出评分PESQ值，同时又给出一个“映射函数”将P.862的输出结果转换成一个MOS-LQO评分，以便于将P.862的结果和MOS的结果进行线性比较。,8.3.3编解码延时,编解码延时一般用单次编解码所需时间表示。公用电话网编解码延时通常要求:不超过510ms移动蜂窝通信系统允许最大延时:不超过100ms,8.3.4算法复杂度算法复杂度主要影响到语音编解码器的硬件实现，它决定了硬件实现的复杂程度、体积、功耗及成本等。对一些复杂的语音编码算法，一般编码算法的复杂程度与话音质量有密切关系。在同样速率的情况下，复杂一些的算法将会获得更好一些的话音质量。算法的复杂程度与硬件实时实现也有密切关系。,算法复杂度运算能力衡量方法：每秒钟信号样本所需的数字信号处理器(DSP)指令条数、单位“百万次操作/秒”MOPS或“百万条指令/秒”MIPS等来对算法复杂度进行描述。存储器容量衡量方法：通常用千字kwords或千字节kb的数量来衡量。算法越复杂则运算量越大，需要一片或多片DSP芯片以及较大容量的存储区方可实现。,8.4语音信号波形编码8.4.1脉冲编码调制PCM(PulseCodeModulationPCM)PCM是最简单的波形编码方法，它把语音信号样本幅值量化到N=2B个码字中的一个，这样每个样本需用B比特来表示。假定信号带宽是WHz，根据取样定理，总的比特率（每秒钟比特数）将是2WB比特/秒。,1均匀量化PCM均匀量化PCM：输入信号x(n)幅值的范围被分成N个相同宽度的区间，所有落入同一区间的样本都编码成相同的二进制码字。只要N足够大，可以合理地假定，量化误差e(n)在各个宽度为的区间里是均匀分布的。,量化误差e(n)在各个宽度为的区间里均匀分布，信号对量化噪声的功率比（简称信噪比）可近似地写成：用分贝表示时，有,式中，和是输入信号和量化噪声的方差或平均能量，是输入信号的峰值，B是量化的比特数。,那么有：,和这表明，量化器每增加一个比特，信号量化噪声比增加6dB。量化比特数B的选择要考虑到输入信号已有的信噪比。当要求60dB的SNR时，B至少应取11。此时，对于带宽为4kHz的电话语音信号，若采样率为8kHz，则PCM要求的速率为88kbit/s。这样的比特率是比较高的。,均匀量化PCM在下列两个假设条件下效果是很好的：(1)输入信号幅度变化范围是已知的；(2)信号幅度值在已知的范围内是均匀分布的。,2对数PCM非均匀量化：即让量化间隔大小不相等。对小的输入信号值量化间隔较小，对大的信号值量化间隔较大。这样，可以对任何输入信号电平保持近似相同的信噪比。常用的-律或A-律量化器就是非均匀量化器。非均匀量化可以等效于把信号幅度非线性地压缩后再进行线性量化，对数压缩是比较理想的。-律压缩就是最常用的一种。,-律压缩的定义是：式中是信号的最大幅值，是参变量，控制压缩程度，=0表示没有压缩，值愈大压缩越厉害，故称之为-律压缩。,在-律量化情况下，可推导出其信号量化噪声比公式为：,与-律量化具有相同效果的还有A-律量化，A-律压缩特性可表示成：,A-律压缩的动态范围略小些，在小信号时质量要较-律差些，A-律最小量化间隔是2/4096，而-律是2/8159，事实上这二者的差别是不易觉察到的。无论是A-律或-律，其特性在x值小时都是线性的，在x值大时则呈现对数压缩特性。采用A-律或-律量化的脉冲编码调制系统统称为对数PCM系统，是目前最为成熟的一种语音压缩编码方法。,3自适应量化PCM自适应量化是指量化器的特性自适应于输入信号的幅度的变化，即(a)量化间隔可变：一个自适应量化器的量化间隔应自适应地改变，并与输入信号的幅度方差保持相匹配。(b)增益可变:在一个固定的量化器前，加一个自适应的增益控制，使进入量化器的输入信号方差保持为固定的常数。采用自适应量化器的PCM就称为“自适应脉冲编码调制”(APCM)。,这两种方法，都需要随时估计输入信号的时变幅值，以修正量化间隔(n)或增益G(n)的值。如果传输信道没有引入误码，那么有根据和G(n)的估计方法不同，自适应方案又可分为“前馈自适应”和“反馈自适应”两种.,(1)前馈自适应前馈自适应是指信号的能量或方差是由输入信号本身估算出来的，一般是先估算出信号的方差后，令两种系统输出为：即正比于，G(n)反比于，它们除了在发送端使用外，还作为边信息，随同语音样本码值一起传送到接收端去。,通常认为，时变方差正比于语音信号的短时能量，而我们知道，短时能量可定义为经低通滤波器后的输出，因此有：式中h(n)为低通滤波器的单位冲激响应,，可由采用的窗函数求出。,则显然，也满足差分方程：为保证稳定性，要求，参数的取值影响的变化速度。,例如，设窗函数为：,(2)反馈自适应反馈系统如图8.3所示，其特点是输入信号的方差是由量化器输出估算出来的，如同前馈系统一样，量化间隔(n)和增益G(n)也按式(8.15)那样比例于方差变化。,反馈自适应优点：(n)或G(n)无需保存或传送，因为编码端可以如同解码端那样直接从码序列中估算出来。由于不涉及数码率增加的问题，反馈自适应中的(n)或G(n)总是逐点自适应修正，以求得较好的自适应效果。反馈自适应缺点：对码序列中由于传输产生的误差比较敏感，因为误码还将影响到(n)或G(n)的自适应，并且这一影响会不断地传播下去。,前馈自适应和反馈自适应的比较,8.4.2自适应预测编码(AdaptivePredictiveCodingAPC)1.基本的自适应预测编码系统一、定义：我们在讨论语音信号的线性预测分析原理时，假定一个语音样本可以近似地被它过去的p个样本的线性组合所预测，预测样本值：式中，(1ip)称为预测系数，p是预测阶数。,令e(n)表示实际值与预测值之间的误差：e(n)即线性预测误差，也被称作线性预测残差。对上式两边取变换后有,如果对残差序列e(n)作量化和编码，在同样信号量化噪声比条件下，所需的量化比特数就可以减少，从而达到压缩编码的目的。基于这一原理的方法称作预测编码，当预测系数是自适应地随语音信号变化时，又称自适应预测编码。,（8.20）,二、自适应预测编码系统如何提高信噪比,从图8.4可以看到，不考虑传输信道的误码，系统解码后输出为：,式中q(n)是残差信号e(n)的量化误差：注意重构的信号在编码端和解码端都可以得到。,、和分别是信号、残差和量化噪声的平均能量，是量化器的信噪比，是自适应预测增益。图8.5给出了固定预测和自适应预测两种情况下预测增益和预测阶数p的关系。,根据信号量化噪声比的定义有：,由图可见，阶数p4时，固定预测有10dB的增益，自适应预测有约14dB的增益。,三、自适应预测编码的三个特性：(1)对同样比特数的量化器，APC信噪比总是大于非预测编码，即总是大于1。(2)增益是随时间变化的，因为它事实上是信号频谱的函数，谱的动态范围越大，信号样本之间相关性就越强，预测增益就越高。因此我们又把这种预测器称为基于频谱包络的预测。(3)量化噪声近似于白噪声，所以输出噪声的谱是平坦的。,2前馈与反馈自适应预测自适应预测器也可分成前馈自适应和反馈自适应。前馈自适应预测器计算预测系数是通过误差最小来求得。ai是按帧时变的，即按1030ms为一帧来决定求和的样本点数N和系数。预测器系数必须作为边信息传输到接收端。,对反馈自适应，预测器系数是从序列出发，使误差最小求得。从图8.4看到，在发送端与接收端都是可以得到，因此除了传送，无需任何附加的边信息传给接收端。,前馈和反馈自适应预测方法的简单比较,（1）前馈自适应预测的效果，一般讲略优于反馈自适应预测；但前馈预测的问题是必须传送预测系数到接收端。（2）传输误码对反馈自适应预测编码的影响较大。（3）反馈自适应预测算法求得的预测器系数，不能保证它们形成的合成滤波器一定是稳定的，同时要考虑算法的收敛性、有限字长的影响等等，这使得反馈自适应算法比较复杂。,8.4.3自适应差分脉冲编码调制由APC派生出来的编码方法，常用的有差分脉冲编码调制，增量调制和自适应增量调制等。1.差分脉冲编码调制DPCM(DifferencePCM,DPCM)是APC的一种特殊情况，它的预测器具有简单的形式：,式中，a1是一个固定的常数，可以根据信号频谱的长期平均估算最优A(z)而得到。在DPCM中，被量化和编码的是,即传送的是相邻样本的差值，所以又称之为“差分脉冲编码调制”。采用自适应量化及高阶自适应预测的DPCM，又称之为ADPCM，它本质上也是自适应预测编码，即属于一种APC系统。,2.增量调制(DeltaModulation,DM)一、增量调制特点增量调制基本上是一种DPCM方法，它与一般DPCM的主要区别有二点：一：增量调制中波形的取样率大大高于由取样定理确定的奈奎斯特取样速率；二：差值信号使用二电平，亦即用1比特的量化器。,斜率过载,颗粒噪声,二、增量调制误差（1）斜率过载失真和克服均匀量化时，的始终保持恒定，因而x(n)的量化值构成的增加和减小都将是线性的。这样，在译码器中，所恢复的阶梯波的上升或下降有可能跟不上信号的变化，因而产生滞后，这就造成了失真，称为“斜率过载”失真，如图8.6的AB段。,斜率过载期间的码字将是一连串的0或一连串的1。为了避免这种失真，要求阶梯波的上升和下降的斜率等于或大于语音信号的最大变化斜率，即式中xa(t)是原始模拟语音信号，T是其取样时间间隔。,（2）颗粒噪声当语音信号不发生变化或变化很缓慢时，预测误差信号将等于零或具有很小的绝对值。这种情况下预测误差信号被量化为和-的概率是相等的，因此，经量化后成为幅度为2的等幅振荡，编码为0和1交替出现的序列。在译码器中所得到的将是峰-峰值等于的等幅脉冲序列。这便形成一种噪声，称为“颗粒噪声”，如图8.6的CD段所示。,从上式看出，为减小斜率过载失真，要求选取较大的值；而为减小颗粒噪声，却应当将值取得小些。这是相互矛盾的。因此，通常需要对这两方面的要求折中加以考虑。,3.自适应增量调制(AdaptiveDM，ADM)ADM的基本思想是：使增量自适应语音信号的平均斜率变化，当信号波形平均斜率变大时，自动增大、反之则减小；从而缓解DM中由于固定引起的矛盾。ADM一般采用反馈自适应方式，即增量由量化后的代码来控制：例如：,其中(n)满足,这里，,是预先确定的增量的上下限，乘数M是当前码字c(n)和前一个码字c(n-1)的函数，一般选择若若另一种自适应增量调制是“连续可变斜率增量调制”(ContinuouslyVariableSlopeDeltaModulation，CVSD)，它的自适应规则是：,4.自适应差分脉冲编码调制(ADPCM)ITU-T于1984年提出了G.72132kb/sADPCM编码标准，并于1986年根据两年间运行中出现的问题做了进一步修正。一、ADPCM特点ADPCM将脉冲编码调制、差值调制和自适应技术三者结合起来，进一步利用语音信号样点间的相关性，并使用了自适应预测和自适应量化，在32kb/s速率上能够给出网络等级语音质量。,二、原理G.721算法编码器中嵌入一个解码器，使得编码器自适应修正完全取决于信号的反馈值。这个反馈值与解码器的输出是一致的，所以后继的差值采样就补偿了量化误差，从而避免了量化误差的积累。,下面介绍G.721算法：(1)求采样值与其估值之差（8.33）(2)自适应量化d(k)并编码输出（8.34）其中:I(k)还含有一位符号。y(k)是量化阶矩自适应因子。表8.2给出I(k)的编码值,y(k)是量化阶矩自适应因子，它由调整短时能量变化较快的语音信号的yu(k)和调整数据类慢变信号的两部分，经速度调整因子al(k)加权平均而成：对快变信号，al(k)趋于1，而对慢变信号al(k)趋于0。,(3)阶矩自适应因子yu(k)称快速非锁定标度因子,yl(k)称为锁定标度因子(4)速度控制al(k)是速度控制因子(5)自适应逆量化器输出,(6)自适应预测预测器采用6阶零点，二阶极点的模型。预测信号为：重建信号为：,(7)单频和瞬变调整当ADPCM编码器遇到频移键控信号（FSK）或其它窄带瞬变信号时，需要将系统从慢速自适应状态强制性地调整到快速自适应状态。为此，引入单频信号判定条件td和窄带信号瞬变判据tr。,5.G.721ADPCM语音编码标准的MATLAB实现为了便于理解G.721的MATLAB程序，特对各模块程序功能介绍如下：d.m主函数程序文件，完成赋初值、信号输入及调用语音编解码函数，在MATLAB中加载G.721MATLAB程序文件后，在命令窗口中输入d并回车，即可完成G.721语音编解码算法。MATLAB程序见教材。,8.5语音信号参数编码基于参数编码理论的编码器由于其数码率比较低，通常称为声码器。根据语音信号的共振峰模型提出了共振峰声码器，该声码器通过对语音信号整体进行分析，提取共振峰的位置、幅度、带宽等参数，构成浊音和清音两个声道滤波器。浊音滤波器采用全极点滤波器，由多个二阶滤波器级联而成；清音滤波器一般采用一个极点和一个零点的数字滤波器。这些滤波器的参数都是时变的。,8.5.1LPC声码器原理在声码器中最具有代表性的是线性预测(LPC)声码器及其改进型。LPC声码器是低速率语音编码器，可以得到很低的比特率(2.4kbit/s以下)；基于全极点声道模型的假定，采用线性预测分析合成原理，对模型参数和激励参数进行编码传输。LPC声码器遵循二元激励假设，声码器只需对LPC参数、基音周期、增益和清浊音信息进行编码。,LPC声码器工作原理如下图所示,图8.8LPC声码器原理图,虽然LPC声码器与ADPCM一样，都是基于线性预测分析来实现对语音信号的编码压缩，但是它们之间有着本质的区别，LPC声码器不考虑重建信号波形是否与原来信号的波形相同，而努力使重建信号具有尽可能高的可懂度和清晰度，所以不必量化和传输预测残差，只需传输LPC参数和重构激励信号的基音周期和清浊音信息。,LPC声码器的缺点（1）损失了语音自然度。主要是由于过分简单的二元激励模型，不能完全代表丰富的语音信息。（2）降低了方案的鲁棒性。二元的清浊音判决及语音谱中共振峰的作用使清浊音判决及基音提取方案变得很不准确并易受噪声的影响。（3）在LPC中，谱包络中的共振峰位置及带宽估计有时会产生很大的失真。,8.5.2LPC-10编码器,LPC声码器在通信领域，尤其是军事通信领域得到了广泛的应用，利用LPC声码器可以合成清晰、可懂的语音，但是抗噪声能力和自然度比较差。自1986年以来，美国第三代保密电话装置采用了速率为2.4kbit/s的LPC-10e（LPC-10的增强型）作为语音处理手段。,图8.9LPC-10的编码器框图,1.编码器,(1)编码器基本原理原始语音以8kHz采样率12bit量化得到数字化语音，然后每180个采样点(22.5ms)为一帧，以帧为处理单元。编码器分两个支路同时进行，其中一个支路用于提取基音周期T和清浊音U/V判决信息；另一支路用于提取声道滤波器参数RC和增益因子RMS。,(2)计算声道滤波器参数利用协方差法对LPC分析滤波器计算l0阶LPC分析预测系数，并转换成反射系数RC，或者部分相关系数PARCOR来代替预测系数进行量化编码。理论上RC参数和PARCOR参数互为相反数，,(3)增益因子RMS的计算用如下公式计算RMS：式中x(i)是经过预加重的数字语音；N是分析帧的长度。,(4)基音周期提取和清/浊音检测输入数字语音经低通滤波器滤波，再经过二阶逆滤波(逆滤波器的系数为前面LPC分析得到的短时谱参数)。把取样频率降低至原来的1/4，再计算延迟时间为20256个样点的平均幅度差函数AMDF，由AMDF的最小值确定基音周期。计算AMDF的公式为,(5)参数编码与解码在传输数据流中，将10个反射系数、增益因子(RMS)、基音周期T、清/浊音U/V、同步信号Sync编码成每帧54bit。由于传输速率为44.4帧/s，因此，码率为2.4kbit/s。同步信号采用相邻帧1、0码交替的模式。表8.5是浊音帧和清音帧的比特数分配。,表8.5LPC-10的比特数分配(bit),2解码器,图8.10LPC-10解码器框图,接收到的语音信号经串/并变换及同步后，利用查表法对数码流进行检错、纠错。纠错译码后的数据经参数解码得到基音周期、清/浊音标志、增益以及反射系数的数值，解码结果延时一帧输出。输出数据在过去的一帧、当前帧和将来的一帧共3帧内进行平滑。由于每帧语音只传输一组参数，但一帧之内可能有不止一个基音周期，因此要对接收数值进行由帧块到基音块的转换和插值。,(1)参数插值原则对数面积比参数值每帧插值两次；RMS参数值在对数域进行基音同步插值；基音参数值用基音同步的线性插值；在浊音向清音过渡时对数面积比不插值。每个基音周期更新一次预测系数、增益、基音周期、清/浊音等参数，这个过程在帧块到基音块的转换和插值中完成。,(2)激励源清音帧用随机数作为激励源；浊音帧用周期性冲激序列通过一个全通滤波器来生成激励源，改善了合成语音的尖峰性质。语音合成滤波器输入激励的幅度保持恒定不变，输出幅度受RMS参数加权。一组有41个样点的浊音激励信号：e(n)=0,0,0,0,0,0,0,0,5,-8,13,-24,43,-83,147,-252,359,-364,92,336,-306,-336,92,364,359,252,147,81,43,24,13,8,5,0,0,0,0,0,0,0,0,(3)语音合成用Levinson递推算法将反射参数，变换成预测系数。接收端合成器应用直接型递归滤波器合成语音。对其输出进行幅度校正、去加重，并变换为模拟信号，最后经3600Hz的低通滤波器后输出模拟语音。,3LPC-10编解码器的缺点及改进,LPC-10优点：编码速率低；缺点：合成语音听起来很不自然，即使提高编码速率也无济于事。,增强型LPC-10e采用如下一些措施来改善语音质量:(1)改善激励源：采用混合激励代替简单的二元激励。效果：使二元激励合成引起的金属声、重击声、音调噪声等得到改善。：采用激励脉冲加抖动的方式。：采用单脉冲与码本相结合的激励模式。(2)改进基音提取方法。(3)选择LSP作为声道滤波器的量化参数。,8.6语音信号混合编码,混合编码是在保留参数编码的技术精华的基础上，引用波形编码准则去优化激励源信号，克服原有波形编码和参数编码的弱点，在4kbit/s16kbit/s的速率上能够合成高质量语音。混合编码主要技术：合成分析技术和感觉加权滤波器，目标是改进激励模型，合成高质语音。,8.6.1合成分析技术和感觉加权滤波器,合成分析法的改进主要是对激励的改进，它通过寻找给定合成滤波器的最优激励，使其通过合成滤波器时产生的合成语音最接近于原始语音。其最佳量化模型的选择要延迟至少几个样点才被决定。因为这种决定依赖于原始语音和合成语音的残差信号，分析过程即包含有合成过程，所以称为“合成分析预测编码”。,感觉加权滤波器,感觉加权滤波器的依据是利用人耳听觉的掩蔽效应，在语音频谱中能量较高的频段即共振峰处的噪声相对于能量较低频段的噪声而言不易被感知。因此在语音能量较高的频段，允许二者的误差大一些，反之则小一些。为此可以引入一频域感觉加权滤波器来计算二者的误差如下：,其中：fs是抽样率，S(f)、分别是原始语音与合成语音的傅里叶变换。只要在能量最大的的语音频段内使W(f)较小，而能量较小的频段内W(f)较大，就能抬高前者的误差能量而降低后者的误差能量。,感觉加权滤波器的作用：使实际误差信号的谱不再平坦，而是有着与语音信号谱相似的包络形状。,8.6.2激励模型的改进,过于简单的二元激励模型是制约LPC编码器声音质量的主要因素。为此，出现了如下一些激励改进模型:1.多脉冲激励线性预测编码(MPE-LPC)算法。1982年，BishnuS.Atal和JoelR.Remde首先提出。算法原理：每20ms语音帧里，传送1620个激励脉冲的位置和幅度信息，能够在9.616kbit/s速率上，获得相当于6位PCM编码的质量。2.规则脉冲激励线性预测编码(RPE-LPC)算法。1985年，Ed.F.Deprettere和PerterKroon提出。,3.长时预测规则脉冲激励(LTP-RPE-LPC)算法。1986年，K.HellwigR.Hojmann和P.Wary.J.sluyter等人在规则脉冲激励线性预测编码(RPE-LPC)算法加入了长时预测LTP，并使速率降为13kbit/s。算法特点：简单，语音质量达到了通信等级。在1988年被确定为泛欧标准全速语音编码方案，称为GSM标准。4.CELP算法。1985年，ManfredR.Schroeder和BishnuS.Atal提出用矢量量化码本作为激励源的线性预测编码技术。算法特点：高质量的合成语音，优良的抗噪声和多次转接性能，在4.816kbit/s速率上得到广泛的应用。,CELP码激励典型算法在实际中的应用及改进：（1）1988年，美国政府采用由美国国防部与AT&T贝尔实验室共同研制的4.8kbit/sCELP声码器(FED-STD-1016)作为语音编码器标准；（2）1989年，8kbit/s速率的北美数字移动通信全速率编译码器标准采用了修改的CELP技术矢量和激励线性预测编码VSELP；（3）1991年，ITU通过了短延时码激励线性预测编码LD-CELP作为16kbit/s语音编码器的G.728标准。（4）1996年，ITU通过了共轭结构代数码激励线性预测编码器CS-ACELP作为8kbit/s语音编码器G.729标准。,8.6.3G.728语音编码标准简介,编码原理：将速率为64kbit/s的输入信号转换成PCM信号，由5个连续语音样点组成一个5维语音矢量。激励码书中共有1024个5维的码矢量。对每个输入矢量，利用合成分析方法从码书中搜索出最佳码矢量，然后将10bit的码矢标号通过信道传送给解码器。每4个相邻的输入矢量（共20个样点）构成一个自适应周期，或者称为帧，每帧更新一次LPC系数。,图8.1216kbit/sLD-CELP语音编码器原理框图,解码原理：解码操作也是逐个矢量地进行。根据接收到的码矢标号，从激励码书中找到对应的激励矢量，经过增益调整后，得到激励信号，将激励信号输入合成滤波器，就得到合成语音信号。再将合成语音信号进行自适应后滤波处理，以增强语音的主观感觉质量。,8.7语音信号宽带变速率编码,传统的数字语音通信标准都是基于300-3400Hz的电话带宽，这种窄带语音可保证语音的可理解性，但在语音的自然度及一些特殊音处理方面还不尽人意。50-7000Hz的语音带宽通常被称为宽带语音频带，包括了人类发声的绝大部分能量范围。,8.7语音信号宽带变速率编码,同窄带语音相比，宽带语音信号50-300Hz的低频部分增加了语音的自然度、现场感和听觉舒适性，3400-7000Hz的高频部分，可以更好地区分摩擦音，从而增强了语音的可理解性。因此宽带语音不仅提高了语音的可理解性和自然度，而且还增加了透明传输的感觉，使说话方的个人特征体现得更充分。,8.7语音信号宽带变速率编码,国际标准组织多年来一直在努力定义宽带语音编码标准。早期定义的宽带语音编码标准主要应用于会议电视，近期定义的则主要应用于移动通信和VoIP。宽带语音编码标准G.722、G.722.1及G.722.2(AMR-WB)的详细对比如表8.6所示。,表8.6宽带语音编码标准对比,续表8.6宽带语音编码标准对比,G.722：ITU-T1988年制定的64kbit/s宽带语音编码标准，第一个采样率为16kHz的宽带语音编码算法，有三种速率模式：64kbit/s、56kbit/s和48kbit/s。,G.722.1：1999年美国PictureTel公司的Siren编码算法被ITU-T确立为新的宽带语音编码国际标准G.722.1。主要目的是为了降低G.722的编码速率，可实现比G.722编码器更低的比特率以及更大的压缩，两种编码速率：24kbit/s和32kbit/s。使用了变换编码技术。,G.722.2：2000年12月，3GPP选择AMR-WB语音编码算法作为第三代移动通信推荐使用的语音编解码算法，于2001年3月最终确定并正式公布。2002年1月，ITU-T采纳了AMR-WB作为宽带语音编码的新标准，AMR-WB是通信史上第一种可以同时用于有线与无线业务的语音编码系统。九种速率模式：6.6,8.85,12.65,14.25,18.85,18.25,19.85,23.05和23.85kbit/s。,

展开阅读全文

语音信号处理第八章.ppt

最新文档