《语音信号处理》讲稿第5章.ppt

资源描述

第5章语音编码与压缩,本章主要讨论的问题：1.语音编码与压缩的基本方法2.语音编码与压缩的硬件实现,1.语音编码与压缩的基本方法,讨论两方面问题：（1）语音信号处理技术概述（2）语音编码与压缩方法介绍,1.语音编码与压缩的基本方法,（1）语音信号处理技术概述模拟信号处理技术传统处理技术例如，磁带录音机的存储处理，电话中带通滤波放大等。数字信号处理技术现代处理技术包括采样、量化、编码、传输、存储、译码等。其中，编码是核心技术，本章重点介绍。语音编码又分信源编码和信道编码。下面着重介绍信源编码。,1.语音编码与压缩的基本方法,语音信号的编码技术语音信号编码（信源编码）与语音信号压缩，实际上是同一技术两个名称。其目的是在给定编码速率条件下，如何能得到尽量好的重建语音质量（或称编码质量），同时应减小编解码延时以及算法的复杂程度。其中，编码质量、编码速率、编解码的复杂程度、编解码延时是相互关联的四个主要因素。,1.语音编码与压缩的基本方法,（2）语音编码与压缩方法介绍1）语音信号压缩方法分类常用的语音信号压缩方法分类：a.无损压缩。如统计编码（霍夫曼编码、算术编码）、游程编码等。b.有损压缩。又分成如下三类：a)波形编码。如全频带编码(如ADPCM)、子带编码(简写SBC)、矢量量化(简写VQ)等。,语音信号压缩方法分类,1.语音编码与压缩的基本方法,b)参数编码。它在语音信号发送端提取足够的特征参数，在接收端以某种最小的失真合成原始信号，又称为模型编码。如线性预测声码器(简写LPC)。C)混合编码。如矢量和激励线性预测(简写VSELP)、多脉冲激励线性预测(简写MP-LPC)、码本激励线性预测(简写CELP)、多带激励(简写MBE)等。目前，极低速率的语音编码通常采用混合编码。,1.语音编码与压缩的基本方法,2）衡量语音编码性能的主要因素a.编码质量两种评价方法：客观、主观。客观评定方法。如信噪比、加权信噪比、平均分段信噪比等。适用于速率较高的波形编码类型的算法。主观评定方法。常采用平均意见得分(MeanOpinionScore,简称MOS得分)，判断韵字测试(DiagnosticRhymeTest，简称DRT得分)，判断满意度测量(DiagnosticAcceptabilityMeasure，简称DAM得分)等。主观评定方法因符合人类听觉对语音质量的感觉，目前得到广泛应用。MOS得分采用五级评分标准。,声音的质量等级,1.语音编码与压缩的基本方法,b.编码速率单位为“比特/秒”（b/s），一般以I表示；或单位为“比特/样点”（b/p），一般以R表示。I和R通过采样速率fs联系起来。即I=Rfs式中，R越高，语音质量越高，但对传输带宽或存储容量的要求也越高。c.编解码的复杂程度与语音编码的话音质量及硬件实现成本有关。d.编解码延时在实时通信中引起延时和回声，必须考虑。,1.语音编码与压缩的基本方法,3)语音信号编码技术的系统实现无损压缩编码的压缩比较低，如统计编码(霍夫曼编码、算术编码)、游程编码等压缩比约为2至4倍。考虑到人类听觉特征特点(允许接收的语音信号有一定的失真度)，典型应用的语音编码常采用有损压缩编码，包括波形编码、参数编码和混合编码三大类。本章仅介绍波形编码(如ADPCM)及其系统实现。参数编码(如LPC)及其系统实现，将在语音合成中介绍。,1.语音编码与压缩的基本方法,a.自适应差值脉冲编码调制（ADPCM）)差值脉冲编码调制（DPCM）,DPCM系统,1.语音编码与压缩的基本方法,）自适应差值脉冲编码调制（ADPCM）,ADPCM系统,1.语音编码与压缩的基本方法,b.变换编码(最佳变换、KLT、DCT)变换编码是指先对信号进行某种函数变换，从一种信号（空间）变换到另一种信号（空间），然后再对变换后的信号进行编码。一种典型的变换称为正交变换。变换编码系统中压缩数据有三个步骤：变换、变换域采样和量化。变换本身并不进行数据压缩，它只把信号映射到另一个域，使得信号在变换域容易进行压缩。变换编码系统组成框图如图所示。,变换编码系统框图,1.语音编码与压缩的基本方法,a)离散最佳变换离散变换可以用矩阵表示，如图像信号。设信源序列为一个n行k列的矩阵X，对一幅图像进行扫描，从上到下共n行，从左到右取k个样值，并令xij表示第i行第j个样值，则整幅图像就可以用n行k列的矩阵X表示。,1.语音编码与压缩的基本方法,当经过正交变换后，协方差矩阵为一对角矩阵，且对角线上元素之外的各元素均为零，且对角线上各元素最小，即具有最小均方误差，此时，该变换称最佳变换，也称Karhunen-Loeve变换，简称KLT。即,1.语音编码与压缩的基本方法,其中，T为任意正交变换，x为输入信号的协方差矩阵，y为输出信号的协方差矩阵，0、1、N-1为协方差矩阵y对角线上元素的最小均方值。,1.语音编码与压缩的基本方法,b)KLTKarhunen-Loeve变换，或称特征向量变换，又称K-L变换，简称KLT，是一种最佳变换，它在数据压缩技术中占有重要的地位。,1.语音编码与压缩的基本方法,应用：在早期的编码实践中，采用最佳变换KLT进行数据压缩时，在13.5kbps下得到的语音质量，可与56kbps的PCM相比拟；对图像信号而言，变换后2b/样值的图像质量，大致与7b/样值的PCM相比拟，应该说，效果还是比较优异的。,1.语音编码与压缩的基本方法,缺点：从上面的分析可看出，这种变换矩阵不是一种恒定的形式，它必须由信源特性来确定。对不同的信源序列X，首先得求出其协方差矩阵x，然后再分别计算它的特征根和对应的特征向量，最后才能算出变换矩阵。其中特征根及特征向量的计算量都十分大，所以这种变换实用性不高。,1.语音编码与压缩的基本方法,提高实用性的解决办法：在实际使用的数据压缩变换编码中，考虑到实用性及编/解码效率，并不是完全采用最佳变换，而是大量采用一些接近最佳变换的准最佳变换，即选择那些高效的变换，使得经过变换后的协方差矩阵接近对角矩阵。因此，KLT常常作为对这些变换性能评价的标准。典型的准最佳变换有DCT、DFT、WHT、HrT等。下面以DCT为例，解释准最佳变换含义。,1.语音编码与压缩的基本方法,c)DCTDCT是一种典型的准最佳变换编码。此外，在语音、图像压缩处理时，经常用到的其他准最佳变换还有：离散傅里叶变换（DFT）、Walsh-Hadamard变换（WHT）等。,1.语音编码与压缩的基本方法,离散余弦变换（DCT）是由离散傅里叶变换（DFT）引出的。DFT是一种准最佳变换，经DFT变换后的协方差矩阵接近对角矩阵。它去除相关性虽然不一定最佳，但它可以用固定的正交变换矩阵来对不同的信源进行数据压缩。从实用的角度来说，可达到简便、易于实现的目的。,1.语音编码与压缩的基本方法,但是，DFT的运算次数太多，虽然利用快速傅立叶变换（FFT）可以大大减少运算次数，但它需要复数运算。DFT矩阵引入的复数，给运算带来诸多不便，运算速度也达不到人们期望的程度。因此，希望在此基础上得到改进，又可发挥FFT的运算好处。DCT正好满足这一要求。,1.语音编码与压缩的基本方法,根据对DCT的定义，写成矩阵形式，则有：其中，n=log2N或N=2n,1.语音编码与压缩的基本方法,设信源向量为X(n)，DCT域向量为Y(n)，n=log2N，则DCT定义为：DCT反变换定义为：,1.语音编码与压缩的基本方法,可以看出，DCT是DFT取实部。与FFT算法一样，可以相应地得到快速余弦变换算法，而且，对于平稳过程的信源来说，DCT的性能十分逼近KLT。这是DCT在语音、图像压缩中得到广泛应用的重要原因。譬如，在静态图像压缩标准JPEG中就用到了DCT。,1.语音编码与压缩的基本方法,变换编码小结：KLT、DCT等变换编码，都是将信源序列构成一个列向量x(m)进行的。自然界中许多信源本身就是一维的，即使本质上是二维或更高维次的图像及其它信息，也可加以一维化。因此，上述讨论具有普遍意义。但是，对于二维信息来讲，也可直接用二维变换。限于时间，在此省略。,1.语音编码与压缩的基本方法,d.参数编码与混合编码前面讨论的ADM、ADPCM、KLT、DCT等编码，均属于波形编码，语音编码速率较高(压缩比较低)，适用于公用电话网(采用ADM、ADPCM)或具有宽带音频信号范围的自然界音响、音乐、高清晰度数字广播、CD音响(采用SBC、AC-3、MP3等变换域编码)。目前，在中、低编码速率语音通信中，常采用参数编码或混合编码，适用于数字移动通信、保密通信等。如：a)线性预测声码器(LPC)。b)多脉冲线性预测编码(MPLPC)。c)规则脉冲激励语音编码(RPE-LPC)。d)码激励线性预测编码(CELP)。e)多带激励语音编码(MBE)。,音频编码算法和国际标准,2.语音编码与压缩的硬件实现,讨论两方面问题：（1）语音信号的存储技术（2）计算机语音处理机,2.语音编码与压缩的硬件实现,（1）语音信号的存储技术语音信号的存储方式1）硬件方式存储器2）软件方式以文件形式存储语音信号的硬件存储器分类1）半导体随机存储器（RAM）2）半导体只读存储器（ROM）3）数字语音存储器,2.语音编码与压缩的硬件实现,（2）计算机语音处理机语音处理器(SpeechProcessor)1）基本功能：语音信号放大、采样、量化、码化、传输、译码、滤波、再生等。采用语音存储和再生的集成芯片专用芯片。2）代表性的公司：TI公司、Votrax公司、东芝公司等。国内外十多家，数十种产品。计算机语音处理机将专用语音处理芯片与通用（或专用）微处理器及一些外围电路（如A/D和D/A等）结合起来，便可以构成计算机语音处理机。当然，也可以与通用计算机系统相连。,

展开阅读全文