第二章语音信号的压缩编码课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,PPT课件,*,数字通信,LCU,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,2,章,信源编码,1,PPT课件,第2章信源编码1PPT课件,补充：数据压缩简介,PCM,码率：采样率值,采样大小值,声道数,bps,。,PCM,数字电话的数码率为,64kb/s,；,视频,:,如,320233,窗口中，以,25,帧,/,秒速度播放,1,分钟颜色数为,8bit,的视频信号，其数据量为：,320 233 82560/(81024 1024) 107(M),对一首长约,4,分钟的歌曲采样，将其存储在磁盘上，以,CD,音质的,WAV,格式抽样，抽样率为,44.1kHz,，即每秒钟接收,44100,个值，立体声，每次抽样数据为,16,位（,2,字节），则这首歌占的空间为：,44100x2,声道,x16bitx60,秒,x4,分钟,=40.4MB,如果下载传输率为,56kbps,，则下载时间为：,40.4x10,6,x8/56x10,3,x60= 96,分钟,即使是,1M,的宽带网也需,5,分钟,以上,。,2,PPT课件,补充：数据压缩简介PCM码率：采样率值采样大小值声,1,、无损压缩,所谓无损压缩格式，,是利用数据的统计冗余进行压缩，可完全回复原始数据而不引起任何失真，,但压缩率受到数据统计冗余度的理论限制，一般为,2:1,到,5:1.,这类方法广泛用于文本数据，程序和特殊应用场合的图像数据,(,如指纹图像，医学图像等,),的压缩。,目前比较出名的无损压缩格式有,APE,、,FLAC,、,LPAC,、,WavPack,、,TTA,；,PNG,、,TIFF,、,JPEG 2000,；,无损压缩格式的优势：,1,、,100,的保存、没有任何信号丢失,2,、音质高，不受信号源的影响,3,、转换方便,3,PPT课件,1、无损压缩所谓无损压缩格式，是利用数据的统计冗余进行压缩，,2,、有损压缩,有损数据压缩方法是,经过压缩、解压的数据与原始数据不同但是非常接近的压缩方法。,这种方法经常用于因特网尤其是流媒体以及电话领域。,通过在用户的忍耐范围内损失一些精度，我们可以把图像（也包括音频和视频）压缩到原大小的,十分之一、百分之一甚至千分之一,，这远远超出了通用压缩算法的能力极限。,举例,jpeg,和,bmp,4,PPT课件,2、有损压缩有损数据压缩方法是经过压缩、解压的数据与原始数据,应用,图像压缩：分形压缩,/JPEG/JPEG2000,视频压缩：,H.261 /H.263 /H.264/MPEG-1 /MPEG-2 /MPEG-4,音频压缩,:MP2 /MP3 /AAC /ADPCM /G.711 / G.726,5,PPT课件,应用图像压缩：分形压缩/JPEG/JPEG20005PPT,本章内容,2.1,模拟信号的数字化,2.2,语音编码技术,波形编码,参数编码,混合编码,2.3,图像编码,图像信号及其数字化,数字图像压缩编码,图像压缩编码标准,6,PPT课件,本章内容2.1 模拟信号的数字化6PPT课件,2.2.2,语音信号的波形编码,脉冲编码调制（,PCM,）,自适应差分脉冲编码调制（,ADPCM,）,DPCM,的基本原理,自适应量化,自适应预测,ADPCM,编译码系统,子带编码（,SBC,）,子带编码原理；,子带传输速率的计算；,子带的划分方法；,正交镜象滤波器,7,PPT课件,2.2.2 语音信号的波形编码脉冲编码调制（PCM）子带编码,DPCM,的基本原理,1.,差值脉冲编码调制的概念,2.DPCM,的系统原理框图,3.,极点与零点预测,4.,预测增益,8,PPT课件,DPCM的基本原理1.差值脉冲编码调制的概念8PPT课件,一般,PCM,对样值信号编码都是按照样值幅度独立进行，,每一编码码组允许的信号动态范围就是原信号的动态范围，,它比较大，需要较多编码位数。,任何信号,不论语音或图像,采用直接采样,-,量化,-,编码的方式进行编码,都会发现码组之间具有很强的,相关性,.,由于相关性的存在,传输数据中存在大量不需要传输的信息,称为,冗余,.,1.,差值脉冲编码调制（,Differential Pulse Code Modulation,）,的概念,9,PPT课件,一般PCM对样值信号编码都是按照样值幅度独立进行，每一编码码,差值脉冲编码调制（,DPCM,）就是,考虑利用信号相关性找到可以反映信号变化特征的一个差值进行编码,。,（通过,预测,和,差值编码,方式来减少冗余,实现数据压缩的目的）,编码：对信号实际值和预测值的差值进行量化编码并传输,.,译码：接收端将接收到的差值和恢复的预测值相加得到此次采样值,.,由于只传输动态范围较小的差值,所以编码的码组不需太长,在,DPCM,中,一般采用,4,位,.,数码率为,8k*4bit=32kbps,10,PPT课件,差值脉冲编码调制（DPCM）就是考虑利用信号相关性找到可以反,1,）预测,:,指当知道有冗余性（相关性）信号的一部分时就可以对,其余部分进行推断和估计。,（通过前几次的样值来预测后一次,的样值）,假如有一个信号,x(t),用速率,1/T,S,进行采样，那么在时刻,t=nTs,，我们可以掌握此前,N,个样值序列,x(nT,s,-T,s,), x(nT,s,-2T,s,),x(nT,s,-NT,s,),根据前,N,个样值对,x(nT,s,),进行预测,定义为,:,W,i,-,加权常数，可为常数或变量,-x(nT,s,),的预测值。,11,PPT课件,1）预测: 假如有一个信号x(t),用速率1/,预测过程可用,横截滤波器,实现,12,PPT课件,预测过程可用横截滤波器实现12PPT课件,在每个抽样时刻到来时，滤波器输出将会给出下一个样值的预测值。,注意：预测值与实际值并不相同。,所谓差值脉冲编码就是,对真正样值,x(nT,s,),与以过去样值为基础得到的估计值之间的差值进行量化和编码。,13,PPT课件,在每个抽样时刻到来时，滤波器输出将会给出下一个样值的预测值。,2,、,DPCM,的系统原理框图,后向序贯自适应预测算法,量化后的差值,输入端抽样信号,接收端重建信号,预测信号,DPCM,输出码字,差值,14,PPT课件,2、DPCM的系统原理框图后向序贯自适应预测算法量化,编码器和译码器中的预测器应完全相同。,DPCM,的,总量化误差,定义为,根据原理框图：,DPCM,系统总量化误差只和差值信号的量化误差有关。,图,3.1.3,说明了预测原理,15,PPT课件,编码器和译码器中的预测器应完全相同。根据原理框图：DPCM系,举例：,4-DPCM,系统编码器,量化器特性,试分别画出的,c(n),波形,编码器特性,16,PPT课件,举例：4-DPCM系统编码器量化器特性试分别画出,线性预测网络可分为,极点预测器,和,零点预测器,两种,（,1,）,极点预测器,（即采用重建信号进行的预测）,3.,极点与零点预测,设发送系统预测器传递函数为,P(Z),17,PPT课件,线性预测网络可分为极点预测器和零点预测器两种3.极点与零点预,式中是一组预测系数。,由于重建滤波器传递函数,只有极点没有零点,故称为,全极点预测器,.,18,PPT课件,式中是一组预测系数。由于重建滤波器传,（,2,）零点预测器（即采用重建信号进行的预测）,重建滤波器的传递函数,只有零点没有极点,，称,为,全零点预测器。,19,PPT课件,（2）零点预测器（即采用重建信号进行的预测）,（,3,）极零点预测器（把零点和极点预测器组合起来）,有零点有极点,称为,极零点预测器,20,PPT课件,（3）极零点预测器（把零点和极点预测器组合起来）有零点有极点,系统信噪比定义为：,=,=,量化器的量化信噪比,G,P,1,加预测器后反而不利,4.,预测增益,预测器增益,预测器有增益,21,PPT课件,系统信噪比定义为：=量化器的量化信噪比GP1加预,要使信号总信噪比大,就要使预测增益大,也就,是使差值,d(n),减小，增加预测的准确性；同时还要求,降低,e(n),，达到最佳量化,.,只有采用自适应系统，才能得到最佳性能。,有自适应系统的,DPCM,称为,ADPCM(,自适应差值脉码,调制,),22,PPT课件,要使信号总信噪比大,就要使预测增益大,也就2,二、自适应量化,1,、最佳量化,用,均方误差,D,衡量量化器对,x,带来的损伤,使,D,最小的量化特性为,最佳量化特性,y(n),有,N,个可能的取值，可变为,23,PPT课件,二、自适应量化1、最佳量化23PPT课件,说明：,1,）最佳判决电平在相邻量化电平中心上,2,）量化电平在相应间隔的功率密度函数的重,心上,24,PPT课件,说明：1）最佳判决电平在相邻量化电平中心上24PPT课件,高斯分布，非均匀量化器最佳值,25,PPT课件,高斯分布，非均匀量化器最佳值25PPT课件,介绍以下两种方式：,1,）前向自适应量化：,严格根据,输入方差,确定量化器分级判决电平,x,k,与量化器的量化电平,y,k,值，称为前向自适应。,这种方法在实时系统不易实现。,2.,自适应量化,自适应量化指,量化器的量化间隔（阶距）能随信号的瞬时值作自适应调整,以达到最佳量化。,为使量化器始终处于最佳状态或接近最佳状态，量化器参数（,量化电平,y,k,、分级判决电平,x,k,、量阶,）能够自适应差值信号,d(n),变化。,26,PPT课件,介绍以下两种方式：2.自适应量化26PPT课件,2,）后向自适应量化,根据前一时刻的输出数字码,C(n-1),或量化器输出值,y(n-1),来确定本次,x(n),与,y(n),，,称为后向自适应。,Jayant,提出的一码字后向自适应算法：根据离量化器最近的,Rbit,码字，确定现在的量阶,(n),。,已知：,现在量阶,第,(n-1),时刻幅度,I,的函数，与此时量化电平有关,已知量阶,27,PPT课件,2）后向自适应量化已知：现在量阶第(n-1)时刻幅度I的函,原教材图,3.1.8,一码字记忆,3bit,自适应量化,28,PPT课件,原教材图3.1.8 一码字记忆3bit自适应量化28PPT课,1,、最佳线性预测器,预测器具有一组预测系数, ,怎样选择这一组数据，使,预测值更接近实际值,，,使差值功率,Ed,2,(n),最小,，实现,G,P,和,SNR,的最大，是最佳预测器所要解决的问题。,三、自适应预测,29,PPT课件,1、最佳线性预测器三、自适应预测29PPT课件,1,）一阶固定线性预测,假定一阶预测，即,30,PPT课件,1）一阶固定线性预测30PPT课件,2),二阶固定预测器,除去之外，二阶预测的误差总比一阶预测的小,31,PPT课件,2)二阶固定预测器除去,8KHz,抽样的语音信号（带通滤波）的相关系数,32,PPT课件,8KHz抽样的语音信号（带通滤波）的相关系数32PPT课件,作业题,1,、已知一阶固定的,DPCM,系统，其预测系数,h,1,=1,，归一化相关系数,p,1,定义为：,其中为相关系数，求该系统的预测增益,G,p,。,2,、上题中若取一阶预测系数,h,1,=h,1opt,，试求,G,popt,Gp=1/2(1-0.825)=2.8571,h1=p1,Gp=3.13,33,PPT课件,作业题1、已知一阶固定的DPCM系统，其预测系数h1=1，归,求偏微分，并令为零,3)N,阶最佳线性预测,最佳线性预测器是,均方预测误差最小,的预测器，可获得最大预测增益,G,P,和最大信噪比。,34,PPT课件,求偏微分，并令为零3)N阶最佳线性预测 34PPT课件,所以得到一组线性方程,35,PPT课件,所以得到一组线性方程35PPT课件,差值信号在,预测系数取最佳值时,最小，有,最佳预测增益,36,PPT课件,差值信号在预测系数取最佳值时最小，有最佳预测,4)G,P,与预测阶数的关系,预测通常要选用前多少次的样值来参与，见下图,当阶数大于,2,时，最佳预测增益就趋于饱和，,饱和值一般为,6-12dB,37,PPT课件,4)GP与预测阶数的关系当阶数大于2时，最佳,2,、自适应预测,为了获得最大的预测增益,通常采用,自适应预测,方式,预测系数在预测过程中实时调整,.,前向自适应预测算法,后向序贯自适应预测算法,最佳预测系数是根据量化后的编码数据,x(n),进行估值，可以快速修正系数。如果由一个样值至一个样值逐个修正则称为,序贯后向自适应预测,。,推导过程：搜索底部顶点的过程（利用梯度），图,3.1.10,38,PPT课件,2、自适应预测为了获得最大的预测增益,通常采用自适应,梯度算法,梯度法中，按样值顺序逐个重新调整,n,时刻给定,的矢量,h(n),每次的调整量正比于梯度估值的负数。,均方差期望梯度估值矢量,调整步长，常数,39,PPT课件,梯度算法梯度法中，按样值顺序逐个重新调整n时刻给定均,四、,32kbit/s,的,ADPCM,编译码系统,ADPCM,技术指标：满足,G.712,的语音质量要求；经,4,次音频转换后,MOS,应,大于,3.5,分；在,Pe,小于,1e-3,下能稳定工作,ADPCM,主要改进：量化器和预测器均采用自适应方式。抽样频率为,8KHz,，每一样值编,4,位码,。,ADPCM,编译码器原理框图,P99,40,PPT课件,四、32kbit/s的ADPCM编译码系统ADPCM技术指标,自适应量化,自适应预测,（,6,个零点和,2,个极点）,编码器,41,PPT课件,自适应量化编码器41PPT课件,译码器,42,PPT课件,译码器42PPT课件,子带编码,（,1,）子带编码原理,（,2,）子带传输速率的计算,（,3,）正交镜象滤波器,（,4,）子带的划分方法,（,5),子带编码举例,43,PPT课件,子带编码（1）子带编码原理43PPT课件,1,、子带编码原理,子带编码（,SBC,，,Sub-band Coding,）是一种在,频率域,中进行数据压缩的方法。,在子带编码中，首先用一组带通滤波器将输入信号分成若干个在不同频段上的子带信号,;,将这些子带信号经过频率搬移转变成基带信号，再对它们在奈奎斯特速率上分别重新取样。,每个子带取样后的信号经过单独的自适应,PCM,编码，并合并成一个总的码流传送给接收端。,44,PPT课件,1、子带编码原理子带编码（SBC，Sub-band Codi,编码器,PCM,工作原理图,45,PPT课件,编码器PCM工作原理图45PPT课件,在接收端，首先把码流分成与原来的各子带信号相对应的子带码流，然后解码、将频谱搬移至原来的位置，最后经带通滤波、相加，得到重建的信号。,解码器,46,PPT课件,在接收端，首先把码流分成与原来的各子带信号相对应的子带码流，,对每个子带分别编码的好处,（,1,）可以利用人耳（或人眼）对不同频率信号的感知灵敏度不同的特性，在人的听觉（或视觉）不敏感的频段采用较粗糙的量化，从而达到数据压缩的目的。,例如：,音调和共振峰,，用较小的量化阶、较多的量化级数，即分配较多的比特数来表示样本值。,而,话音中的摩擦音和类似噪声的声音,，通常出现在高频子带中，用较大量化阶距，分配较少的比特数。,47,PPT课件,对每个子带分别编码的好处（1）可以利用人耳（或人眼）对不同频,（,2,）每个子带使用独立的量化阶距，这就可以避免能量较小的频带内的信号被其他频带中的量化噪声所掩盖。,（,3,）通过频带分裂，各个子带的取样频率可以成倍下降。,16kbps SBC,26.5kbps ADPCM,9.6kbps SBC,19kbps ADM,Mp3,编码器,48,PPT课件,（2）每个子带使用独立的量化阶距，这就可以避免能量较小的,2,、传输速率,在子带编码中，若各个子带的带宽,W,k,是相同的，则称为,等带宽子带编码,，否则，称为,变带宽子带编码,。,假设每个子带波形抽样为,f,sk,每个抽样用,R,k,比特编码，则,总的传输速率等于每个子带的编码比特率的总和。,在等带宽子带编码中,式中,W,为总带宽，单位是赫兹；,M,为子带的数目,49,PPT课件,2、传输速率在子带编码中，若各个子带的带宽Wk是相同的，则,由于第,k,个子带的抽样率为,则,总传输速率,简化为：,上式为等带宽分割时的传输率。,如果将总比特数表示为,则,这是,全带编码时的传输速率表示式,，,R,为对全带采样编码,时的平均比特数。,50,PPT课件,由于第k个子带的抽样率为 ,则总传输,例题,一个,4,子带的,SBC,系统，子带分别为,0800,8001600,16002400,24003200,如果忽略同步码的边带信息，子带的比特分配分别为,3,，,2,，,1,，,0,比特,/,样值,求总的传输速率和全带采样时的平均比特数。,51,PPT课件,例题一个4子带的SBC系统，子带分别为0800,80,正交镜象滤波器,(QMF),是数字滤波器中的一种特殊的新型滤波系统，它由一个低通滤波器和一个与其正交的镜象高通滤波器构成，其最大优点是在对信号进行滤波选抽分解和反滤波插值重构时不会产生因频率混叠而带来的信号失真。,由于分割频带所用的滤波器不是理想的滤波器，经过分带、编码、译码后合成的输出音频信号会有混迭效应。采用正交镜象滤波器来划分频带，混迭效应在最后合成时可以抵消。,3,、,正交镜象滤波器,52,PPT课件,正交镜象滤波器(QMF)是数字滤波器中的一种特殊的新型,QMF,简化的幅频特性,53,PPT课件,QMF简化的幅频特性 53PPT课件,图中，用,QMF,把全带音频信号分割成两个等带宽子带。,h,H,(,n,),和,h,L,(,n,),分别表示高通滤波器和低通滤波器，它们组成一对正交镜象滤波器。这两个滤波器也叫做分析滤波器。,用正交镜象滤波器分割频带的子带编译码简化框图。,54,PPT课件,图中，用QMF把全带音频信号分割成两个等带宽子带。hH(n),4,、子带的划分,根据,各频段对主管听觉贡献相等,的原则作合理分配。,音频频带的分割可以用树型结构的式样进行划分。,首先把整个音频信号带宽分成两个相等带宽的子带：高频子带和低频子带。然后对这两个子带用同样的方法划分，形成,4,个子带。这个过程可按需要重复下去。用这种办法可以产生等带宽的子带，也可以生成不等带宽的子带,。,P40,图,2.2.6,55,PPT课件,4、子带的划分根据各频段对主管听觉贡献相等的原则作合理分配。,子带编码存在的问题是,编解码的延时比较长,，约在几十,100ms,之间，这主要是滤波器组的延时造成的，这种延时对于一些通信系统是不能接受的，因此子带编码主要用于声频存储、数字声广播以及一些允许延时较长的电话传输系统中。,56,PPT课件,子带编码存在的问题是编解码的延时比较长，约在几十100ms,5,、子带编码举例：,mp3,人耳感受声音的频率范围是,20Hz-20kHz,，,MP3,截掉了大量的冗余信号和无关的信号，编码器通过混合滤波器组将原始声音变换到频率域，利用心理声学模型，估算刚好能被察觉到的噪声水平，再经过量化，转换成,Huffman,编码，形成,MP3,位流。,57,PPT课件,5、子带编码举例： mp3人耳感受声音的频率范围是20Hz-,滤波器段,(filterbank),：,输入的音频信号在,20Hz-20k Hz,的频率范围内，通过第一个滤波器段后，把信号按频率分成,32,个小频带，称为子带,(Subband),。,20000Hz/32=625Hz,，那么每个子带的宽度就是,625Hz,。人耳对不同频段的灵敏度是不同的，编码器可对不同的子带进行不同的量化分层。,人体听觉心理学模型：,最小听觉门槛判定（,把大部分数据空间分配到人耳最灵敏的,2kHz,到,5kHz,范围，其余频率分配比较少的空间；,）和遮蔽效应（,表现在强信号会遮蔽邻近频率的弱信号,）。,3),量化和编码：,当,PCM,讯号被分成好几个频段并经过一系列的处理后，最后经过,MDCT,，将波型转换为一连串的系数。,MDCT,滤波器将,32,个子带中每一个子带的的信号在频域上进一步划分，长块进行,18,点（,18,个频域采样点）的,MDCT,变换，短块进行,6,点的,MDCT,变换，以窗为单位分,3,次进行。,这些系数就由,Huffman,编码器会选择最合适的,Huffman,表来做最后的压缩。,58,PPT课件,滤波器段 (filterbank)：输入的音频信号在20Hz,2.2.3,参数编码,（,1,）了解语音信号模型的相关概念；,（,2,）理解线性预测声码器的基本原理；,（,3,）了解,LPC,声码器的缺点,59,PPT课件,2.2.3 参数编码（1）了解语音信号模型的相关概念；,1,、语音信号模型,不同语音是由于发音器官中的声音激励源和口腔声道的形状不同引起的。,根据激励源和声道模型的不同，语音主要分为浊音和清音。,60,PPT课件,1、语音信号模型不同语音是由于发音器官中的声音激励源和口腔声,1,）,浊音,：又称声音。声带在气流的作用下准周期地闭合或开启，从而在声带中激励起准周期的声波。具有明显的准周期特性。,浊音信号的能量主要集中在各基音的谐波频率附近，而且主要集中于低于,3KHz,的范围内。,P41,61,PPT课件,1）浊音：又称声音。声带在气流的作用下准周期地闭合或开启,2,）,清音：,气流速度达到某一临界速度时，会引起湍流，此时声带不震动，声道被噪声状随机波激励，产生较小幅度的声波，其波形与噪声很像。,P42,清音信号没有准周期性，能量主要集中在比浊音更高的频率范围内。,语音学中，将发音时声带振动的音称为浊音,(,又称有声,),，声带不振动的音称为清音,(,又称无声,),。,62,PPT课件,2）清音：气流速度达到某一临界速度时，会引起湍流，此时声带不,3,）,共振峰：,声道频率特性对应的谐振点叫做共振峰频率。共振峰出现在浊音频谱中。一般的浊音在,5Khz,以下有,35,个共振峰。,4,）,语音信号发生模型,P42,63,PPT课件,3）共振峰：声道频率特性对应的谐振点叫做共振峰频率。共振峰出,2,、线性预测声码器,1,）语音信号分析合成的定义：,以语音模型为基础，在发端分析提取表征音源和声道的相关特征参数，通过量化编码将这些参数传输到收端，在收端再应用这些特征参数重新合成为语音信号的过程。,64,PPT课件,2、线性预测声码器1）语音信号分析合成的定义：64PPT课件,2,）,LPC,声码器的基本原理,清音模型简化为由白色随机噪声激励；浊音为准周期脉冲序列，周期为基音周期,T,p,在发端，对语音信号样值,s(n),逐帧进行线性预测分析，并作相应的清,/,浊音判决和基音提取。,分析前预加重是为了加强语音谱中的高频共振峰，使语音短时谱及线性预测分析中的余数谱更加平坦，从而提高预测模型参数,a,i,估值的准确度。,线性预测大多采用自相关法。采用汉明窗。,65,PPT课件,2）LPC声码器的基本原理清音模型简化为由白色随机噪声激励；,LPC,声码器方框图,自信道入,译码,合成器,反预加重,合成语音,66,PPT课件,LPC声码器方框图自信道入译码合成器反预加重合成语音66,3,、,LPC,声码器的缺点,1,）损失了语音自然度,2,）降低了方案的可靠性,3,）易引起共振峰位置失真,4,）带宽估值误差大,67,PPT课件,3、 LPC声码器的缺点1）损失了语音自然度67PPT课件,2.3,图像编码技术,68,PPT课件,2.3 图像编码技术68PPT课件,2.3.1,图像信号及其数字化,2.3.2,数字图像压缩编码,2.3.3,图像压缩编码标准,69,PPT课件,2.3.1 图像信号及其数字化69PPT课件,2.3.1,图像信号及其数字化,一幅平面图像包括的信息首先表现为光的强度或灰度，它随平面坐标、光的波长和时间变化，表示为,I=f(x,y,t),黑白活动图像：,I=f(x,y,t),彩色活动图像：,I=f,r,(x,y,t), f,g,(x,y,t), f,b,(x,y,t),黑白静止图像函数,I=f(x,y),70,PPT课件,2.3.1 图像信号及其数字化一幅平面图像包括的信息首先表现,通常把图像定义为平面上连续的一个矩形区域，长宽分别为,Lx,和,Ly,。平面坐标,x,和,y,的取值范围：,图像函数在某一点的值，即强度或灰度与图像在这一点的亮度成正比，该值为一正数，而且有界，即,Bm,为最大亮度。总之，图像函数,f(x,y),是一个二元、有界、非负的连续函数，可解析、可积分、并有可逆的付氏变换。它代表了一副人眼看到的模拟图像。,71,PPT课件,通常把图像定义为平面上连续的一个矩形区域，长宽分别为Lx和L,图像信号的数字化,1.,抽样：,图像在空间上的离散化。因图像是二维的，对图像信号的抽样通常采用等间隔的点阵抽样方式。即在,x,方向取,M,点，在,y,方向取,N,点，读取整个图像函数空间内这,M*N,个离散点的灰度值，所得结果就是一个用样点值表示的阵列。,2.,量化：,在量化噪声对图像质量的影响可以忽略前提下，用最少的量化电平进行量化。常用均匀量化。（灰度,0255,）,设连续图像,f(x,y),经等间隔抽样和量化后，得到一,M*N,的数字点阵,图像阵列中每一个元素取值都是离散的，称为像素（,pixel,）,72,PPT课件,图像信号的数字化1.抽样：图像在空间上的离散化。因图像是二维,数字图像的特点,1.,数据量大,2.,占用频带宽：,电视图像,56MHz,3.,数字图像各个像素彼此相关性大：,电视画面同一行相邻,2,个像素或相邻,2,行相关系数,0.9,73,PPT课件,数字图像的特点1.数据量大73PPT课件,2.3.2,数字图像压缩编码,一、图像冗余信息类型,1.,空间冗余：,如照片上一面墙是均匀着色,2.,时间冗余：,如关于人物演讲的一段视频,3.,信息熵冗余：,如采用相同比特数对每个像素编码,4.,知识冗余：,如人脸图像中头、眼、嘴部的相互位置,5.,视觉冗余：,如人眼对图像某些失真不敏感,6.,结构冗余：,如图像各部分有某种相似关系,74,PPT课件,2.3.2 数字图像压缩编码一、图像冗余信息类型74PPT课,二、图像压缩编码,1.,概率匹配编码：,根据编码对象的出现概率分别给予不同长度的代码。,如霍夫曼编码和游程长度编码,2.,预测变换编码：,利用图像信号的空间和时间冗余特性，用相邻的已知像素（或图像块）预测当前像素的值，再对预测误差进行量化、编码和传输。,帧内预测,75,PPT课件,二、图像压缩编码1.概率匹配编码：帧内预测75PPT课件,3.,函数变换编码,（,1,）定义：指将通常在空间域表示的信号变换到其他正交矢量构成的一个变换域中表示，并对变换后的信号进行压缩编码。,（,2,）原理图,（,3,）常用的正交变换有傅里叶变换、沃尔什变换、,离散余弦变换,、小波变换等。,76,PPT课件,3.函数变换编码（1）定义：指将通常在空间域表示的信号变换到,（,4,）离散余弦变换（,DCT,）,定义：,是实数域的正交变换，,被认为是对语音和图像信号压缩处理的准最佳变换。经,DCT,处理后，图像能量集中在少数系数上，其余大部分系数都为,0,。,DCT,已成为,H.261,、,JPEG,、,MPEG,等国际标准的主要环节。,一维,DCT,的计算公式：设为,N,个信号样点，为其变换值，有,77,PPT课件,（4）离散余弦变换（DCT）定义：是实数域的正交变换，被认为,二维离散余弦变换,78,PPT课件,二维离散余弦变换78PPT课件,举例：图像的离散余弦变换,由,DCT,域图像我们能够了解图像主要包含低频成份,DCT,域图像,空间域图像,79,PPT课件,举例：图像的离散余弦变换由DCT域图像我们能够了解图像主要包,（,5,）,DCT,举例：,JPEG,图像压缩算法,JPEG,是有损压缩算法,JPEG,核心是“离散余弦变换,(Discrete Cosine Transform,DCT)”,JPEG,压缩算法的基本步骤为：,a,、离散余弦变换,DCT Transformation,b,、系数量化,Coefficient Quantization,c,、无损压缩,Lossless Compression,80,PPT课件,（5）DCT举例： JPEG图像压缩算法JPEG 是有损压缩,b.,量化,Quantization,使用量化矩阵（,Quantization Matrix,）来实现量化。,量化公式为：,量化后的值,( i, j ) = ROUND( DCT(i, j) /,量子,(i, j) ),逆量化公式为：,DCT(i, j) =,量化后的值,( i, j ) *,量子,(i, j),量化是,JPEG,算法中损失图像精度的根源，也是产生压缩效果的源泉,81,PPT课件,b.量化 Quantization使用量化矩阵（Quanti,量化表,Quantum Table,（,JPEG,标准）,亮度量化值表色度量化值表,82,PPT课件,量化表Quantum Table（JPEG标准）亮度量化值表,一个真实的编码和解码过程,83,PPT课件,一个真实的编码和解码过程83PPT课件,c.Zig-Zag,编码,(0,0)-(0,1)-(1, 0)-(2,0)-,将量化的矩阵按,Zig-Zag,顺序排列,64,个变换系数中，,DC,系数位于左上角，称直流分量，它是,64,个图像采样值的平均值。其余,63,个系数均为,AC,分量。相邻的,88,块之间的,DC,系数有较强的相关性，因此,JPEG,中对,DC,系数采用,DPCM,编码，即对相邻块之间的,DC,系数的差值进行编码。,63,个,AC,系数在,JPEG,算法中采用行程编码，并建议在,88,矩阵中按照,Z,字形的次序进行，这样可增加零的连续次数，系数编码后都采用统一的格式表示。,可以使用,Huffman,编码、算术编码或熵编码等方法,84,PPT课件,c.Zig-Zag编码(0,0)-(0,1)-(1, 0,1.JPEG,2.MPEG-1,3.MPEG-2,4.MPEG-4,5.MPEG-7,2.3.3,图像压缩编码标准,85,PPT课件,1.JPEG2.3.3 图像压缩编码标准85PPT课件,1.JPEG,标准,JPEG,是一个适用范围很广的,静态图像数据压缩标准,，不仅适用于静止图像的压缩，也常常被用于电视图像序列的帧内图像压缩编码。,目前,JPEG,专家组开发了两种基本的压缩算法：,一种是采用以离散余弦变换,DCT,为基础的有损压缩算法；另一种是采用以预测技术为基础的无损压缩算法。,使用有损压缩算法时，在压缩比为,25:1,的情况下，压缩后还原得到的图像和原始图像相比较，非图像专家难以找到它们之间的区别，因此得到了广泛的应用。例如在,VCD,和,DVD-Video,电视图像压缩技术中，就使用,JPEG,的有损压缩算法来取消空间方向上的冗余数据。,86,PPT课件,1.JPEG标准 JPEG是一个适用范围很广的静态图,2.MPEG-1,MPEG-1,标准（,ISO/IEC11172,）于制定于,1992,年，,1993,年,8,月公布，用于多媒体和广播电视，这种编码一般可以以,1.5Mbps,左右的数据传输率传送数字存储媒体运动图像及其伴音。,MPEG-1,的压缩率相当高，例如它可以把,221Mbit/,秒的,NTSC,图像压缩到,1.2Mbit/,秒，压缩率为,200:1,。,MPEG-1,的应用领域包括：光盘、数字音频磁带（,DAT,）、磁带设备以及通信网络（如,ISDN,和局域网等）。其典型的应用是,VCD,，,99%,的,VCD,都是用,MPEG-1,格式压缩的，,87,PPT课件,2.MPEG-1 MPEG-1标准（ISO/IEC11172,3.MPEG-2,标准,MPEG-2,标准,MPEG,工作组制定的第二个国际标准，标准号是,ISO/IEC 13818,。它是一个直接与数字电视广播有关的高质量图像和声音编码标准。特别适用于广播级的数字电视的编码和传送，被认定为,SDTV,和,HDTV,的编码标准和,MPEG-1,相比增加了隔行扫描电视的编码，提供了位速率的可变性能（,scalability,）功能。,MPEG-2,要达到的最基本目标是：位速率为,4Mb/s,9Mb/s,，最高达,15Mb/s,。,MPEG-2,在系统和传送方面作了更加详细的规定和进一步的完善。,MPEG-2,是针对,3,10Mbps,的数据传输率制定的的运动图像及其伴音编码的国际标准。,88,PPT课件,3.MPEG-2标准MPEG-2标准MPEG工作组制定的第二,MPEG-4,是针对低速率（,64kb/s,）的视频压缩编码标准，同时还注重基于视频和音频对象的交互性。,主要应用于视像电话,(Video Phone),，视像电子邮件,(Video Email),和电子新闻,(Electronic News),等，其传输速率要求较低，在,4800-64000bits/sec,之间，分辨率为,176X144,。,MPEG-4,利用很窄的带宽，通过帧重建技术，压缩和传输数据，以求以最少的数据获得最佳的图像质量。,4.MPEG-4,标准,89,PPT课件,MPEG-4是针对低速率（64kb/s）的视频压,5.MPEG-7,MPEG-7,标准于,1998,年,10,月提出，,2001,年完成并公布。,MPEG-7,也称为多媒体内容描述接口,（,Multimedia Content Description Interface,），目的是如何对音像数据进行基于内容的检索。,MPEG-7,的应用领域包括：数字图书馆（,Digital Library,），如图像目录、音乐词典等；多媒体目录服务（,Multimedia Directory Services,）；广播媒体的选择等。,MPEG-7,潜在应用领域还包括：教育、娱乐、新闻、旅游、医疗、购物等。,90,PPT课件,5.MPEG-7 MPEG-7标准于1998年10月提出，2,第三章总结,自适应差值脉冲调制,（,1,）差分脉冲编码调制原理和方框图，差值信号、预测信号、重建信号的含义，差分脉冲编码调制的编码增益；,（,2,）线性预测原理，极点预测和零点预测的基本概念和物理意义；,（,3,）自适应预测和自适应量化的基本概念和物理意义,子带编码,（,1,）子带编码原理；,（,2,）子带传输速率的计算,91,PPT课件,第三章总结自适应差值脉冲调制91PPT课件,参数编码,语音信号产生模型；线性预测声码器的基本原理；,图像编码,理解图像信号及其数字化；掌握离散余弦变换；了解图像压缩标准,92,PPT课件,参数编码92PPT课件,作业,DPCM/ADPCM/SBC/LPC,声码器原理方框图，包括发送端和接收端,93,PPT课件,作业DPCM/ADPCM/SBC/LPC声码器原理方框图，包,1,、已知一阶固定的,DPCM,系统，其预测系数,h,1,=1,，归一化相关系数,p,1,定义为：,其中为相关系数，求该系统的预测增益,G,p,。,2,、上题中若取一阶预测系数,h,1,=h,1opt,，试求,G,popt,下周五交上！,94,PPT课件,1、已知一阶固定的DPCM系统，其预测系数h1=1，归一化相,

展开阅读全文

第二章语音信号的压缩编码课件

最新文档