第3章多媒体数据压缩编码技术1

资源描述

我们我们,我们,我们,我们,第四级,第五级,*,*,多媒体技术,电子教学课件,第3章,9/30/2024,1,第3章多媒体数据压缩编码技术,3.1 多媒体数据压缩编码的重要性,3.2 预测编码技术,3.3 哈夫曼编码技术,3.4 行程游程RLE编码技术,3.5 静态图像压缩编码国际标准JPEG,3.6 运动图像压缩编码国际标准MPEG,9/30/2024,2,第3章多媒体数据压缩编码技术,3.1 多媒体数据压缩编码的重要性,3.1.1 数据冗余类型,3.1.2 数据压缩技术的分类,9/30/2024,3,第3章多媒体数据压缩编码技术,3.1 媒体数据压缩编码的重要性,信息时代的重要特征是信息的数字化。,早期的计算机系统采用模拟方式表示信息，但存在着明显的缺点：, 经常会产生噪音和信号丧失，并且在复制过程中逐步积累噪音和误差。, 模拟信号不适合数字计算机加工处理。,9/30/2024,4,3.1 媒体数据压缩编码的重要性,数字化后未经压缩的视频和音频等媒体信息的数据量是非常大的,1. 图像数据量的大小可用下面的公式来计算：,图像数据量图像的总像素色彩深度8 单位为Byte，简写为B 例如，一幅640480、24位bit真彩色的图像，其文件大小为：64048024 8 921.6KB,9/30/2024,5,3.1 媒体数据压缩编码的重要性,2.,双通道立体声激光唱盘，采用脉冲码调制采样，采样频率为44.1KHz，采样精度16位，其一秒钟时间内的采样数据量为：,44.110001628176.4 KB,一个650MB的CDROM，大约可存1小时的音乐。,9/30/2024,6,3.1 媒体数据压缩编码的重要性,3. 对动态图形和视频图像。例如对于彩色电视信号，设代表光强Y的带宽为4.2MHz、色彩I为1.5MHz和色饱和度Q为0.5MHz，采样频率2倍原始信号频率，各分量均被数字量化为8位，从而1秒钟电视信号的数据量为：,4.21.50.5281000000812.4 MB,9/30/2024,7,3.1 媒体数据压缩编码的重要性,容量为650MB的CDROM仅能存1分钟的原始电视数据。假设为高清晰度电视HDTV其1秒钟数据量约为150MB1.2Gbps8，一张CDROM还存不下5秒钟的HDTV图像。,巨大数字化信息的数据量对计算机存储资源和网络带宽有很高的要求，解决的方法就是要对视、音频的数据进行大量的压缩。播放时，传输少量被压缩的数据，接收后再对数据进行解压缩并复原。,9/30/2024,8,3.1.1 数据冗余类型,1. 空间冗余,基于离散像素采样来表示物体颜色的方式通常没有利用景物外表颜色的这种空间相关性，这些相关性的光成像结构在数字化图像中就表现为空间冗余。我们可以通过改变物体外表颜色的像素存储方式来利用空间相关性，到达减少数据量的目的。,9/30/2024,9,3.1.1,数据冗余类型,2. 时间冗余,时间冗余反映在图像序列中的相邻帧图像电视图像、动画之间有较大的相关性，一组连续画面中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，把一帧图像中的某物体或场景可以由其他帧图像中的物体或场景进行处理后重构出来，可以大大减少时间冗余。,9/30/2024,10,3.1.1,数据冗余类型,3. 结构冗余,有些图像具有较强的相似性的纹理结构，例如布纹图像和草席图像，方格状的地板图案等，我们称此为结构冗余。,4. 知识冗余,有许多图像的理解与某些根底知识有相当大的相关性，这类规律性的结构可由先验知识和背景知识得到，我们称此类冗余为知识冗余。根据已有的知识，我们可以构造图像物体的根本模型，并创立图像库。,9/30/2024,11,3.1.1,数据冗余类型,5. 视觉冗余,人的接收系统如视觉系统和听觉系统是有一定限度的，人眼并不能觉察图像场的所有变化，如人类视觉系统分辨能力约为64灰度等级，而一般图像量化采用256灰度等级，这类冗余我们称为视觉冗余。,6. 听觉冗余,人耳的敏感性不能觉察所有频率的变化，存在听觉冗余。,9/30/2024,12,3.1.2 数据压缩技术的分类,根据多媒体数据冗余类型的不同，解码后数据与原始数据是否完全一致、质量有无损失来进行分类，压缩方法可被分为有失真编码和无失真编码两大类。,无失真压缩法也称无损压缩，无失真压缩的特点是压缩比较小，大约在2l至5l之间，主要用于文本数据、程序代码和某些要求严格不丧失信息的环境中，常用的无失真压缩编码有如哈夫曼编码等。,9/30/2024,13,3.1.2 数据压缩技术的分类,有失真压缩法也称有损压缩，有失真压缩法的冗余压缩取决于初始信号的类型、前后的相关性、信号的语义内容等，压缩比可以从几到几百倍，常用的有失真压缩编码技术有预测编码、变换编码、模型编码、混合编码方法等。主要用于压缩图像、声音等信息。,9/30/2024,14,常用的图像和视频压缩方法如图3-1所示：,图像和视频压缩方法,哈夫曼编码,行程编码,算术编码,LZW编码,DCT编码,小波变换,子带编码,无失真压缩,有失真压缩,预测编码,变换编码,模型编码,运动补偿,混合编码,分形编码,JPEG,MPEG,H. 261,3.1.2 数据压缩技术的分类,9/30/2024,15,3.2 预测编码技术,根据离散信号之间存在着一定的相关性的特点，利用图像像素的以往样本值前面一个或几个点的数据对于新样本值下一个点的数据进行预测，然后将样本的实际值与其预测值相减得到一个误差值(较小)，这样可以用比较少的数码进行编码得到较大的数据压缩结果，到达压缩数据的目的，因此预测编码技术是一种有失真编码方法。,9/30/2024,16,最常用的是差值脉冲编码调制法，简称为DPCM。,图3-2所示的是DPCM编、解码系统原理图,传输信道,输入,预测器,量化器,编码器,解码器,预测器,X,n,e,n,X,n,e,n,输出,X,n,X,n,e,n,X,n,3.2 预测编码技术,9/30/2024,17,3.2 预测编码技术,设xn为tn时刻的亮度取样值，预测器根据tn时刻之前的样本值x1，x2，xn-1对xn作预测，得到预测值xn，xn 与xn之间的误差为：,enxnxn 31,接收端恢复的输出信号为xn是xn的近似值，两者的误差是：,xnxnxnxn十enxn十enenen 32,9/30/2024,18,3.2 预测编码技术,在预测编码中，量化器的量化对像是预测误差,e,n,e,n分布在零值附近，正负两边的分布一般是对称的，图3-3 预测误差分布特性示意图。,概率,预测误差,图3-3 预测误差分布示意图,9/30/2024,19,量化输出,输入电平,非均匀量化间隔,非均匀量化器,9/30/2024,20,3.2 预测编码技术,非均匀量化器对于具有相同的输入信号动态范围、相同的图像主观评价质量下，输出的比特数较低。,预测编码系统的缺点：,预测误差的量化是造成图像质量下降的主要原因，比方在图像边界斜率过载，表现为图像轮廓变模糊；因最小量化电平不够小量化位数不够高，使图像灰度缓变区产生颗粒噪声。,9/30/2024,21,3.3,哈夫曼编码技术,假设一个信息源能产生的事件序列中的事件取自一个有限事件集，事件集S中的任一事件Si发生的概率为P(Si)都相等，即P(Si) 1/S，那么其所能携带的信息量I(Si)定义为: I(Si)log2 1/S log2 P(Si),33 这里P(Si)是信息源产生的事件为Si的概率。等式右边加一负号的目的是保证I(Si的数值不为负值。定义中用2为底的对数，并规定信息量I(Si)的计量单位为比特bit。,9/30/2024,22,3.3,哈夫曼编码技术,如果一个信息源发出的是由8个二值数0，1表示的组合信息。如果这种组合是等概率的，即P(Si) 1/256，i0，1，2，255，那么此8个数字提供的信息量按33式计算：,I(Si)log2 1/256 log2 1 十 log2256 8bit 34,组合的总数是256种可能，每一种可能的组合为8比特。如果上述256种可能组合中是非等概率的，可以证明信息量I(Si)将小于8bit的。,9/30/2024,23,3.3,哈夫曼编码技术,离散无记忆不受其前面事件出现与否的影响信息源中一个事件所携带的平均信息量HS定义为： 35,平均信息量又称为信息熵，熵实际上是信源事件集中各事件所携带的信息量的数学期望。熵值的单位是比特。数据压缩的另一个根本途径那么是去去除联合信源中各信源间的相关性。,9/30/2024,24,3.3,哈夫曼编码技术,哈夫曼编码利用了以上原理，属于一种变字长码，把信息源事件按概率大小顺序排列，对出现概率大的信息源事件赋予短码字，而对于概率小的信息源事件赋予长码，只要码字长度按照信息出现的概率大小逆顺序排列，可通过数学证明这一结论：平均码字长度一定小于其它任何事件顺序的排列方式。,9/30/2024,25,3.3,哈夫曼编码技术,哈夫曼编码一般过程如下：,1. 把事件消息按出现的概率由大到小排成一个序列。如P(1)P(2)P(3)P(Sm-1)P(Sm) ，即将信息源事件按概率递减顺序排列。,2. 把其中两个最小的概率P(Sm-1) ，P(Sm)挑出来，且将事件“1赋给其中最小的，即P(Sm)1；事件“0赋给另一稍大的即P(Sm-1) 0。,9/30/2024,26,3.3,哈夫曼编码技术,3. 把两个最小概率相加作为新事件的概率，即求出P(Sm-1) ，P(Sm)之和P(Si): P(Si) = P(Sm-1) 十P(Sm)设P(Si)是对应于一个新的消息的概率。,4. 将P(Si)与上面未处理的m2个消息P(Sm-2的概率重新由大到小再排列，构成一个新的概率序列。,5. 重复步骤2，3，4，在每次合并信息源时，将被合并的信源分别赋“0和“1直到所有m个事件的概率均已全部合并处理为止。,9/30/2024,27,3.3,哈夫曼编码技术,6. 寻找从每一个信息源事件到概率总和为1处的路径，对每一信息源事件写出“1、“0序列从树根到信息源事件节点作为码字。Huffman编码的平均码字长度可以用以下公式求出：,36,这里的ni ，为第i个消息事件的码字长度，P(Si)为第i个消息出现的概率。举一例子来说明这一编码过程。表3-1 信息源消息事件及其对应的概率,9/30/2024,28,3.3,哈夫曼编码技术,图3-5 哈夫曼编码全过程,：,F,9/30/2024,29,3.3,哈夫曼编码技术,根据哈夫曼的编码规那么，我们得到如表3-2所示：,由于8个消息事件A，B，C，H的每个概率为，那么哈夫曼码的平均长度L可按公式3-6) 计算为：L10.4十30.180.1040.10十0.06十0.07十50.05十0.042.61比特,9/30/2024,30,3.3,哈夫曼编码技术,图像的熵HS可按公式3-5) 计算为：,定义编码效率为熵值HS与平均码长L的比值，即：,编码效率 3-7,=2.55/2.61 97.8 % 哈夫曼编码有它的缺乏之处：必须先得到信息源码元消息的统计概率，才能进行编码。折中的方法是根据经验值人为地给出Huffman码表，但这样的编码无法到达最正确。,9/30/2024,31,3.4 行程游程RLE 编码技术,行程编码主要思路是用编码器不断比较信息源符号相邻元素值的变化幅度，一旦发现有明显的变化，就开始一个行程。编码器检测每一个行程起点位置开始的屡次重复的比特或者字符序列，然后将一个相同值的连续串出现次数作为行程长度，并将行程长度转换成代码，再取用信息源符号的一个代表值作为代码，这种编码称为行程编码，或称游程编码，常用RLE表示。,9/30/2024,32,对一幅两维图像Fi，j作水平扫描后得到的局部像素的像素值,9/30/2024,33,3.4 行程游程RLE 编码技术,用RLE对这一行数据编码后得到的码字表：,RLE编码压缩编码技术尤其适用于：,计算机生成的图形图像和黑白二值图像的编码，解压缩速度很快。RLE的压缩率的大小取决于图像本身的特点，可以得到较大的压缩比。对复杂的图像不适宜用RLE进行编码。,9/30/2024,34,3.5 静态图像压缩编码的国际标准-,JPEG,静态图像压缩编码JPEG概况,3.5.1 JPEG压缩编码的根本系统,1 数据块准备,2 离散余弦正变换DCT,3 量化,4 DCT系数Z形扫描,5 DC系数编码,6 AC系数编码,3.5.2 JPEG压缩编码的扩展系统,9/30/2024,35,3.5 静态图像压缩编码的国际标准-,JPEG,JPEG是国际上彩色、灰度、静止图像的第一个国际标准。用来在低分辨率到高分辨率的较宽范围内支持较高的图像分辨率和量化精度。它不仅适用于黑白、彩色照片和印刷图片等静止图像的压缩，而且扩大到了彩色、会议、新闻图片的传送上，以及电视图像序列的帧内图像的压缩编码也常采用JPEG压缩标准。,9/30/2024,36,3.5 静态图像压缩编码的国际标准-,JPEG,变换编码的根本思路：,1编码时略去某些能量很小的高频分量以降低码率。,2变换编码还可以根据人眼对不同频率分量的敏感程度而对不同系数采用不同的量化台阶，以进一步提高压缩比。,JPEG开发的压缩编码算法有三种工作方式：,1根本系统单次扫描。,2扩展系统常采用累进编码或分层编码方式。,3无损压缩编码。,9/30/2024,37,3.5.1 JPEG 压缩编码的根本系统,下面我们讨论一个基于离散余弦正变换,DCT,的有失真,JPEG,编解码的工作原理，图3-7是基于,DCT,的,JPEG,编码的过程框图。,9/30/2024,38,1.,数据块准备,块准备将一帧幅图像分成88的数据块。对于彩色图像，可以看作多分量Y亮度信号分量和U和V色度信号分量进行压缩处理。,假设图像的大小为480行，每一行有640个像素。并假设按4ll取样格式，即四个亮度分量，一个色差分量U，一个色差分量V，那么亮度分量就是一个640480的数值矩阵，色差分量是一个320240的数值矩阵。,块准备必须划分出4800个6404808亮度块和两份1200个3202408色差块，共计7200个数据块。,9/30/2024,39,2.,离散余弦正变换 DCT,假设采样精度为P位，采样数据在范围0，2P1，那么变成在范围2P1，2P1l内，以此作为DCT正变换的输入。在解码器的输出端经IDCT反变换后，得到一系列 88的图像数据块，需将其数值范围由2P1，2P1l再变回到0，2P 1 范围内的无符号整数，才能重构图像。,2. 离散余弦正变换DCT,离散变换可以用矩阵表示。假设信源序列为一个n行k列的矩阵X，变换矩阵为T，经过某种变换后得到输出序列Y为： YTX,9/30/2024,40,2.,离散余弦正变换 DCT,如果所采用的变换是正交变换，那么T为正交矩阵，即有： T-1TI 其中I是单位矩阵。在接收端，进行变换： XT-1Y 那么可以恢复源信号序列X。 JPEG将88大小的子块图像进行离散余弦DCT变换。,9/30/2024,41,2.,离散余弦正变换 DCT,下面是离散余弦正变换,DCT,和它的,IDCT,逆变换的数学表达式。,DCT变换为,9/30/2024,42,2.,离散余弦正变换 DCT,将每个数据块的数据从空间域变换到频率域，输出64个DCT变换系数。如图3-8所示，64个像素变换为64个系数。,a像素块 bDCT系数阵列,横向频率增加方向U,纵向频率增加方向,V,X,Y,9/30/2024,43,2.,离散余弦正变换 DCT,图3-9为二维离散余弦变换的示意图。,幅度,x,y,af（x，y）,DC系数,DCT系数,Fx,Fy,cg（Fx，Fy）,9/30/2024,44,3.,量化,量化是一种不可逆的、有失真的过程，在基于DCT的编码器中，量化是引起信息丧失的主要原因。,对DCT系数进行量化有两个作用：, 降低系数的幅值。, 增加系数中值为0的项数。,9/30/2024,45,3.,量化,表3-4缺省的亮度Y分量量化表,9/30/2024,46,3.,量化,表3-5缺省的色度U、V分量量化表。,9/30/2024,47,3.,量化,JPEG的,量化器的公式可定义为：,其中：,DCT变换系数C(u,v) ；,Q(u,v)是量化器步长，它是量化表的元素。,9/30/2024,48,4.,DCT,系数Z形扫描,图3-10 Z形扫描顺序,其一维数组元素的位置顺序如图3-10。,ZZ0C0，0，ZZ1C0，l，ZZ2Cl，0，ZZ63C7，7。编码顺序依据 ZZ的序号。,0 1 5 6 14 15 27 28,2 4 7 13 16 26 29 42,3 8 12 17 25 30 41 43,9 11 18 24 31 40 44 53,10 19 23 32 39 45 52 54,20 22 33 38 46 51 55 60,21 34 37 47 50 56 59 61,35 36 48 49 57 58 62 63,9/30/2024,49,5.,DC,系数编码,对相邻块之间的DC系数的差值DIFFDiDi1进行编码。,DIFFZZ0PRED进行无失真编码。,因输入数据已偏移到零电平，已先行减去了2P1，在扫描起点初始化时刻，规定PRED0。,Block,i1,Block,i,图 3-11 DC系数的差值DIFFD,i,D,i1,D,i,D,i1,9/30/2024,50,5.,DC,系数编码,假设后面的ZZ0的动态范围为10231023，那么DIFF的动态范围可达20472047，这样每个值赋予一个码字那么码表过于庞大。,因此，JPEG对码表进行简化，采用“前缀码SSSS 尾码。,前缀码表示尾码的有效位数设为B位，尾码那么直接采用B位自然二进制码。,8位精度的SSSS值的范围为011(12项)，其码表可参见表3-6 原始图像分量为8位精度时DC系数差值的典型哈夫曼编码表所示。,9/30/2024,51,5.,DC,系数编码,对于尾码为DIFF的B位：,当DIFF0，用原码,尾码的最高位是“l；,当DIFF0，用反码,尾码的最高位是“0；,如设DIFF12，SSSS4，其前缀码字为“101，4位尾码为 “1100，从而DIFF12的编码为“1011100。,如果DIFF12，4位尾码为12反码“0011，从而DIFF12的编码为“1010011。解码时，由前缀码“101知尾码有4位；假设码字是“1100，因其最高位为“1，立即可得DIFF12；假设码字是“0011，那么因其最高位为“0，知DIFF应为负数，尾码是个反码，取反后可得实际值DIFF12。,9/30/2024,52,6. AC 系数的编码,Z形扫描将二维量化系数矩阵转换成一维数组ZZ中的“零游程/非零值。,假设最后一个“零游程/非零值中只有零游程ZRL，那么直接传块结束码字“EOB 结束本块。,“零游程/非零值编码表示为“NNNN/SSSS尾码。,其中：4位“NNNN为相对于前一个非零值的零游程计数，表示ZRL015；,如果ZRL15，那么用“NNNN/SSSS“1111/0000表示ZRL16，再对ZRLZRL16继续编码。,9/30/2024,53,6. AC 系数的编码,对于根本系统，SSSS将不超过10，可参见,表3-7 AC系数的尾码位数赋值表。,前缀码的二维哈夫曼码表的大小为 NNNNSSSS2162；亮度和色差各有自己的码表分别见表3-8 亮度AC系数码表和,表3-9 色差AC系数码表。,9/30/2024,54,6. AC 系数的编码,假设ZZk为非零AC系数，那么其编码步骤与DC系数的类似：, 根据ZZk的幅度范围由表3-7查出尾码的位数SSSSB。, 由ZRL计数值NNNN以及SSSS从表3-8或表3-9中查出前缀码字。, 按以下规那么直接写出尾码的码字，当ZZk0，用原码，当ZZk0，用反码。,9/30/2024,55,6. AC 系数的编码,现以一实例说明其编码过程。设某亮度图像块的量化系数矩阵按Z形扫描得到：,k 0 1 2 3 4 5 6 7,ZZk 12 5 2 0 2 0 0 0,k 8 930 31 3263,ZZk 1 0 1 0,假设其前一亮度块的量化DC系数为12。,9/30/2024,56,6. AC 系数的编码,那么编码过程如下：,第一步，DC系数编码，因为DIFFZZ0PRED12120，由表3-6直接查得其前缀码“00。,第二步，AC系数编码。第1个非零值ZZ15，它与ZZ0之间无零系数，故NNNN0，因“5落入表3-7中的第3组，故 SSSS3，而NNNN/SSSS0/3,由表3-8查得为“100，从而 ZZ15的编码为“100101。,第2个非零值ZZ22，它与ZZ1之间无零系数，故NNNN0，因“2落入表3-7中的第2组，故 SSSS2，而NNNN/SSSS0/2,由表3-8查得为“01，而2的反码为“01。从而ZZ22的编码为“0101。,9/30/2024,57,6. AC 系数的编码,第3个ZZ42，NNNN/SSSS1/2，查表3-8得码字“ 11011，而2的原码为10，所以取ZZ3ZZ4的编码为“1101110。,第4个ZZ81，NNNN/SSSS3/1，查表3-8得码字“111010，而1的原码为1，所以取ZZ5ZZ8的编码为“1110101。,第5个ZZ311，由于 NNNN30912215，故先编码ZRL16，由表 3-8查得F/016NNNN2216615，故再编码NNNN/SSSS6/1，查出其码字为“1111011，而1的反码为0，从而ZZ9ZZ31,9/30/2024,58,6. AC 系数的编码,此后无非零值，直接用一个“EOB0/0结柬本块，查表3-7得其码字为“1010。,综合以上两个步骤，可知该图像块的编码位流为：,共用了49位，而原始图像块要用 888512位表示，故压缩比为5124910.451。,9/30/2024,59,3.5.1 JPEG 压缩编码的根本系统,对于中等复杂程度的彩色图像，其压缩比与恢复图像的质量大致如表3-10所示。,表3-10压缩效果与恢复图像质量的关系,9/30/2024,60,3.5.1 JPEG 压缩编码的根本系统,顺序编码运行方式,9/30/2024,61,3.5.2 JPEG,压缩编码的扩展系统,1. 基于DCT的累进编码运行方式,累进编码方式要扫描屡次。,9/30/2024,62,3.5.2 JPEG,压缩编码的扩展系统,2. 分层编码运行方式,水平方向和垂直方向分辨率以2的倍数因子下降降低原始图像的空间分辨率，导出假设干低分辨率的原图像，分层后再采用JPEG的压缩编码方法进行编码，随后以上重复步骤，直到图像到达完整的分辨率编码为止。,9/30/2024,63,3.5.2 JPEG 压缩编码的扩展系统,3. 无损压缩预测编码运行方式,源图像,数据,表说明,预测器,熵编码器,压缩后,图像数据,9/30/2024,64,无损压缩预测编码运行方式,DPCM编码简单，易于用硬件实现。由于是无失真编码，解码后的图像质量很高。,Px,9/30/2024,65,3.6 运动图像压缩编码的国际标准MPEG,运动图像压缩编码MPEG,概况,3.6.1 MPEG 标准简介,3.6.2 帧间编码技术,3.6.3 运动补偿技术,3.6.4,MPEG视频压缩数据流结构,3.6.5 MPEG音频,9/30/2024,66,3.6 运动图像压缩编码的国际标准MPEG,MPEG专家组工作将整个过程分为三步：, 要求,提出要求有双重的目的：目标, 竞争的原那么。, 竟争,提出了14个不同的方案。, 集中,测试和评价，并综合出一个最正确方案。,9/30/2024,67,3.6.1,MPEG,标准简介,1. MPEG1标准,MPEG1的标准名称为“动态图像和伴音的编码用于速率小于每秒约1.5Mbps的数字存储媒体。,MPEG1的最大压缩比可达约1200。,MPEG1标准有3个局部组成：,MPEG1视频Video,MPEG1音频Audio,MPEG1系统System,9/30/2024,68,1. MPEG1,标准,设计目标是把每秒30帧、亮度信号的分辨率为360240，色度信号分辨率为180120，传送压缩成数据率为1.2Mbps的编码图像。,MPEG1电视图像的压缩算法采用两种根本压缩技术：, 为减少时间冗余度，采用1616个像素组成的图像块的运动补偿技术。, 为了减少空间冗余度，采用88图像化的DCT变换技术。,9/30/2024,69,1. MPEG1,标准,声音压缩编码技术支持高压缩的音频数据流，其采样率为48，44.l或22KHz，量化精度为16位的声音压缩。,支持两个声道，可设置成单声道mono、双声道dual或立体声stereo。采用MPEG1算法可以把位速率降到 0.192 Mbps。,MPEG1系统采用多路复合技术，把数字电视图像和声音复合成单一数据位流，MPEG1的数据位流分成内外两层，外层为系统层，内层为压缩层。,9/30/2024,70,2. MPEG2,标准,MPEG2标准称为“活动图像及有关声音信息的通用编码标准。,设计目标是把以10Mbps速度传送每秒30帧、分辨率为720572高分辨率的播送级视频图像，压缩后的传送数据率为315Mbps。,MPEG2标准是HDTV、DVD以及新型数字式交互有线网所采用的数字视频压缩标准。,MPEG2标准是MPEG1标准的扩充、丰富和完善，并与MPEG1标准相兼容。,9/30/2024,71,2. MPEG2,标准,MPEG2标准主要分为四局部：,第一局部：系统。第二局部：视频。,第三局部：音频。第四局部：一致性测试。,MPEG2标准使计算机处理全彩色、全屏幕、全动态的视频图像，同时也能使有线、无线、CDROM等传输和存储介质有效地传送视频图像，并且具有CD的音质，使多媒体技术与通信和播送等技术结合起来。,9/30/2024,72,3. MPEG4,标准,用来支持低比特率下的多媒体通信，还支持用于通信、访问和数字视听数据处理的新方法。注重多媒体系统的交互性和灵活性，以最少量的数据、极低的音频/视频压缩码率来显示建立精确的画面，到达具有高效编码、高效存储与传播以及可交互操作的特性。,9/30/2024,73,4. MPEG7,标准,正式名称为多媒体内容描述接口。,MPEG7标准只规定信息内容描述格式，而不规定如何从原始的多媒体资料中抽取内容描述和查询、检索方法。MPEG7标准不针对特定的应用领域，而是尽可能支持广泛的应用领域。,主要用途：在数字图书馆、多媒体目录效劳、图像分析、音乐词典、教育、多媒体编辑、多媒体业务引导等多个领域。,9/30/2024,74,4. MPEG7,标准,视频压缩算法用到了三项根本技术:, 帧间编码技术和基于块的运动补偿技术。, 空间压缩也称为帧内压缩技术。, 熵编码，使用Huffman编码技术。,MPEG标准所用的编码模型与JPEG的编码模型类似，分为5个阶段：,帧间编码和运动补偿、变换编码、量化、直流分量DC及交流分量AC的编码和熵编码。,9/30/2024,75,3.6.2 帧间编码技术,利用的时间相关性可进一步消除视频其相邻帧之间具有冗余信息，提高压缩比。,将图像分成三种类型：,1. 参考帧I,以自身图像的相关性进行压缩处理，必须要传送。,2. 预测帧P,用前面的参考帧或预测帧作为参照图像信息进行预测编码，并可作为下一个预测帧B帧图像或P帧图像的参照图像信息。但因此可能引起预测误差。,9/30/2024,76,3.6.2 帧间编码技术,3. 双向预测帧B,又称插补帧，在预测时，既可以使用前面或后面的视频帧I参考帧，P预测帧进行双向预测，也可以同时使用前后两个视频帧进行预测编码，但本身不能作为下一个预测帧的参照图像信息。,在编码时，先对参考帧进行变换编码，然后对预测帧进行编码，再对两者之间的双向预测帧进行编码，这个过程对随后的下一个预测帧和双向预测帧重复，直到完成所有帧的编码为止。,9/30/2024,77,3.6.2 帧间编码技术,采用下述四种预测技术：, 帧内编码, 前向预测, 后向预测双向预测,图3-12显示一个典型的视频图像序列次序,。,I B B P B B P B B P B B P B B I B B,1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18,I帧和P帧间有两个B帧,每十五帧有一幅I帧图像0.5秒,9/30/2024,78,3.6.2 帧间编码技术,编码器的输出,视频图像序列排列顺序。,1 4 2 3 7 5 6 10 8,I P B B P B B P B,9 13 11 12 16 14 15,B P B B I B B,发送端编码器的输出到接收端解码器的输入端，经解码器的输出，又恢复为图3-12编码器输入顺序显示。,9/30/2024,79,3.6.3 运动补偿技术,运动矢量选择二维1616像素块作为一个的运动矢量处理。,运动矢量又称为宏块，它有不同的类型：,可以是I帧内型，F前向预测型、B后向预测型A平均值(双向预测型。,概念：,当前图像可看作是前一帧图像位移后的结果，其位移的内容包括运动方向和运动幅度。运动补偿方法是跟踪画面内的运动情况并对其加以补偿后，与当前的图像宏块值相减得到预测误差，再进行编码、传送。,9/30/2024,80,3.6.3 运动补偿技术,讨论预测器计算表达式，,设前一参照帧为,I,0,，后一参照帧为,I,2,，当前帧为,I,1,的示意图。,9/30/2024,81,3.6.3 运动补偿技术,表3-13给出了,I,帧内,块、,F前向预测块、B后向预测块和A平均值块的预测器的计算表达式。,9/30/2024,82,MPEG2,视频数据流的六层结构图,图像序列头,图像组,图像组,序列尾,图像组,图像,组头,图象,I、P、B,图象,I、P、B,图像头,宏块片,宏块片,宏块,片头,宏块,宏块,1,88,2,88,3,88,4,88,5,88,6,88,88,视频序列层,图像组层,宏块片层,宏块层,Y,Cb Cr,图像层,块层,9/30/2024,83,视频数据流之间的关系图,图像组层,宏块层,88,像素,块层,宏块片层,视频序列层,图像层,9/30/2024,84,3.6.4,MPEG,视频压缩,数据流结构,1. 视频序列层：,图像序列头包含了图像宽度、高度、像素长宽比、帧率、位率、缓冲区尺寸、量化矩阵等信息。,2. 图像组层：,图像组头包含时间代码等信息，图像组中的第一个图像总是I图像帧。,3. 图像层：,由图像头及多个宏块片构成的。图像头包含该图像的编码类型及码表选择等信息。,9/30/2024,85,3.6.4,MPEG,视频压缩,数据流结构,4. 宏块片层：,宏块片由宏块片头和多个连续的宏块以及附加数据组成。,5. 宏块层：,MPEG算法中的根本编码单元。它是图像帧内的一个1616像素的亮度信息和两个88像素色差信号块组成，附加数据包括宏块的编号、宏块的编码类型、量化参数、运动矢量等信息。,9/30/2024,86,宏块结构有三种格式,411格式： 422格式：,5,4,4,6,0,1,2,3,5,7,0,1,2,3,Y Cb Cr Y Cb Cr,9/30/2024,87,宏块结构有三种格式,444格式：,0,1,2,3,4,8,6,10,5,9,7,11,Y Cb Cr,9/30/2024,88,6. 块层,MPEG算法中最小的编码单元，它包含88像素，有三类图像信息之一，亮度信号Y、色差信号U/V。,Y U V,1,2,3,4,5,6,88 88,9/30/2024,89,3.6.5 MPEG 音频,MPEG音频标准有以下特点：,1. 音频信号采样率可以是22KHz，44.1 KHz或48KHz。,2. 压缩后的比特流可以按以下3种模式之一支持单声道或双声道：,1提供给单音频通道的单声道模式。,2提供给两个独立的单音频通道的双单声道模式。,3提供给立体声通道的立体声模式。,9/30/2024,90,3.6.5 MPEG 音频,3. 3个独立的压缩层次：,1层1最简单，使用比特率384Kbps。,2层2的复杂度中等，使用比特率192Kbps左右，主要应用于数字播送的音频编码。,3层3最复杂，使用比特率64Kbps，音质好，适用于ISDN上的音频传输。,4. 编码后的比特流支持循环冗余校验CRC。,5. 还支持在比特流中携带附加信息。,9/30/2024,91,

展开阅读全文

第3章多媒体数据压缩编码技术1

最新文档