资源描述
第2章 多媒体数据压缩技术,概述: 本章主要讲述了多媒体数据的压缩技术。 1、数据压缩的基本原理和方法; 2、统计编码 3、图像压缩编码 4、数字音频压缩编码 5、数字视频压缩编码,1,2.1数据压缩的基本原理和方法,为什么要进行数据压缩? 多媒体信息包括了文本、数据、声音、动画、图形、图像以及视频等多种媒体信息。虽然经过数字化处理后其数据量是非常大的,如果不进行数据压缩处理,计算机系统就无法对它进行存储和交换。另一个原因是图像、音频和视频这些媒体具有很大的压缩潜力。因为在多媒体数据中,存在着空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余、图像区域的相同性冗余、纹理的统计冗余等。它们为数据压缩技术的应用提供了可能的条件。,2,空间冗余:相邻区域 时间冗余:相邻时间 结构冗余:相邻位置 知识冗余:知识推理 视觉冗余:边缘区域 相似性冗余:多个区域相似 听觉冗余:较弱的声音,3,2.1数据压缩的基本原理和方法,数据压缩技术的分类 (1)根据质量有无损失可分为有损失编码和无损失编码。 (2)根据数据压缩算法,可以将数据压缩技术分为统计编码、预测编码、变换编码、分析合成编码和其他编码。,4,统计编码:根据出现的概率分布 预测编码:原始信号取样,量化存储差值 PCM编码:对连续语音进行采样 量化与向量化编码:将模拟量转化数字 频段划分编码:基于频段划分处理 变换编码:对信号进行函数变换 知识编码:规则库 混合编码:两种以上编码,5,冗余压缩法(无损压缩法) 该方法在压缩时去掉部分冗余信息,而这些被丢失信息经过解压后可以完整的被恢复到压缩前的状态,是一个可逆的过程。因此,冗余压缩法不会产生数据失真,一般用于文本、数据的压缩,以保证完全的恢复原始数据。但这种方法的压缩比较小,一般在2:15:1之间。,2.1数据压缩的基本原理和方法,6,熵压缩法(有损压缩法) 该方法压缩时会丢失部分冗余信息,且这些被丢失信息不能被恢复,是一个不可逆的过程。解压后的数据存在一定程度的失真。这种压缩方法的压缩比可达几十到上百,常用于图像、声音、动态视频等数据的压缩。,2.1数据压缩的基本原理和方法,7,2.1数据压缩的基本原理和方法,数据压缩技术的性能指标 (1)压缩比 :压缩比例 (2)压缩、解压缩速度 (3)压缩质量 :感知效果,8,2.2统计编码,统计编码属于无损压缩编码,是根据信源符号出现概率的分布特性而进行的压缩编码。 其目的是在信源符号和码字之间建立明确的一一对应关系,以便在恢复时能准确地再现原信号,同时要使平均码长或码率尽量小。,9,2.2统计编码,相关概念 信息:信息是用不确定性的量度定义的。 信息量:是指从N个相等可能事件中选出一个事件所需要的信息度量或含量,也就是在辩识N个事件中特定的一个事件的过程中所需要提问“是或否”的最少次数,10,2.2统计编码,相关概念 (3) 熵:如果将信源所有可能事件的信息量进行平均,就得到了信息熵(entropy)。熵就是平均信息量。,11,2.2统计编码,如果用0和1组成的二进制数码为含有n个符号的某条信息编码,假设符号Fn在整条信息中重复出现的概率为Pn,则该符号的熵也即表示该符号所需的位数为: En = log2(Pn) 整条信息的熵,即表示整条信息所需的位数为:E = En,12,2.2统计编码,例如:对下面这条只出现了a、b、c三个字符的字符串:aabbaccbaa ,字符串长度为10,字符a、b、c分别出现了5、3、2次,则a、b、c在信息中出现的概率分别为0.5、0.3、0.2,他们的熵分别为: Ea=-log2(0.5)=1 Eb=-log2(0.3)=1.737 Ec=-log2(0.2)=2.322 E=Ea*5+Eb*3+Ec*2=14.855位,13,2.2统计编码 最佳编码定理,在变字长码中,对于出现概率大的信息符号编以短字长的码,对于出现概率小的信息符号编以长字长的码,如果码字长度严格按照符号概率的大小的相反顺序排列,则平均码字长度一定小于按任何其它符号顺序排列方式得到的码字长度。,14,2.2统计编码,Huffman 编码 步骤: (1)概率统计,得到n个不同概率的信息符号; (2)将n个信源信息符号的n个概率,按概率大小排序; (3)将n个概率中,最后两个小概率相加,这时概率个数减为n-1个; (4)将n-1个概率,按大小重新排序; (5)重复(3),将新排序后的最后两个小概率相加,相加和与其余概率再排序; (6)如此反复重复n-2次,得到只剩两个概率序列; (7)以二进制码元(0,1)赋值,构成哈夫曼码字,编码结束。,15,a1 a2 a3 a4 a5 a6 a7,0.20 0.19 0.18 0.17 0.15 0.10 0.01,10 11 000 001 010 0110 0111,信源符号,概率,Huffman码,编码过程,Huffman编码过程,16,17,图4.8 Huffman码字的构成,18,x1 x2 x3 x4 x5 x6 x7,0.35 0.20 0.15 0.10 0.10 0.06 0.04,码长,哈夫曼码,2 2 3 3 3 4 4,00 10 010 011 110 11101111,信源符号,概率,编码过程,19,码字的平均码长N按下式计算:,Pj:信源符号Xj出现的概率 Lj:编码长度,0.35 0.20 0.15 0.10 0.10 0.06 0.04,码长,2 2 3 3 3 4 4,00 10 010 011 110 11101111,概率,哈夫曼码,20,2.2统计编码,行程编码 行程编码的基本原理是:用一个符号值或串长代替具有相同值的连续符号(连续符号构成了一段连续的“行程”),使符号长度少于原始数据的长度。 例如:5555557777733322221111111,其行程编码为:(5,6)(7,5)(3,3)(2,4)(l,7)。,21,2.2统计编码,算术编码 算术编码从全序列出发,采用递推形式的连续编码。它不是将单个信源符号映射成一个码字,而是将整个输入符号序列映射为实数轴上的0,1区间内的一个间隔,其长度就等于该序列的概率,并在该间隔内选择一个代表性的二进制小数,作为实际的编码输出,使其平均码长逼近信源的熵,从而达到高效编码的目的,22,2.2统计编码,LZW编码 LZW压缩技术把数据流中复杂的数据用简单的代码来表示,并把代码和数据的对应关系建立一个转换表,又叫“字符串表”。 转换表是在压缩或解压缩过程中动态生成的表,该表只在进行压缩或解压缩过程中需要,一旦压缩和解压缩结束,该表将不再起任何作用。,23,2.3图像压缩编码及标准,图像压缩的基本方法 预测编码 预测编码是根据某一模型利用以往的样本值对于新样本进行预测,然后将样本的实际值与预测值相减得到一个误差值,对这一误差值进行编码。,24,DPCM 它是利用图像信号的相关性找出可反映信号变化特性的一个差值编码。是对模拟信号幅度抽样的差值进行量化编码的调制方式。这种方式是用已经过去的抽样值来预测当前的抽样值,对它们的差值进行编码。差值编码可以提高编码频率,这种技术已应用于模拟信号的数字通信之中。,25,ADPCM 综合了APCM的自适应特性和DPCM系统的差分特性,是一种性能比较好的波形编码。使用过去的样本值估算下一个输入样本的预测值,使实际样本值和预测值之间的差值总是最小。 优点:算法复杂度低,压缩比大、编解码延时最短 缺点:还原质量一般,26,2.3图像压缩编码及标准,图像压缩的基本方法 变换编码 变换编码不是直接对原图像信号压缩编码,而是首先将图像信号进行某种函数变换,从一种信号映射到另一个域中,产生一组变换系数,然后对这些系数量化、编码、传输。在空间上具有强相关性的信号,反映在频域上是某些特定的区域内能量常常被集中在一起,或是变换系数矩阵的分布具有规律性。可利用这些规律,在不同的频域上分配不同的量化比特数,从而达到压缩数据的目的。,27,离散余弦变化压缩 离散傅里叶变换需要进行复数运算,尽管有FFT可以提高运算速度,但在图像编码、特别是在实时处理中非常不便。离散傅里叶变换在实际的图像通信系统中很少使用,但它具有理论的指导意义。根据离散傅里叶变换的性质,使偶函数的傅里叶变换只含实的余弦项,因此构造了一种实数域的变换离散余弦变换(DCT)。通过研究发现,DCT除了具有一般的正交变换性质外,其变换阵的基向量很近似于Toeplitz矩阵的特征向量,后者体现了人类的语言、图像信号的相关特性。因此,在对语音、图像信号变换的确定的变换矩阵正交变换中,DCT变换被认为是一种准最佳变换。在近年颁布的一系列视频压缩编码的国际标准建议中,都把 DCT 作为其中的一个基本处理模块。,28,K-L变换 以矢量信号X的协方差矩阵的归一化正交特征矢量q所构成的正交矩阵Q,来对该矢量信号X做正交变换Y=QX,则称此变换为K-L变换(K-LT或KLT),K-LT是Karhunen-Love Transform的简称,,29,在模式识别和图像处理中一个主要的问题就是降维,在实际模式识别问题中,我们选择的特征经常彼此相关,在识别这些特征时,数量很多,大部分都是无用的。如果我们能减少特征的数量,即减少特征空间的维数,那么我们将以更少的存储和计算复杂度获得更高的准确性。 KL变换是一种常用的特征提取方法,在消除模式特征之间的相关性、突出差异性方面有最优的效果。,30,小波变换 小波变换是一种新的变换分析方法,它继承和发展了短时傅立叶变换局部化的思想,同时又克服了窗口大小不随频率变化等缺点,能够提供一个随频率改变的“时间-频率”窗口,是进行信号时频分析和处理的理想工具。它的主要特点是通过变换能够充分突出问题某些方面的特征,能对时间(空间)频率的局部化分析,通过伸缩平移运算对信号(函数)逐步进行多尺度细化,最终达到高频处时间细分,低频处频率细分,能自动适应时频信号分析的要求,从而可聚焦到信号的任意细节,,31,图像压缩的基本方法 分形编码 分形图像编码是目前较有发展前途的图像编码方法之一, 也是目前研究较为广泛的编码方法之一。对其研究已有近十年的历史,其间,人们发现了它所具有的许多优点:比如,它突破以往熵压缩编码的界限,在编码过程中,采用了类似描述的方法,而解码是通过迭代完成的,且具有分辨率无关的解码特性等。,32,分形图像编码的思想最早由Barnsley和Sloan引入,将原始图像表示为图像空间中一系列压缩映射的吸引子。在此基础上,Jacquin设计了第一个实用的基于方块分割的分形图像编码器,他首先将原始图像分割为值域子块和定义域子块,对于每一个值域子块,寻找一个定义域子块和仿射变换(包括几何变换、对比度放缩和亮度平移),,33,使变换后的定义域子块最佳逼近值域子块。随后Fisher等提出了四象限树编码方案,采用有效的分类技术,极大的提高了编码性能。随着几十种新算法和改进方案的问世,分形图像编码目前已形成了三个主要发展方向:加快分形的编解码速度、提高分形编码质量、分形序列图像编码。,34,2.3图像压缩编码及标准,图像压缩标准JPEG JPEG算法被确定为JPEG国际标准,它是国际上彩色、灰度、静止图像的第一个国际标准。 JPEG标准是一个适合范围广泛的通用标准。它不仅适于静图像的压缩,电视图像序列的帧内图像的压缩编码也常采用JPEG压缩标准。,35,JPEG编码的原理简化框图如下图所示:,36, 把图像分成88的块 DCT正变换 量化器 熵编码器,37,JPEG的工作原理如下图所示,38,首先把一幅图像(单色图像的灰度值或彩色图像的亮度分量、色差分量信号)分成88的块 离散余弦正变换(FDCT),39,量化(查表) 熵编码(查表) 传输或存储 解码 逆量化 离散余弦逆变换(IDCT),40,信息“熵”是信源随机变量的平均信息量;熵编码是无失真数据压缩编码,在编码过程中不丢失信息量,熵编码是建立在随机过程的统计特性基础上的。,什么是信息“熵” 和 熵编码?,41,预测编码 变换编码 熵编码,JPEG标准采用了哪些混合编码方法?,42,量化的基本原理,量化的作用是在图像质量或声音质量达到一定保真度的前提下,舍弃那些对视觉或听觉影响不大的信息。量化的过程是模拟信号到数字信号的映射。模拟量是连续量,而数字量是离散量,因此量化操作实质上是用有限的离散量代替无限的连续模拟量的多对一的映射操作。,43,量化的基本原理,量化概念主要来自于从模拟量到数字量的转换,即A/D转换,也就是通过采样把连续的模拟量离散化。量化过程预先设置一组判决电平和一组重建电平,各个判决电平覆盖一定的区间,所有判决电平将覆盖整个有效取值区间。量化时将模拟量的取样值同这些电平比较,若采样值幅度落在覆盖区间之上,则取这个量化级的代表值,称为码字。一个量化器只能取有限多个量化级,因此量化过程不可避免地存在量化误差。,44,量化器的设计要求,通常设计量化器有下述两种情况: (1)给定量化分层级数,满足量化误差最小。 (2)限定量化误差,确定分层级数,满足以尽量小的平均比特数,表示量化输出。,45,帧间预测编码(P119),帧间预测编码技术的对象是序列图象。随着大规模集成电路技术的发展,已有可能把几帧的图象存起来作实时处理,利用帧间的时间相关性进一步消除图象信号的冗余度,提高压缩比。帧间编码的技术基础是预测技术。,46,2.3图像压缩编码及标准,JPEG2000标准 特色: (1)高压缩比(低比特率)。 (2)无损压缩。 (3)渐进传输。 (4)感兴趣区域压缩。 (5)其他优点。,47,JPEG 2000是基于小波变换的图像压缩标准,由Joint Photographic Experts Group组织创建和维护。JPEG 2000通常被认为是未来取代JPEG(基于离散余弦变换)的下一代图像压缩标准。,48,JPEG2000的压缩比更高,而且不会产生原先的基于离散馀弦变换的JPEG标准产生的块状模糊瑕疵。JPEG2000同时支持有损压缩和无损压缩。另外,JPEG2000也支持更复杂的渐进式显示和下载。,49,在有损压缩下,JPEG2000一个比较明显的优点就是没有JPEG压缩中的马赛克失真效果。JPEG2000的失真主要是模糊失真。模糊失真产生的主要原因是在编码过程中高频量一定程度的衰减。传统的JPEG压缩也存在模糊失真的问题。,50,就图像整体压缩性能来说,目前有一些文章可能夸大JPEG2000的性能。事实上,在低压缩比情形下(比如压缩比小于10:1),传统的JPEG图像质量有可能要比JPEG2000要好。JPEG2000在压缩比比较高的情形下,优势才开始明显。整体来说,和传统的JPEG相比,JPEG2000仍然有很大的技术优势,通常压缩性能大概可以提高20%以上。一般在压缩比达到100:1的情形下,采用JPEG压缩的图像已经严重失真并开始难以识别了,但JPEG2000的图像仍可识别。,51,2.4数字音频压缩编码,对于不同类型的音频信号而言,其信号带宽是不同的,如电话音频信号(200Hz-3.4kHz),调幅广播音频信号(50Hz- 7kHz),调频广播音频信号(20Hz- 15kHz),激光唱盘音频信号(10Hz- 20kHz)。针对不同的音频信号,制定了相应的压缩标准。,52,2.4数字音频压缩编码,音频压缩编码的基本方法 1统计编码 2波形编码 3. 参数编码 4混合编码 5感知编码,53,2.5数字视频压缩编码,视频压缩技术标准主要有: ITU H.261建议,用于ISDN信道的PC电视电话、桌面视频会议和音像邮件等通信终端。 MPEG1视频压缩标准,用于 VCD、MPC、PCTV一体机、交互电视ITV和电视点播VOD。 MPEG2ITU H.262视频标准,主要用于数字存储。视频广播和通信,如HDTV、CATV、DVD、VOD和电影点播MOD等。 ITU H.263建议,用于网上的可视电话、移动多媒体终端、多媒体可视图文、遥感、电子邮件、电子报纸和交互式计算机成像等。 MPEG4和 ITU H.VLCL低码率多媒体通信标准仍在发展之中.,54,2.5数字视频压缩编码,MPEG标准概述 MPEG的全称是运动图像专家组(Moving Picture Experts Group) MPEG标准由MPEG视频、MPEG音频和视频与音频同步三个部分组成。 MPEG压缩标准是针对运动图像而设计的。基本方法是在单位时间内采集并保存第一帧信息,然后就只存储其余帧相对第一帧发生变化的部分,以达到压缩的目的。 MPEG压缩标准可实现帧之间的压缩,其平均压缩比可达50:1,压缩率比较高,且又有统一的格式,兼容性好。,55,MPEG视频压缩技术,MPEG视频压缩技术是针对运动图象的数据压缩技术。为了提高压缩比,帧内图象数据压缩和帧间图象数据压缩技术必须同时使用。,56,MPEG将图像分成三种类型,I图像(Intra Picture 帧内图) P图像(Predicted Picture预测图) B图像(Bidirectional Picture双向预测图)。,57,2.5数字视频压缩编码,MPEG1: 基于数字存储媒体运动图像和声音的压缩标准” 着眼于解决多媒体的存储问题。 由于MPEG-1的成功制定,以VCD和MP3为代表的MPEG-1产品在世界范围内迅速普及。 MPEG-1用于传输15Mbps数据传输率的数字存储媒体运动图像及其伴音的编码,经过MPEG-1标准压缩后,视频数据压缩率为1/100-1200,音频压缩率为16.5。MPEG-1提供每秒30帧352*240分辨率的图像,,58,2.5数字视频压缩编码,MPEG2: 通用的图像和声音压缩标准 实现视/音频服务与应用互操作的可能性。 MPEG-2标准是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定。 MPEG-2在系统和传送方面作了详细的规定,特别适用于广播级的数字电视的编码和传送,被认定为SDTV和HDTV的编码标准。 MPEG-2主要针对高清晰度电视(HDTV)的需要,传输速率为10Mbps,与MPEG-1兼容,适用于1.5-60Mbps甚至更高的编码范围。 MPEG-2有每秒30帧704*480的分辨率,是MPEG-1播放速度的四倍。,59,2.5数字视频压缩编码,MPEG4: MPEG-4标准是超低码率运动图像和语言的压缩标准用于传输速率低于64kbps的实时图像传输, MPEG一4为多媒体数据压缩提供了个更为广阔的平台。它更多定义的是一种格式、一种架构,而不是具体的算法。,60,2.5数字视频压缩编码,H.261和H.263标准 : H.261标准是CCITT专家组为可视电话和电视会议而制定的标准 H.263是国际电联ITU-T的一个标准草案,是为低码流通信而设计的 。,61,作业1: (1,3,7,9,15,21,23,56)对应概率(0.14,0.05,0.17,0.2,0.03,0.11,0.1,0.2) 构建hafuman树,给出每个信息的编码,并计算wpl,62,人有了知识,就会具备各种分析能力, 明辨是非的能力。 所以我们要勤恳读书,广泛阅读, 古人说“书中自有黄金屋。 ”通过阅读科技书籍,我们能丰富知识, 培养逻辑思维能力; 通过阅读文学作品,我们能提高文学鉴赏水平, 培养文学情趣; 通过阅读报刊,我们能增长见识,扩大自己的知识面。 有许多书籍还能培养我们的道德情操, 给我们巨大的精神力量, 鼓舞我们前进。,63,64,
展开阅读全文