信息论与编码之数据压缩.ppt

资源描述

信息论与数据压缩班级姓名数据压缩的含义与简介 01 理论与应用 03 类型与流行算法 04 算法编码 05 内容大纲概要与原理 02 信息论在数据压缩技术中的应用数据压缩作为信息论研究中的一项内容主要是有关数据压缩比和各种编码方法的研究即按某种方法对源数据流进行编码使得经过编码的数据流比原数据流占有较少的空间数据压缩的主要目的是力求用最少的数据表示信源所发出的信号使信号占用的存储空间尽可能小以达到提高信息传输速度的目的数据压缩在近代信息处理问题中有大量的应用无论在数据存储或传送中通过数据压缩不仅可以大大节省资源利用的成本而且把一些原来无实用意义的技术如多媒体技术中的一些问题达到具有实用意义的标准数据压缩技术的不断完善是依靠在信息论这门学科的成长上的信息能否被压缩以及能在多大程度上被压缩与信息的不确定性有直接的关系人工智能技术将会对数据压缩的未来产生重大影响数据压缩的含义与简介含义数据压缩是指在不丢失有用信息的前提下缩减数据量以减少存储空间提高其传输存储和处理效率或按照一定的算法对数据进行重新组织减少数据的冗余和存储的空间的一种技术方法简介在计算机科学和信息论中数据压缩或者源编码是按照特定的编码机制用比未经编码少的数据位元或者其它信息相关的单位表示信息的过程例如如果我们将 compression 编码为 comp 那么这篇文章可以用较少的数据位表示一种流行的压缩实例是许多计算机都在使用的ZIP文件格式它不仅仅提供了压缩的功能而且还作为归档工具 Archiver 使用能够将许多文件存储到同一个文件中数据压缩概要对于任何形式的通信来说只有当信息的发送方和接受方都能够理解编码机制的时候压缩数据通信才能够工作例如只有当接受方知道这篇文章需要用英语字符解释的时候这篇文章才有意义同样只有当接受方知道编码方法的时候他才能够理解压缩数据一些压缩算法利用了这个特性在压缩过程中对数据进行加密例如利用密码加密以保证只有得到授权的一方才能正确地得到数据数据压缩能够实现是因为多数现实世界的数据都有统计冗余例如字母 e 在英语中比字母 z 更加常用字母 q 后面是 z 的可能性非常小无损压缩算法通常利用了统计冗余这样就能更加简练地但仍然是完整地表示发送方的数据如果允许一定程度的保真度损失那么还可以实现进一步的压缩例如人们看图画或者电视画面的时候可能并不会注意到一些细节并不完善同样两个音频录音采样序列可能听起来一样但实际上并不完全一样有损压缩算法在带来微小差别的情况下使用较少的位数表示图像视频或者音频原理压缩原理其实很简单就是找出那些重复出现的字符串然后用更短的符号代替从而达到缩短字符串的目的比如有一篇文章大量使用中华人民共和国这个词语我们用中国代替就缩短了5个字符如果用华代替就缩短了6个字符事实上只要保证对应关系可以用任意字符代替那些重复出现的字符串本质上所谓压缩就是找出文件内容的概率分布将那些出现概率高的部分代替成更短的形式所以内容越是重复的文件就可以压缩地越小比如 ABABABABA BABAB 可以压缩成 7AB 相应地如果内容毫无重复就很难压缩极端情况就是遇到那些均匀分布的随机字符串往往连一个字符都压缩不了比如任意排列的10个阿拉伯数字 5271839406 就是无法压缩的再比如无理数比如也很难压缩压缩就是一个消除冗余的过程相当于用一种更精简的形式表达相同的内容可以想象压缩过一次以后文件中的重复字符串将大幅减少好的压缩算法可以将冗余降到最低以至于再也没有办法进一步压缩理论与应用压缩的理论基础是信息论它与算法信息论密切相关以及率失真理论这个领域的研究工作主要是由ClaudeShannon奠定的他在二十世纪四十年代末期及五十年代早期发表了这方面的基础性的论文 Doyle和Carlson在2000年写道数据压缩有所有的工程领域最简单最优美的设计理论之一密码学与编码理论也是密切相关的学科数据压缩的思想与统计推断也有很深的渊源应用一种非常简单的压缩方法是行程长度编码这种方法使用数据及数据长度这样简单的编码代替同样的连续数据这是无损数据压缩的一个实例这种方法经常用于办公计算机以更好地利用磁盘空间或者更好地利用计算机网络中的带宽对于电子表格文本可执行文件等这样的符号数据来说无损是一个非常关键的要求因为除了一些有限的情况大多数情况下即使是一个数据位的变化都是无法接受的对于视频和音频数据只要不损失数据的重要部分一定程度的质量下降是可以接受的通过利用人类感知系统的局限能够大幅度得节约存储空间并且得到的结果质量与原始数据质量相比并没有明显的差别这些有损数据压缩方法通常需要在压缩速度压缩数据大小以及质量损失这三者之间进行折衷有损图像压缩用于数码相机中大幅度地提高了存储能力同时图像质量几乎没有降低用于DVD的有损MPEG 2编解码视频压缩也实现了类似的功能在有损音频压缩中心理声学的方法用来去除信号中听不见或者很难听见的成分人类语音的压缩经常使用更加专业的技术因此人们有时也将语音压缩或者语音编码作为一个独立的研究领域与音频压缩区分开来不同的音频和语音压缩标准都属于音频编解码范畴例如语音压缩用于因特网电话而音频压缩被用于CD翻录并且使用MP3播放器解码类型数据压缩可分成两种类型一种叫做无损压缩另一种叫做有损压缩无损压缩是指使用压缩后的数据进行重构或者叫做还原解压缩重构后的数据与原来的数据完全相同无损压缩用于要求重构的信号与原始信号完全一致的场合一个很常见的例子是磁盘文件的压缩根据目前的技术水平无损压缩算法一般可以把普通文件的数据压缩到原来的1 2 1 4 一些常用的无损压缩算法有霍夫曼 Huffman 算法和LZW Lenpel Ziv Welch 压缩算法有损压缩是指使用压缩后的数据进行重构重构后的数据与原来的数据有所不同但不影响人对原始资料表达的信息造成误解有损压缩适用于重构信号不一定非要和原始信号完全相同的场合例如图像和声音的压缩就可以采用有损压缩因为其中包含的数据往往多于我们的视觉系统和听觉系统所能接收的信息丢掉一些数据而不至于对声音或者图像所表达的意思产生误解但可大大提高压缩比流行算法 Lempel Ziv LZ 压缩方法是最流行的无损存储算法之一 DEFLATE是LZ的一个变体它针对解压速度与压缩率进行了优化虽然它的压缩速度可能非常缓慢 PKZIP gzip以及PNG都在使用DEFLATE LZW Lempel Ziv Welch 是Unisys的专利直到2003年6月专利到期限这种方法用于GIF图像另外值得一提的是LZR LZ Renau 方法它是Zip方法的基础 LZ方法使用基于表格的压缩模型其中表格中的条目用重复的数据串替换对于大多数的LZ方法来说这个表格是从最初的输入数据动态生成的这个表格经常采用霍夫曼编码维护例如 SHRI LZX 目前一个性能良好基于LZ的编码机制是LZX 它用于微软公司的CAB格式算法编码算术编码由JormaRissanen发明并且由Witten Neal以及Cleary将它转变成一个实用的方法这种方法能够实现比众人皆知的哈夫曼算法更好的压缩并且它本身非常适合于自适应数据压缩自适应数据压缩的预测与上下文密切相关算术编码已经用于二值图像压缩标准JBIG 文档压缩标准DejaVu 文本输入系统Dasher是一个逆算术编码器算术编码是近十多年来发展迅速的一种无失真信源编码它与最佳的哈夫曼码相比理论性能稍加逊色而实际压缩率和编码效率却往往还优于哈夫曼码且实现简单故很受工程上的重视算术编码不同于哈夫曼码它是非分组非块码它从全序列出发考虑符号之间的关系来进行编码算术编码利用了累积概率的概念算术码主要的编码方法是计算输入信源符号序列所对应的区间

展开阅读全文

信息论与编码之数据压缩.ppt

最新文档