资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据压缩,音响技术及家庭影院(二),楼东武,2009-09-27,话音波形的特性,发出的话音分成三种类型:浊音,(,voiced sounds),,,清音,(,unvoiced sounds),和爆破音,(,plosive sounds),。,PCM,的概念,脉冲编码调制,(,pulse code modulation,,,PCM),是概念上最简单、理论上最完善的编码系统,是最早研制成功、使用最为广泛的编码系统,但也是数据量最大的编码系统。,PCM,的编码原理比较直观和简单。在这个编码框图中,它的输入是模拟声音信号,它的输出是,PCM,样本。图中的,“,防失真滤波器,”,是一个低通滤波器,用来滤除声音频带以外的信号;,“,波形编码器,”,可暂时理解为,“,采样器,”,均匀量化,非均匀量化,PCM,在通信中的应用,(1),频分多路复用,(,frequency-division multiplexing,,,FDM),(2),时分多路复用,(,time-division multiplexing,,,TDM),增量调制与自适应增量调制,增量调制也称,调制,(,delta modulation,,,DM),,,它是一种预测编码技术,是,PCM,编码的一种变形。,PCM,是对每个采样信号的整个幅度进行量化编码,因此它具有对任意波形进行编码的能力;,DM,是对实际的采样信号与预测的采样信号之差的极性进行编码,将极性变成,“0”,和,“1”,这两种可能的取值之一。,斜率过载,粒状噪声,压缩的原因,数据压缩其实类似于美眉们的瘦身运动,不外有两大功用。,第一,可以节省空间。拿瘦身美眉来说,要是八个美眉可以挤进一辆出租车里,那该有多省钱啊!,第二,可以减少对带宽的占用。,注:本课程部分内容取自网络上的王苯苯压缩史,在此对作者表示感谢,压缩举例,最古老的压缩之一,“班马”,“斑马”?,班固和司马迁,崇尚简约的风俗一直延续到了今天的,Internet,时代:最现代的压缩语言,BS BBS ATM,ATM,(Automated Teller Machine),ATM,意即异步传输模式(,asynchronous transfer mode),数据压缩的起源-概率的认识,当我们对文字信息进行编码时,如果为出现概率较高的字母赋予较短的编码,为出现概率较低的字母赋予较长的编码,总的编码长度就能缩短不少。,著名的,Morse,电码就已经成功地实践了这一准则。在,Morse,码表中,每个字母都对应于一个唯一的点划组合,出现概率最高的字母,e,被编码为一个点“.”,而出现概率较低的字母,z,则被编码为“-.”。显然,这可以有效缩短最终的电码长度。,信息论之父,C.E.Shannon,第一次用数学语言阐明了概率与信息冗余度的关系。在 1948 年发表的论文“通信的数学理论(,A Mathematical Theory of Communication)”,中,,Shannon,指出,任何信息都存在冗余,冗余大小与信息中每个符号(数字、字母或单词)的出现概率或者说不确定性有关。,信息熵,Shannon,借鉴了热力学的概念,把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式。这篇伟大的论文后来被誉为信息论的开山之作,信息熵也奠定了所有数据压缩算法的理论基础。从本质上讲,数据压缩的目的就是要消除信息中的冗余,而信息熵及相关的定理恰恰用数学手段精确地描述了信息冗余的程度。利用信息熵公式,人们可以计算出信息编码的极限,即在一定的概率模型下,无损压缩的编码长度不可能小于信息熵公式给出的结果。,D.A.Huffman,于 1952 年第一次发表了他的论文“最小冗余度代码的构造方法”(,A Method for the Construction of Minimum Redundancy Codes)。,从此,数据压缩开始在商业程序中实现并被应用在许多技术领域。在数据压缩领域,,Huffman,的这一论文事实上开创了数据压缩技术一个值得回忆的时代,60 年代、70 年代乃至 80 年代的早期,数据压缩领域几乎一直被,Huffman,编码及其分支所垄断。(,MIT,的学生,),算术编码,80 年代,数学家们不满足于,Huffman,编码中的某些致命弱点,他们从新的角度入手,遵循,Huffman,编码的主导思想,设计出另一种更为精确,更能接近信息论中“熵”极限的编码方法算术编码。凭借算术编码的精妙设计和卓越表现,,算术编码,人们终于可以向着数据压缩的极限前进了。可以证明,算术编码得到的压缩效果可以最大地减小信息的冗余度,用最少量的符号精确表达原始信息内容。当然,算术编码同时也给程序员和计算机带来了新的挑战:要实现和运行算术编码,需要更为艰苦的编程劳动和更加快速的计算机系统。也就是说,在同样的计算机系统上,算术编码虽然可以得到最好的压缩效果,但却要消耗也许几十倍的计算时间。这就是为什么算术编码不能在我们日常使用的压缩工具中实现的主要原因。,LZ,算法,直到 1977 年,数据压缩的研究工作主要集中于熵、字符和单词频率以及统计模型等方面,研究者们一直在绞尽脑汁为使用,Huffman,编码的程序找出更快、更好的改进方法。,1977 年,以色列人,Jacob,Ziv,和,Abraham,Lempel,发表了论文“顺序数据压缩的一个通用算法”(,A Universal,Alogrithem,for Sequential Data Compression)。,1978,年,他们发表了该论文的续篇“通过可变比率编码的独立序列的压缩”(,Compression of Individual Sequences via Variable-Rate Coding)。,在这两篇论文中提出的两个压缩技术被称为,LZ77,和,LZ78(,不知为什么,作者名字的首字母被倒置了)。简单地说,这两种压缩方法的思路完全不同于从,Shannon,到,Huffman,到算术压缩的传统思路,人们将基于这一思路的编码方法称作“字典”式编码。字典式编码不但在压缩效果上大大超过了,Huffman,,而且,对于好的实现,其压缩和解压缩的速度也异常惊人。,LZW,1984 年,,Terry Welch,发表了名为“高性能数据压缩技术”(,A Technique for High-Performance Data Compression),的论文,他实现了,LZ78,算法的一个变种,LZW。LZW,继承了,LZ77,和,LZ78,压缩效果好、速度快的优点,而且在算法描述上更容易被人们接受,实现也比较简单。,ARJ和ZIP,80 年代中期以后,人们对,LZ77,进行了改进,随之诞生了一批我们今天还在大量使用的压缩程序。,Haruyasu Yoshizaki,(,Yoshi,),的,LHarc,和,Robert Jung,的,ARJ,是其中两个著名的例子。,LZ77,得以和,LZ78、LZW,一起垄断当今的通用数据压缩领域。,目前,基于字典方式的压缩已经有了一个被广泛认可的标准,从古老的,PKZip,到现在的,WinZip,,特别是随着,Internet,上文件传输的流行,,ZIP,格式成为了事实上的标准,没有哪一种通用的文件压缩、归档系统敢于不支持,ZIP,格式。,有损压缩,对于生活中更加常见的,像素值在空间上连续变化的灰度或彩色图像(比如数码照片),通用压缩算法的优势就不那么明显了。幸运的是,科学家们发现,如果在压缩这一类图像数据时允许改变一些不太重要的像素值,或者说允许损失一些精度。这一思想在数据压缩领域具有革命性的地位:通过在用户的忍耐范围内损失一些精度,我们可以把图像(也包括音频和视频)压缩到原大小的十分之一、百分之一甚至千分之一,这远远超出了通用压缩算法的能力极限。也许,这和生活中常说的“退一步海阔天空”的道理有异曲同工之妙吧。,JPG,在图像压缩领域,著名的,JPEG,标准是有损压缩算法中的经典。,JPEG,标准由静态图像联合专家组(,Joint Photographic Experts Group,JPEG),于 1986 年开始制定,1994 年后成为国际标准。,JPEG,以离散余弦变换(,DCT),为核心算法,通过调整质量系数控制图像的精度和大小。对于照片等连续变化的灰度或彩色图像,,JPEG,在保证图像质量的前提下,一般可以将图像压缩到原大小的十分之一到二十分之一。,JPEG2000,JPEG,标准的最新进展是 1996 年开始制定,2001 年正式成为国际标准的,JPEG 2000。,与,JPEG,相比,,JPEG 2000,作了大幅改进,其中最重要的是用离散小波变换(,DWT),替代了,JPEG,标准中的离散余弦变换。在文件大小相同的情况下,,JPEG 2000,压缩的图像比,JPEG,质量更高,精度损失更小。,MPEG-1,JPEG,标准中通过损失精度来换取压缩效果的设计思想直接影响了视频数据的压缩技术。,CCITT,于 1988 年制定了电视电话和会议电视的,H.261,建议草案。,H.261,的基本思路是使用类似,JPEG,标准的算法压缩视频流中的每一帧图像,同时采用运动补偿的帧间预测来消除视频流在时间维度上的冗余信息。在此基础上,1993 年,,ISO,通过了动态图像专家组(,Moving Picture Experts Group,MPEG),提出的,MPEG-1,标准。,MPEG-1,可以对普通质量的视频数据进行有效编码。我们现在看到的大多数,VCD,影碟,就是使用,MPEG-1,标准来压缩视频数据的。,MPEG-2,为了支持更清晰的视频图像,特别是支持数字电视等高端应用,,ISO,于 1994 年提出了新的,MPEG-2,标准(相当于,CCITT,的,H.262,标准)。,MPEG-2,对图像质量作了分级处理,可以适应普通电视节目、会议电视、高清晰数字电视等不同质量的视频应用。在我们的生活中,可以提供高清晰画面的,DVD,影碟所采用的正是,MPEG-2,标准。,MPEG-4,Internet,的发展对视频压缩提出了更高的要求。在内容交互、对象编辑、随机存取等新需求的刺激下,,ISO,于 1999 年通过了,MPEG-4,标准(相当于,CCITT,的,H.263,和,H.263+,标准)。,MPEG-4,标准拥有更高的压缩比率,支持并发数据流的编码、基于内容的交互操作、增强的时间域随机存取、容错、基于内容的尺度可变性等先进特性。,Internet,上新兴的,DivX,和,XviD,文件格式就是采用,MPEG-4,标准来压缩视频数据的。,声音的压缩,自从 1939 年,H.Dudley,发明声码器以来,人们陆续发明了脉冲编码调制(,PCM)、,线性预测(,LPC)、,矢量量化(,VQ)、,自适应变换编码(,ATC)、,子带编码(,SBC),等语音分析与处理技术。这些语音技术在采集语音特征,获取数字信号的同时,通常也可以起到降低信息冗余度的作用。为获得更高的编码效率,大多数语音编码技术都允许一定程度的精度损失。为了更好地用二进制数据存储或传送语音信号,这些语音编码技术在将语音信号转换为数字信息之后又总会用,Huffman,编码、算术编码等通用压缩算法进一步减少数据流中的冗余信息。,MP3,对于电脑和数字电器(如数码录音笔、数码随身听)中存储的普通音频信息,我们最常使用的压缩方法主要是,MPEG,系列中的音频压缩标准。例如,,MPEG-1,标准提供了,Layer I、Layer II,和,Layer III,共三种可选的音频压缩标准,,MPEG-2,又进一步引入了,AAC(Advanced Audio Coding),音频压缩标准,,MPEG-4,标准中的音频部分则同时支持合成声音编码和自然声音编码等不同类型的应用。在这许多音频压缩标准中,声名最为显赫的恐怕要数,MPEG-1
展开阅读全文