资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,Page,*,点击此处结束放映,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,Page,*,第,5,章数字视音频压缩标准,概 述,5.1,JPEG,5.2,MPEG-1,和,MPEG-2,概述,5.3,MPEG-2,视频,5.4,MPEG-2,系统,5.5,H.264,5.6,数字音频压缩编码标准,5.7,1,5.1 概述,5.1.1 ISO/IEC89,5.1.2 ITU,5.1.3,相关标准发展过程,2,ISO/IEC JTC1,即国际标准化组织,(International Standardization Organization)/,国际电工委员会,(International Electrotechnic Committee),的第一联合技术委员会,(Joint Technical Committee),是一个信息技术领域的国际标准化委员会。,5.1.1 ISO/IEC89,3,JPEG,是联合图像专家组的简称,负责静止图像编码国际标准的制定,所制定的,JPEG,,,JBIG,及,JPEG2000,等标准在多媒体和数码相机等产品中得到了广泛应用。,4,MPEG,是运动图像专家组的简称,负责数字视频,音频和其他媒体的压缩和解压缩处理等国际技术标准的制定工作,制定的标准称为,MPEG-X,系列。,MPEG-1,和,MPEG-2,是,MPEG,组织制定的第一代视、音频压缩标准,为,VCD,、,DVD,及数字电视和高清晰度电视等产业的飞速发展打下了基础。,5,MPEG-4,是基于第二代视音频编码技术制定的压缩标准,以视听媒体对象为基本单元,实现数字视音频和图形合成应用、交互式多媒体的集成,目前已经在流媒体领域得到应用。,MPEG-7,是多媒体内容描述标准,支持对多媒体资源的组织管理、搜索、过滤、检索。,6,MPEG-21,的重点是建立统一的多媒体框架,为从多媒体内容发布到消费所涉及的所有标准提供基础体系,支持连接全球网络的各种设备透明地访问各种多媒体资源。,7,国际电信联盟(,ITU,)是世界各国政府的电信主管部门之间协调电信事务方面的一个国际组织,分为电信标准部门(即,ITU-T,)、无线电通信部门(即,ITU-R,)和电信发展部门(即,ITU-D,)。,ISO/IEC,和,ITU,两个国际组织大多数情况下独立制定相关标准,,20,世纪,90,年代初期,它们联合开发了,H.262/MPEG-2,标准。,5.1.2 ITU,8,1997,年,,ITU-T VCEG,与,ISO/IEC MPEG,再次合作,成立了视频联合工作组(,Joint Video Team,,,JVT,),,JVT,的工作目标是制定一个新的视频编码标准,以实现视频的高压缩比,高图像质量,良好的网络适应性等目标。,9,H.261,是最早出现的视频编码标准,目的是规范会议电视和可视电话应用中的视频编码。,H.263,是低码率图像压缩标准,在技术上是,H.261,的改进和扩充,支持码率小于,64kbit/s,的应用。,5.1.3 相关标准发展过程,10,MPEG-1,标准的码率为,1.2Mbit/s,左右,支持图像格式为,CIF,(,352288,)的视频编码,基本算法与,H.261/H.263,相似,也采用运动补偿的帧间预测,二维,DCT,和,VLC,游程编码等。,11,H.262/MPEG-2,标准在,MPEG-1,的基础上,在提高图像分辨率和兼容数字电视等方面做了一些改进。,MPEG-4,标准的基本视频编码器还是属于和,MPEG-2,相似的一类混合编码器,不同的是,MPEG-4,中采用了一些新的技术,如形状编码、自适应,DCT,等,尤其是引入了基于视听对象(,Audio-Visual Object,,,AVO,)的编码,大大提高了视频通信的交互能力。,12,新的视频编码标准,H.264,在混合编码的框架下引入了新的编码方式,提高了编码效率。在相同的重建图像质量下,,H.264,比,MPEG-2,节约,50%,左右的码率。,13,5.2.1 JPEG,简介,5.2.2 JPEG,压缩编码原理,5.2.3 JPEG,压缩编码图像质量,5.2 JPEG,14,JPEG,标准由多个部分组成,主要的部分有:,Part 1,基本的,JPEG,标准,定义了静止图像编码的方法和系统;,Part 2,确定符合,Part 1,标准的软件规则和检查方法;,Part 3,建立一系列对标准改进的扩展等。,本节主要介绍,Part 1,基本的,JPEG,标准。,5.2.1 JPEG简介,15,JPEG,有两种基本压缩方法。,(,1,)有损压缩方法:它是以,DCT,为基础的压缩编码方法,其压缩比较高。,(,2,)无损压缩方法,又称预测压缩方法,是以二维,DPCM,为基础的压缩方式,解码后能完全精确地恢复原图像取样值,压缩比低于有损压缩方法。,16,JPEG,还包括多种工作模式。,(,1,)顺序编码,( Sequential Encoding,),(,2,)逐次编码(,Progressive Encoding,),(,3,)分级模式(,hierarchical,),17,基于,DCT,的,JPEG,编解码原理框图如图,5-1,所示。,5.2.2 JPEG压缩编码原理,图,5-1JPEG,编解码系统框图,18,JPEG,编码算法主要有以下几个重要步骤:,(,1,) 用,DCT,去除图像数据的空间冗余;,(,2,)用人眼视觉最佳效果的量化表来量化,DCT,系数,F(u,v),,去除视觉冗余;,(3),对量化后的,DCT,系数,F(u,v),数据进行熵编码,去除熵冗余。,19,1.预处理,分割指的是把源图像分割成相互不重叠的矩形块,每一个像块作为一个独立的单元进行变换和编解码。,(1) 像块分割像块(Block),20,为了提高编码效率,在对,f(x,y),作,DCT,变换之前,先对像块进行电平下移,即直流电平下移,128=2,7,,在解码时再进行上移。电平下移后的像块,f(x,y),如表,5-1,(,b,)所示。,(2)直流电平下移,21,表,5-1,像块样值,22,对电平下移后的,f(x,y),作,DCT,变换得到系数块,F(u,v),,如表,5-2(a),所示。,2. DCT变换,表,5-2,作,DCT,变换后的系数,F(u,v),23,用人眼视觉最佳效果的量化表来量化,DCT,系数,F(u,v),,去除视觉冗余。,JPEG,推荐了亮度信号和色度信号两种量化表,如表,5-3,所示。,3.量化,表,5-3,亮度量化表,Q(u,v)(a),24,量化公式为,其中,F(u,v),Q,为量化后得到的系数。量化以后得到的系数,F(u,v),Q,如表,5-2(b),所示。,在解码端进行反量化时,利用相同的量化表,Q(u,v),乘以,F(u,v),Q,,可以得到反量化后重建的,DCT,系数,F(u,v),F(u,v)=,F(u,v),Q,Q(u,v),25,量化之后右下角高频系数大部分为,0,,在编码时为了制造更长的,0,游程提高编码效率,采用之字形扫描读取法,如图,5-2,所示。,4.之字形扫描,26,图,5-2,之字形扫描读取方法图,27,对,DC,系数采用差分编码(,DPCM,),传送当前块与前一个块之间的,DC,系数差值。,DC,i,=F,i,(0,0)-F,i-1,(0,0),其中,F,i,(0,0),表示当前像块的直流系数,,F,i-1,(0,0),表示前一像块的直流系数。,DC,系数的,DPCM,编码示意图如图,5-3,所示。,5. DC,系数的,DPCM,编码,28,5-3 DC,系数示意图,29,为了消除码字中的统计冗余,对量化后的,DCT,系数,F(u,v),数据进行可变长熵编码。,JPEG,推荐的,Huffman,码表如表,5-4,,表,5-5,,表,5-6,,表,5-7,所示。,6.可变长熵编码,30,表,5-4,幅度值的可变长二进制编码表,31,表,5-5,亮度和色度直流系数的,Huffman,码表,32,表,5-6,亮度交流系数的,Huffman,码表,33,表,5-6,亮度交流系数的,Huffman,码表 续表,34,表,5-7,色度交流系数的,Huffman,码表,35,解码是编码的逆过程,上述所讲例子解码后重建的图像,f(x,y),如表,5-8 (a),所示,与表,5-1,(,a,)原始图像,f(x,y),相比较,它们之间有一定的误差,e(x,y),如表,5-8(b),所示。这个误差是由量化过程引起的,只要这个误差控制在一定范围之内,人眼视觉是可以接受的。,表,5-8,解码后重建图像数据,f(x,y),7.解码,36,表,5-8,解码后重建图像数据,f(x,y),37,在本例中,原像块为,88=64,个像素,如果每个像素用,8,比特编码(,8bit/pixel,),压缩前的总比特位数为:,888=512,。,5.2.3 JPEG压缩编码图像质量,1.压缩比计算,38,对于自然景色图像,,422,色度格式,分辨率为,720576,,定长码,16bit/pixel,(包括色度分量)的图像,经过,JPEG,编码后的压缩比和图像质量如表,5-9,所示。,2.图像质量,39,表,5-9 JPEG,压缩后图像质量,40,5.3 MPEG-1,和,MPEG-2,概述,5.3.1 MPEG-1,概述,5.3.2 MPEG-2,概述,41,运动图像专家组(,Moving Picture Experts Group,,,MPEG,)在,ISO/IEC/,两个国际组织的联合技术委员会(,JTCI,)领导下进行,MPEG,标准的制定。,MPEG-1,和,MPEG-2,在编码的基本技术上是类似的,都是基于块的运动补偿编码技术。,MPEG-1,和,MPEG-2,视音频压缩编码分别在,VCD,中和数字电视广播系统中得到了广泛应用。,42,MPEG-1,的最终完成日期是,1991,年,是用于数字存储媒体活动图像及相关声音的编码标准。,MPEG-1,由多个部分组成,其中主要的部分有,5.3.1 MPEG-1概述,43,第一部分系统(,ISO/IEC11172-1,),系统部分是关于数字视频、音频和辅助数据等多路压缩数据流复用和同步的规定;第二部分视频(,ISO/IEC11172-2,),视频部分是关于位速率约为,1.5 Mbit/s,的视频信号的压缩编码的规定;,44,第三部分音频(,ISO/IEC11172-3,),音频部分是关于每通道位速率为,64kbit/s,、,128kbit/s,、,192kbit/s,的数字音频信号的压缩编码的规定;第四部分符合测试,,ISO/IEC 11172-4,;第五部分软件模拟,,ISO/IEC 11172-5,。,45,MPEG-1,视频图像格式是,CIF,格式,如表,5-10,所示。,表,5-10 MPEG-1,视频图像格式,46,MPEG-1,常用于压缩后输出比特率为,1.5Mbit/s,的应用,但是也可以用于高比特率的应用。,47,MPEG-2,全称为,“,运动图像及有关声音信息的通用编码,”,,标准的文件编号为,ISO/IEC13818,。,5.3.,2,MPEG-,2,概述,48,MPEG-2,由多个部分组成,其中主要部分有,;,第一系统部分(,ISO/IEC13818-1,),是关于多路音频、视频和数据的复用和同步的规定;第二视频部分(,ISO/IEC13818-2,),主要涉及各种比特率的数字视频压缩编解码的规定;第三音频部分(,ISO/IEC13818-3,),扩充了,MPEG-1,的音频标准,使之成为多通道音频编码系统;第四顺应测试部分;第五软件仿真部分等。,(1)MPEG-2的组成,49,在许多情况下,,MPEG-2,表示成,MPEG-1,的一个超集。,(2)MPEG-1与MPEG-2的区别,MPEG-2,已广泛应用于,DVD,,,SDTV,和,HDTV,数字电视广播中。,(3)MPEG-2的应用,50,5.4 MPEG,-,2,视频,5.4.1MPEG-2,的型和级,5.4.2,视频结构,5.4.3 I.B.P,图像压缩编码原理,5.4.4,视频基本码流结构,5.4.5 MPEG-2,解码,5.4.6 MPEG-2,的可分级编码,51,MPEG-2,标准支持不同性能和不同复杂性的解码器,应用范围广泛,充分考虑了各种应用的不同要求,有较强的通用性。,为了解决通用性和特定性的矛盾,,MPEG-2,标准规定了四种输入图像格式,称为级(,Level,),从有限清晰度的,VCD,图像质量到高清晰度的,HDTV,图像质量,提供了灵活的信源格式。,5.4.1MPEG-2的型和级,52,MPEG-2,还规定了不同的压缩处理方法,称为型(,Profile,)。按照不同的型和不同的级的组合,有,20,种组合方式。但是在实际应用中只有其中的,11,种组合可以应用。,MPEG-2,型和级的定义及其组合如表,5-11,所示。,53,表,5-11 MPEG-2,的级和型,54,级表示,MPEG-2,编码器输入端的信源图像格式。图像格式分成四个级:低级,主级,高,1440,级和高级。其中的数值表示一帧画面内的水平方向的像素数,垂直方向的像素数,帧频。,1.级(Level),55,LL,级对应的输入图像格式是,CIF,格式,即,35224830,或,35228825,,相应编码的最大输出码率为,4Mbit/s,。,(1)低级(Low Level,LL),56,ML,对应于,ITU-R601,建议的标清图像格式,即,72048029.97,或,72057625,,在,MPML,中最高允许码率为,15Mbit/s,,在,HPML,中为,20Mbit/s,。,(2)主级(Main Level),57,H-1440,属于准高清图像格式,在,MPH-1440L,中,最高允许码率为,60Mbit/s,。,(3)高H-1440级(High-1440 Level),58,HL,对应高清图像格式,即,1920108030,或,1920108025,,在,MPHL,中最高码率为,80Mbit/s,,在,HPHL,中为,100Mbit/s,。,(4)高级(High Level),59,MPEG-2,规定了不同的压缩处理方法称为,“,型,”,。,2.型(Profile),60,简单型只采用,I,帧和,P,帧两种编码帧,,SPML,是,SP,型中惟一的应用点。,(1)简单型(Simple Pro),61,主型采用了,I,帧、,P,帧和,B,帧三种编码帧,增加了双向预测方法(,Bi-directional prediction,),在相同比特率的情况下,将给出比简单型更好的图像质量,可实现效率较高的压缩。,(2)主型 (Main Pro),62,信杂比可分级型将编码的视频数据分成底层和增强层。,(3)信杂比可分级型(SNR Scalable,SNRP),63,空间可分级型允许多分辨率编码技术,适合于视频业务相互操作的应用。,(4)空间可分级型(Spatial Scalable,SSP),64,与其他型相比,高型对亮度取样率、最大比特率和,VBV,缓存容量等都有了更高的要求。,(5)高型(High Pro),65,1996,年,MPEG-2,增加了,422,型,主要用于演播室编辑环境,可提供较高的图像质量,较好的色度分辨率,更高的比特率。,(6)422型(422Profile),66,MPEG-1,,,MPEG-2,的视频结构是相同的,共分为,6,层。 最高层是视频序列(,Video Sequence,,,VS,)、其次是图像组(,Group of Pictures,,,GOP,)、图像(,Picture,)、像条(,Slice,)、宏块,(MacroBlock,,,MB),,最低层是像块(,Block,),如图,5-4,所示。,5.4.2 视频结构,67,图,5-4,视频结构,68,视频序列也称图像序列,它是随机选取节目的一个基本单元。,1.视频序列层(VS),69,图像组是将一个图像序列中连续的几个图像组成一个小组,简称为,GOP,。,2.图像组层 (GOP),70,图像是一个独立的显示单元,也是图像编码的基本单元,可分为,I,,,P,,,B,三种编码图像。,3.图像(Picture),71,像条是发生误码后且不可纠正时,数据重新获得同步的基本单元。,4.像条(Slice),72,宏块是运动预测的基本单元。,5.宏块(MB),73,块又称为像块,是,DCT,变换的基本单元。,6.块((Block)),74,MPEG,算法达到了很高的压缩比,但仍保持了很好的图像质量,单靠帧内编码是不可能达到的。在,MPEG,压缩编码中,主要通过,DCT,变换和运动预测技术来压缩空间冗余和时间冗余。,5.4.3 I.B.P图像压缩编码原理,75,MPEG-2,定义了三种编码图像,它们是帧内编码,I,帧、 前向预测编码,P,帧和双向预测(前向和后向预测)编码,B,帧。编码预测示意图如图,5-6,所示。,1. I,P,B编码图像,76,图,5-6 I,、,B,、,P,编码图像示意图,77,(,1,)帧内编码图像(,Intra picture,),(,2,)前向预测编码图像(,Predicated picture,),(,3,)双向预测编码图像(,Bidrectional picture,),78,MPEG-1,和,MPEG-2,编码器原理大致相同,其原理框图如图,5-8,所示。,2. MPEG编码器工作流程,79,图,5-8 MPEG-2,压缩编码原理框图,80,经过编码器编码后,,6,个视频层次构成的编码流称为视频基本码流(,Elementary Stream,,,ES,),图,5-11,所示为简化的基本码流结构图。,5.4.4 视频基本码流结构,81,图,5-11,视频基本码流结构,82,MPEG-2,解码是从编码的比特流中重建图像帧,,MPEG-2,解码方框图如图,5-12,所示。,5.4.5 MPEG-2解码,83,图,5-12 MPEG-2,解码框图,84,分级(,scalability,)编码可以使原本一体的码流呈现一种分级结构,使其中的部分码流可单独解码,从而可得到不同的分辨率和所需的码率。,一个,N,层可分级码流结构如图,5-13,所示。,5.4.6 MPEG-2的可分级编码,85,图,5-13N,层可分级码流结构示意图,86,SNR,分级编码将视频序列分成基本层和增强层两个视频层,这两层有相同的图像分辨率但有不同的图像精度。,1. SNR可分级(SNR scalability),87,一个简化的,SNR,可分级编码原理框图如图,5-14,所示。,(1) 底层编码,(2),增强层编码,图,5-14 SNR,可分级的编码原理框图,88,空间可分级编码过程如图,5-15,所示。,2.空间可分级(Spatial Scalability),图,5-15,空间可分级编解码框图,89,在时间分级中,各层具有相同的帧尺寸和色度格式,但可以有不同的帧频。包含底层和增强层的时间可分级编码框图如图,5-16,所示。,3.时间可分级(Temporal Scalability),90,图,5-16,时间可分级的编解码器框图,91,5.5 MPEG-2,系统,5.5.1,系统复用,5.5.2 PES,流分析,5.5.3,节目流,PS,5.5.4,传送流,TS,5.5.5,码流中的时间信息,5.5.6,节目专用信息(,PSI,),5.5.7,码率控制,92,系统,MPEG-2,系统主要规定了如何将一个或多个视频流、音频流和其他辅助数据流复合成一个码流以适应存储和传送的需要。,93,5.5.1 系统复用,视音频数据流的系统复用框图如图,5-17,所示。,1.单路节目复用器,94,图,5-17 MPEG-2,系统复用框图,95,如果在一个电视频道内传输多套数字电视节目,需要将多套节目的,TS,再次复用,多路节目的复用系统框图如图,5-18,所示。,2.多路节目复用系统,96,图,5-18,多路节目复用框图,97,ES,经过打包器将连续传输的数据流按一定的长度分段,切割成一个个单元包,称为打包基本码流(,Paketized Elementary Stream,,,PES,)。,PES,流是编码器和解码器的直接连接形式。,PES,包的结构如图,5-19,所示。,5.5.2 PES流分析,98,图,5-19 PES,包的结构,99,PS,复用器将一个或几个具有公共时间基准的,PES,包组合成单一的码流,称为节目流(,Program Stream,,,PS,)。,PS,码流的数据结构如图,5-20,所示。,5.5.3 节目流PS,100,图,5-20 PS,流的数据结构,101,PES,流进入传输复用器中切割成一个个固定长度为,188,字节的包,称为传输包。由传输包组成的数据流称为传送流(,Transport Stream,),TS,流。,TS,流是各传输系统之间的连接格式,是传输设备间的基本接口。,TS,包的结构如图,5-21,所示。,5.5.4 传送流TS,102,图,5-21 TS,包句法结构图,103,5.5.5 码流中的时间信息,1.节目时钟参考(Program Clock Reference,PCR),图,5-22 PCR,重建,27MHz,时钟示意图,104,在视频和音频,PES,包的包头中定期插入解码时间标记(,Decoding Time-Stamp,,,DTS,)和显示时间标记(,Present Time Stamp,PTS,)。,2.,时间标记(,DTS,和,PTS,),105,DTS/PTS,是,33,比特,它是以系统时钟的,1/300,(,90kHz,)为单位,计算关系为,PTS,(,k,),=,系统时钟频率,tpn(k),DIV300,%2,33,DTS,(,j,),=,系统时钟频率,tdn(j),DIV300,%2,33,106,在,MPEG-2,的码流中必须包含向接收机提供选择控制作用的信息,以帮助接收端正确地进行解码。为此,MPEG-2,系统标准中定义了节目专用信息(,Program Specific Information,,,PSI,),它是,MPEG,码流中的重要组成部分。,5.5.6 节目专用信息(PSI),107,PSI,信息主要由以下几种类型的表构成。,(,1,)节目关联表,(Program Association Table,,,PAT),(,2,)节目映射表,(Program Map Table,,,PMT),(,3,)条件接收表,(Conditional Access Table,,,CAT),108,(,4,)网络信息表,(Network Information Table,,,NIT),(,5,)传送流描述表(,Transport Stream Description Table,,,TSDT,),(,6,) 专用段,(Private_section),(,7,) 描述符 (,Descripter,),109,图,5-23 PSI,中节目与网络的映射关系,使用,PSI,从码流中选择所需节目的过程如图,5-23,所示。,110,在多路业务的复用中,复用方式大致可以分为两种:固定比特率,(Constant Bit Rate,,,CBR),和可变比特率,(Variable Bit Rate,,,VBR),。,5.5.7 码率控制,111,CBR,编码复用方式如图,5-24,所示。,1. CBR编码复用方式,图,5-24 CBR,编码复用框图,112,统计复用方法有很多,下面介绍帧平移法和基于率失真理论的联合码率控制法。,2. VBR编码复用方式,(1)帧平移统计复用,113,联合码率控制框图如图,5-25,所示。,2)联合码率控制,图,5-25,联合码率控制框图,114,5.6 H.264,5.6.1 H.264,的系统层,5.6.2 H.264,视频编解码框图,5.6.3 H.264,编码主要特点,5.6.4 H.264,的型(,Profiles,),115,1997,年,,ITU-T,的,VCEG,(视频编码专家组)和,ISO/IEC,的,MPEG,(活动图像专家组)成立了联合视频组(,Joint Video Team,,,JVT),,旨在研制出与以前的任何标准相比,效率要提高一倍,同时具有简单的视频编码技术,网络友好的视频描述,适合交互和非交互式应用(广播,存储,流媒体)的新压缩标准。,116,H.264,主要有以下特点:,(1),压缩效率高,(2),容错能力强,(3),网络适应性强,(4),计算复杂度高,117,H.264,提出了一个新的概念,在视频编码层,(Video Coding Layer, VCL),和网络提取层,(Network Abstraction Layer, NAL),之间进行概念性分割。,H.264,分层结构如图,5-26,所示。,5.6.1 H.264的系统层,118,图,5-26 H.264,的分层结构框图,119,1.,视频编码层(,VCL,),2.,网络提取层(,NAL,),120,H.26 4,编码系统框图如图,5-27,所示。,5.6.2 H.264视频编解码框图,图,5-27H.264,编码系统框图,121,H.264,编码系统与以前标准有以下不同:,(,1,)自适应消块滤波器(,Deblocking Filter,),(,2,)帧内预测(,Intra-Frame Prediction,),(,3,)在变换(,Transform,)模块中,使用整数,DCT,变换。,(,4,)在,H.264,编码系统图中,帧存储器可以存储多个帧。,122,图,5-28 H.264,解码系统框图,H.264,解码系统框图如图,5-28,所示。,123,5.6.3 H.264编码主要特点,像条由宏块组成,一般情况下,像条分为,I,像条、,P,像条和,B,像条。,1.像条(slice),124,H.264/AVC,支持一种新的灵活的宏块排序,简称为,FMO,(,Flexible Macroblock Ordering,)。,2.像条组,125,对于亮度信号有两种不同的预测模式:,INTRA_44,和,INTRA_1616,。,有,9,种预测模式,图,5-29,示出,9,种预测模式中的,3,种。,3.帧内预测(Intra Prediction),126,图,5-29 INTRA_44 9,种预测模式中的,3,种,127,除了,DC,模式以外,还有,8,种预测模式,所有可能的预测方向如图,5-30,所示,其中,0,和,1,方向已经显示在图,5-29,中,.,128,图,5-30 INTRA_44,块可能的预测模式,129,(1),不同大小和形状的宏块分割,4.运动补偿预测(Motion Compensated Prediction),图,5-31,运动补偿中的宏块和子宏块模式,130,多参考帧预测估计示意图如图,5-32,所示。,(2) 多参考帧预测估计,图,5-32,多参考帧预测估计,131,(3) 高精度估计,132,H. 264/AVC,中采用了三种类型的变换,如图,5-33,所示。,5.变换编码(Transform Coding),图,5-33,三种类型的变换,133,无论是帧内预测还是帧间运动预测,所有,Y,的预测残差块和所有色度,C,b,和,C,r,块,都进行,44,的整数,DCT,变换,变换矩阵如图,5-34,的,H,1,所示。,(1)44的整数DCT变换,134,图,5-34,变换矩阵图,135,变换矩阵如图,5-34,的,H,2,所示。,(2)44 Hadamard变换,变换矩阵如图,5-34,的,H,3,所示。,(3)22 Hadamard变换,136,在,H.264,中采用了两种熵编码方法:基于上下文的自适应可变长编码(,context-adaptively switched sets of variable length codes,,,CAVLC,)和基于上下文的自适应二进制算术编码(,context-based adaptive binary arithmetic coding,,,CABAC,)。,CAVLC,是基本编码方法,,CABAC,是可选的方法。,6.熵编码方案(Entropy Coding Schemes),7.自适应消块滤波器(Adaptive Deblocking Filter),137,H.264,的型(,Profiles,),H.264,定义了三类型,如图,5-35,所示。,5.6.4 H.264的型(Profiles),图,5-35 H.264,型的范围,138,1.,基本型(,Baseline Profile,),2.,主型(,Main Profile,),3.,扩展型(,Extended Profile,),4.,应用领域,139,5.7,数字音频压缩编码标准,5.7.1 MPEG-1,音频标准,5.7.2 MPEG-2,音频标准,140,目前已有多种数字音频标准,但是在数字电视广播中主要有两大类,即,MPEG,音频编码标准和,Dolby AC-3,音频编码标准。,141,MPEG-1(ISO/IEC11172),标准的第三部分(,ISO/IEC 11172-3,),称为,MPEG-1 Audio,。,5.7.1 MPEG-1音频标准,142,MPEG-1Audio,按照压缩编码的复杂程度规定了三种层次,即,Layer,,,Layer,和,Layer,,每个层次针对不同的应用,但是三个层的基本模型是相同的。,1. MPEG-1音频的三种层次,143,Layer,音频编码器框图如图,5-36,所示。,2. Layer I音频编码器,图,5-36 Layer,音频编码器,144,(,1,)多通道滤波器,(,2,)心理声学模型,145,MPEG,音频心理声学模型主要实现步骤如下。,(,a,)用快速傅立叶变换,FFT,将音频样值转换到频域。,(,b,)将得到的频率组成临界频带。,(,c,)在临界频带的谱值中,将单音(似正弦)和非单音(似噪声)分开。,146,(,d,)在临界频带决定噪声掩蔽阈值之间,模型在不同的临界频带给信号应用适当的掩蔽函数。,(,e,)计算由临界频带引起的每个子带的掩蔽值。,(,f,)计算每个子带的,SMR,。,147,比特分配过程决定分配给各个子带的编码比特数,分配的依据是心理声学模型的信息。,Layer ,和,Layer ,的比特分配过程是从计算掩蔽噪声比开始的。,MNR=SNR-SMR,(3)比特分配,148,按输入信号的大小来缩放量化步长,输入信号小用较小的量化步长,输入信号大用较大的量化步长。,(4)比例因子,149,MPEG-1,音频数据是分成帧,(frame),传送的,,Layer,每帧由,32,个子带,每个子带,12,个样值,共,384,个样值的数据组成。,Layer,的帧结构如图,5-37,所示。,(5)码流格式化,帧形成,150,图,5-37 Layer,的帧结构图,151,Layer,和,Layer,编码原理类似,不同之处有以下几点。,Layer,的每个子带不是均匀带宽;,Layer,使用的,FFT,精度高一些;,Layer,的帧长度码流是,Layer,的,3,倍;,3. Layer 的特点,152,Layer,和,Layer,帧结构的不同之处在于描述比特分配的比特位数是不一样的。,Layer,的帧包含,1152,个,PCM,的样值,如果取样频率为,48kHz,,一帧相当于,1152/48k=24ms,的声音样值,这样,Layer,的精确度为,24ms,,而对于,Layer,来言,精确度为,8ms,,如果用于编辑的话,,Layer,更精确。,153,图,5-38Layer,音频编码器,Layer,音频编码器和帧结构分别如图,5-38,和图,5-39,所示。,154,图,5-39Layer,码流结构图,155,Layer (,也即,MP3,)采用了,Layer ,和,Layer ,未用到的技术。,Layer ,编码器框图如图,5-40,所示。,4. Layer,156,图,5-40 Layer,编码器框图,157,MPEG-2,定义了两种声音数据压缩格式:一种称为,MPEG-2 Audio,,或者称为,MPEG-2,多通道,(Multichannel),声音,它是与,MPEG-1 Audio,兼容的格式。另一种称为,MPEG-2 AAC (Advanced Audio Coding),,它是与,MPEG-1 Audio,不兼容的格式。,5.7.2 MPEG-2音频标准,158,MPEG-2 Audio(ISO/IEC 13818-3),和,MPEG-1 Audio(ISO/IEC 1117-3),标准都使用相同类型的编译码器,与,MPEG-1 Audio,相比,,MPEG-2 Audio,做了如下扩充。,1. MPEG-2 Audio,159,增加了,16kHz, 22.05kHz,和,24kHz,取样频率;, 扩展了编码器的输出速率范围,由,32kbit/s,384kbit/s,扩展到,8kbit/s,640kbit/s,;, 增加了声道数,支持,5.1,声道和,7.1,声道的环绕声。, 支持,Liner PCM,和,Dolby AC-3,编码。环绕立体声声道示意图如图,5-41,所示。,160,图,5-41 5.1,声道和,7.1,声道示意图,161,MPEG-2 Audio,的音频编解码器的框图如图,5-42,所示。,图,5-42 MPEG-2 Audio,音频编解码器框图,162,MPEG-2 Audio,信号的,MPEG-1,解码框图如图,5-43,所示。,图,5-43 MPEG-2 Audio,信号的,MPEG-1,解码,163,AAC,的全名为,Advanced Audio Coding,,其意为高级音频编码,,AAC,是,1997,年国际标准组织(,ISO/IEC,)制定的音频编码标准,也是,MPEG-2,标准的一个部分,标准号为,MPEG-2 AAC,(,ISO/IEC 13818-7,)。,AAC,是一个可以提供更高的音频质量和多通道音频编码标准。,2.MPEG-2 AAC,164,(,a,),AAC,采用了改进的余弦变换,MDCT,滤波器组。,(b),采用了新的时间,/,频率编码方案,即瞬时噪声定形(,Temporal Noise Shaping,TNS,)。,(,c,)因为音频信号有较强的相关性,在,AAC,系统中采用了预测技术,有效地提高了编码效率。,(1)AAC增加的新编码工具,165,(,d,)能细致地控制量化步长大小,使得比特利用更为有效。,(,e,)在,AAC,系统中采用了霍夫曼熵编码,并配合灵活的码流结构,进一步提高了编码效率。,与,Layer ,相比,,AAC,的压缩率可提高,1,倍,而且质量更高,与,Layer ,相比,在质量相同的条件下,数据率是它的,70%,。,166,AAC,标准定义了三种型,(Profile),:基本型(,Main Profile,)、低复杂度型(,Low Complexity Profile,)和可变取样率型(,Scalable Sampling Rate Profile,)。,(2)AAC定义的三种型,167,
展开阅读全文