资源描述
第6章 视频压缩技术,6.1 视频压缩的基本原理 6.2 静止图像压缩 6.3 活动图像编码 6.4 音频压缩的原理和标准 思考题和习题,6.1 视频压缩的基本原理,6.1.1 视频信号压缩的可能性 视频数据中存在着大量的冗余, 即图像的各像素数据之间存在极强的相关性。 利用这些相关性, 一部分像素的数据可以由另一部分像素的数据推导出来, 结果视频数据量能极大地压缩, 有利于传输和存储。 视频数据主要存在以下形式的冗余。,1. 空间冗余 视频图像在水平方向相邻像素之间、 垂直方向相邻像素之间的变化一般都很小, 存在着极强的空间相关性。 特别是同一景物各点的灰度和颜色之间往往存在着空间连贯性, 从而产生了空间冗余, 常称为帧内相关性。,2. 时间冗余 在相邻场或相邻帧的对应像素之间, 亮度和色度信息存在着极强的相关性。 当前帧图像往往具有与前、 后两帧图像相同的背景和移动物体, 只不过移动物体所在的空间位置略有不同, 对大多数像素来说, 亮度和色度信息是基本相同的, 称为帧间相关性或时间相关性。,3. 结构冗余 在有些图像的纹理区, 图像的像素值存在着明显的分布模式。 如方格状的地板图案等。 已知分布模式, 可以通过某一过程生成图像, 称为结构冗余。 4. 知识冗余 有些图像与某些知识有相当大的相关性。 如人脸的图像有固定的结构, 嘴的上方有鼻子, 鼻子的上方有眼睛, 鼻子位于脸部图像的中线上。 这类规律性的结构可由先验知识得到, 此类冗余称为知识冗余。,5. 视觉冗余 人眼具有视觉非均匀特性, 对视觉不敏感的信息可以适当地舍弃。 在记录原始的图像数据时, 通常假定视觉系统是线性的和均匀的, 对视觉敏感和不敏感的部分同等对待, 从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开来编码)更多的数据, 这就是视觉冗余。 人眼对图像细节、 幅度变化和图像的运动并非同时具有最高的分辨能力。,人眼视觉对图像的空间分解力和时间分解力的要求具有交换性, 当对一方要求较高时, 对另一方的要求就较低。 根据这个特点, 可以采用运动检测自适应技术, 对静止图像或慢运动图像降低其时间轴抽样频率, 例如每两帧传送一帧; 对快速运动图像降低其空间抽样频率。,另外, 人眼视觉对图像的空间、 时间分解力的要求与对幅度分解力的要求也具有交换性, 对图像的幅度误差存在一个随图像内容而变的可觉察门限, 低于门限的幅度误差不被察觉, 在图像的空间边缘(轮廓)或时间边缘(景物突变瞬间)附近, 可觉察门限比远离边缘处增大34倍, 这就是视觉掩盖效应。,根据这个特点, 可以采用边缘检测自适应技术, 对于图像的平缓区或正交变换后代表图像低频成分的系数细量化, 对图像轮廓附近或正交变换后代表图像高频成分的系数粗量化; 当由于景物的快速运动而使帧间预测编码码率高于正常值时进行粗量化, 反之则进行细量化。 在量化中, 尽量使每种情况下所产生的幅度误差刚好处于可觉察门限之下, 这样能实现较高的数据压缩率而主观评价不变。,6. 图像区域的相同性冗余 在图像中的两个或多个区域所对应的所有像素值相同或相近, 从而产生的数据重复性存储, 这就是图像区域的相似性冗余。 在这种情况下, 记录了一个区域中各像素的颜色值, 与其相同或相近的区域就不再记录各像素的值。 矢量量化方法就是针对这种冗余图像的压缩方法。,7. 纹理的统计冗余 有些图像纹理尽管不严格服从某一分布规律, 但是在统计的意义上服从该规律, 利用这种性质也可以减少表示图像的数据量, 称为纹理的统计冗余。 电视图像信号数据存在的信息冗余为视频压缩编码提供了可能。,6.1.2 视频信号的数字化和压缩 模拟电视信号(包括视频和音频)通过取样、 量化后编码 为二进制数字信号的过程称为模数变换(AD变换)或脉冲编码调制(PCM, Pulse Coding Modulation), 所得到的信号也称为PCM信号, 其过程可用图6-1(a)表示。 若取样频率等于fs、 用n比特量化, 则PCM信号的码率为nfs(比特s)。 PCM编码既可以对彩色全电视信号直接进行, 也可以对亮度信号和两个色差信号分别进行, 前者称为全信号编码, 后者称为分量编码。,PCM信号经解码和插入滤波恢复为模拟信号, 如图6-1(b)所示, 解码是编码的逆过程, 插入滤波是把解码后的信号插补为平滑、 连续的模拟信号。 这两个步骤合称为数模变换(DA变换)或PCM解码。,图 6-1 电视信号的数字化和复原 (a) A/D变换; (b) D/A变换,1. 奈奎斯特取样定理 理想取样时, 只要取样频率大于或等于模拟信号中最高频率的两倍, 就可以不失真地恢复模拟信号, 称为奈奎斯特取样定理。 模拟信号中最高频率的两倍称为折叠频率。 2. 亚奈奎斯特取样 按取样定理, 若取样频率fs小于模拟信号最高频率fmax的2倍会产生混叠失真, 但若巧妙地选择取样频率, 令取样后频谱中的混叠分量落在色度分量和亮度分量之间, 就可用梳状滤波器去掉混叠成分。,3. 均匀量化和非均匀量化 在输入信号的动态范围内, 量化间隔幅度都相等的量化称为均匀量化或线性量化。 对于量化间距固定的均匀量化, 信噪比随输入信号幅度的增加而增加, 在强信号时固然可把噪波淹没掉, 在弱信号时, 噪波的干扰就十分显著。 为改善弱信号时的信噪比, 量化间距应随输入信号幅度而变化, 大信号时进行粗量化, 小信号时进行细量化, 也就是采用非均匀量化(或称非线性量化)。,非均匀量化有两种方法, 一是把非线性处理放在编码器前和解码器后的模拟部分, 编、 解码仍采用均匀量化, 在均匀量化编码器之前, 对输入信号进行压缩, 这样等效于对大信号进行粗量化, 小信号进行细量化; 在均匀量化解码器之后, 再进行扩张, 以恢复原信号。 另一种方法是直接采用非均匀量化器, 输入信号大时进行粗量化(量化间距大) , 输入信号小时细量化(量化间距小)。 也有采用若干个量化间距不等的均匀量化器, 当输入信号超过某一电平时进入粗间距均匀量化器, 低于某一电平时进入细间距量化器, 称为准瞬时压扩方式。,通常用Q表示量化, 用Q-1表示反量化。 量化过程相当于由输入值找到它所在的区间号, 反量化过程相当于由量化区间号得到对应的量化电平值。 量化区间总数远远少于输入值的总数, 所以量化能实现数据压缩。 很明显, 反量化后并不能保证得到原来的值, 因此量化过程是一个不可逆过程, 用量化的方法来进行压缩编码是一种非信息保持型编码。 通常这两个过程均可用查表方法实现, 量化过程在编码端完成, 而反量化过程则在解码端完成。,对量化区间标号(量化值)的编码一般采用等长编码方法。 当量化分层总数为K时, 经过量化压缩后的二进制数码率为lbK比特量值。 在一些要求较高的场合, 可采用可变字长编码如哈夫曼编码或算术编码来进一步提高编码效率。,6.1.3 ITU-R BT.601分量数字系统 数字视频信号是将模拟视频信号经过取样、 量化和编码后形成的。 模拟电视有PAL、 NTSC等制式, 必然会形成不同制式的数字视频信号, 不便于国际数字视频信号的互通。 1982年10月, 国际无线电咨询委员会(CCIR, Consultative Committee for International Radio)通过了第一个关于演播室彩色电视信号数字编码的建议, 1993年变更为ITU-R(国际电联无线电通信部分, International Telecommunications Union-Radio communications Sector)BT.601分量数字系统建议。,BT.601建议采用了对亮度信号和两个色差信号分别编码的分量编码方式, 对不同制式的信号采用相同的取样频率13.5 MHz, 与任何制式的彩色副载波频率无关, 对亮度信号Y的取样频率为13.5 MHz。 由于色度信号的带宽远比亮度信号的带宽窄, 对色度信号U和V的取样频率为6.75 MHz。 每个数字有效行分别有720个亮度取样点和3602个色差信号取样点。 对每个分量的取样点都是均匀量化, 对每个取样进行8比特精度的PCM编码。,这几个参数对525行、 60场秒和625行50场秒的制式都是相同的。 有效取样点是指只有行、 场扫描正程的样点有效, 逆程的样点不在PCM编码的范围内。 因为在数字化的视频信号中, 不再需要行、 场同步信号和消隐信号, 只要有行、 场(帧)的起始位置即可。 例如, 对于PAL制, 传输所有的样点数据, 大约需要200 Mbs的传输速率, 传输有效样点只需要160 Mbs左右的速率。 色度信号的取样率是亮度信号取样率的一半, 常称作422格式, 可以理解为每一行里的Y、 U、 V的样点数之比为422。,6.1.4 熵编码 熵编码(Entropy Coding)是一类无损编码, 因编码后的平均码长接近信源的熵而得名。 熵编码多用可变字长编码(VLC, Variable Length Coding)实现。 其基本原理是对信源中出现概率大的符号赋以短码, 对出现概率小的符号赋以长码, 从而在统计上获得较短的平均码长。 所编的码应是即时可译码, 某一个码不会是另一个码的前缀, 各个码之间无需附加信息便可自然分开。,1. 霍夫曼(Huffman)编码 霍夫曼(Huffman)编码是一种可变长编码, 编码方法如图6-2所示。 (1) 将输入信号符号以出现概率由大至小为序排成一列。 (2) 将两处最小概率的符号相加合成为一个新概率, 再按出现概率的大小排序。 (3) 重复步骤(2), 直至最终只剩两个概率。 (4) 编码从最后一步出发逐步向前进行, 概率大的符号赋予“0”码, 另一个概率赋予“1”码, 直至到达最初的概率排列为止。,图 6-2 霍夫曼(Huffman)编码,2. 算术编码 霍夫曼编码的每个代码都要使用一个整数位, 如果一个符号只需要用2.5位就能表示, 但在霍夫曼编码中却必须用3个符号来表示, 因此它的效率较低。 与其相比, 算术编码并不是为每个符号产生一个单独的代码, 而是使整条信息共用一个代码, 增加到信息上的每个新符号都递增地修改输出代码。,假设信源由4个符号S1、 S2、 S3和S4组成, 其概率模型如表6-1所示。 把各符号出现的概率表示在如图6-3所示的单位概率区间之中, 区间的宽度代表概率值的大小, 各符号所对应的子区间的边界值, 实际上是从左到右各符号的累积概率。 在算术编码中通常采用二进制的小数来表示概率, 每个符号所对应的概率区间都是半开区间, 如S1对应0, 0.001), S2对应0.001, 0.011)。 算术编码所产生的码字实际上是一个二进制小数值的指针, 该指针指向所编的符号所对应的概率区间。,表6-1 信源概率模型和算术编码过程,图 6-3 算术编码过程示意图,若将符号序列S3S3S2S4进行算术编码, 序列的第一个符号为S3, 我们用指向图6-3中第3个子区间的指针来代表这个符号, 由此得到码字0.011。 后续的编码将在前面编码指向的子区间内进行。 将0.011, 0.111)区间再按符号的概率值划分成4份, 对第二个符号S3, 指针指向0.1001,码 字串变为0.1001。 然后S3所对应的子区间又被划分为4份, 开始对第3个符号进行编码。,算术编码的基本法则如下: (1) 初始状态: 编码点(指针所指处)C0=0, 区间宽度A0=1。 (2) 新编码点: Ci= Ci-1 + Ai-1Pi。 式中, Ci-1是原编码点; Ai-1是原区间宽度; Pi所编符号对应的累积概率。 新区间宽度Ai= Ai-1pi 式中, pi为所编符号对应的概率。,根据上述法则, 对序列S3S3S2S4进行算术编码的过程如下: 第一个符号S3: C1=C0+A0P1=0+10.011=0.011 A1=A0p1=10.1=0.1 0.011,0.111 第二个符号S3: C2=C1+A1P2 =0.011+0.10.011=0.1001 A2=A1p2=0.10.1=0.01 0.1001,0.1101,第三个符号S2: C3=C2+A2P3=0.1001+0.010.001=0.10011 A3=A2p3=0.010.01=0.0001 0.10011,0.10101 第四个符号S4: C4=C3+A3P4=0.10011+0.00010.111=0.1010011 A4=A3p4=0.00010.001=0.0000001 0.1010011,0.10101),3. 游程编码 游程编码(RLC, Run Length Coding)是一种十分简单的压缩方法, 它将数据流中连续出现的字符用单一的记号来表示。 例如, 字符串5310000000000110000000012000000000000可以压缩为5310-10110-08120-12, 其中, “-”后面两个数字是“-”前面数字的连续个数。 游程编码的压缩率不高, 但编码、 解码的速度快, 仍被得到广泛的应用, 特别是在变换编码后再进行游程编码, 有很好的效果。,6.1.5 预测编码和变换编码 1. DPCM原理 基于图像的统计特性进行数据压缩的基本方法就是预测编码。 它是利用图像信号的空间或时间相关性, 用已传输的像素对当前的像素进行预测, 然后对预测值与真实值的差预测误差进行编码处理和传输。 目前用得较多的是线性预测方法, 全称为差值脉冲编码调制(DPCM, Differential Pulse Code Modulation), 简称为DPCM。,利用帧内相关性(像素间、 行间的相关)的DPCM称为帧内预测编码。 如果对亮度信号和两个色差信号分别进行DPCM编码, 对亮度信号采用较高的取样率和较多位数编码, 对色差信号用较低的取样率和较少位数编码, 构成时分复合信号后再进行DPCM编码, 这样做使总码率更低。,利用帧间相关性(邻近帧的时间相关性)的DPCM被称为帧间预测编码, 因帧间相关性大于帧内相关性, 其编码效率更高。 若把这两种DPCM组合起来, 再配上变字长编码技术, 能取得较好的压缩效果。 DPCM是图像编码技术中研究得最早, 且应用最广的一种方法, 它的一个重要的特点是算法简单, 易于硬件实现。 图6-4(a)是它的示意图, 编码单元主要包括线性预测器和量化器两部分。,编码器的输出不是图像像素的样值f(m, n), 而是该样值与预测值g(m, n)之间的差值, 即预测误差e(m, n)的量化值E(m, n)。 根据图像信号统计特性的分析, 给出一组恰当的预测系数, 使预测误差主要分布在“0”附近, 经非均匀量化, 采用较少的量化分层, 图像数据得到压缩。 而量化噪声又不易被人眼所觉察, 图像的主观质量并不明显下降。 图6-4(b)是DPCM解码器, 其原理和编码器刚好相反。,图 6-4 DPCM原理 (a) DPCM编码器; (b) DPCM解码器,DPCM编码性能主要取决于预测器的设计, 预测器设计要确定预测器的阶数N以及各预测系数。 图6-5是一个4阶预测器的示意图, 图6-5(a)表示预测器所用的输入像素和被预测像素之间的位置关系, 图6-5(b)表示预测器的结构。,图 6-5 四阶预测器 (a) 输入像素和预测像素; (b) 预测器构成,2. 变换编码原理 图像变换编码是将空间域里描述的图像, 经过某种变换(如傅立叶变换、 离散余弦变换、 沃尔什变换等)在变换域中进行描述。 这样可以将图像能量在空间域的分散分布变为在变换域的相对集中分布, 便于用“Z”(zig-zag)字形扫描、 自适应量化、 变长编码等进一步处理, 完成对图像信息的有效压缩。,先从一个实例来看一个域的数据变换到另一个域后其分布是如何改变的。 以12像素构成的子图像, 即相邻两个像素组成的子图像为例, 每个像素3比特编码, 取07共8个灰度级, 两个像素有64种可能的灰度组合, 由图6-6(a)中的64个坐标点表示。 一般图像相邻像素之间存在着很强的相关性, 绝大多数的子图像中相邻两像素灰度级相等或很接近, 也就是说在x1=x2直线附近出现的概率大, 如图6-6(a)中的阴影区所示。,现在将坐标系逆时针旋转45, 如图6-6(b)所示。 在新的坐标系y1、 y2中, 概率大的子图像区位于y1轴附近。 表明变量y1、 y2之间的联系比变量x1、 x2之间的联系在统计上更加独立, 方差也重新分布。 在原来坐标系中子图像的两个像素具有较大的相关性, 能量的分布也比较分散,,两者具有大致相同的方差, 而在变换后的坐标系中, 子图像的两个像素之间的相关性大大减弱, 能量分布向y1轴集中, y1的方差也远大于y2, 这种变换后坐标轴上方差不均匀分布正是正交变换编码能够实现图像数据压缩的理论根据。 若按照人的视觉特性, 只保留方差较大的那些变换系数分量, 就可以获得更大的数据压缩比, 这就是视觉心理编码的方法。,图 6-6 变换编码的物理意义 (a) 子图像在阴影区的概率较大; (b) 旋转变换后,把一个nn像素的子图像看成n2维坐标系中的一个坐标点, 在n2维坐标系中每一个坐标点对应于n2个像素。 这个坐标点各维的数值是其对应的n2个像素的灰度组合。 图像在n2维变换域中, 相关性大大下降。 因此用变换后的系数进行编码, 比直接用图像数据编码能获得更大的数据压缩。,变换编码将被处理数据按照某种变换规则映射到另一个域中去处理, 图像编码采用二维正交变换的方式, 若将整个图像作为一个二维矩阵, 变换编码的计算量太大。 所以将一幅图像分成一个个小图像块, 通常是88或1616小方块, 每个图像块可以看成为一个二维数据矩阵, 变换编码以这些小图像块为单位进行, 变换编码把统计上密切相关的像素构成的矩阵通过线性正交变换, 变成统计上较为相互独立, 甚至完全独立的变换系数所构成的矩阵。,信息论的研究表明, 变换前后图像的信息量并无损失, 可以通过反变换得到原来的图像值。 统计分析表明, 正交变换后, 数据的分布向新坐标系中的少数坐标集中, 集中于少数的直流或低频分量的坐标点。 正交变换并不压缩数据量, 但它去除了大部分相关性, 数据分布相对集中, 可以依据人的视觉特性, 对变换系数进行量化, 允许引入一定量的误差, 只要它们在重建图像中造成的图像失真不明显, 或者能达到所要求的观赏质量就行。 量化可以增加许多不用编码的0系数, 然后再对量化后的系数施行变长编码。,3. 离散余弦变换(DCT) 在常用的正交变换中, DCT(Discrete Cosine Transform)变换的性能接近最佳, 是一种准最佳变换。 DCT变换矩阵与图像内容无关, 是因为它构造成对称的数据序列, 避免了子图像轮廓处的跳跃和不连续现象。 DCT变换也有快速算法(FDCT), 在图像编码的应用中, 大都采用二维DCT变换。,对于一般图像, 在二维DCT的变换域中, 幅值较大的系数集中在低频域, 图6-7是一幅图像上的两个88像素矩阵及其二维DCT系数矩阵。 图6-7(a)是背景区域的一小块图像, 它的系数矩阵左上角的50为DCT系数的直流分量, 它标志着该像素块的亮度平均值, 其余系数皆为零, 说明在变换域中系数的分布是相当集中的。 图6-7(b)为细节较多的区域里的一小块图像, 其系数的分布集中的程度要差一些。,图 6-7 图像块的DCT变换 (a) 背景部分图像块的DCT; (b) 细节部分图像块的DCT,图 6-8 Z字形扫描,对自然景物图像的统计表明, DCT系数矩阵的能量集中在反映水平和垂直低频分量的左上角。 量化以后, DCT系数矩阵变得稀疏, 位于矩阵右下角的高频分量系数大部分被量化为零。 游程编码的思想是, 用适当的扫描方式将已量化的二维DCT系数矩阵变换为一维序列, 所用的扫描方式应使序列中连零的数目尽量多, 或者说使连零的游程尽量长, 对游程的长度进行游程编码(RLC, Run Length Coding)以替代逐个地传送这些零值, 就能进一步实现数据压缩。 常用的Z(zig-zag)字形扫描如图6-8所示。,游程编码的方法是将扫描得到的一维序列转化为一个由二元数组(run, level)组成的数组序列, 其中run表示连零的长度, level表示这串连零之后出现的一个非零值。 当剩下的所有系数都为零时, 用一个符号EoB(End of Block)来表示。,4. 混合编码 混合编码是近年来广泛采用的方法, 这种方法充分利用各种单一压缩方法的长处, 以期在压缩比和效率之间取得最佳的平衡。 如广泛流行的JPEG和MPEG压缩方法都是典型的混合编码方案。,6.2 静止图像压缩,静止图像是指内容不变的图像, 也可能是不活动场景图像或活动场景图像在某一瞬时的“冻结”图像。 静止图像编码是指对单幅图像的编码。 静止图像用于传送文件、 模型、 图片和现场的实况监视图像。 实况监视每隔一定时间间隔更换一幅新的图像, 可以不连续地看到现场的情况, 是一种准实时的监视。,静止图像编码有以下要求: (1) 清晰度 静止图像中的细节容易被观察到, 要求有更高的清晰度。 (2) 逐渐浮现的显示方式 在窄带传输时为了减少等待时间, 要求编码能提供逐渐浮现的显示方式, 即先传模糊的整幅图像, 再逐渐变清晰。 (3) 抗干扰 一幅图像的传输时间较长, 各种干扰噪声显示时间较长, 影响观看, 要求编码与调制方式都有较强的抗干扰能力。,图6-9是静止图像编码传输系统示意图。 摄像机摄取的全电视信号, 经数据采集卡捕获一帧图像, 数字化后存放在帧存储器中。 也可用数字摄像机直接得到数字图像。 编码器对存放在帧存储器中数字图像进行压缩编码, 因时间充裕可采用较复杂的算法提高压缩比, 保持较高的清晰度。 经调制后送到信道中传输。 接收的过程则相反, 信号经解调、 解码后送帧存储器, 然后以一定的方式读出, 经DA变换后在显示屏上显示, 或被拷贝下来。,图 6-9 静止图像数字传输系统,静止图像的主要编码方法是DPCM和变换编码, 由于小波变换编码在静止图像的压缩中取得了重大进展, 在新标准JPEG2000和MPEG-4中均采用小波变换编码。,6.2.1 JPEG标准 JPEG是国际标准化组织(ISO, International Organization for Standardization)国际电工技术委员会(IEC, International Electrotechnical Commission)和ITU-T的联合图片专家小组(Joint Photographic Experts Group)的缩写。 1991年3月JPEG建议(ISOIEC10918号标准)“多灰度静止图像的数字压缩编码(通常简称为JPEG标准)”正式通过, 这是一个适用于彩色和单色多灰度或连续色调静止数字图像的压缩标准, 包括无损压缩及基于离散余弦变换和霍夫曼编码的有损压缩两个部分。基本JPEG算法操作可分成6个步骤, 如图6-10所示。,图 6-10 JPEG算法步骤,1. 彩色坐标转换 彩色坐标转换是要去掉数据冗余量, 不属于JPEG算法, JPEG是独立于彩色坐标的。 压缩可采用不同坐标(如RGB、 YUV、 YIQ等)的图像数据。,2. 离散余弦变换 JPEG采用88子块的二维离散余弦变换算法。 在编码器的输入端, 把原始图像(U、 V的像素是Y的一半)顺序地分割成一系列88的子块。 在88图像块中, 像素值变化缓慢, 具有较低的空间频率。 进行二维88离散余弦变换可以将图像块的能量集中在极少数系数上, DCT的(0, 0)元素是块的平均值, 其他元素表明在每个空间频率下的谱能为多少。 一般地, 离原点(0, 0)越远, 元素衰减得越快。,3. 量化 为了达到压缩数据的目的, 对DCT系数需作量化处理。 量化的作用是在保持一定质量的前提下, 丢弃图像中对视觉效果影响不大的信息。 量化是多对一映射, 是造成DCT编码信息损失的根源。 JPEG标准中采用线性均匀量化器, 量化过程为对64个DCT系数除以量化步长并四舍五入取整, 量化步长由量化表决定。,量化表元素因DCT系数位置和彩色分量的不同而取不同的值。 量化表为88矩阵, 与DCT变换系数一一对应。 量化表一般由用户规定(JPGE标准中给出了参考值), 可根据人类视觉系统和压缩图像类型的特点进行优化, 并作为编码器的一个输入。 量化表中元素为1255之间的任意整数, 其值规定了所对应DCT系数的量化步长。 DCT变换系数除以量化表中对应位置的量化步长并舍去小数部分后, 多数变为零, 从而达到了压缩的目的。 表6-2和表6-3分别给出了JPEG标准所推荐的亮度量化表和色度量化表。,表6-2 JPEG亮度量化步长,表6-3 JPEG色度量化步长,4. 差分编码 64个变换数经量化后, DCT的(0, 0)元素是直流分量(DC系数), 即空间域中64个图像采样值的均值, 相邻88子块之间的DC系数一般有很强的相关性, 变化应该较缓慢, JPEG标准对DC系数采用DPCM编码(差分编码)方法, 即对相邻像素块之间的DC系数的差值进行编码能将它们中的大多数数值减小。,5. 游程编码 其余63个交流分量(AC系数)采用游程编码。 如果从左到右, 从上到下地扫描块, 零元素不集中, 因此采用从左上角开始沿对角线方向Z字形扫描。 量化后的AC系数通常会有许多零值。 6. 熵编码 为了进一步压缩数据, 对DC码和AC游程编码的码字再作统计特性的熵编码, JPEG标准建议采用霍夫曼编码和自适应二进制算术编码。,6.2.2 JPEG2000标准 JPEG2000是JPEG工作组制定的最新的静止图像压缩编码的国际标准, 标准号为ISOIECl5444(ITU-TT.800), 并于2000年底公布。 JPEG2000主要由6个部分组成。 第一部分为编码的核心部分, 提供优秀的压缩性能和压缩灵活性, 提供随机访问码流的机制;,第二部分为编码扩展; 第三部分为Motion JPEG2000(MJP2000); 第四部分为一致性测试; 第五部分为参考软件; 第六部分为复合图像文件格式。,1. JPEG2000采用了小波变换(DWT) JPEG基本算法中的基于子块的DCT被离散小波变换(DWT, Discrete Wavelet Transform)取代。 DWT自身具有多分辨率图像表示性能, 它可以在大范围去掉图像的相关性, 将图像能量分布更好地集中, 使压缩效率得到提高。,一个图像可以被分成若干大小相等的片(tile), 片的具体尺寸可以由用户根据应用需要来决定, 片包括所有的图像分量, 假设图像有3个分量(YUV)且图像被分成4个片, 实际上指的是对应的4个Y片, 4个U片和4个V片, 即每个片由3个分量片组成。 各个分量片独立编、 解码, 可以从码流中单独提取某个或某些片, 解码后重建图像。 这种片划分和片独立编码的机制有利于从码流中提取和解码某个图像区域。,图 6-11 DWT对静止图像进行三级分解 一级分解示意图; (b) 二级分解示意图; (c) 三级分解示意图,对分量片做不同级别的小波变换, 小波变换的作用是对图像进行多分辨率分解, 即把原始图像分解成不同空间、 不同频率的子图像, 这些子图像实际上是由小波变换后产生的系数构成, 即系数图像。 对一个原始图像或分量片进行3级小波分解的例子如图6-11所示, 每一级分解都把图像分解成4个不同空间、 不同频带的子图像(也称为子带图像或子带分量)。 低频分量LL(包含图像的低频信息, 即图像的主要特征, 低频分量可再次分解);水平分量LH(包含较多的水平边缘信息); 垂直分量HL(包含较多的垂直边缘信息); 对角分量HH(包含水平和垂直边缘信息)。,从图6-11可以看出, 分解级数越多, 图像分辨率等级越多, 每一级分解图像的分辨率降为前一级的一半。 在解码端, 如果只想得到低于原始图像分辨率图像, 就只需对部分的子带图像(子带分量)进行解码。,小波变换本身并不具有数据压缩能力, 变换前, 原始图像的数据量(像素值的个数)与变换后各系数的数据量(系数个数)相等, 变换的意义在于使图像的能量分布(频域内的系数分布)发生了改变, 图像的主要能量集中在低频区 (LL区), 而水平、 垂直、 对角线部分的高频能量较少。 通过量化, 把大量幅值较小系数抑制为零, 从而压缩数据量, 要进一步大幅度压缩数据量, 还需进行合适的编码处理(如算术编码), 用更少的比特表示那些量化后不为零的小波系数。,2. JPEG2000同时支持有损和无损压缩 小波变换可以使用可逆的Le Gall(5, 3)滤波器, 也可以使用不可逆的Daubechies(9, 7)双正交滤波器。 可逆滤波器支持无损编码, 不可逆滤波器不支持无损编码但能达到更高的压缩比。,3. JPEG2000支持RoI处理 在处理图像时, 往往对部分感兴趣区域(RoI, Region of Interest)有较高的质量要求, 希望是无损压缩。 为了得到较高的压缩效率, 把图像的其他部分看成是背景, 进行压缩比较高的有损压缩。 在传输图像码流时, RoI区域可先于图像的其他部分被传输, 如果压缩码流被截取, 则在一定程度上可保证RoI的质量。,JPEG2000系统为RoI区域产生一个RoI模板, 用来标志RoI区域。 选择适当的比例因子s, 将位于RoI模板区域之外的背景量化系数的幅值除以2s, 得到的数值小于RoI模板中最小的量化系数幅值。 这样处理后, 位于RoI模板内的量化系数所处的位平面高于背景系数所处的位平面, 在进行位平面算术编码的时候, 先对RoI域中的量化系数编码, 然后再对背景系数编码。 因为RoI区域的位平面高于背景区域, RoI区域的压缩码流位于整个码流的前端, 当码流被截断时RoI区域中的数据在一定程度上受到保护, 保证了RoI的重构质量。,在解码器端, 将解码后的量化系数与RoI阈值相比较, 若小于RoI阈值, 则判定是背景系数, 对其进行反向比例放大, 即乘以2s, 进行恢复, 得到重构时所需的小波量化系数。,4. 可随机获取部分压缩码流 JPEG2000系统将码流分层组织, 每一层含有一定的质量信息, 在前面层的基础上改善图像质量。 在网络上进行图像浏览时, 可先传送第一层, 给用户一个较粗的图像, 然后再传送第二层, 图像质量在第一层的基础上得到改善, 这样一层一层地传输下去, 可得到不同质量的重构图像。 如果传输了所有的层, 则可获得完整的图像压缩码流。 JPEG2000由于采用了这种思想, 使得压缩生成的码流具有质量可分级性和分辨率可分级性。,5. 随机存取图像某个区域 有时只需得到巨幅图像的部分区域, JPEC2000标准利用小波变换的局部特性, 可识别部分图像区域在子带上的映射。 每个码块是独立进行编码的, 通过选取含有此部分图像区域信息的码块压缩码流, 进行解码, 可以重构出所要的目标区域。 RoI技术在很大程度上为实现随机存取码流提供了一种渠道。,6. 抗误码性能 在JPEG2000标准中, 采取了一些措施来提高图像压缩码流的抗误码性能。 将量化后的子带系数分成若干个小的编码单元码块, 对每个码块进行独立的编解码。 这样, 当一个码块的位流发生比特错误时, 只会把错误引起的影响限制在本码块中。 压缩码流数据采用了称为包(packet)的结构单元, 每个包的数据前面含有再同步信息, 允许发生错误后重新恢复同步。,7. 视觉频率加权 在JPEG2000中, 可选择使用对不同空间频率有不同敏感度的视觉系统模型。 这一模型用对比度敏感函数(CSF, Contrast Sensitivity Function)来衡量。 由于CSF函数是由变换系数的视觉频率来决定的, 因此, 给小波变换后的每个子带, 分配一个CSF值。 CSF值的确定依据观察重构图像的视觉条件而定, 有两种选取办法: 固定的视觉加权编码和视觉累进加权编码。,固定的视觉加权仅由视觉条件决定。 对分层组织码流, 由于码流可以被截断, 在不同的截断处, 有不同的质量, 因此进行观察的视觉条件是不同的。 比如, 对于低比特率的情况,缺少细节, 压缩图像质量差, 适合进行远距离观察; 随着比特数的增加, 细节越来越多, 压缩图像质量逐渐变好, 则适合近距离观测。 因此, CSF值在不同的截断处应有不同的值, 这便是视觉累进加权编码。 在进行视觉累进加权编码时, 不需改变系数值或者量化步长, 而是根据视觉权值, 改变失真矩阵, 计算码块对每个层的贡献, 通过改变码块编码通道在分层组织位流中的顺序来实现。,JPEG2000具有的多种特点使得它具有广泛的应用前景, 由于采用小波变换和最新的压缩算法, 因此能够获得较好的压缩比, 且对压缩码流可进行灵活处理, 如随机获取部分压缩码流、 累进式传输、 实现RoI以及压缩码流具有较强的容错性能等。 这些特点可应用于因特网、 移动通信、 打印、 扫描、 数字摄像、 遥感、 传真、 医疗、 数字图书馆以及电子商务等方面的图像压缩。,身份确认方面, 将身份证头像照片用高清晰度的数字相机摄制, 经JPEG2000压缩存储在数据库中。 在需要进行身份验证的场合, 验证终端可以根据证件代号通过因特网从数据库里直接获取压缩的图像数据, 在本地迅速恢复出大幅高清晰的头像照片。,在医疗方面, JPEG2000编码器对医生指定的病变部位予以无损压缩, 而对图像中不影响诊断结果的其他部分采用高达100倍的压缩率予以视觉可接收压缩。 压缩之后的图像完全保存了疾病特征, 而数据量非常小。 医生可以把它迅速发送到千里之外的医学专家那里, 并以最快的速度得到权威的确诊。,许多著名的图形图像公司如Corel、 Pegasus等都开始在新开发的图像工具软件中集成JPEG2000图像压缩技术, Microsoft、 Netscape等浏览器领域的公司也开始将JPEG2000新技术集成到下一个版本的浏览器中。 JPEG2000会在21世纪图像压缩领域发挥重要作用。,6.2.3 数字照相机 数字照相机也称数码相机, 是利用静止图像压缩的典型例子, 数字照相机是光学技术、 微电子技术与数字信号处理技术相结合的产物。 其基本原理是利用普通照相机的光学系统, 把被摄图像投射到图像传感器上, 传感器把光信号转化成电信号, 再经过模数(AD)转换、 数字图像处理和压缩, 最终以数字形式存储到磁盘、 可移动快闪存储卡等数字存储器中。 图6-12是数字照相机结构示意图。,图 6-12 数字照相机结构示意图,1. 数码相机的优点 (1) 瞬时显示摄影效果 数码相机的液晶显示屏在拍摄照片后立即显示拍摄的效果, 对不满意图像可以立即删去重拍。 (2) 更宽的曝光控制范围 数码相机的成像器件光电灵敏度很高, 在低照度条件下也能够较好地曝光。 用MOS开关方式控制光电器件的感光时间, 控制最小时间可达微秒级, 在环境照度很高时, 数码相机可以得到合适曝光的图像。,(3) 图像逼真 数码相机的数字图像可直接输入计算机, 用制造厂商提供的处理软件进行特技处理。 也可用Photoshop那样的通用软件处理。 对于在拍摄过程中出现的诸如色温、 清晰度、 像差、 曝光量等技术缺陷, 可以通过后处理得到一定程度的修正, 能大大提高所拍摄图像的质量。 特别是对于光学像差中的畸变, 数字图像已经有了很好的补偿修正手段。 也可以对图像进行任意的修改、 编辑、 合成、 分解和景物置换等处理。,(4) 图像通信便捷 数码相机以数字信号的形式记录影像, 以计算机图像文件格式保存图像。 这样既可以利用最先进的通信手段快速传输, 也可以通过Email和网页在Internet上传输, 更可以通过卫星地面工作站做超远距离的图像传输。,(5) 准确复制和长期保存 由数码相机得到的数字影像在复制过程中不存在任何信号损失。 以计算机文件形式保存的数字图像可以永久保存在硬盘或光盘中。 (6) 设备简单处理速度快 数码成像系统只需要数码相机和通用计算机及其输出设备即可完成整个图像制作过程, 设备简单, 处理速度快。,2. 数码相机技术指标 (1) 成像器件像素数 成像器件的像素数对数码相机的图像质量起决定性的作用。 目前一般数码相机CCD像素数在300万以上。 数码相机的成像器件像素数在很大程度上决定了相机图像的最高分辨率。 分辨率用于评价数码图像的质量, 数码相机摄取数码照片的分辨率是可选择的。 数码相机的像素指标只有一个, 而所拍摄的数字图像的分辨率指标却可以有许多个, 分辨率越高的照片要求有越大的存储空间存储数据。,(2) AD转换精度 评价数码照片的图像质量除了分辨率外, 还有照片色彩的编码位数。 编码位数决定了在AD转换过程中的精确程度, 一般来说, 24(38)位的色彩已经相当丰富, 能适应绝大部分的拍摄要求。,(3) 光电传感器 电荷耦合器件(CCD)传感器和互补金属氧化物半导体(CMOS)传感器是两类主要的图像传感器。 CCD数码相机经历了较长的发展时期, 目前在成像质量、 分辨率上优于CMOS, 而CMOS数码相机在产品价格, 耗电量等方面又有独特的优势。 目前高档专业型数码相机多为CCD型, 廉价普及型数码相机多为CMOS型。,近年来CMOS成像器件发展很快, 已经出现百万像素的CMOS器件, CMOS器件的最大优点是把信号放大、 模数转换、 数字图像处理等电路集成到一块芯片上, 形成了片上成像系统(Camera on Chip), 这对数码相机的小型化、 微型化具有重要意义。 CMOS成像器件通过开关电路进行像素信号传输, 使用者可以控制开关电路有选择地获取图像信息, 形成智能像素器件(Active Pixel Sensor), 该器件对于工业自动化控制, 机器人视觉等领域中的成像系统具有重要的价值。,(4) DSP能力 DSP能力较强的相机能够较高水平地完成诸如黑色补偿、 光照度补偿、 缺陷像素修补、 滤色器补偿插值、 校正、 白平衡、 假彩色抑制等操作, 补偿了许多由于硬件所造成的图像缺陷, 图像质量达到了较为完善的程度。 越是高档的数码相机, DSP的处理能力越强。 一些数码相机还能显示选单, 可以设定一些DSP图像处理中的参数, 从而获得某些特殊效果。,DSP还能从图像中提取曝光量信息和对焦信息, 以控制镜头和快门, 使相机处在最佳工作状态。 DSP还能完成图像压缩的任务, 好的图像压缩算法可以在压缩图像存储量的同时很好地保持图像细节的信息, 解压缩后显示的图像与原图像比较看不出任何区别。 高的压缩比可以节省数码相机的存储空间, 在有限的空间中存储更多高质量的图片。 快的压缩速度可以在相机完成一次曝光以后迅速回到待机状态, 提高相机的连拍速度。,(5) 取景器 数码相机的取景方式有光学取景和LCD取景。 光学取景中有平视取景和通过镜头(TTL, Through The Lens)取景之分。 平视取景结构简单, 但由于取景器光轴与镜头光轴不重合, 眼睛看到的景象与实际拍摄景象存在着位置误差和尺寸误差, 近距离拍摄时, 误差更明显。 TTL取景的取景光轴和成像光轴是重合的, 取景误差较小, 取景范围可达到实拍画面的95%。 专业级的数码相机采用TTL取景方式。,液晶显示(LCD, Liquid Crystal Display)取景是指利用液晶显示屏显示DSP预处理后的图像。 LCD取景所见即所得, 取景视场精度高。 但LCD取景显示的像素要远远低于CCDCMOS得到的像素。 LCD取景目前还存在跟踪速度不快、 对比度差、 视觉失真、 背景光源影响、 视角小等缺点。 大部分数码相机都带有一个LCD取景器与平视取景器互为补充。,(6) 图像存储 低档数码相机以内装存储器为主, 当存储器存满后, 必须暂停拍摄, 要等到存储的图像数据输出之后才能继续拍摄。 对于存储卡型的照相机, 只要有备用的存储卡, 就可以像换胶卷一样换存储卡。 PC卡是用得最多的可移动式存储器, 能插入一个PCMCIA插槽。 有的数码相机PC卡是惟一的存储器, 也有的数码相机有内部存储器, 仍支持PC卡作为扩展存储器, 存在PC卡中的数字图像可以通过PC卡读取器输入计算机。,PC卡的优点是可以大量存储照片。 可移动式存储卡还有闪烁存储卡(Flash Card), 也采用PC卡标准, 可直接插入便携式计算机的PC卡插口将信息输入, 也可用PC卡读取器输入计算机。 Compact Flash存储卡采用标准ATAIDE接口, 配有专门的PCMCIA转换卡, 笔记本计算机的用户可直接在PCMCIA插槽上使用。,3. 数字图像处理(DSP) DSP是数码相机的主要部件, 所有功能都是由DSP来实现的。 DSP控制着CCD、 AD转换器件、 LCD和控制面板。 (1) 暗电流补偿 补偿的方法是在器件完全遮光的条件下先测出各像素的暗电流值, 从拍摄后图像的像素值中减去相应的暗电流值。,(2) 镜头光照度补偿 由于镜头的渐晕效应, 即使拍摄目标是一个受均匀光照的物面, 成像器件受到的照度仍是不均匀的, 器件边缘所受的光照度较小, 对于同一镜头, 照度差是有固定规律的, 通过DSP数字补偿, 等效于成像器件得到均匀的照度。,(3) 缺陷像素修补 成像器件的几百万个像素中总有一定数量的疵点, 在完全遮光条件下数码相机读取像素灰度值时, 一些“亮点”就是疵点位置。 通常用插值的方法来实现缺陷像素的修补, 用周围像素的灰度值推算出缺陷像素的灰度值。,(4) 彩色校正 彩色校正就是通过调整三基色光的增益, 使成像器件的光谱特性与显示或打印设备的光谱特性一致, 使显示或打印图像的色彩更加完美。 通常是通过一个变换矩阵来改变红、 绿、 蓝三基色光的增益, 同时保证白平衡。,(5) 自动聚焦和自动曝光 聚焦图像比未聚焦图像的轮廓更加分明, 纹理细节更加清晰。 聚焦图像的高频分量更大一些。 用数字高通滤波获取不同焦距时输入图像的高频分量并进行比较, 高频分量的最大值对应着最佳聚焦。 为了简化计算, 只对图像的一部分进行滤波处理就能达到同样的效果。,自动曝光以图像平均亮度为参考, 调节光圈和改变图像传感器的曝光参数。 为了防止亮的背景引起主要物体曝光不足, 暗的背景又使主要物体曝光过度, 根据主要物体一般位于照片中央这一特点, 将摄取的图像分成中央和周边两部分, 分别计算其亮度, 并加权不同的经验值。,(6) 校正 数字图像的显示和打印设备中, 像素的灰度值与所显示图像中对应的亮度值呈非线性关系。 通过校正, 显示或打印的图像能够正确反映被摄景物的灰度值。 (7) 滤色器补偿插值 光电器件是通过滤色器得到图像的三基色信息的, 每个像素只得到了一种基色的信息, 即R、 C、 B(或Cy、 Mg、 Ye、 G)中的一种颜色。 像素的其他颜色就必须由其周围像素的颜色信息插值得到。,(8) 轮廓增强 滤色器起了低通滤波的作用, 图像的轮廓变得平滑。 DSP增强图像的轮廓, 而图像的噪声不能被放大。 先找到灰度变化大的轮廓像素, 计算轮廓像素与前一像素的Y分量差值, 将Y分量差值放大并叠加到原像素Y值上。 噪声造成的假轮廓像素少、 灰度变化小, 要将差值低于设定阈值的假轮廓信号去掉以保证处理后图像的真实性。,(9) 图像压缩 数码相机的存储空间有限, 获取的数字图像必须经过压缩, 以前的数码相机采用JPEG标准, 最新的数码相机则采用JPEG2000标准用小波变换进行压缩。,4. 模式控制 数码照相机一般提供照相(Camera)、 显示(Display)和计算机(Computer)三种模式。 在照相模式时, 系统实现拍摄、 处理图像信息的功能; 在显示模式时, 可以观察已拍摄的照片, 有编辑功能可修改照片; 在计算机模式时, 可将数码相机的图像信息传送到计算机之中。,照相模式要实现曝光控制、 自动对焦控制、 闪光控制、 数字图像的获取以及DSP处理等操作, 有一套完善的控制流程。 数码相机在接通电源后首先是对闪光灯系统的主电容进行充电。 相机的各种拍摄方式、 测光方式、 对焦方式、 分辨率、 白平衡等参数可以进入设置选单进行修改。 在待机状态时, 光电传感器不断地输出图像, 图像经DSP预处理后, 作为曝光和对焦的依据, 对镜头进行曝光和对焦的粗调。 同时DSP在预处理后将低分辨率的画面实时地输出到LCD显示屏上, 供摄影者取景。,处于待机状态的数码相机接到拍摄命令后, 进入拍摄状态, 相机迅速对曝光和聚焦进行细调, 并锁定相应的参数。 若景物照度不够, 打开防红眼灯照明; 在快门动作的瞬间进行闪光。 当相机处于自拍状态时, 快门动作启动自拍延时, 通常为812 s, 在延时阶段给出LED闪烁或蜂鸣声提示。 在完成一次曝光后, DSP进一步处理所获得的数字图像, 压缩图像信息,将刚拍摄的图像显示在LCD上, 由摄影者来决定取舍。 当摄影者确认之后, 将图像存储在相机的存储体中, 相机又回到了待机状态。,6.3 活动图像编码,6.3.1 概述 活动图像信号, 就是电视信号, 数字化后的电视信号称为数字电视信号。 活动图像的编码要求实时和高效。 图6-13为活动图像编码传输系统的方框图。 系统中有两个传输缓冲存储器, 随着图像内容的变化, 活动图像编码输出是不均匀码流, 与信道的传输特性不相适应, 利用缓冲存储器来存储数据流, 保证数据能不间断地匀速输出。,图 6-13 活动图像数字传输系统,不同应用场合对图像质量要求是不同的, 数字电视要播出新闻、 体育比赛、 文艺节目, 对图像的质量要求很高; 会议电视画面中人数少、 运动少、 背景不变, 对图像质量的要求降低; 而电视电话图像是单人头像, 只有脸部表情的变化, 对图像质量的要求最低。 通常把图像编码分为下面几个应用层次:,(1) 标准数字电视 图像分辨率为720576, 采用ISO MPEG-2标准, 约8 Mb/s的码率可以达到演播室级的图像质量要求。 地面广播时, 采用现代数字调制技术, 可在一路8 MHz信道传送4路标准数字电视。 (2) 会议电视: 图像分辨率为352288, 采用ITU-T H.261建议, 码率为P64 kbs(P=130), 属中、 低速码率的图像压缩。 一般认为, 码率为384 kbs(P=6)以上时, 图像质量才比较满意。,(3) 数字影碟机等 图像分辨率为352288, 国际标准为MPEG-1, 码率为1.5 Mbs, 其中约1.2 Mbs用于图像, 其余用于声音和同步。 可达到VHS录像带图像质量。 (4) 可视电话 图像分辨率为176144, 采用ITU-T H263建议, 码率为64 kbs以下, 经调制解调后, 能在现有的模拟电话线上传送活动的彩色电视电话图像, 因此也称为极低码率的图像编码。,(5) 高清晰度电视 图像分辨率可高达19201080, 具有两倍于现有标准的水平和垂直清晰度, 采用ISO MPEG-2标准, 码率约为20 Mbs。 活动图像的压缩编码利用每幅图像内部的相关性进行帧内压缩编码, 有变换编码和预测编码两种基本类型。 还利用相邻帧之间的相关性进行帧间压缩编码, 主要是运动补偿预测和混合编码。 混合编码是变换编码和预测编码相结合的编码方法。 H.261、 H.263、 MPEG-1、 MPEG-2和MPEG-4标准都采用了混合编码方案。,6.3.2 帧间预测编码 帧间预测将画面分为三种区域。 (1) 背景区 相邻的帧背景区的绝大部分数据相同, 帧间相关性很强。 (2) 运动物体区 若将物体运动近似看作简单的平移, 则相邻帧的运动区的数据也基本相同。 假如能采用某种位移估值方法对位移量进行“运动补偿”, 那么两帧的运动区之间的相关性也是很强的。,(3)
展开阅读全文