资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,多媒体技术第四讲,图象与视觉,人们获得的信息,70%,来自视觉,20%,来自听觉,.,Image and video have very large data volume.,认识视觉处理色彩的方法以及彩色图象处理的特点,.,可见光波长,:,波长从长到短,:,红橙黄绿青蓝紫,单色光,:,具有单一波长成分,复合光,:,具有两种以上波长成分,相对视敏函数,:,在相同辐射功率下,不同波长光不仅给人不同色彩感觉,而且给人不同亮度感觉,.,三基色原理:,自然界常见的各色光都可以由红,绿,蓝三种色光按不同比例相配而成,而大多数色光也可以分解成红,绿,蓝三种色光.,三基色选择不是唯一的,但三基色必须相互独立.,三基色原理使彩色影像的摄录,传送和复现成为可能.,相加混色和相减混色.,彩色空间的线性变换标准,RGB尽管是最简单扼要和直观的彩色图象表达方法,但不是最有效率的方法.,其它彩色空间变换:YIQ,YUV,YCrCb,它们都由一种亮度分量信号和两种色度分量信号构成.,最终所有显示器都由RGB驱动,因此要逆变换.,分辨率,像素深度,真/伪彩色,图象表示法,1),分辨率,显示器分辨率:显示屏上能够显示的像素数目(dot pitch,0.28mm).,图象分辨率:组成一幅图象的像素密度(DPI).,2),像素深度,存储每个像素所用的位数(8位RGB的深度为24,如果用32位表示一个像素,另8位为属性值,用于覆盖和叠加等操作).,3),真彩色和伪彩色,真彩色:像素值直接对应显示设备的基色强度.,伪彩色:像素值作为彩色查找表的表项入口地址,查出的RGB强度值产生的彩色.,4),矢量图和点位图,矢量图:用一系列函数和参数表示一幅图,即用数学方法描述一幅图,主要用于计算机图形学.优点是对图象管理和变换操作非常方便,缺点是当图象复杂时,难以用数学方式描述,而且绘图很费时.,点位图:把图象分成许多像素并排列成阵列.,矢量图容易转成点位图,反之很难.,5),灰度图和彩色图,二值图像:,灰度图像,每个像素点用8bit来表示,真彩色图像,带调色板的彩色图像,0,1,2,3,4,5,6,7,4,3,0,2,1,7,4,5,3,7,6,5,2,2,1,1,调色板,图像,像素点数值,图象编码与压缩,图象采集与量化,思想和方法与声音的采集和量化完全一样.,一般采用均匀采样和线性/非线性量化.,思考题:在n级量化中,如何计算最优量化值?,图像二维采样,量化幅度上采样,标量量化,将数轴分割成一个个区间,各个不同区间中的数值用不同的数值来表示。在已知数值分布密度函数的情况下,设计均匀量化器比较简单;但对于设计非均匀量化器则较复杂。,矢量量化,将高维空间分割成不同的区域,各个区域用一个向量表示。较典型算法是,K-means,算法。,彩色图像量化,均匀量化算法,(uniform),流行色算法,(populosity),中位切分算法,(median cut),原始真彩色图像,均匀量化算法,原始图像有 种颜色,现需要从中选取,256,种颜色,假设选取,8,种红颜色,,8,种绿颜色和,4,种蓝颜色。,将原来的红颜色除以,32,,绿颜色除以,32,,蓝颜色除以,64,,就可以得到均匀量化后的彩色图像。,量化后彩色图像通常带调色板。,均匀量化后结果,流行色算法,需要构建彩色直方图,统计每一种颜色在图像中出现的频率。,选取,n,种最常出现的颜色,然后将其它颜色映射到最相近的颜色上去。,可能会出现比较重要的颜色丢失。如图中球的蓝颜色。,流行色算法的结果,中位切分算法,同样需要知道图像中颜色的分布情况。,在,RGB,空间找出最长的颜色轴来,然后不断递归中分颜色轴,将位于中间的颜色选取出来,直到满了所需颜色的种类。,这种算法比较适合用树形结构来表示。,中位切分算法的结果,关于压缩的几个概念:,1),图象熵和平均码字长度,设图象像素灰度级集合为,其中对应的概率分别为,则图象熵为:,平均码长度:,其中 为灰度级 所对应的码字的长度.,2),编码效率:,3),压缩比:,预测编码,它是根据过去时刻的样本序列,运用一种模型预测当前的样本值,预测编码是对预测误差进行编码,当预测比较准确,即误差较小时,就可达到编码压缩的目的.(和DPCM的关系),输入,+,量化器,编码器,+,预测器,输出,1.,线性预测编码,要达到最佳压缩效果,要求预测系数在均方误差最小准则下最优,即:,针对图象压缩的简化预测公式:(不止一种),2.,非线性预测编码,线性预测的基础是假设图象全域为平稳的随机过程,即自相关系数与像素在域中位置无关.而事实上图象往往是起伏不定,被预测像素和周围像素的关系不是固定的,因此线性预测忽视了像素的个性特征.,非线性预测考虑图象的全局统计特征和个别变化,尽量使预测系数与图象所处的局部特征相匹配,预测系数随预测环境而变,使压缩比更高.,非线性预测的基本原理和过程:,设图象信号为,m,阶Markov序列,当前像素 的邻近像素按其与 的距离排列,邻近像素为 ,那么当前像素,的预测值 可以用邻近像素的联合概率密度表示:,全帧图象非线性预测的均方误差为:,正交变换编码(Orthogonal Transform Coding),从理论上讲正交变换本身不能对图象数据进行压缩,但正交变换改变了图象数据的表现域或表现形式,为某些压缩方法提供了可能.,原始图象输入,二维正交变换,量化编码,信道传输,解码,逆变换,统计表明在变换域中绝大部分能量集中在低频部分,编码中如果略去那些能量很小的高频部分,或者给高频分量分配合适的比特数可明显减少数据量.,正交变换编码技术,正交变换往往要将一幅图象划分成若干正方形的图象子块进行.,子块小:计算量小,硬件实现容易,但是均方误差大,在允许,同样失真度下压缩比小.,一般取8*8或16*16,对变换系数矩阵编码一般采用下面三种常用方法:,a)区域编码:选择能量集中区进行编码,舍弃能量小的区域.,b)阈值编码:区域编码中区域是预先设定的,但如对变换域,内能量分布不十分清楚,就要根据系数的幅度进行编码.,c)混合编码:预测编码+变换编码,在行方向作变换编码,变,换后的系数阵列在列方向预测编码.,轮廓编码,(Contour Coding),任何一幅图像,总存在若干具有相同灰度登记的图像区域.如果我们运用一定的规则将它们的边界迹线记录下来,就等于记录了这些区域,而所用的比特数则远少于逐个像素描述法.轮廓编码就是一种基于上述想法的利用像素的空间坐标及其灰度值来压缩图像信息的编码技术.,1)将图像阵列中所有像素都标志为非轮廓记号.,2)寻找某一轮廓的第一个像素,然后从该点出发寻找完整的轮,廓.,3)找出所有的轮廓.,4)对描述轮廓的属性序列进行编码.,JPEG(Joint Photographic Experts Group),用于灰度和彩色静态图象压缩,它以DCT为基础的有损压缩和以RLE和Huffman为代表的无损编码技术实现压缩.,JPEG的基本过程:,1)DCT:spatial space to frequency space,2)Quantization:对频率系数进行量化,采用均匀量化器,但量化步距是按照系数所在位置和每种颜色分量的色调值来确定,因为人对低频分量和颜色更敏感些.,3)Z字形编码(zigzag scan):把低频系数放在顶部,造成增加连续1或0的概率.,4)使用DPCM对直流系数(DC)进行编码,因为相邻子块之间的DC变化不大.,5)使用行程长度编码(RLE:Run-Length-Encoding)对交流系数(AC)进行编码.由于8*8子块中含有大量“0”系数,JPEG用高4位表示连续“0”的个数,用低4位表示编码下一个非“0”系数所需要的位数,跟在后面的是量化AC系数的数值.,6)Entropy Coding:进一步对DPCM和RLE编码后的数据进行压缩,其中Hoffman方法最常用.,7)组成数据流:加入各种标记代码,便于交换和译码.即形成标准格式文件.,离散余弦变换,(DCT),在JPEG图像编码标准中一般情况下基于8x8 DCT变换。,N=8余弦变换矩阵,一维N=8余弦变换的基函数,二维N=8余弦变换的基函数,图像,Lena,余弦变换的结果,(N=4),JEREMY S.DE BONET:DEBLOCKING JPEG IMAGES,多媒体信息的安全措施,水印技术,加密技术,这种技术在信息被解密之后就失去保护措施。,水印技术中几对相互矛盾的关系,一般信息隐藏嵌入系统,图像水印技术,脆弱水印技术,主要目的是为了保证多媒体内容的完整性,一旦有篡改攻击行为出现,水印就会丢失,可以察觉或定位内容被篡改的位置。,鲁棒水印技术,主要目的是为了保护多媒体信息的版权,在多数外界无意或恶意攻击下,还应能保存质量较好的水印。,半脆弱水印技术,结合了上述两者的特点,该水印技术能包容无意识的外界攻击,如压缩、裁剪、旋转等;但对外界恶意攻击相当敏感,如在原始信息上替换或增加内容。,
展开阅读全文