数字图像处理第8章数字视频处理.ppt

上传人:max****ui 文档编号:12175098 上传时间:2020-05-07 格式:PPT 页数:62 大小:404.50KB
返回 下载 相关 举报
数字图像处理第8章数字视频处理.ppt_第1页
第1页 / 共62页
数字图像处理第8章数字视频处理.ppt_第2页
第2页 / 共62页
数字图像处理第8章数字视频处理.ppt_第3页
第3页 / 共62页
点击查看更多>>
资源描述
1,第8章数字视频处理,8.1视频技术及其应用8.2快速运动估计技术8.3视频压缩技术8.4视频压缩标准,2,8.1视频技术及其应用,与静止图像相反,视频(Video)为活动图像(或运动图像)。我们所看到的电影和电视都属于视频的范畴,它实际上是由许多单一的画面所组成,每一幅画面称为一帧。由于人眼的视觉惰性,每秒24帧的电影画面就形成了连续活动影象感觉的电影。因此,帧是构成视频信息的最小和最基本的单元。,3,8.1.1视频信号的数字化,大家日常使用的电视和录像等都属于模拟视频,它是基于模拟技术以及图像的广播与显示所确定的国际标准。模拟视频图像具有成本低和还原度好等优点。因此在电视上看到的风景录象,往往具有身临其境的感觉。但它的最大缺点是经过长时间的存放之后,视频质量将大为降低,而且经过多次复制之后,图像的失真就会很明显。而数字视频可以弥补这些缺陷。它不仅可以无失真地进行无限次复制,而且还可以对视频进行创造性的编辑,如特技效果等。而数字视频是基于数字技术以及其它更为拓展的图像显示标准。数字视频有两层涵义,一是模拟视频信号输入计算机进行数字化视频编辑,最后制成数字视频产品;二是指视频图像由数字摄象机拍摄下来,从信号源开始,就是无失真的数字砚频,视频图像输入计算机时不再者虑视频质量的衰臧问题。现在的数字视频技术主要还是第一层涵义,即模拟视频的数字化处理、存储和输出技术。,4,视频的数字化是指在一段时间内以一定的速度对模拟频信号进行捕捉并加以采样后形成数字化数据的处理过程。通常的视频信号都是模拟的,在进入计算机前必须进行数字化处理,即AD转换和彩色空间变换等。视频信号数字化是对视频信号进行采样捕获,其采样深度可以是8、16或24位等。采样深度是经采样后每帧所包含的颜色位,然后将来样后所得数据保存起来,以便对它进行编辑、处理和播放。视频信号的采集就是将模拟视频信号经硬件数字化后,再将数字化数据加以存储。使用时,将数字化数据从存储介质中读出,并还原成图象信号加以输出。视频信号的采集可分为单幅画面采集和多幅动态连续采集。在单幅画面采集时,可以将输入的视频信息定格,并将定格后的单幅画面以多种图象文件格式加以存储,对于多幅动态连续采集,可对视频信号进行实时,动态地捕获和压缩,并以文件形式存储。对视频信号进行数字化采样后,则可以对数字视频进行编辑或加工。比如复制、删除、特技变换和改变视频格式等。,5,8.1.2视频信号的处理,视频信号处理是指根据人的要求对视频图像进行某种处理,主要包括:(1)在保证一定图像质量的前提下尽可能压缩视频图像的数据量(即视频压缩)。(2)消除视频信号产生、获取和传输过程中引入的失真和干扰,使视频信号尽可能逼真地重现景物。例如使用图像增强技术和图像恢复技术。(3)根据某些准则,尽可能除去视频图像中的无用信息而突出其主要信息。(4)从视频图像中提取某些特征,以便对其进行描述、分类和识别。,6,8.1.3视频信号的压缩编码,压缩目标是在尽可能保证视觉效果的前提下减少视频数据率。由于视频是连续的静态图像,因此其压缩编码算法与静态图像的压缩编码算法有某些共同之处,但视频还有其自身的特性,因此压缩时还应考虑其运动特性才能达到高压缩的目标。在视频压缩中常需用以下的一些基本概念:(1)有损和无损压缩:在视频压缩中有损和无损的概念与静态图像中基本类似。(2)帧内和帧间压缩:帧内(Intraframe)压缩也称为空间压缩(SpatialCompression)。当压缩一帧图像时,仅考虑本帧的数据而不考虑相邻帧之间的冗余信息,这实际上与静态图像压缩类似。帧内一般采用有损压缩算法,由于帧内压缩时各个帧之间没有相互关系,所以压缩后的视频数据仍可以以帧为单位进行编辑。帧内压缩一般达不到很高的压缩。,7,采用帧间(Interframe)压缩是基于许多视频或动画的连续前后两帧具有很大的相关性,或者说前后两帧信息变化很小的特点。也即连续的视频其相邻帧之间具有冗余信息,根据这一特性,压缩相邻帧之间的冗余量就可以进一步提高压缩量,减小压缩比。帧间压缩也称为时间压缩(Temporalcompression),它通过比较时间轴上不同帧之间的数据进行压缩。帧间压缩一般是无损的。如:帧差值(Framedifferencing)算法通过比较本帧与相邻帧之间的差异,仅记录本帧与其相邻帧的差值,这样可以大大减少数据量。,8,(3)对称和不对称编码:对称(symmetric)意味着压缩和解压缩占用相同的计算处理能力和时间,对称算法适合于实时压缩和传送视频,如视频会议应用就以采用对称的压缩编码算法为好。而在电子出版和其它多媒体应用中,一般是把视频预先压缩处理好,尔后再播放,因此可以采用不对称(asymmetric)编码。不对称或非对称意味着压缩时需要花费大量的处理能力和时间,而解压缩时则能较好地实时回放,也即以不同的速度进行压缩和解压缩。,9,8.1.4视频信号的传输与存储,为了有效而高质量地传输视频信号,需要解决以下几个问题:(1)视频信号在传输过程中会引入各种干扰和噪声,如何降低甚至消除这些噪声和干扰,是视频信号传输要解决的首要问题。通常的解决办法有:采用纠错编码、自适应均衡和自适应滤波等。(2)为了节省频带,除了使用高效压缩技术压缩信源信息外,还可以使用先进的数字调制技术,例如残留边带调制(VSB)、正交幅度调制(QAM)和格状编码调制(TCM)等。(3)视频信号除可通过广播传输外,还可通过有线电视、光纤、微波等进行传输。随着窄带综合业务数字网的普及和宽带综合业务数字网的发展,视频通信的前景将会更加光明。,10,对于模拟电视信号,最常见的存储媒体是录像带。另一种存储模拟视频信号的媒体是激光影碟(LD)。但1994年出现了建立在激光唱盘(CD)基础上的视频激光视盘(V-CD)。后者采用MPEG-l标准,可以在标准的12厘米CD上存储74分钟VHS质量的视频节目和具有CD质量的立体声。V-CD与世界的所有广播电视制式兼容,易于使用和存放,而且生产成本也较低。播放V-CD既可使用多媒体计算机,也可使用专门的V-CD播放机。由于数字视盘(DVD)采用了MPEG-2标准中的MPML标准,所以视频图像质量大大优于V-CD,而音频部分采用杜比公司开发的AC-3系统,其图像和声音质量将超过其它系统。,11,8.1.5视频技术的应用,(1)视频技术在广播电视中的应用广播电视是视频技术的传统领域,早期的黑白电视和现仍广泛使用的彩色电视及其相关产品,采用的是模拟视频技术,而数字电视(常规数字电视、电视电话、会议电视和高清晰度电视)全面使用数字视频技术,其编码、存储、传输和播放都实行数字化。数字视频技术在广播电视中的应用主要包括:地面电视广播、卫星电视广播、数字视频广播、卫星电视直播、有线电视、交互式电视、常规电视和高清晰度电视等。,12,(2)视频技术在通信领域中的应用以前视频通信一直局限于传输单向的模拟电视,在通信网中,高质量的彩色数字视频通信要占用34Mbps以上的带宽,因而很不经济。由于视频压缩技术的发展,使得视频信号的数码率大大降低。另一方面,通信技术的迅速发展又为视频通信提供了所需的带宽。视频技术在通信领域中的应用主要包括:电视电话、会议电视、多媒体通信、视频点播、常规电视和高清晰度电视、交互式电视以及视频数据库等。,13,(3)视频技术在娱乐领域中的应用电视机及其相关产品长久不衰的原因在于它是大众娱乐消费产品,电视是目前人类最重要的信息传播媒体,它对人类生活的影响之大,简直难以用语言表达,它已成为人们生活的重要组成部分。视频技术赖以生存和迅速发展的基础在于娱乐领域,其主要应用包括:常规电视和高清晰度电视、记录、存储和显示设备、V-CD和DVD、交互式电视、电视电话、电视购物、视频点播和视频游戏等。(4)视频技术在计算机领域中的应用视频技术已广泛应用到计算机领域。现在高档计算机几乎都配置有视频解压缩卡、CD-ROM和视频播放软件,这种多媒体计算机集视频画面的真实性和计算机的交互性于一体,已成为当前计算机领域的热门话题。视频技术在计算机领域中的应用主要包括:多媒体计算机、CD-ROM和V-CD、视频数据库、多媒体通信、交互式电视、三维图形图像、动画设计与制作、视频制作以及虚拟现实(VR)等。,14,8.2快速运动估计技术,视频序列在时间上有很强的相关性,利用运动估计和运动补偿技术可以有效地去除图像的帧间冗余度,从而实现比帧内压缩方案更高的压缩比。因此这种技术已广泛用于视频压缩的一些国际标准,如H.261、H.263、MPEG-1、MPEG-2和MPEG-4等。作为帧间压缩的核心和关键,运动估计技术受到了人们的广泛关注,出现了多种研究方案,主要有光流方程法、像素递归法和块匹配法(BMA:BlockMatchingAlgorithm)三种。综合考虑计算复杂度和编码效率等因素,块匹配法由于简单实用,已经成为运动估计算法的主流。,15,8.2.1运动估计模型,活动图像(视频)编码主要研究由物体和摄像机的相对运动而形成的二维运动。假定运动物体在帧间做平移运动,相对应的运动模型可以表示为:u=x+Vx,v=y+Vy当运动物体在帧间有旋转、形状和大小等变化时,采用上式所表示的运动模型作运动估计,会产生很大的估计误差。为了解决这个问题,有人提出了如下12个参数的运动模型:,这种运动模型虽然能有效地估计运动物体的平移、旋转和缩放等不同的运动变化,但需要进行很复杂的参数估计,因此并不实用。,16,上述模型都是基于运动物体的,然而在视频编码过程中把图像分割成有不同运动的物体非常困难。通常采用两种比较简单的方法:一种方法是把图像分成若干矩形块,假定块做平移运动,对块的运动进行匹配估计;另一种方法是对每个像素的位移进行递归估计。通常像素递归估计的精度高,对多运动画面的适应性强,但它的跟踪范围小,实现复杂。块匹配运动估计虽然精度低,但它的位移跟踪能力强,容易实现,因而得到了广泛的应用,并被H.26x和MPEG标准采用。,17,8.2.2块匹配运动估计的原理,块匹配的基本思想就是将当前帧分成若干个大小相同的块,对每一个块(当前块)分别在参考帧中的一定区域(称为搜索窗)内,按照一定的匹配准则搜索与之最接近的块(称为预测块),预测块与当前块间的位移称为运动矢量,它们的像素间的差值称为残差块,预测块与当前块之间通过匹配准则函数得到的值称为块失真度(BDM)。这样当前帧中的每一块都可用一个残差块和一对运动矢量来表示。图8-1为块匹配运动估计的示意图。,图8-1块匹配运动估计示意图,18,这里,搜索窗尺寸(搜索范围)的选取对搜索结果有很大影响:搜索范围越大,得到更小残差块的可能性越大,但这会带来更大的时间开销。通常选择的搜索范围有7,16,32,48,64,128等。由于块匹配时需要在前后帧间逐像素比较,如果采用全搜索算法(即穷尽参考帧搜索区域所有可能的点进行比较,从中找到全局最优点),计算量非常巨大。如对格式为CIF(352288)的图像,若块大小为1616,当搜索范围为16时,每个块的搜索点数为1089,每帧图像的搜索点数则达到431244;当搜索范围为128时,每帧图像的搜索点数将达到26155404,因此快速块匹配算法的研究是非常必要的。,显然,残差块的值越小,越有利于压缩。因此运动估计的主要目标就是使预测块与当前块之间的BDM尽量小,即:,19,8.2.3块匹配运动估计的各个环节,块匹配运动估计可从三个方向进行研究:(1)块形状与大小;(2)块匹配准则;(3)搜索策略。目前,块形状与大小以及块匹配准则由于相对简单,已经有了比较一致的选择;而搜索策略最为复杂,它决定了一个算法的好坏,因此一直是快速运动估计研究的主要方向。,20,8.2.3.1块形状与大小,块匹配法隐含着如下假设:同一块内的像素的运动是一致的。显然这个假设具有一定的片面性,但选择合适的块形状与大小可在一定程度上消除这种片面性。一般来说,块形状选用正方形是比较自然的选择,这样既便于图像的划分,又有利于块匹配准则函数的计算。但这并非总是最佳选择,因此也有的算法采用了其它形状。,21,关于块的大小,显然块越小,得到的残差块越小,但这会引入较多的运动矢量,可能降低编码的效率。作为折衷,通常选择1616和88像素的正方形块。在H.261、MPEG-1和MPEG-2中,运动矢量是以1616的宏块为单位的,由于块尺寸相对较大,可能包含图像中不同的运动部分,造成预测精度的下降;在H.263和MPEG-4中标准则在宏块运动矢量的基础上加入了以88块的运动矢量,预测精度得到了一定的提高。另外,有的运动估计算法,如分级块匹配法采用的是块大小可变的方案。其基本思想是从最低分辨率级开始,在每一层依次进行运动估计。较低分辨率用于确定相对较大块的位移的初略估计,接着把低分辨率级位移矢量的估计值传递到下一个高分辨率级,较高分辨率级用于精确调整位移矢量的估计。,22,8.2.3.2块匹配准则,块匹配准则是判断块相似程度的依据,因此匹配准则的好坏直接影响了运动估计的精度;另一方面,匹配运算复杂度、数据读取复杂度在很大程度上取决于所采用的块匹配准则。因此,提高运动估计算法的速度可以有两种途径,一种是减少搜索匹配的点数,另一种则是降低块匹配准则的计算复杂度。常用的块匹配准则有以下几种:,(1)均方误差函数(MSE),该准则取MSE最小者对应的运动矢量作为搜索结果。(2)绝对平均差函数(MAD),该准则取MAD最小者对应的运动矢量作为搜索结果。,23,t为阈值,是判断每个像素或归入匹配像素,或归入非匹配像素的依据。该准则取MPC最大者对应的运动矢量作为搜索结果。上述各公式中,-Wi,j+W,W为搜索范围,N为宏块大小,匹配函数的值为块失真度BDM。,(3)最大误差最小函数(MME),该准则取MME最小者对应的运动矢量作为搜索结果。(4)最大匹配像素数(MPC),其中,24,MSE匹配函数运动估计的精度最高,但其众多的乘方运算在VLSI实现中比较困难;MAD匹配函数略差,但其相对简单的运算易于在VLSI中实现;MME匹配函数则过于简单,没有充分利用匹配块所包含的特征信息,使运动估计的精度大大降低。相对而言,MAD准则函数比较实用,一度得到广泛运用。,25,8.2.3.3搜索策略,搜索策略是运动估计算法最关键也是最复杂的部分。从搜索方向上看有梯度式(图8-2)、螺旋式(图8-3),从搜索路线上看有矩形(图8-2)、交叉线形(图8-4)、圆形(图8-5)和菱形(图8-6)。将它们与不同的搜索步长相结合,可得到不同的搜索模式;为保证搜索过程及时停止,需要选择合适的中止准则。搜索模式体现了搜索算法的基本特征,它从根本上决定了搜索算法的效率;搜索中止准则是保证搜索过程结束的条件。一般来说,梯度式搜索能够自动中止搜索,螺旋式搜索则需要指定搜索的中止条件。好的搜索中止准则能进一步提高搜索算法的效率。,26,图8-2梯度式搜索图8-3螺旋式搜索,图8-4交叉线型搜索图8-5圆形搜索图8-6菱形搜索,27,8.2.4典型块匹配算法介绍,最简单的BMA是全搜索法(FS),它穷尽参考帧搜索窗内所有可能的点进行比较,确实能找到BDM最小的匹配块,因此,一般来说,FS的预测精度最高。但FS巨大的时间开销妨碍了它在实际中的应用,因此出现了各种类型的快速算法。下面介绍一些典型的快速算法。,28,1)三步搜索法(3SS),3SS(如图8-7)于1981年提出,是经典的采用梯度式搜索的快速BMA。由于早期的搜索范围为7,该算法经过三步搜索即可结束,故得此名。如果扩大搜索范围,实际搜索过程就不止三步了,此时称之为“Log-D搜索”更为确切。,第一步第二步第三步图8-7三步搜索法,29,3SS具有简单易实现、每个块的搜索点数相同的优点。但它也有一个致命的缺陷:第一步过于粗糙,在搜索范围较大(如16或更大)时,初始步长相对于块的运动矢量估计来说就太大了,跳出了可能性比较大的区域,导致搜索方向的不确定性,因此很容易陷入局部最优。为克服3SS的上述缺点,1994年出现了新三步搜索法(N3SS),该算法利用视频运动矢量的中心偏置分布特点,加强对搜索中心区域,因此搜索精度有一定程度的提高。另外,N3SS引入了“中途退出”(Halfway-stop)的思想,虽然比较粗造,但为以后的快速算法指出了一种新的策略。,30,2)四步搜索法(4SS),4SS(如图8-8)于1996年提出,其得名原因与3SS类似。4SS既秉承了3SS梯度式搜索的方向性,又吸收了N3SS的优点利用运动矢量的中心偏置特点。如果说N3SS过分强调对中心区域的搜索,显得有些粗造的话,那么4SS的搜索显得相对稳妥:采用较小的步长渐进地搜索。因此,其搜索精度较N3SS又有进一步的提高。,第一步第二步第三步第四步图8-8四步搜索法,31,3)动态搜索窗调整算法(DSWA),1993年推出的DSWA是另一种克服3SS搜索步长过大缺陷的算法,它在搜索过程中能根据搜索窗收敛因子的大小自动调整下一个搜索阶段的搜索窗的尺寸,是一种自适应的梯度式搜索算法。DSWA算法的搜索窗收敛因子Rw为当前阶段搜索窗大小与上一阶段搜索窗大小之比,可以表示为:,其中,Th=0.6,Tl=0.3,M表示当前搜索阶段中所有搜索点BDM的次最小值,N表示所有搜索点BDM的最小值。,32,搜索窗内搜索点的分布有两种模式:“十”字形和“X”形(如图7-9),两种模式在搜索的每一个阶段交替使用,用以对搜索方向进行补偿。DSWA算法在克服3SS缺陷的效果方面不如后来出现的N3SS和4SS,其改变搜索步长的计算也略显复杂。但无论如何,它在搜索过程模式的转变方面还是作出了有益的尝试。,图8-9DSWA的两种搜索模式,33,4)菱形搜索法(DS),DS出现于1997年,它其实是在4SS的基础上采用菱形搜索路线得到的一种算法。这个看起来不大的改变,却给后来的快速运动估计算法带来了巨大的影响。由于菱形更接近运动矢量的分布,该算法比4SS性能有较大的提高。DS曾于1999年7月被MPEG组织采用,作为VM软件的运动估计算法。,图7-10菱形搜索过程示例,DS算法最大的贡献是提出了菱形搜索模式,更有利于运动矢量的编码。但与新一代搜索算法相比,DS在搜索策略方面显得过于简单,因而搜索效率不够高,而且PSNR有时有较大损失(如对CCIR格式的Bus序列,平均PSNR比FS下降了2.61dB)。,34,5)APDZS,(1)采用螺旋式菱形搜索;(2)根据相邻块的运动矢量对搜索起点进行预测;(3)在两个指定大小(4圈)的中心区域进行搜索;在一定程度上克服了局部最优,但也带来了搜索效率的问题。(4)利用SAD的阈值中止搜索过程。若MinSAD=thresa,中止搜索;若thresa=1)之前,计算虚拟缓冲器的占有率:,或,或,其中和为I、P和B三种帧类型虚拟缓冲器的初始占有率;Bj为图像中至第j个宏块已编码比特数总和;MB_cnt为每帧图像的宏块总数;和分别为三种帧类型在第j个宏块时虚拟缓冲器占有率。由此可得第j个宏块的参考量化尺度因子:,55,其中r为反映参数,可由下式得到:,由此可得第j个宏块的参考量化尺度因子:,而虚拟缓冲器的初始占有率为:,上述码率控制方法根据I、P和B三种类型帧压缩效率不同,预分配了不同的比特数,而码率控制则是通过监视虚拟缓冲器状态,在宏块级上调节量化级因子,以使实际帧编码比特数尽可能接近于预分配帧编码比特数,它完全符合MPEG-2标准定义的视频缓冲校验器(VideoBufferingVerifier,VBV)对缓冲器不产生“上溢”或“下溢”的要求。,56,需要注意的是,上述码率控制方法的基本前提是场景类似,但在实际电视节目中,会经常发生场景切换,此时码率控制方法就将发生问题。由于场景切换时不能进行正确的比特分配,特别是场景切换发生后,因切换帧编码比特数激增,会引起后面连续多帧分配比特数下降,从而造成这些帧图像质量,特别是当影响下一个GOP的I帧图像时,由于I帧所处的重要地位,它的质量好坏常常决定了整个GOP图像的质量,可能引起整个图像质量的下降。而从人眼的视觉特性来看,在场景切换时,人眼对图像质量的降质不敏感,即不要求保证切换帧的图像质量,这就为解决场景切换时的码率控制问题提供了方便。因为要解决上述问题,关键是要保证切换帧实际编码比特数尽量与预分配编码比特数接近,以不减少后续帧预分配编码比特数。然后通过修正码率控制方案,以使后续帧能合理地分配码字;且合理调整帧初始量化级,从而使得后续帧量化级能迅速降下来,保证后续帧图像质量。,57,8.4视频压缩标准,58,8.4.1H.261标准,59,8.4.2MPEG-1视频压缩标准,60,8.4.3MPEG-2视频标准,61,8.4.4H.263建议,62,8.4.5MPEG-4视频标准简介,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!