资源描述
computer vision,1,第七章立体视觉,7.1 立体视觉基础 7.2 立体成像 7.3 立体匹配 7.4 多基线立体成像 7.5 测距成像 7.6 物体形状恢复方法 7.7 主动视觉,computer vision,2,7.1 立体视觉基础,深度图(Depth Map) 获取场景中各点的深度信息是计算机视觉系统的一个重要任务。 场景中的各点相对于摄像机的距离形成的一个二维图像,此图像中每一个像素值表示场景中某一点与摄像机之间的距离。 计算机视觉系统中获取场景深度图的技术可以分为被动测距和主动测距两大类。,computer vision,3,7.1 立体视觉基础,被动测距传感 视觉系统接收来自场景中发射或反射的光能量,形成有关场景光能量的分布函数(即灰度图象),然后在这些图像的基础上恢复场景的深度信息。 实例:双目视觉系统,三目视觉系统 主动测距传感 视觉系统首先向场景中发射能量,然后接收场景中对所发射能量的反射能量。 实例:雷达测距系统,computer vision,4,7.1 立体视觉基础,被动测距方法 双目视觉系统:使用两个相隔一定距离的摄像机同时获取场景图像来生成深度图。 单目运动视觉:一个摄像机在不同空间位置上获取两幅或两幅以上图像,通过多幅图像的灰度信息和成像几何来生成深度图 特征深度测量:使用灰度图象的明暗特征、纹理特征、运动特征间接的估算深度信息。,computer vision,5,7.1 立体视觉基础,主动测距方法 主动测距传感系统也称为测距成像系统(Range Finder) 雷达测距系统 三角测距系统 激光测距系统 主动测距传感和被动测距传感的主要区别在于视觉系统是否通过接收自身发射的能量来测距。,computer vision,6,7.1 立体视觉基础,主动视觉与被动视觉 主动视觉和主动测距传感是两个概念,主动视觉是一种理论框架。 主动视觉主要研究的是通过主动的控制摄像机位置、方向、焦距、缩放、光圈、聚散度等参数;或者说是通过视觉和行为的结合来获得稳定的、实时的感知。,computer vision,7,7.2 立体成像,Figure The sailor shown in the left picture is, like most people, able to perform stereopsis and gain a sense of depth for the objects within his eld of view. The right photograph is from the 1953 film “The War of the Worlds, and it shows a close-up of the face of a three-eyed Martian warrior. Why such a configuration may prove beneficial ?,computer vision,8,7.2 立体成像,Figure Mobile robot navigation is a classical application of stereo vision: (a) the Stanford cart sports a single camera moving in discrete increments along a straight line and providing multiple snapshots of outdoor scenes; (b) the INRIA mobile robot uses three cameras to map its environment.,computer vision,9,7.2 立体成像,基本的双目立体视觉的几何关系是: 有两个完全相同的摄像机构成; 两个摄像机构成的图像平面位于一个平面; 两个摄像机的坐标轴相互平行,且x轴重合,摄像机之间在x方向上的间距称为基线距离B; 在这个模型中,场景中同一个特征点在两个摄像机图像平面上的成像位置是不同的; 将场景中同一点在两个不同图像中的投影点称为共轭对,其中一个投影点是另一个投影点的对应(correspondence) 求共轭对就是求解两幅图像中点的对应性问题。,computer vision,10,7.2 立体成像,基本的双目立体视觉的几何关系是: 视差(disparity):两幅图像重叠时的共轭对之间的位置之差(共轭对点之间的距离)。,摄像机A平面,摄像机B平面,重叠,computer vision,11,7.2 立体成像,基本的双目立体视觉的几何关系是: 外极平面(epipolar plans):通过两个摄像机中心和场景特征点的平面。 外极线(epipolar lines) :外极平面与图像平面的交线 外极点(epipoles ):同一个图像平面上的所有外极线交于的同一点。,computer vision,12,7.2 立体成像,computer vision,13,7.2 立体成像,依据双目立体视觉几何关系的深度计算 假设场景中的P点在左右摄像机图像平面中的投影点分别为Pl和Pr,同时不失一般性假设坐标系原点与左透镜中心重合。 比较相似三角形PMCl和PlLCl,可得到: 同理,可从相似三角形PNCr和PrRCr中得到:,computer vision,14,7.2 立体成像,PMCl和PlLCl,PNCr和PrRCr,computer vision,15,7.2 立体成像,依据双目立体视觉几何关系的深度计算 结合以下公式: 可以得到: 其中F是焦距,B是基线距离, 是视差。 各种场景中的点的深度就可以通过计算视差来实现。视差一般是整数。 对于一组给定的摄像机参数,提高场景点深度计算的精度有效途径是增加基线距离B,即增大场景点对应的视差。,computer vision,16,7.2 立体成像,增加基线距离B来提高深度计算精度的方法存在有以下问题:,随着基线距离的增加,两个摄像机的共同的可视范围减小;,场景点对应的视差值增大,则搜索对应点的范围增大,出现多义性的机会就增加;,由于透视投影引起的变形导致两个摄像机获取的两幅图像中不完全相同,这就给确定共轭对带来困难。,前面的假设是两个摄像机光轴平行,但在实际应用中两个摄像机的光轴不平行,光轴在空间上相交于一点。,computer vision,17,7.2 立体成像,视差与光轴的交角有关,对于任意一个光轴交角,在空间中总存在一个视差为零的表面;,computer vision,18,7.2 立体成像,视差与光轴的交角有关,对于任意一个光轴交角,在空间中总存在一个视差为零的表面; 比这一表面远的物体,其视差大于零; 比这一表面近的物体,其视差小于零;,computer vision,19,7.2 立体成像,最一般的立体成像是一个运动摄像机连续获取场景中的图像,形成立体图像序列,或间隔一定距离的两个摄像机同时获取场景图像,形成立体成像对。,computer vision,20,7.2 立体成像,上图是任意位置和方向的两个摄像机,对应于场景点的两个图像点位于外极线上。 这两幅图像也可以是一个摄像机由一点运动到另一点获取的这两幅图像; 即使两个摄像机处于一般的位置和方向时,对应场景点的两个图像点仍然位于图像平面和外极平面的交线(外极线)上。,computer vision,21,7.3 立体成像,从原理上讲根据“立体图象对”抽取深度信息的处理应包括以下四部分: 在图象中寻找在两幅图象中都便于区分的特征或用于匹配的基元(primitive)。 把左、右两幅图象中的相关特征进行匹配,即解决特征匹配的方法问题。 确定摄象机的相对几何位置和有关参数,即摄象机的校准(Calibration),目的是将二维图像坐标空间中的点对应到三维世界坐标空间中。 根据视差计算成象物体相对摄象机的距离。,computer vision,22,7.3 立体匹配,立体匹配的匹配规则约束 立体匹配:立体成像的深度信息测量的一个重要步骤就是寻找立体成像对中的共轭对,即求解对应问题。 问题:实际中求解对应问题是非常困难的,一是计算量大,二是匹配的准确度要求高。 解决:为了求解对应,建立了许多约束来减少对应点误匹配,并最终得到正确的匹配特征点的对应。,computer vision,23,7.3 立体匹配,外极线约束 对于两幅从不同角度获取的同一场景的图像来说,传统的特征点搜索方法是首先在一幅图像中选择一个特征点,然后在第二幅图像上搜索对应的特征点。这是一个二维搜索问题。 因为一幅图像上的特征点一定位于一幅图像上对应的外极线上,因此在匹配的过程中只要求的外极线,则在外极线上而不用在整个二维图像平面上求解对应解,从而转化到一维搜索。 如果已知目标与摄像机之间的距离在某一区间内,则搜索范围还可以限制在外极线上的一个小区间内。,computer vision,24,7.3 立体匹配,外极线约束,computer vision,25,7.3 立体匹配,一致性约束 立体视觉通常有两个或两个以上摄像机组成,各摄像机的特性一般是不同的,如果场景中对应点处的光强相差很大时,直接进行相似性匹配,得到的匹配值变化也会很大。 一般在进行匹配之前,必须对图像进行规范化处理,设参考摄像机和其他摄像机的图像函数分别为f0(i,j)和fk(i,j),在mn图像窗内规范化图像函数为: 其中是图像窗内光强均值,是光强分布参数,computer vision,26,7.3 立体匹配,一致性约束 在mn图像窗内规范化图像函数为: 其中是图像窗内光强均值,是光强分布参数 相似评价函数为差值绝对值之和(SAD),computer vision,27,7.3 立体匹配,唯一性约束 由于在任何时刻位于某一物质表面上的一个给定点在空间只占有一个唯一的位置,即一幅图像上的特征点只能与另一幅图像上的唯一一个特征点对应,所以除了极个别的情况以外,某个匹配基元只能与另一幅图象中的一个匹配基元相匹配。这样,图象中的每个匹配基元最多只能有一个视差值。,computer vision,28,7.3 立体匹配,连续性约束 物体表面一般都是光滑,因此物体表面上各点在图像上的投影也是连续的,它们的视差也是连续的,例如,物体上非常接近的两点,其视差也十分接近,因为它们的深度也不会相差很大。 连续性约束对物体边界不成立,在边界处两侧的两个点,其视差十分接近,但深度值相差很大。,computer vision,29,7.3 立体匹配,边缘匹配算法步骤: 用四个不同宽度的高斯滤波其对立体图像对中的每一幅图象进行滤波,其中前一次滤波的宽度是下一次滤波宽度的两倍,这一过程可以反复通过对最小的滤波其进行不断的卷积实现。 在某一行上计算各边缘的位置。 通过比较边缘的方向和强度粗略的进行边缘匹配,显然,水平边缘是无法进行匹配的。 通过在精细尺度上进行匹配,可以得到精细的视差估计。,computer vision,30,7.3 立体匹配,区域相关性: 虽然边缘特征是图像的基本特征,但是边缘特征往往对应着物体的边界,而物体边界的深度值一般是不确定的; 物体边界深度值可以是物体封闭边缘的深度距离和背景点深度距离之间的任意一个值。 曲面物体的封闭边缘时物体的轮廓影像边缘,在两幅图像平面中观察到的轮廓影像边缘与真实的物体边缘并不是相对应的。 所以就需要寻找另一种特征进行匹配,这里选择立体图像对中识别兴趣点(Interesting Point),然后使用区域相关法进行匹配。,computer vision,31,7.3 立体匹配,区域相关性: 候选匹配点要选择具有很大变化的区域中的点,一般认为图像中有足够多相互分离的区域可以用于候选匹配点的选择。 在以某一点为中心的窗函数中,使用窗内所有像素来计算在不同方向上的变化量,是这个中心点在不同方向上显著性的一个好测度。,computer vision,32,7.3 立体匹配,区域相关性: 选择上述方向变量的最小值为中心像素点(xc,yc)的兴趣值 为了避免将多个相邻点选为同一个特征对应的兴趣点,可以将特征点选在兴趣测度函数具有局部最大值的地方。 两幅图像中特征确定后,就可以使用许多不同方法进行特征匹配。常用的匹配搜索方法是在一个小的窗函数内搜索匹配,这个小窗函数是以满足外极线约束的。,computer vision,33,7.3 立体匹配,区域相关性: 两幅图像f1和f2,设待匹配的候选特征点对的视差为(dx,dy),则以特征点为中心的区域之间相似性测度可以有相关系数r(dx,dy)定义为: 在每一个像素上使用阈值化处理后的具有正负符号的梯度值,而不是图像灰度值,可以改善相关性的计算精度。,computer vision,34,7.3 立体匹配,立体匹配的讨论 通过基于特征的立体匹配算法产生的对应于图像特征点的场景稀疏深度图,即只得到的是特征点的深度而不是整幅图像上所有像素点的深度,所以是稀疏的。 如果要得到所有像素点的深度,则必须利用表面内插算法或逼近算法在特征点深度值之间计算出特征点之间像素的深度值来。 立体重建过程中的难点在于:(1)特征点的选择(2)匹配算法的选择。 参见:Marr-Poggio-Grimson算法 ,Baker-Binford算法 。,computer vision,35,7.4 多基线立体成像,理想情况下,一幅图像上的每一个特征点只能与另一幅图像上的唯一的一个特征点相对应,即特征的唯一性约束。 实际情况下,特征点不明显会出现对应的多义性(ambiguity),即一幅图像上的一个特征点对应另一幅图像的若干个对应点,其中只有一个是真正的对应点,其它的是假的对应点。 为了消除对应点的多义性,提出了一种基于多基线的立体成像方法。 M. Okutami , T. Kanade, A multiple baselines stereo, IEEE Trans on Pattern Analysis and Machine Intelligence, 15(4):353-363,computer vision,36,7.4 多基线立体成像,假定n个摄像机具有相同的焦距F,其位置分别为P0,P1Pn-1,对应的n-1个基线用B1,B2Bn-1表示,f0 (x)和fi (x)表示在位置P0和Pi处同步获取的图像,组成一个立体图像对。,computer vision,37,7.4 多基线立体成像,已知场景中一点Z的深度值为zr,则f0(x)和fi(x)形成的立体视差dr(i)为: 图像亮度函数f0(x)和fi(x)在Z点附近可表示为: 其中,f(x)是理想图像,n0(x),ni(x)服从正态分布N(0,2n)的噪声。 在一定大小窗口W中,立体视差变量d(i),立体图像的方差之和(SSD)为:,computer vision,38,7.4 多基线立体成像,设r和分别是真实和候选场景点深度值的倒数,即r=1/zr,=1/z,则: 替换的SSD为: 其中ei(x,)成为匹配平价函数, ei(x,)的数学期望为:,computer vision,39,7.4 多基线立体成像,N个摄像机形n-1个SSD函数,将所有的SSD函数相加形成了一个总的评价函数 假设亮度函数f(x)在x和x+a处有相同的模式,即 则它们的匹配评价函数期望关系是: 在r和f=r+a/(BiF)两个地方得到的评价函数最小,但是假的匹配深度值的倒数f随着基线的变化而变化,而真的匹配深度值的倒数r与基线无关,经过累加真的匹配深度成为最小值。,computer vision,40,7.5 从X恢复形状的方法,除了立体匹配算方,从灰度图像提取形状信息的其它方法都统称为从X恢复形状方法(Shape from X)。 如果物体上至少有一个点的实际深度是已知的,那么统一目标上的其它点的深度可以通过对局部表面方向求积分得到。 从X恢复形状方法是一种间接的深度计算方法。 光度立体 从明暗灰度形状 从纹理恢复形状 从运动恢复形状,computer vision,41,7.5 从X恢复形状的方法,光度立体 光度立体:是使用不同方向上的三个光源来获取统一场景的三幅图象,通过场景中物体的表面反射特性计算由这三个光源照明的所有点的局部表面方向。 三幅图象采集的成像系统要求摄像机和目标静止不动。 优点:三幅图像中的所有点完全配准 缺点:实际中由于无法精细控制照明而不能用于实际的成像系统。,computer vision,42,7.5 从X恢复形状的方法,从明暗恢复形状 从明暗恢复形状:主要使用图像灰度(明暗)变化来恢复物体形状信息。 通过计算图像每一个点(x,y)对应的场景表面方位来实现。其间有辐射测量原理约束、表面光滑约束。 缺点:光滑度约束不是在所有点都能满足,表面反射特性也不总是精确已知,从而使形状恢复不精确。,computer vision,43,7.5 从X恢复形状的方法,从纹理恢复形状 从纹理恢复形状:是利用图像的纹理特性如密度、尺寸和方位等构造表面方位信息,从而恢复形状。 缺点:由于纹理基元的定位和纹理量化不精确引起形状恢复的困难 从运动恢复形状 从运动恢复形状:使用一个运动摄像机获取静止场景的图像时,场景点的图像平面坐标从一幅图像到另一幅图像的唯一取决于场景点到摄像机的距离。 或者通过静止摄像机获取运动物体的图像序列。,computer vision,44,7.6 测距成像,常用的测距成像方法有: 结构光测距:三角测量原理来计算深度 激光雷达测距:通过比较发射信号与接收信号的延时、相位、频差等方法测量距离。 按波长分为: 声雷达 激光雷达 毫米波雷达 变焦测距,computer vision,45,7.7 主动视觉,
展开阅读全文