3D感知与目标位姿计算PPT课件

资源描述

Chapter 10 3D Sensing and Object Pose Computation,3D感知与目标位姿计算,1,举例,多摄像机测量系统,通过计算机视觉来识别目标并确定目标位置,2,通过立体视觉求深度,放置两台摄像机，使它们的X轴重合，Y轴和Z轴分别相互平行。Y轴垂直于纸面。右侧摄像机的原点或投影中心的偏移量为b，b是立体视觉系统的基线(baseline)。目标点P在左图像中对应点为Pl，在右图像中对应点为Pr，可以确定点P位于光线LPl和RPr的交点处。,根据相似三角形：,3,通过立体视觉求深度,因为坐标yl和yr相同。所以点P的两个未知坐标x和z可以表示为：,d=xl-xr,定义：当同一个3D点投影到不同的两台摄像机图像上时，对应点在图像上的位置差称为视差(disparity)。注意：到点P的距离随着视差的减小而增加，随着视差的增大而减小。随着视差趋近零时，距离趋近无穷。,4,建立对应关系,1）交叉相关对于已知图像I1(立体图像对中的第一幅图像)中的点P1，假设在图像I2(立体图像对中第二幅图像)中存在某个固定区域，在该区域中一定可以找到与P1对应的点P2. 区域的大小由拍摄这些图像的摄像机设备信息决定。,对于图像I1的像素P1，搜索I2上的选定区域，对P1和P2的邻域进行交叉相关运算，把交叉相关影响最大的像素，作为P1的最佳匹配点，并用该像素寻找对应3D点的深度。,5,2）图符匹配和相关约束在一幅图像中寻找与另一幅图像特征相匹配的特征。典型特征有连接类型、线段或区域。可以采用一致性标记寻找匹配。部件集合P是第一幅图像I1中的特征集合。标记集L是第二幅图像I2的特征集合。P上的空间关系RP要与L上的空间关系RL相同。,建立对应关系,采用连接点关系对特征进行匹配图中的L连接和箭头连接是可能的匹配点。一般避免使用T连接，因为它们通常是遮挡的结果，而不是3D结构的实际特征。,6,2）图符匹配和相关约束存在问题： 1) 并非第一幅图像中所有特征都可以在第二幅图像中检测到. 2) 从第一幅图像特征到第二幅图像特征映射后，连接点的对应关系产生的是一个稀疏深度映射，不能完全表示三维信息. 解决方法： 1) 允许出现一定的误差，寻找一种最小误差映射，或利用连续松弛法得到近似解. 2) 在求得的稀疏深度映射点上进行线性插值运算，使稀疏深度映射变得稠密.,建立对应关系,7,3)外极线约束两图像面位于同一平面并且与基线平行。已知图像I1中的点P1=(x1,y1)，则图像I2中的对应点P2=(x2,y2)将与P1位于相同的扫描线上，也就是y1=y2。这对图像为标准图像对。,建立对应关系,标准图像对的外极线几何。3D点P在图像I1中的投影为P1，在图像I2中的投影为P2，二幅图像位于同一平面，与两摄像机间的基线平行。光轴垂直于基线并相互平行。,8,3)外极线约束,建立对应关系,定义：包含3D点P、两个光心(或摄像机)C1和C2，以及P在两幅图像中的投影点P1和P2的平面称为外极面(epipolar plane).定义：外极面与两幅图像平面I1和I2的交线e1和e2称为外极线(epipolar line).,定义：立体图像对的外极点(epipole)就是所有外极线的交点.,9,4）顺序约束已知场景中两个点和它们在两幅图像中的投影点。如果这两点位于场景中的连续表面上，那么在每幅图像中，它们以相同的顺序位于外极线上。5）误差与场景覆盖场景覆盖与计算深度误差间寻求平衡。如果基线很短，确定图像点P1和P2的位置时误差就较小，但在计算3D点P的深度时误差就较大。增大基线可以改进搜索精度，但随摄像机彼此远离，图像点之间的对应关系将丢失。建议两台摄像机光轴间最好是45度角。,建立对应关系,10,一般体视结构,两台摄像机C1和C2观察相同的3D工作区。工件上的点P在第一幅图像中的投影为1P，在第二幅图中的投影为2P。,两台摄像机观察工作台上相同的工件区时，工作台就是一个完整的3D世界，并且有自己的世界坐标系W。工作区中3D点wP=wPx, wPy, wPz的位置，可以通过两条投影线wP1O和wP2O的交点确定。,11,为了进行立体视觉计算，需要已知下列条件：要知道摄像机C1在工作区W中的位姿，以及摄像机的一些内部参数，如焦距。这些信息用摄像机矩阵(camera matrix)来表示，对每个图像点1P通过该矩阵确定3D空间中的一条光线。要知道C2在工作区W中的位姿以及它的内部参数。要找出3D点与两个2D图像点(wP,1P,2P)之间的对应关系。要有公式来计算两条投影线wP1O和wP2O的交点wP。,一般体视结构,12,基于多摄像机的3D点计算,根据两个像点r1,c1和r2,c2算出未知的3D点x,y,z，两个像点由标定好的两台摄像机摄取。,去掉齐次坐标s和t,可以得到含3个未知数的4个线性方程。,4个方程中任意3个联立都可以求出未知点x,y,z，但求出的坐标值会产生微小的差异。,13,问题：因为摄像机模型和图像点的近似误差，两台摄像机的投影线并没有在数学的3D空间相交于一点。解决方案：计算这两条空间斜交投影线之间的最短距离，也就是计算它们公垂线段的长度。如果公垂线比较短，就取公垂线的中点作为两条投影线的交点。如果公垂线比较长，就要判定在进行像点对应计算时出现了问题。,基于多摄像机的3D点计算,P1和P2是一条直线上的两个点，而Q1和Q2是另外一条直线上的两个点。u1和u2是沿两条直线的单位向量。向量V=P1+a1u1-（Q1+a2u2）就是连续两条直线的最短距离向量，其中a1和a2是两个要确定的比例系数。,14,利用两空间斜交线与公垂线正交这一约束条件，可以得到2个含未知数a1和a2的线性方程：利用消元法或者行列式法可以很容易解出a1和a2。如果sV小于某个阈值，就认为两条直线相交于点x,y,zt=(1/2)(P1+a1u1)+(Q1+a2u2)。,基于多摄像机的3D点计算,15,3D目标重建,目标建模的过程可分为四个步骤： 1）3D数据获取一般需要8-10张不同角度的视图来获得一系列物体表面的深度数据。 2）图像配准将深度数据转换到一个3D坐标系的过程为图像配准过程。 3）表面重建将3D点云用3D网格及格点间联系表示；用一组3D体素表示目标的整个体积。 4）优化平滑表面等过程,16,视图配准,问题提出：为了覆盖物体的整个表面，必须根据多幅视图得到深度数据。解决方法：视图1到视图2的变换，要么通过精确的机械运动得到，要么通过图像对应求出。从图像对应求取：相当于完成从一幅视图映射到另一幅视图的刚性变换。将其转换到同一坐标系下。 1）可以借助3D特征如角点和线段特征自动完成，基于特征得到3D-3D的对应点，从而计算出变换关系。 2）利用交互方式，允许用户在一对目标图像上选择对应点。,17,视图配准,(左上)对两组深度数据进行配准(右上)用户交互选取4个对应点(右下)存在少量偏差的初始变换(左下)几次迭代后，两组深度数据得到很好的对齐,最近点迭代法：得到初始变换，通过迭代方法，使对应3D点之间的距离之和最小化。,18,表面重建,目标：希望重建目标与实际物体在外形上尽可能相似并且保持其拓扑结构。,(a)配准的椅子深度数据(b)重建过程出现的问题(c)具有正确拓扑结构的粗略网格模型,19,图片: 可以作为建模的灵感来源。,网络图片，单视角,基于单幅图片的三维重建,20,基本流程,21,部件一致性分割 Xu et al. 2010,Input model set,Models in part correspondence,预分析候选模型集,22,形变控制单元 Zheng et al. 2011控制单元: 长方形和广义圆柱体相互关系: 对称, 连接, etc.,预分析候选模型集,23,第一步:模型驱动的图像空间结构分析,基于单幅图片的三维重建,24,检索代表模型,模型驱动的标号分割,图割法,模型驱动的特征空间结构分析,25,基于单幅图片的三维重建,第二步:候选模型检索,26,Query,Top 5 retrieved results,全局描述子检索,候选模型检索,27,Query,Top 5 retrieved results,部件级描述子,候选模型也可任意选择,候选模型检索,28,关键第三步:轮廓驱动的结构保持形变,基于单幅图片的三维重建,29,轮廓对应,初始控制重构,控制优化,潜质几何形变,轮廓驱动的结构保持形变,30,轮廓对应,初始控制重构,控制优化,潜质几何形变,轮廓对应,31,轮廓对应,初始控制重构,控制优化,潜质几何形变,轮廓对应,32,轮廓对应,初始控制重构,控制优化,潜质几何形变,轮廓对应,33,轮廓对应,初始控制重构,控制优化,潜质几何形变,轮廓驱动的结构保持形变,34,轮廓驱动的结构保持形变,轮廓对应,初始控制重构,控制优化,潜质几何形变,35,轮廓对应,初始控制重构,控制优化,潜质几何形变,Before optimization,After optimization,轮廓驱动的结构保持形变,36,轮廓对应,初始控制重构,控制优化,潜质几何形变,Before optimization,After optimization,Final geometry,轮廓驱动的结构保持形变,37,Initial controller reconstruction,Front-view,结构优化,38,单独控制对称,交互控制对称,邻近约束,最初构造,最终结构,结构优化,39,结果,40,?,结果,41,原始数据噪声点云数据未分割有遮挡,工具: Microsoft Kinect,实时提供深度和图像信息小而便宜,42,数据获取,42,学习: 利用多角度拍摄结果学习基本模型,translational,rotational,43,室内场景重构,识别: 用学习到的模型在场景中识别物体,43,44,室内场景重构-学习阶段,学习: 利用多角度拍摄结果学习基本模型用不同基元进行基本模型表示,44,基元长方体、圆柱体、辐射状构造连通性刚性旋转平移附属关系位置信息,contact,translational,rotational,45,基本模型表示,45,地平面和书桌物体单独聚类部件通过一致性分类分割与其类似，后面还需修正,46,点云数据分层表示,46,初始分配部件 vs. 基元简单的对比高度，法矢量，大小鲁棒的形变低漏报精细分配部件 vs. 模型迭代的解决位置、形变和分割低漏报,47,室内场景重构-识别阶段,47,初始分配部件 vs. 基元节点精细分配部件 vs. 模型,Input points,Initial objects,Models matched,Refined objects,objects,parts,matched,48,室内场景重构-识别阶段,48,Recognition speed: about 200ms per object,49,合成场景,49,50,合成场景,50,51,合成场景,51,丢失数据遮挡, 材质, 最初分割容易出错杂乱的目标被合并为一个物体视角选择影响物体分割，在某个视角下，物体成片状,52,限制,52,大作业,内容根据自己兴趣，提交与视觉相关的综述论文。比如可以写图像分割、三维建模的相关论文。提交作业形式邮件附件要命名为“学号+姓名”。截止日期 2016年07月01日提交邮箱 zhangyannjunju.edu.cn ;,53,谢谢,54,

展开阅读全文