《视觉slam介绍》PPT课件.ppt

资源描述

视觉SLAM介绍视觉SLAM概述相机与图像视觉里程计后端优化回环检测地图构建提要第一讲视觉slam概述 Chapter1 Introduction 第一讲视觉slam概述 Question机器人自主运动两大基本问题我在什么地方定位周围长什么样子建图机器人的内外兼修定位侧重对自身的了解建图侧重对外在的了解准确的定位需要精确的地图精确的地图来自准确的定位第一讲视觉slam概述 HowtodoSLAM Sensors 两类传感器安装于环境中的二维码MarkerGPS导轨磁条携带于机器人本体上的IMU激光相机第一讲视觉slam概述相机以一定速率采集图像形成视频分类单目Monocular双目Stereo深度RGBD其他鱼眼全景EventCamera etc 第一讲视觉slam概述相机的本质以二维投影形式记录了三维世界的信息此过程丢掉了一个维度距离各类相机主要区别有没有深度信息单目没有深度必须通过移动相机产生深度MovingViewStereo双目通过视差计算深度StereoRGBD 通过物理方法测量深度第一讲视觉slam概述仅有一个图像时可能是很近但很小的物体可能是很远但很大的物体它们成像相同必须在移动相机后才能得知相机的运动和场景的结构第一讲视觉slam概述当相机运动起来时场景和成像有几何关系近处物体的像运动快远处物体的像运动慢可以推断距离第一讲视觉slam概述双目相机左右眼的微小差异判断远近同样远处物体变化小近处物体变化大推算距离计算量非常大第一讲视觉slam概述深度相机物理手段测量深度结构光ToF主动测量功耗大深度值较准确量程较小易受干扰第一讲视觉slam概述视觉SLAM框架前端 VO后端 Optimization回环检测LoopClosing建图Mapping 第一讲视觉slam概述视觉里程计VisualOdometry相邻图像估计相机运动基本形式通过两张图像计算运动和结构不可避免地有漂移方法特征点法直接法第一讲视觉slam概述后端优化从带有噪声的数据中优化轨迹和地图状态估计问题最大后验概率估计MAP前期以EKF为代表现在以图优化为代表第一讲视觉slam概述回环检测检测机器人是否回到早先位置识别到达过的场景计算图像间的相似性方法词袋模型第一讲视觉slam概述建图用于导航规划通讯可视化交互等度量地图vs拓扑地图稀疏地图vs稠密地图第二讲相机与图像 Chapter2 CamerasandImages 第二讲相机模型小孔成像模型原始形式翻转到前面整理之第二讲相机模型成像平面到像素坐标代入得第二讲相机模型矩阵形式展开形式左侧是齐次坐标右侧是非齐次坐标中间矩阵称为内参数内参通常在相机生产之后就已固定传统习惯第二讲相机模型除内参外相机坐标系与世界坐标系还相差一个变换这里R t或T称为外参外参是SLAM估计的目标先把P从世界坐标变到相机坐标系下第二讲相机模型 RGB D相机物理手段测量深度ToF或结构光两种主要原理通常能得到与RGB图对应的深度图第二讲图像相机成像后生成了图像图像在计算机中以矩阵形式存储二维数组需要对感光度量化成数值例如0 255之间的整数彩色图像还有通道实践点云拼接第三讲视觉里程计 Chapter3 VisualOdometry 3 1特征点法经典SLAM模型中以位姿路标 Landmark 来描述SLAM过程路标是三维空间中固定不变的点能够在特定位姿下观测到数量充足以实现良好的定位较好的区分性以实现数据关联在视觉SLAM中可利用图像特征点作为SLAM中的路标 3 1特征点法特征点图像当中具有代表性的部分可重复性可区别性高效本地特征点的信息位置大小方向评分等关键点特征点周围的图像信息描述子 Descriptor 主流方法 SIFT SURF ORB OpenCVfeatures2d模块特征描述应该在光照视角发生少量变化时仍能保持一致 3 1 1ORB特征例子 ORB特征关键点 OrientedFAST描述 BRIEFFAST连续N个点的灰度有明显差异OrientedFAST在FAST基础上计算旋转BRIEFBRIEF 128 在特征点附近的128次像素比较 3 1 1ORB特征特征匹配通过描述子的差异判断哪些特征为同一个点暴力匹配比较图1中每个特征和图2特征的距离加速快速最近邻 FLANN 实践特征提取和匹配 3 2对极几何特征匹配之后得到了特征点之间的对应关系如果只有两个单目图像得到2D 2D间的关系对极几何如果匹配的是帧和地图得到3D 2D间的关系 PnP如果匹配的是RGB D图得到3D 3D间的关系 ICP 3 2对极几何几何关系 P在两个图像的投影为两个相机之间的变换为在第二个图像上投影为记称为极线反之亦然称为极点实践当中通过特征匹配得到 P未知未知待求本质矩阵单应矩阵 1 2 12 1 2 2 2 1 2 1 2 1 2 12 3 3三角化已知运动时求解特征点的3D位置几何关系求时两侧乘反之亦然或者同时解求的最小二乘解 2 1 1 2 2 1 1 2 1 3 4pnp 已经3D点的空间位置和相机上的投影点求相机的旋转和平移外参代数的解法优化的解法代数的DLTP3PEPnP UPnP 优化的 BundleAdjustment 3 4pnp DLT 直接线性变换设空间点投影点为投影关系展开将它看成一个关于t的线性方程求解t 1 1 归一化坐标注意最下一行为用它消掉前两行中的s 则一个特征点提供两个方程为求解12个未知数需要12 2 6对点超定时求最小二乘解 9 10 11 12 1 3 5光流 3 5光流一般分为稀疏光流和稠密光流稀疏以Lucas Kanade LK 光流为代表稠密以Horn Schunck HS 光流为代表本质上是估计像素在不同时刻图像中的运动 3 5光流设t时刻位于x y处像素点的灰度值为在t dt时刻该像素运动到了希望计算运动dx dy灰度不变假设注意灰度不变是一种理想的假设实际当中由于高光阴影材质曝光等不同很可能不成立 3 5光流对t dt时刻的灰度进行Taylor展开并保留一阶项由于灰度不变所以希望求解dx dt dy dt 因此 x方向梯度 y方向梯度随时间变化 3 5光流但本式是一个二元一次线性方程欠定需要引用额外的约束假定一个窗口内光度不变通过超定最小二乘解求得运动u v 3 5光流最后我们可以通过光流跟踪的特征的用PnP ICP或对极几何来估计相机运动总而言之光流法可以加速基于特征点的视觉里程计算法避免计算和匹配描述子的过程但要求相机运动较慢或采集频率较高实践光流可以发现光流法在跟踪过程中一部分特征点会丢失在第一帧时有1749个特征点而在第10帧时大约还有1640个特征点相机的视角在发生改变所以我们使用光流法时要注意特征点的重新采集第四讲后端 Chapter4 Backend 4 1BA与图优化 4 1BA与图优化 BA算法起源于上世纪60年代开始应用于图片拼接方向正是由于BA的出现才使得图片自动拼接称为可能在视觉SLAM产生之后 BA被广泛应用于视觉SLAM的位姿优化其将相机位姿和特征点的空间位置进行同时优化获得优化后的结果 BA本身也是一个非线性最小二乘问题对于视觉SLAM来说BA问题可以简单的描述成在不同的相机位姿下看到了相同的空间点于是通过观测使得空间点和相机位姿之间产生了约束并且由空间点在两幅图像上的重投影产生了联系由重投影关系产生的误差即可建立最小二乘问题求解该问题即可对相机位姿和空间点进行同时优化 4 1BA与图优化 BA问题与图结构的关系BA虽是个纯优化问题但亦可以用图模型表述出来顶点为优化变量边为运动观测约束本身还有一些特殊的结构考虑在位姿i处对路标j的一次观测zij 特点每个观测只关系两个变量其中一个是相机一个是路标纯视觉Ba中不存在相机与相机路标与路标之间的关联整个误差函数由许多个这样小的项组成 4 1BA与图优化该方程组分为两步来求求解上半部分规模较小得到将结果代入下半部分得到这个做法称为Marginalization或Schur消元从消元角度来讲亦可使用Cholesky等其他消元方式解此稀疏方程从Marginalization角度来讲是我们把所有的路标信息边缘化到了相机的信息中 g2o下的BA优化第五讲回环检测 Chapter5 Loopdetection 5 1回环检测为消除累计误差获得全局一致的地图和轨迹仅仅通过帧间数据匹配估计运动位姿是远远不够的需要在全局数据中进行处理才能得到更好的结果在这个过程中回环检测就发挥了非常重要的作用回环检测可以有效修正运动轨迹将累计误差消除回环检测本质上是图像相似度计算的问题一般使用BOW字典对图片进行描述通过检验图片中单词的数量形成直方图通过检验直方图之间的关系确定图像之间的相似程度一般使用词袋模型判断回环检测需要进行词典的建立以及后续对图像相似性的处理 5 2词袋模型利用K Means算法构造单词表用K means对第二步中提取的N个SIFT特征进行聚类 K Means算法是一种基于样本间相似性度量的间接聚类方法此算法以K为参数把N个对象分为K个簇以使簇内具有较高的相似度而簇间相似度较低聚类中心有k个在BOW模型中聚类中心我们称它们为视觉词码本的长度也就为k 计算每一幅图像的每一个SIFT特征到这k个视觉词的距离并将其映射到距离最近的视觉词中即将该视觉词的对应词频 1 完成这一步后每一幅图像就变成了一个与视觉词序列相对应的词频矢量 5 2词袋模型我们从人脸自行车和吉他三个目标类图像中提取出的不同视觉词汇而构造的词汇表中会把词义相近的视觉词汇合并为同一类经过合并词汇表中只包含了四个视觉单词分别按索引值标记为1 2 3 4 通过观察可以看到它们分别属于自行车人脸吉他人脸类统计这些词汇在不同目标类中出现的次数可以得到每幅图像的直方图表示人脸 3 30 3 20 自行车 20 3 3 2 吉他 8 12 32 7 其实这个过程非常简单就是针对人脸自行车和吉他这三个文档抽取出相似的部分或者词义相近的视觉词汇合并为同一类构造一个词典词典中包含4个视觉单词即Dictionary 1 自行车 2 人脸 3 吉他 4 人脸类最终人脸自行车和吉他这三个文档皆可以用一个4维向量表示最后根据三个文档相应部分出现的次数画成了上面对应的直方图一般情况下 K的取值在几百到上千在这里取K 4仅仅是为了方便说明第六讲建图 Chapter5 Mapping 第六讲建图建图 Mapping 是slam的两大目标之一上述讨论的都是定位讨论了特征值点的定位直接法的定位以及后端优化在经典的slam模型中所谓的地图即所有路标点的集合一旦确定了路标点的位置可以说明完成了建图但建图的需求不同 SLAM作为一种底层技术往往是用来为上层应用提供信息例如扫地机器人需要完成扫地工作希望计算一条能够覆盖整张地图的路径或者如果上层是一个增强现实设备那么开发者可能将虚拟物体叠加在现实物体之中在视觉slam看来建图是服务与定位的但在应用层看来建图明显还带来许多其他需求第六讲建图定位定位是基本功能不用多说视觉里程计讨论如何利用局部地图来实现定位在回环检测部分只要有全局的描述子信息就能通过回环检测确定机器人的位置导航在地图中进行路径规划在任意两个地图间寻找路径然后控制自己运动到目标点的过程该过程中至少知道地图中哪些地方不可通过而哪些地方是可以通过这属于稀疏特征点地图的能力范围至少得是一种稠密的地图避障避障也是机器人经常碰到的一个问题不过它更注重局部的动态的导航物的处理同样仅有特征点无法判断某个特征点是否为障碍物所以需要稠密地图重建稠密地图利用slam获得周围环境的重建效果并把它展示给其他人看例如三维的视频通话或者网上购物等也可以构建带纹理的平面就像电子游戏中的三维场景那样 6 1RGB D稠密建图 RGB D相机完全通过传感器中硬件测量得到无须消耗大量的计算资源来估计而且 RGB D的结构光或飞时原理保证了深度数据对纹理的无关性故RGB D进行稠密建图是相对容易的稠密建图主流方式其中最直观最简单的方法根据估算的相机位姿将RGB D数据转化为点云 PointCLoud 然后进行拼接最后得到一个由离散的点组成的点云地图 PointCloudMap 6 2单目稠密重建单目相机主要使用极线搜索沿着第一幅图像中的极线的某头走到另一头逐个比较每个像素与p1的相似程度类似直接法中的回环检测然而单个像素的亮度没有区分性那就比较像素块在p1周围取一个大小为w w的小块然后极线上也取很多同样大小的小块进行比较就可以一定程度上提高区分性取名块匹配 a 目前计算小块与小块间的差异有SAD SumofAbsoluteDifference 取2个小块的差的绝对值之和 SSD SumofSquaredDistance 取2小块的差的平方和 NCC NormalizedCrossCorrelation 归一化相关计算的是两个小块的相关性实践单目稠密重建

展开阅读全文