资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,3/15/2012,#,第,9,章 遥感图像分类,空间信息技术系,任课教师:杨晓霞,yangxx2003,2012,年,3,月,内容大纲,图像分类基本概念和原理,遥感图像分类过程,监督分类方法,非监督分类方法,数字图像分类新技术,提高分类精度的方法,分类原理,遥感图像分类是遥感数字图像处理的重要环节,也是遥感应用最广泛的领域之一,计算机分类的概念,判别函数与判别规则,影像空间与特征空间,特征空间中的距离,在特征空间中,依据像元相似度的大小,归类相似的像元,分离不相似的像元,并给每一个像元赋类别值的过程,分类的总目标是将图像中所有的像元自动进行土地覆盖类型或土地覆盖专题的分类,什么是遥感图像计算机分类?,相同地物具有相同或者相似的光谱特征(光谱相似性);不同地物具有不同的光谱特征(光谱差异性),计算机分类实例,原始遥感图像,对应的专题图像,为什么使用计算机分类?,将影像数据的连续变化转化为地图模式,以提供给用户有意义的信息,获得关于地面覆盖和地表特征数据的更深刻的认识,在分析大数据集时比较经济,较目视解译客观,可对复杂的多波段数据及其相互关系进行有效分析,遥感图像,遥感图像计算机分类流程框图,色调、颜色、阴影、形状、纹理、大小、位置、图型、相关布局,遥感图像特征集,基于光谱的,基于空间关系的,统计分类 结构分类,模,糊分类 神经网络分类 小波分析 专家系统,遥感图像计算机分类,光谱模式识别,空间模式识别,新方法,分类过程,原始影像数据的准备,图像变换及特征选择,分类器的设计,初始类别参数的确定,逐个像素的分类判别,形成分类编码图像,输出专题图,光谱特征空间,光谱特征空间:,以各波段图像的亮度分布为坐标轴组成的空间,同类地物在特征空间形成一个相对聚集的点集群,不同类地物的点集群在特征空间内一般是相互分离的,特征点集群在特征空间中的分布大致可分为如下三种情况:,理想情况,不同,类别地物的集群,至,少在一个,特征子空,间中的投影是完全,可以相互区分开的,B,i,B,j,水,植被,土壤,典型情况,不同类别地物的集群,在任一子空间中都有相互重叠的现象存在,但在总的特征空间中可以完全区分的。这时可采用特征变换使之变成理想情况进行分类,地物与光谱特征空间的关系,水,植被,土壤,一般情况,无论在总的特征空间中,还是在任一子空间中,不同类别的集群之间总是存在重叠现象,这时重叠部分的特征点所对应的地物,在分类时总会出现不同程度的分类误差,这是遥感图像中最常见的情况,地物与光谱特征空间的关系,水,植被,土壤,特征空间中的距离,“物以类聚”,而图像分类的依据通常是像元之间的相似性。相似性通常又采用“距离”来度量。,距离可以有不同的具体定义,几何距离:欧式距离、绝对值距离,统计距离:马氏距离,X,到集群中心在多维空间中距离的绝对值之总和来表示,几何距离:绝对值距离,几何距离:欧氏距离,统计距离:马氏,距离,马氏距离几何意义:,X,到类重心之间的加权距离,其权系数为协方差,图像分类方法,按人工干预的程度不同,可以分为:,监督分类法,非监督分类法,事先已经知道类别的部分信息(即类别的先验知识),对未知类别的样本进行分类的方法,根据已知训练场地提供的样本,通过选择特征参数,建立判别函数,然后把图像中各个像元点归划到给定类中的分类处理,监督分类,确定每个类别的样区,学习或训练,确定判别函数和相应的判别准则,计算未知类别的像元的函数值,按判别准则进行像元所属的判别,监督分类的思想,监督法分类,主要步骤,选择训练样本区,确定类别数,对每类选择足够多的有代表性的样本,分类前分析样本区质量,选择合适的分类算法,分类结果的精度评价,准确性,确保选择的样区与实际地物的一致性,代表性,考虑到地物本身的复杂性,所以必须在一定程度上反映同类地物光谱特性的波动情况,统计性,选择的训练样区内必须有足够多的像元,训练样区的选择,选择训练区,训练区与特征空间的联系,水,新城区,老城区,耕地,植被,选择样本区域,建立类别的判别函数,水,老城区,新城区,植被,红,255,绿,255,耕地,0,蓝,255,将样本数据在特征空间进行聚类,主要的监督分类方法,距离判别函数和距离判别规则,最小距离分类法,最近邻分类算法,平行六面体分类法,概率判别函数和贝叶斯判别规则,最大似然分类法,最小距离分类法,最近邻法,基本思想是设法计算未知矢量,X,到有关类别集群之间的距离,哪类距离它最近,该未知矢量就属于那类,距离判决函数偏重于集群分布的几何位置,距离判别规则是按最小距离判别的原则,最小距离分类法,以一个包括该集群的“盒子”作为该集群的判别函数,判决规则为若未知矢量,X,落入该“盒子”,则,X,分为此类,否则再与其它盒子比较,这种分类法在盒子重叠区域有错分现象,错分与比较盒子的先后次序有关,平行六面体分类法基本思想,平行六面体分类法,最大似然分类法,最大似然分类法,地物类数据在特征空间中构成特定的点群,每一类的每一维数据都在自己的数轴上为正态分布,该类的多维数据就构成了一个多维正态分布,各类的多维正态分布模型各有其分布特征,利用各类的已知数据(训练区),求出均值、方差及协方差等特征参数,从而求出总体的概率密度函数,在此基础上,对于任何一个像元,通过求出每个像素对于各类别的归属概率(对于待分像元,x,,从属于分类类别,k,的概率),把该像素分到归属概率最大的类别中去,最大似然分类法,利用概率判别函数与贝叶斯判别规则进行分类,优点:,考虑特征空间中类别的形状、大小和定位,缺点:,计算量大,计算时间长,假定地物光谱特征呈正态分布,道路,R,水体,W,水稻,S,蔬菜,V,碎石地,S,田埂,T,监督法分类实例,根据应用目的和区域,有选择的决定分类类别,避免出现一些不必要的类别,可以控制训练样本的选择,可以通过检查训练样本来决定训练样本是否被精确分类,从而避免分类中的严重错误,分类精度高,避免了非监督分类中对光谱集群的重新归类,分类速度快,监督法分类的优点,主观性,由于图像中间类别的光谱差异,使得训练样本没有很好的代表性,训练样本的获取和评估花费较多人力时间,只能识别训练中定义的类别,监督法分类的缺点,主要的监督分类方法,距离判别函数和距离判别规则,最小距离分类法,平行六面体分类法,概率判别函数和贝叶斯判别规则,最大似然分类法,在没有先验类别(训练场地)作为样本的条件下,即事先不知道类别特征,主要根据像元间相似度的大小进行归类合并(将相似度大的像元归为一类)的方法,根据图像数据本身的统计特征及点群的分布情况,从纯统计学的角度对图像数据进行类别划分,非,监,督分,类,分类:通过对已知类别的训练集的分析,用样本的特征建立一个关于类别属性准确划分的模型,以便用来判定新的未知数据的类别,聚类:人类一项基本的认知活动,通过无监督的学习过程,把数据聚集成类,使类间的相似性尽可能小,类内相似性尽可能大,找到数据的特征,分类与聚类,利用事先定义的参数确定数据空间中类别的位置,然后确定单个像元是否属于某个类别,聚类,一般的聚类算法是先选择若干个模式点作为聚类的,中心,每一中心代表一个类别,按照某种相似性度量方法(如最小距离方法)将各模式归于各聚类中心所代表的类别,形成,初始分类,然后由聚类准则判断初始分类是否合理,如果不合理就修改分类,如此,反复迭代运算,,直到合理为止,聚类过程,按照某个原则选择一些初始聚类中心,计算像元与初始类别中心的距离,把像素分配到最近的类别中,聚类过程,计算并改正重新组合的类别中心,过程重复直到满足迭代结束的条件,聚类过程,K-,均值法(,K-means Algorithm,),迭代自组织数据分析技术方法(,Iterative Self-Organization Data Analysis Techniques,,,ISODATA,),主要的非监督分类方法,K-,均值法,通过自然的聚类,把它分成,8,类,K-,均值算法的聚类准则是使每一聚类中,像元到该类别中心的距离的平方和最小,基本思想:通过迭代,逐次移动各类的中心,直至得到最好的聚类结果为止,K-,均值法,(,1,)确定类别数并各类的初始中心:,z1(0), z2(0), zK(0),,,K,为类别数。初始中心可任意选取,初始中心的选择对聚类结果有一定影响,初始中心的选择一般有以下方法:,根据问题的性质,用经验的方法确定类别数,K,,从数据中找出从直观上看来比较适合的,K,个类的初始中心,将全部数据随机地分为,K,个类别,对计算每类的重心,将这些重心作为,K,个类的初始中心,K-,均值法,(,2,)择近分类,即将所有像元按照与各中心的距离最小的原则分到,K,个聚类中心,(,3,)计算新中心。待所有样本第,i,次划分完毕后,重新计算新的集群中心,zj(i +1), j=1, 2, , K,(,4,)如果聚类中心不变,则算法收敛,聚类结束;否则回到(,2,),进入下一次迭代,K-,均值法,K-,均值法,优点:实现简单,缺点:,过分依赖初值,容易收敛于局部极值,在迭代过程中没有调整类数的措施,产生的结果受到所选聚类中心的数目、初始位置、类分布的几何性质和读入次序等因素影响较大,初始分类选择不同,最后的分类结果可能不同,K-,均值法,Iterative Self-Organization Data Analysis Techniques“,迭代自组织数据分析技术方法”的简称,可以,自动地进行类别的“合并”和“分裂”,,从而得到比较合理的聚类结果,ISODATA,(,1,),初始化,设置参数;,(,2,),选择初始聚类中心;,(,3,)按一定规则,(,如距离最小,),对所有像元分配类别;,(,4,)计算并改正重新组合的类别中心,;,(,5,),类别的分裂和合并;,(,6,)如果,达到,迭代次数或者两次迭代之间类别均值变化小于阈值,则结束,迭代,;否则,重复,(,3,),-,(,6,),;,(,7,)确认类别,对结果进行精度评估,ISODATA,基本同,K-,均值法,但,K-,均值法的类别数是从始至终固定的,而,ISODATA,方法则是动态调整类别数的,选定初始类别中心,输入迭代限值参数,:,I,K,L,N,S,C,对样本,像元进,行聚类并统计,n,i,m,n,i,S,确定分裂后的中心,D,IK,C,确定并类后的中心,输,出,否,否,是,否,否,是,ISODATA,算法过程框图,每类集群允,许的,最大标准差,集群允许的,最短,距离,每类集群至少的点数,是,迭代次数,期望得到的类别数,每次允许合并的类的对数,K,:希望得到的类别数,N,:所希望的一个类中样本的最小数目,S,:类的分散程度的参数(如标准差、方差),C,:类间距离的参数(如最小距离),L,:每次允许合并的类的对数,I,:允许迭代的次数,ISODATA,参数,的设定,决定类的“分裂”与“合并”,结束迭代的条件,合并(类数,-1,),每一类中的像元个数少于期望的类别最少像元数,N,类别的个数大于期望的类别数,K,的,2,倍,分裂(类数,+1,),类别的标准差大于类别标准差阈值,S,类别的个数,小,于期望的类别数,K,的,1/2,当类别数在一定范围内,类别中心间的距离在阈值以上,类别内的方差的最大值在阈值以下,ISODATA,调整类别数的准则,两次迭代之间,如果,上一次和这一次的中心不变,或者变化小于一个阈值,说明聚类结束,如果迭代次数,达到,了,预设值,I,,那么,即使不收敛,,也,强行,结束,ISODATA,判断迭代结束,类别数:,20,迭代次数:,20,ISODATA,类别数:,10,迭代次数:,10,ISODATA,优点:,不需要预先对待分类区域有广泛的了解,需要较少的人工参与,人为误差的机会减少,缺点:,仅凭遥感影像地物的光谱特征的分布规律,即自然聚类的特性,进行“盲目”的分类,其分类的结果只是对不同类别达到了区分,但并不能确定类别的属性;其类别的属性是通过分类结束后目视判读或实地调查确定的,难以对产生的类别进行控制,得到的类别不一定是想要的类别,非监督分类方法的特点,监督分类的缺陷在于,必须在分类前确定样本,难度大、效率低,通过非监督法将一定区域聚类成不同的单一类别,监督法再利用这些单一类别区域“训练”计算机,使分类精度得到保证的前提下,分类速度得到了提高,非监督分类与监督分类的结合,面向对象的分类方法,人工神经网络分类法,决策树分类法,专家系统分类法,基于,GIS,的遥感图像分类方法,模糊分类方法,数字图像分类新技术,基于像素级别的信息提取以单个像素为单位,过于着眼于局部而忽略了附近整片图斑的几何结构情况,从而严重制约了信息提取的精度,面向对象的分类方法首先对图像数据进行影像分割,影像的最小单元不再是单个的像素,而是一个个对象,(,图斑,),,后续的影像分析和处理也都基于对象进行,优点:面向对象的遥感信息提取,综合考虑了光谱统计特征、形状、大小、纹理、相邻关系等一系列因素,因而具有更高精度的分类结果,面向对象的分类方法,决策树分类采取逐次分类的方法,先确定特征明显的大类别,对每一大类再作进一步的划分,直到所有类别全部分出为止,在不同层次可以更换分类方法,也可以更换分类特征,以提高这类别的可分性,决策树分类法,城市,非建筑物,建筑物,水体,植被,树木,草地,遥感影像经分类后形成的专题图,用编号、字符、图符或颜色表示各种类别,分类后处理,原始遥感图像,对应的专题图像,用光谱信息对影像逐个像元地分类,在结果的分类地图上会出现“噪声”,分类后处理,产生噪声的原因有原始影像本身的噪声,在地类交界处的像元中包括有多种类别,其混合的幅射量造成错分类,以及其它原因等,另外还有一种现象,分类是正确的,但某种类别零星分布于地面,占的面积很小,我们对大面积的类型感兴趣,因此希望用综合的方法使它从图面上消失,分类后处理,分类后处理,多数平滑:平滑时中心像元值取周围占多数的类别(少数服从多数原则),平滑前后的一个例子,分类精度评价,混淆矩阵,Kappa,系数,制约分类精度的因素,提高分类精度的方法,分类后的误差分析,混淆矩阵是由,n,行,n,列组成的矩阵,用来表示分类结果的精度,混淆矩阵是通过将每个像元的地面参考验证信息与计算机分类结果的类别来比较计算的,混淆矩阵(,Confusion Matrix,),混淆矩阵的每一行代表了计算机的分类信息,每一行中的数值等于计算机分类像元在地表真实像元相应类别中的数量,混淆矩阵的每一列代表了地表实测值(参考验证信息),每一列中的数值等于地表真实像元在分类图像中对应于相应类别的数量,混淆矩阵,有,150,个样本数据,这些数据在计算机分类结果中被分成,3,类,每类,50,个。分类结束后得到的混淆矩阵为:,类,1,的,45,个样本有,43,个分类正确,,5,个错分为类,2,,,2,个错分为类,3,类,2,的,51,个样本有,45,个分类正确,,2,个错分为类,1,,,3,个错分为类,3,类,3,的,54,个样本有,49,个分类正确,,1,个错分为类,2,混淆矩阵,分类类别,类,1,类,2,类,3,行和,实际,类,别,类,1,43,2,0,45,类,2,5,45,1,51,类,3,2,3,49,54,列和,50,50,50,矩阵主对角线上的数字就是分类正确的像元数,主对角线上的数字越大,分类精度越高;主对角线以外的数字就是错分的像元数,这些数字越小,错分率就越小,精度就越高,精度评估的指标,总精度,用户精度,生产者精度(制图精度),混淆矩阵,总精度:被正确分类的总像元数 除以 总像元数来计算,(43+45+49)/150=91.3%,总精度,用户精度:每一类别被正确分类的像元数 除以 所有被分作该类的总像元数,这个数字表示一个像元被分到地面的实际类别的可能性,类,1,的用户精度:,43/50=86%,类,2,的用户精度:,45/50=90%,类,3,的用户精度:,49/50=98%,用户精度,生产者精度:每一类中正确分类的像元数(位于主对角线上) 除以 参考数据中的该类的像元总数,这个数字表明指定覆盖类型的训练样区集的像元被分类后,它的效果有多好,用于比较分类方法的好坏,类,1,的生产者精度:,43/45=96%,类,2,的生产者精度:,45/51=88%,类,3,的生产者精度:,49/54=91%,生产者精度,例:森林类别的生产者精度为,84%,,用户精度为,60%,。,表示在分类结果中有,84%,的森林被正确的分类为森林,但所有分类为森林的地区只有,60%,的地区真正属于森林这个类别,混淆矩阵,m =,误差矩阵中行的数量(即总的类别数),x,ii,=,第,i,行第,i,列上的像元数量(即主对角线上正确分类的数量),x,i+,=,在第,i,行的总像元数量,x,+i,=,在第,i,列的总像元数量,N =,用于精度评估的总像元数量,Kappa,系数,分类总体精度与,Kappa,的区别:,总体精度只用到了位于对角线上的像元数量,Kappa,则既考虑了对角线上被正确分类的像元,又考虑了不在对角线上的各种漏分和错分错误,Kappa,系数,遥感图像的制约,地物本身的复杂性,传感器的性能,分类方法的制约,目前的分类方法是基于统计的方法,计算机处理的对象是单个像元,属于单点分类,地物空间结构的信息没有利用,制约分类精度的因素,同物异谱,:,同类地物具有不同的光谱特征。例如:同一类作物,生长状态不同,光谱特征有差异,同谱异物,:,不同的地物可能具有相似的光谱特征。,例如:,不同的植被类型可能有相似的光谱特征,制约分类精度的因素,不同含水量的土,壤的波谱,曲线,不,同叶绿素浓度海水的波谱,曲线,目视判读用到的信息与计算机自动分类所用信息的区别,目视判读,计算机自动分类,处理对象,多个像元的组合,单个像元,面积的估算,粗略的,精确的,波段,最多,3,个波段,没有限制,分别灰阶的能力,大约十几个灰阶,能够充分利用所有灰阶,地物形状,可以利用,存在限制,依,赖,于,算,法,空间信息,可以利用,存在限制,非遥感信息,可以利,用,(,图,像融,合,),可以利用,,程,度不够,处理时间,慢,快,结果重现,差,好,目视判读用到的信息与计算机自动分类所用信息的区别,目前计算机能够利用的信息还是很有限的,一方面从地物本身的复杂性着手,一方面从分类方法着手,提高分类前预处理的精度,面向对象,的遥感图像分类,决策,树分类,所谓的分层分类,与,GIS,的集成,提高分类精度的方法,首先考虑应用目的及图像数据的特性确定分类类别,有时也通过从训练数据中提取的图像数据特征确定分类类别,监督分类提取出对应分类类别的训练数据,对图像中代表给定类别的部分进行采样,从而对特征相似的像元进行归类,非监督分类不是预先确定类别而是根据归类的结果确定类别,其他分类方法,分类的一般步骤,使用设定的分类基准对各像元进行分类,包括对每个像元进行分类和对每个预先分割的匀质区域进行分类。分类的方法经常采用以下几种:,多级切割分类法、最小距离分类法、最大似然比分类法、决策树分类法、其它方法(如利用模糊理论的方法、利用专家系统的方法),把已知的训练数据及分类类别与分类结果进行比较,确认分类的精度及可靠性,分类的一般步骤,监督分类,非监督分类,是否需要训练区,主要步骤,优点,缺点,适用范围,常用分类方法,课堂练习,
展开阅读全文