资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,非监督学习,聚类,什么是聚类,聚类是一种无监督分类法,:,没有预先指定的类别,分类:用已知类别的样本训练集来设计分类器(监督学习),聚类:用事先不知类别的样本,利用样本的先验知识来构造分类器(无监督学习),聚类分析无训练过程,训练与识别混合在一起。,相似性度量,设有样本集 ,要求按某种相似性把分类,怎样实现?,聚类分析符合“物以类聚,人以群分“的原则,它把相似性大的样本聚集为一个类型,在特征空间里占据着一个局部区域。每个局部区域都形成一个聚合中心,聚合中心代表相应类型。,如下图中,,(a),有一个聚合中心,,(b),、,(c),有两个。,聚类分析避免了估计类概率密度的困难,对每个聚合中心来说都是局部密度极大值位置,其附近密度高,距离越远密度越小。,聚类分析的关键问题:如何在聚类过程中自动地确定类型数目,c,。,实际工作中,也可以给定值作为算法终止的条件。,聚类分析的结果与特征的选取有很大的关系。不同的特征,分类的结果不同。,1.,距离相似性度量,一个模式样本,对应特征空间里的一个点。如果模式的特征是适当选择的,也就是各维特征对于分类来说都是有效的,那么同类样本就会密集地分布在一个区域里,不同类的模式样本就会远离。因此,点间距离远近反映了相应模式样本所属类型有无差异,可以作为样本相似性度量。距离越近,相似性越大,属于一个类型。聚类分析中,最常用的就是距离相似性。,(,1,)欧氏距离,欧氏距离简称距离,模式样本向量,x,与,y,之间的欧氏距离定义为:,d,为特征空间的维数。,当 较小时,表示,x,与,y,在一个类型区域,反之,则不在一个类型区域。这里有一个门限的选择问题。若选择过大,则全部样本被视作一个唯一类型;若选取过小,则可能造成每个样本都单独构成一个类型。必须正确选择门限值以保证正确分类。,(,1,)欧氏距离(续),另外,模式特征坐标单位的选取也会强烈地影响聚类结果。,例如:一个二维模式,一个特征是长度,另一个特征是压力。,当长度由厘米变为米,在 中长度特征的比重会下降,同样,若把比重单位由毫米汞柱高度变成厘米汞柱高度,,中压力特征的影响也会下降。,(,1,)欧氏距离(续),可以用图表示上述情况:,从上图看出,,(b),、,(c),特征空间划分是不同的。,(b),中 为一类, 为另一类,,(c),中 为一类, 为另一类。,(,1,)欧氏距离(续),另外,使用欧氏距离度量时,还要注意模式样本测量值的选取,应该是有效反映类别属性特征(各类属性的代表应均衡)。但马氏距离可解决不均衡(一个多,一个少)的问题。,例如,取,5,个样本,其中有,4,个反映对分类有意义的特征,A,,只有,1,个对分类有意义的特征,B,,欧氏距离的计算结果,则主要体现特征,A,。,(,2,)马氏(,Mahalanobis,)距离,定义:马氏距离的平方,其中,为均值向量,为协方差矩阵。,马氏距离排除了不同特征之间相关性的影响,其关键在于协方差矩阵的计算。当为对角阵时,各特征之间才完全独立;当为单位矩阵时,马氏距离等于欧氏距离。,马氏距离比较适用于对样本已有初步分类的情况,做进一步考核、修正。,(,3,)明氏(,Minkowsky,)距离,定义:明氏距离,:,它是若干距离函数的通式:,时,等于欧氏距离;,时,称为“街坊”(,city block,)距离。,2.,角度相似性度量,样本,x,与,y,之间的角度相似性度量定义为它们之间夹角的余弦,即,也是单位向量之间的点积(内积)。,越大,,x,与,y,越相似。常用于情报检索、植物分类、疾病分类。,2.,角度相似性度量,满足:, 当 时, 达到最大。对于坐标系的旋转及放大、缩小 是不变的量,但对位移和一般性的线性变换不是不变的。,样本与核的相似性度量,近邻函数值相等,样本相似性度量是聚类分析的基础,针对具体问题,选择适当的相似性度量是保证聚类质量的重要问题。但有了相似性度量还不够,还必须有适当的聚类准则函数。聚类准则函数对聚类质量也有重大影响。,相似性度量 集合与集合的相似性。,相似性准则 分类效果好坏的评价准则,聚类准则函数,在样本相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真正属于同一类的样本聚合成一个类型的子集,而把不同类的样本分离开来。如果聚类准则函数选得好,聚类质量就会高。,聚类准则函数,同时,聚类准则函数还可以用来评价一种聚类结果的质量,如果聚类质量不满足要求,就要重复执行聚类过程,以优化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。,1,误差平方和准则(最常用的),假定有混合样本 ,采用某种相似性度量, 被聚合成,c,个分离开的子集,每个子集是一个类型,它们分别包含 个样本。,为了衡量聚类的质量,采用误差平方和 聚类准则函数,定义为:,m,j,是个集合的中心,可以用来代表,c,个类型。,误差平方和准则(续),是样本和集合中心的函数。在样本集,X,给定的情况下, 的取值取决于,c,个集合中心。 描述个,n,试验样本聚合成,c,个类型时,所产生的总误差平方和。 越小越好。,误差平方和准则(续),误差平方和准则适用于各类样本比较密集且样本数目悬殊不大的样本分布。例如:,上图的样本分布,共有,3,个类型,各个类型的样本数目相差不多(,10,个左右)。类内较密集,误差平方和很小,类别之间距离远。,误差平方和准则(续),注意:如果不同类型的样本数目相差很大,采用误差平方和准则,有可能把样本数目多的类型分开,以便达到总的 最小。如下图所示:,误差平方和准则(续),下面进一步说明上述问题:,例如:有,5,个样本,如下图所示 ,误差平方和准则(续),虚线为正确类型区分域,实线为采用误差平方和最小准则时的类别区分。,虚线划分时:,误差平方和准则(续),实线划分时:,所以,,,如果按误差平方和准则聚类将得到错误结果。,2,加权平均平方距离和准则,定义:加权平均平方距离和准则,式中: 是类内样本间平均平方距离,即所有的样本之间距离的平均值,。,加权平均平方距离和准则(续),为 类的先验概率,可以用样本数目 和样本总数目 来估计,因此:,加权平均平方距离和准则(续),用 重新讨论误差平方和准则中所举例子。,5,个样本,如图所示。,加权平均平方距离和准则(续),虽然 ,但已较接近。所以,当各类样本数目相差悬殊时,使用加权平均平方距离和准则,要比使用误差平方和准则容易得到正确聚类结果。同 一样, 越小,样本类内越密集。以聚合中心为极大值的局部区域密度越高,聚类结果越好。,3,类间距离和准则,类间距离和可用于描述聚类结果的类间距离分布状态。它定义为:,加权类间距离和:,式中,,类间距离和准则(续),对于两类问题,类间距离常用下式计算,类间距离和准则描述不同类型之间的分离程度,所以值越大,表示各类之间分离性好,聚类质量高。,4,散射矩阵,为了对聚类质量有一个全面的描述和考核标准,可以通过散射矩阵引导出一些准则函数,它们不但反映同类样本的聚集程度,而且也反映不同类之间的分离程度。,散射矩阵(续),假定混合样本集,X,的,n,个样本被聚集成,c,个类型的子集,X,j,,每个子集有,n,j,个样本,则类内散射矩阵 定义为:,其中 为某一个类型的类内散射矩阵:,散射矩阵(续),类间散射矩阵 定义为:,式中, 为各类型的均值向量, 为全部样本的均值向量,,( ),为各类型先验概率。,定义全部样本的总散射矩阵 为:,上述,3,个散射矩阵有如下关系:,这一结果表明,对于给定的混合样本集,类内散射的减少,将导致类间散射的增加。对某一聚类结果,类内散射越小越好,类间散射越大越好。,利用 、 、 可以定义如下的,4,个聚类准则:,表示矩阵的迹,也就是对角线元素之和,,| |,为行列式。,J,1,J,4,同时考虑了类内的散射和类间散射,为了得到好的聚类结果,它们的值越大越好。,两种简单的聚类算法,介绍两种简单的聚类分析方法,它是对某些关键性的元素进行试探性的选取,使某种聚类准则达到最优,又称为基于试探的聚类算法。,采用最近邻规则的聚类算法,最大最小距离聚类算法,1,采用最近邻规则的聚类算法,假设已有混合样本集 ,按照最近邻原则进行聚类,算法如下:,选取距离阈值,T,,并且任取一个样本作为第一个聚类中心,Z,1,,如: 。, 计算样本 到,Z,1,的距离,D,21,:,若 ,则 ,否则令 为第二个聚合中心, 。,采用最近邻规则的聚类算法(续),设 ,计算 到,Z,1,和,Z,2,的距离,D,31,和,D,32,,若,D,31,T,和,D,32,T,,则建立第三个聚合中心。否则把 归于最近邻的聚合中心。依此类推,直到把所有样本都进行分类。, 按照某种聚类准则考察聚类结果,若不满意,则重新选取距离阈值,T,、第一个聚合中心,Z,1,,返回,直到满意,算法结束。,在样本分布一定时,该算法的结果在很大程度上取决于第一个聚合中心的选取和距离阈值的大小。,该算法的优点是简单,如果有样本分布的先验知识用于指导阈值和起始点的选取,则可较快得到合理结果。对于高维的样本集来说,则只有经过多次试探,并对聚类结果进行验算,从而选择最优的聚类结果。,采用最近邻规则的聚类算法(续),2,最大最小距离聚类算法,该算法以欧氏距离为基础,除首先辨识最远的聚类中心外,与上述算法相似。用一个例子说明该算法。,例:样本分布如图所示。,该算法的聚类结果与参数 和起始点,Z,1,的选取关系重大。若无先验样本分布知识,则只有用试探法通过多次试探优化,若有先验知识用于指导 和,Z,1,选取,则算法可以很快收敛。,
展开阅读全文