模式识别导论6

上传人:抢*** 文档编号:242980344 上传时间:2024-09-13 格式:PPT 页数:53 大小:1.23MB
返回 下载 相关 举报
模式识别导论6_第1页
第1页 / 共53页
模式识别导论6_第2页
第2页 / 共53页
模式识别导论6_第3页
第3页 / 共53页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章 聚类分析,6,1,分类与聚类的区别,分类:用已知类别的样本训练集来设计分类器(监督学习),聚类(集群):用事先不知样本的类别,而利用样本的先验,知识来构造分类器(无监督学习),1,6-2,系统聚类,系统聚类:先把每个样本作为一类,然后根据它们间的相,似性和相邻性聚合。,相似性、相邻性一般用距离表示,(,1,)两类间的距离,1,、最短距离:两类中相距最近的两样品间的距离。,2,2,、最长距离 :两类中相距最远的两个样本间的距离。,3,、中间距离:最短距离和最长距离都有片面性,因此有时用中间距离。设,1,类和,23,类间的最短距离为,d,12,,,最长距离为,d,13,,,23,类的长度为,d,23,,,则中间距离为:,上式推广为一般情况:,3,4,、重心距离:均值间的距离,5,、类平均距离:两类中各个元素两两之间的距离平方相加后取平均值,4,6,、 离差平方和:,设,N,个样品原分,q,类,则定义第,i,类的离差平方和为:,离差平方和增量:设样本已分成,p,q,两类,若把,p,q,合为,r,类,则定义离差平方:,5,(,2,)系统聚类的算法,设参加聚类的样本共,N,个,先选定样本间距离和类间距离的计算公式,再按以下步骤聚类。,1,、假定,N,个样本各成一类,记作,1,2,N,。,2,、作距离矩阵,D(0),因,D(0),矩阵是对称的,NN,矩阵,我们只计算下三角部分,第,i,行第,j,列处的元素,d,ij,用,i,和,j,两样本的距离平方表示。,6,3,、求,D(0),的最小元素,d,pq,min,d,ij,pq,因此,,p,和,q,是目前最近的两类。,4,、把,p,与,q,合并成新的类,并求新类与原有其它各类间的距离。,5,、作下一距离矩阵,D(1),。,6,、,若分的类数已满足预先要求或全部样本已合成一类,则算法结束。否则,重复以上步骤。,1,2,2,3,d,2,ij,.,7,例:有六个样本,X=,x,1,x,2,x,3,x,4,x,5,x,6,其分布如下图所示 :,1,、设全部样本分为,6,类,,2,、作距离矩阵,D(0),1,2,3,4,5,2,9,3,1,16,4,49,16,64,5,25,4,36,4,6,64,25,81,1,9,8,3,、求最小元素:,4,、把,1,3,合并,7,=(1,3),4,6,合并,8,=(4,6),5,、,作距离矩阵,D(1),7,2,8,2,9,8,49,16,5,25,4,4,9,6,、若合并的类数没有达到要求,转,3,。否则停止。,3,、求最小元素:,4,、,8,5,2,合并,9,=,(,2,5,4,6,),10,6-2,分解聚类,分解聚类:把全部样本作为一类,然后根据相似性、相邻性分解。,目标函数 两类均值方差,N,:,总样本数,,:,1,类样本数,:,2,类样本数,,11,分解聚类框图,:,初始分类,调整分类方案,最终结果,目标函数,达到最优否,?,12,对分,算法:,1,、选取目标函数,把全体样品分成两类,2,、分别计算把,x,1,x,2,x,N,并入,G,2,类时的,E,值,设当,x,i,并入,G,2,时的,E,值最大,则把它并入,G,2,得,:,3,、再分别计算把,x,1,x,i,-1,x,i,+1,x,N,并入,G,2,的,E,值,若当,x,j,并入,G,2,时,E,最大,则并入,G,2,得:,13,4,、若,E(k+1)E(k),则重复上述步骤,直到某个,E(K),达到最大值为止。这时最好的分类是,G,1,(k),共有,n-k,个样品,,G,2,(k),有,k,个样品。,每次分类后都要重新计算 之值。可用以下递推公式:,14,例:已知,21,个样本,每个样本取二个特征,原始资料矩阵如下表:,样本号,1,2,3,4,5,6,7,8,9,10,x,1,0,0,2,2,4,4,5,6,6,7,x,2,6,5,5,3,4,3,1,2,1,0,11,12,13,14,15,16,17,18,19,20,21,-4,-2,-3,-3,-5,1,0,0,-1,-1,-3,3,2,2,0,2,1,-1,-2,-1,-3,-5,15,解:第一次分类时计算所有样本,分别划到,G,2,时的,E,值,找出最大的。,1,、开始时,,目标函数,2,、分别计算当,x,1,x,2,.,x,21,划入,G,2,时的,E,值。把,x,1,划入,G,2,时有:利用递推公式,16,然后再把,x,2,.,x,21,划入,G,2,时对应的,E,值,计算出来进行比较,找出一个最大的,E,值。即把,x,21,划为,G,2,的,E,值最大。,再继续进行第二,第三次迭代,计算出,E(2),E(3),如下表:,17,18,第,10,次迭代,x,1,划入,G,2,时,,E,最大。于是分成以下,两类:,19,作业:,样本,1 2 3 4 5 6 7 8,0 2 1 5 6 5 6 7,0 2 1 3 3 4 4 5,用对分法编程上机,分成两类画出图形。,20,6-3,动态聚类,兼顾系统聚类和分解聚类,一、动态聚类的方法概要, 先选定某种距离作为样本间的相似性的度量,;,确定评价聚类结果的准则函数,;,给出某种初始分类,用迭代法找出使准则函数取极值的最好的聚类结果,。,21,选代表点,初始分类,分类合理否,最终分类,修改分类,Y,N,动态聚类框图,二、代表点的选取方法,代表点就是初始分类的聚类中心数,k,。,凭经验选代表点,根据问题的性质、数据分布,从直观上看来较合理的代表点,k;,将全部样本随机分成,k,类,计算每类重心,把这些重心作为每类的代表点,;,22, 按密度大小选代表点:,以每个样本作为球心,以,d,为半径做球形,;,落在球内的样本数称为该点的密度,并按密度大小排序。首先选密度最大的作为第一个代表点,即第一个聚类中心。再考虑第二大密度点,若第二大密度点距第一代表点的距离大于,d,1,(,人为规定的正数)则把第二大密度点作为第二代表点,否则不能作为代表点,这样按密度大小考察下去,所选代表点间的距离都大于,d,1,。,d,1,太小,代表点太多,,d,1,太大,代表点太小,一般选,d,1,2d,。,对代表点内的密度一般要求大于,T,。,T0,为规定的一个正数。, 用前,k,个样本点作为代表点。,23,三、初始分类和调整, 选一批代表点后,代表点就是聚类中心,计算其它样本到聚类中心的距离,把所有样本归于最近的聚类中心点,形成初始分类,再重新计算各聚类中心,称为成批处理法。, 选一批代表点后,依次计算其它样本的归类,当计算完第一个样本时,把它归于最近的一类,形成新的分类。再计算新的聚类中心,再计算第二个样本到新的聚类中心的距离,对第二个样本归类。即每个样本的归类都改变一次聚类中心。此法称为逐个处理法。, 直接用样本进行初始分类,先规定距离,d,把第一个样品 作为第一类的聚类中心,考察第二个样本,若第二个样本距第一个聚类中心距离小于,d,,,就把第二个样本归于第一类,否则第二个样本就成为第二类的聚类中心,再考虑其它样本,根据样本到聚类中心距离大于还是小于,d,,,决定分裂还是合并。,24,最佳初始分类,初始分类数,k,的确定有时是不准确的。假设,k,是逐渐增加的。如图所示,,准则函数下降很快,经过拐点,A,后,下降很慢。说明拐点附近对应的,k,,,比较接近最佳的初始分类。就是最佳初始分类。,25,四、,K,次平均算法:,这是一种常用的动态聚类方法,修改聚类中心的准则函数为(所有样本到聚类中心的距离平方和相加),其中,G,j,是第,j,个聚类,,N,j,是第,j,个聚类中的样本数,,Z,j,为第,j,个聚类的聚类中心。,K,均值算法的聚类准则是:聚类中心,Z,j,的,选择应使准则函数的,J,j,值,最小。因此,令,26,上式表明,,G,j,类的聚类中心应选在该类样本的均值,第一步:任选,k,个初始聚类中心,Z,1,(,l,), Z,2,(,l,),.,Z,k,(,l,),第二步:计算每个样本到,k,个聚类中心的距离,并按最近规则 归类。,其中,G,j,(,k,),为,聚类中心,Z,j,(,k,),的样本聚类。在第,k,次迭代,分配各个样本,x,到,k,个聚类中心。,27,第三步:从第二步的结果,计算新的聚类中心。,上面已经证明,该新聚类中心可以使准则函数的,J,j,值最小。,第四步:若新聚类中心与前一个聚类中心相等,即,Z,j,(,k+,1) =,Z,j,(,k,) j=1,2,.k,则,算法收敛,聚类结束。否则,转第二步。,28,例:已知有,20,个样本,每个样本有,2,个特征,数据分布,如下图,第一步:令,K=2,,,选初始聚类中心为,样本序号,x,1,x,2,x,3,x,4,x,5,x,6,x,7,x,8,x,9,x,10,特征,x,1,0,1,0,1,2,1,2,3,6,7,特征,x,2,0,0,1,1,1,2,2,2,6,6,x,11,x,12,x,13,x,14,x,15,x,16,x,17,x,18,x,19,x,20,8,6,7,8,9,7,8,9,8,9,6,7,7,7,7,8,8,8,9,9,29,30,31,32,第三步:根据新分成的两类建立新的聚类中心,第四步:,转第二步。,第二步:重新计算 到,z,1,(2) , z,2,(2),的距离,把它们归为最近聚类中心,重新分为两类,,33,第三步,更新聚类中心,34,第四步,,第二步,,第三步,更新聚类中心,35,上机作业,已知十个样本,每个样本,2,个特征,数据如下:,用,K,次,平均算法和,ISODATA,算法分成,3,类,编程上机,并画出分类图。,样本序号,1 2 3 4 5 6 7 8 9 10,x,1,0 1 2 4 5 5 6 1 1 1,x,2,0 1 1 3 3 4 5 4 5 6,36,五、,ISODATA,算法,(,迭代自组织数据分析算法),ISODATA,算法与,K,均值算法有相似之处,即聚类中心根据样,本的均值来修改。不同的是,这种算法进行的过程中聚类中心的,数目不是固定不变而是反复进行修改。聚类既有合并也有分裂,,合并与分裂是在一组预先选定的参数指导下进行的。此外,一些,经验结果也包含在算法中。,ISODATA,算法共分十四步。其中第一步到第六步是预选参,数、进行初始分类,并为合并和分裂准备必要的数据;第七步,决定下一步是进行合并还是进行分裂;第八步到第十步是分裂算,法,第十一步到第十三步是合并算法,第十四步决定算法是否结,束。算法的具体步骤如下:,37,设有,N,个样本模式,X,1,,,X,2,,,X,N,第一步:预选,N,C,个聚类中心,Z,1,,,Z,2,,,Z,NC,N,C,不,要求等于希,望的聚类数目。,N,C,个聚类中心也可在,N,个样本中选择。然后预,选下列指标:,K,:,K,是希望的聚类中心的数目。,N,:,每个聚类中最少的样本数。若某聚类中的样本少,N,,,则该聚类不能作为一个独立的聚类,应删去。,S,:,一个聚类中样本的标准偏差参数。要求每一个聚类内,标准偏差向量的所有分量中的最大分量小于,S,,,否则该类,应分裂为两类。标准偏差向量的每一分量 等于每个样本的分,量与聚类中心对应分量差的平方和平均值。,C,:,两聚类中心之间的最小距离。若两类中心之间距离小于,C,,,则这两类合并为一类。,L,:,在一次迭代中允许合并的聚类中心的最大对数。,I,:,允许迭代的次数。,38,第二步:把,N,个样本按最近邻规则分配到,N,c,个,聚类中。,第三步:若,S,j,中的样本数,N,j,S,,,(,即,S,j,类样本在,jmax,对应方向上的标准偏差大于允许的值),同时又满足以下两条之一:,(1),和,N,j,2(,N,1),,,即类内平均距离大于总体平均距离,并且,S,j,类,中样本数很大。,(2) N,C,K/2,即聚类数小于或等于希望数目的一半。,本步完成后,跳回第二步,且迭代次数加,1,。,42,第,十一步:计算所有聚类中心之间的距离。,S,i,类和,S,j,类中心间的距离为,第十二步:比较所有,D,ij,与,C,的值,将小于,C,的,D,ij,按,升序排列:,D,i,1,j,1,D,i,2,j,2, ,D,iLjL,其中,,D,i,1,j,1,D,i,2,j,2, ,N,故无聚类可删除。,45,第四步:修改聚类中心,,第五步:计算,第六步:计算 。因只有一类,故,第七步:因不是最后一次迭代,且,N,C,K/2,,,故进入第八步进行分裂运算。,46,第八步:求,S,1,的标准偏差向量,1,,,得,1,=1.99,1.56,t,第九步:,1,的最大分量是,1.99,,因此,,1max,1.99,第十步:因,1max,S,且,N,C,K/2,,,可将,Z,1,分裂为两个新的聚类中心。因,1max,是,1,的第一个分量,即,S,1,中样本分布在,X,的第一个分量方向上较分散,故分裂应在,Z,1,的第一个分量方向上进行。分裂系数,k,选为,0.5,,得,47,为了方便,令 。这一步之后,,N,C,加,1,,迭代次数加,1,,即下面进行第,2,次迭代运算。跳回到第二步。,第二步:按最近邻规则对所有样本聚类,得到两个聚类分别为,S,1,=X,4,X,5, X,6,X,7, X,8,S,2,=X,1,X,2, X,3,N,1,=5,,,N,2,=3,第三步:因,N,1,和,N,2,都大于,N,,,无聚类可以删除。,第四步:修改聚类中心,得,48,第五步:计算 和 ,得,第六步:计算 ,得,第七步:因这是偶数次迭代,符合第七步的第,(3),条,故进入第十一步。,第十一步:计算聚类之间距离,得,49,第十二步:比较,D,12,与,C,,,这里,D,12,C,。,第十三步:根据第十二步的结果,聚类中心不能发生合并。,第十四步:因为不是最后一次迭代,需要判断是否要修改给定的参数。但前面的迭代运算结果已得到希望的聚类数目;聚类之间分散程度大于类内样本的标准差;每一聚类中样本数目都具有样本总数的足够大的百分比,且两类样本数相差不大,故可不必修改参数。因此,回到第二步,且迭代次数加,1,。,第二步到第六步:与前一次迭代运算的结果相同。,第七步:没有一种情况被满足,继续执行第八步。,50,第八步:计算,S,1,和,S,2,的标准偏差向量,1,和,2,。,这时,S,1,和,S,2,仍为,S,1,=X,4,X,5, X,6, X,7, X,8,S,2,=X,1,X,2, X,3,计算结果为:,1,=0.75,0.75,t,2,=0.82,0.82,t,第九步:,1max,0.75,,,2max,0.82,第十步:分裂条件不满足,故继续执行第十一步。,51,第,十一步:计算聚类中心之间的距离,结果与前次迭代计算结果相同。,第十二步、十三步:与前一次迭代结果相同。,第十四步:因不是最后一次迭代,且不需修改参数,故返回第二步。迭代次数加,1,。,第二到第六步:与前一次迭代结果相同。,第七步:因为是最后一次迭代,置,C,0,,,跳到第十一步。,第十一步:,第十二步:与前一次迭代结果相同。,第十三步:没有合并发生。,第十四步:最后一次迭代,故算法结束。,52,作业、有一样本集共七个样本为:,X,1,=0,0,t,X,2,=0,1,t,X,3,=4,4,t,X,4,=4,5,t,X,5,=5,4,t,X,6,=5,5,t,X,7,=1,0,t,试用,ISODATA,聚类算法编程上机分类,打印出分类图。,53,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!