ClusterAnalysis聚类分析课件实用学习教案

上传人:莉**** 文档编号:120785455 上传时间:2022-07-18 格式:PPTX 页数:61 大小:626.49KB
返回 下载 相关 举报
ClusterAnalysis聚类分析课件实用学习教案_第1页
第1页 / 共61页
ClusterAnalysis聚类分析课件实用学习教案_第2页
第2页 / 共61页
ClusterAnalysis聚类分析课件实用学习教案_第3页
第3页 / 共61页
点击查看更多>>
资源描述
会计学1ClusterAnalysis聚类分析课件实用聚类分析课件实用(shyng)第一页,共61页。第2讲 聚类分析2.1 2.1 聚类分析的基本聚类分析的基本(jbn)(jbn)思想思想2.2 2.2 相似性的度量相似性的度量(dling)(dling)2.3 2.3 类和类的特征类和类的特征(tzhng)(tzhng)2.4 2.4 系统聚类法系统聚类法2.5 2.5 非系统聚类法简介非系统聚类法简介第1页/共61页第二页,共61页。第2页/共61页第三页,共61页。R型聚类可在相似变量中选择型聚类可在相似变量中选择少数具有代表性的变量参与其少数具有代表性的变量参与其他他(qt)分析,实现减少变量分析,实现减少变量个数,达到变量降维的目的。个数,达到变量降维的目的。第3页/共61页第四页,共61页。第4页/共61页第五页,共61页。第5页/共61页第六页,共61页。),1;,2,1(*mjnixxxjijij (1)中心化变换中心化变换 变换后数据的均值变换后数据的均值(jn zh)为为0,而协差阵不变,而协差阵不变.(2)标准化变换标准化变换 变换后的数据变换后的数据,每个变量的样本均值每个变量的样本均值(jn zh)为为0,标准差为标准差为1,且标准化变换后的数据且标准化变换后的数据x*ij与变量的量纲无关与变量的量纲无关.(3)极差标准化变换极差标准化变换 变换后的数据变换后的数据,每个变量的样本均值每个变量的样本均值(jn zh)为为0,极差为极差为1,变变换后的数据也是无量纲的量换后的数据也是无量纲的量.*(1,2,;1,)ijjijjxxxin jpR*(1,2,;1,)ijjijjxxxin jps第6页/共61页第七页,共61页。(4)极差正规化变换极差正规化变换(规格化变换规格化变换)变换后的数据变换后的数据0 x*ij 1;极差为极差为1,也是无量纲的量也是无量纲的量.(5)对数变换对数变换 可将具有可将具有(jyu)指数特征的数据结构化为线性数据结构指数特征的数据结构化为线性数据结构.*1(1,2,;1,)miniji nijjxijxin jpRx*log()(0)(1,2,;1,)ijijijxxxin jp第7页/共61页第八页,共61页。npnnppxxxxxxxxxX212222111211ijd第8页/共61页第九页,共61页。0;ijdij 对一切的和 成立0;ijdij当且仅当成立;ijjiddij对一切的 和 成立.ijikkjdddij对于一切的和 成立ijd第9页/共61页第十页,共61页。pkjkikijxxd1111()(|)pqqijikjkkdqxx(1b)欧氏距离(jl)(Euclidean distance):当q=2时(1c)切比雪夫距离(jl):当 时 2112)(2pkjkikijxxdjkikpkijxxd1max)(q第10页/共61页第十一页,共61页。缺点缺点:(1)与各变量的量纲有关与各变量的量纲有关;(2)没有考虑指标间的相关性没有考虑指标间的相关性;(3)没有考虑各变量方差的不同没有考虑各变量方差的不同.如欧氏距如欧氏距离离,变差大的变量在距离中的作用变差大的变量在距离中的作用(贡献贡献)就会大就会大,这是不合适的这是不合适的.合理的方法合理的方法(fngf)就是对各变量加权就是对各变量加权,如用如用1/s2 作为权数可得出作为权数可得出“统计距离统计距离”:*21()(,1,2.,)pitjtijttxxdi jns第11页/共61页第十二页,共61页。*1,2,1,2,ijjijjjxxxinjps11njijixxn211()1njjijjisxxn第12页/共61页第十三页,共61页。11pikjkijkikjkxxdLpxx克服量纲克服量纲(lin n)的影响的影响 未考虑指标未考虑指标(zhbio)间相关间相关性的影响性的影响0;1,2,;1,2,ijxin jp适用于变量之间互不相关的情形适用于变量之间互不相关的情形第13页/共61页第十四页,共61页。(3)斜交空间距离斜交空间距离 在在m维空间中维空间中,为使具有相关性变量的谱系结为使具有相关性变量的谱系结构构(jigu)不发生变形不发生变形,采用斜交空间距离采用斜交空间距离,即即在数据在数据(shj)(shj)标准化处理下标准化处理下,rkl,rkl为变量为变量XkXk和和XlXl之间的相之间的相关系数关系数 第14页/共61页第十五页,共61页。克服量纲克服量纲(lin n)的影响的影响 克服指标克服指标(zhbio)间相关间相关性的影响性的影响)()(2ji1jixxxxijd1/2()()ijd1ijijxxxx缺点:缺点:协方差矩阵难以确定协方差矩阵难以确定第15页/共61页第十六页,共61页。ixjxijc1,(0)ijijcxaxb ab 当且仅当和 是常数;1,ijc对一切i,j;,ijjicc对一切i,j。第16页/共61页第十七页,共61页。niiiixxx,21xnjjjjxxx,21xnknkkjkinkkjkiijijxxxxc11221cos221ijijCd第17页/共61页第十八页,共61页。设 和是第 和 个变量的观测值,则二者之间的相似(xin s)测度为:12,iinixxxix12(,)jjnjxxxjxij12211()()()()nkiikjjkijnnkiikjjkkxxxxxxxx相关系数就是对数据作中心化或标准化处理后的夹相关系数就是对数据作中心化或标准化处理后的夹角角(ji jio)余弦余弦.第18页/共61页第十九页,共61页。00 0pGqG1G2GnG1G2GnG12dnd121d1nd2ndnd2第19页/共61页第二十页,共61页。第20页/共61页第二十一页,共61页。1,nXX11nGiiXXn1()()nGiGiGisXXXX11GGsn (3)类G的直径(zhjng),m axGijijGDd第21页/共61页第二十二页,共61页。(4)类的离差平方和 对于聚类前的n个样品,可以(ky)证明:n个样品总离差平方和聚成k类后各类内离差平方 之和类间离差平方和 令T为总离差平方和,Pk为分为K类的类内离差平方之和。kktiktnitiBPXXXXTt)()()()(11)()(其中其中(qzhng)kttkSP1)()(XXXXSinii第22页/共61页第二十三页,共61页。第23页/共61页第二十四页,共61页。系统聚类法的聚类原则决定于样品间的距离系统聚类法的聚类原则决定于样品间的距离(或或相似系数相似系数)及类间距离的定义及类间距离的定义,类间距离的不同类间距离的不同(b(b tn)tn)定义就产生了不同定义就产生了不同(b tn)(b tn)的系统聚类分的系统聚类分析方法析方法.几个记号几个记号:用用dijdij表示样品表示样品X(i)X(i)和和X(j)X(j)之间的距离之间的距离,当样品间的亲疏关系采用相似当样品间的亲疏关系采用相似(xin s)(xin s)系数系数Cij Cij 时时,令令 dij=1-|Cij|(dij=1-|Cij|(或或 d2ij=1-C2ij);d2ij=1-C2ij);用用DijDij表示类表示类GiGi和和GjGj间的距离间的距离.第24页/共61页第二十五页,共61页。第25页/共61页第二十六页,共61页。x21x12x22x1113d类Gp与类Gq之间的距离(jl)Dpq(d(xi,xj)表示点xi Gp和xj Gq之间的距离(jl)min(,)pqijDd x x第26页/共61页第二十七页,共61页。1X2X样品1148样品2159样品3104样品481样品562第27页/共61页第二十八页,共61页。第28页/共61页第二十九页,共61页。x11x2112dmax(,)pqijDd x x例题例题(lt):数据如前:数据如前第29页/共61页第三十页,共61页。PGqGLGrG最长距离最短距离中间(zhngjin)距离第30页/共61页第三十一页,共61页。2222111224lrlplqpqDDDD递推公式:04121212222,递推公式:pqkqkpkrDDDD第31页/共61页第三十二页,共61页。11,x y22,xy例题例题(lt):数据如:数据如前前第32页/共61页第三十三页,共61页。2222pqrqrpkqrqkprpkrDnnnnDnnDnnDrqpnnnGrGt第33页/共61页第三十四页,共61页。重心法虽有较好的代表性重心法虽有较好的代表性,但并未充分利用各个样但并未充分利用各个样品品(yngpn)(yngpn)的信息的信息.比如下面两组类按重心法类比如下面两组类按重心法类间距离相等间距离相等,这是不合理的这是不合理的.第34页/共61页第三十五页,共61页。991ddv利用(lyng)了所有样品对距离的信息第35页/共61页第三十六页,共61页。类与类之间的距离平方为两类样品类与类之间的距离平方为两类样品(yngpn)(yngpn)两两之间的距离平方的平均两两之间的距离平方的平均,即即2,21ijGjGiqppqdnnDqp合并新类的距离递推公式合并新类的距离递推公式(gngsh)(gngsh):设某一步将设某一步将GpGp和和GqGq合并成合并成Gr,Gr,它们所包含的样品个数它们所包含的样品个数分别为分别为np,nqnp,nq和和nr(nr=np+nq).Grnr(nr=np+nq).Gr与其他类与其他类GkGk的类间距离的类间距离的递推公式的递推公式(gngsh)(gngsh)为为),(222qpkDnnDnnDqkrqpkrprk第36页/共61页第三十七页,共61页。2222pqkrkkqkrqkkpkrpkkrDnnnDnnnnDnnnnD2222qprpqSSSD的增量:定义距离为离差平方和其中 是由Gp和Gq合并成的Gr类的类内离差平方和。可以(ky)证明离差平方和法的类间递推公式为2rS)()(2qPqPqpqppqXXXXnnnnD例题例题(lt):数据如前:数据如前第37页/共61页第三十八页,共61页。第38页/共61页第三十九页,共61页。九、系统聚类法的基本(jbn)性质(一)单调性 在聚类分析过程中,并类距离分别(fnbi)为l k(k=1,2,3,)若满足 ,则称该聚类方法具有单调性。可以证明除了重心法和中间距离法之外,其他的系统聚类法均满足单调性的条件。121kkllll(二)空间的浓缩(nn su)和扩张 1、定义矩阵的大小 设同阶矩阵D(A)和D(B),如果D(A)的每一个元素 小于D(B)的每一个元素,则记为 。)()(BDAD第39页/共61页第四十页,共61页。3、方法(fngf)的比较 D(短)D(平),D(重)D(平);D(长)D(平);当 ,D(变平)D(平);当 ,D(变平)D(平)。10 0 第40页/共61页第四十一页,共61页。1.1.由适当的阈值确定由适当的阈值确定 介绍系统聚类法的基本步骤时介绍系统聚类法的基本步骤时,由谱系聚类图及临界值由谱系聚类图及临界值,即可给出分类即可给出分类结果结果.2.2.根据数据点的散布图直观根据数据点的散布图直观(zhgun)(zhgun)地确定类的个数地确定类的个数 3.3.根据谱系图确定分类个数的准则根据谱系图确定分类个数的准则 4.4.根据统计量确定分类个数根据统计量确定分类个数第41页/共61页第四十二页,共61页。第42页/共61页第四十三页,共61页。由由 Rk2的定义的定义 可知可知,Rk2值越大,也就是值越大,也就是Pk/T越小,表示越小,表示k个类内离差平方和之和个类内离差平方和之和Pk在总离差平方和在总离差平方和T中占的比例越小中占的比例越小,这说明这说明k个类区分得越开个类区分得越开.Rk2的值总是在的值总是在0和和1之间,而且之间,而且Rk2的值总是随着分类的值总是随着分类(fn li)个数个数k的减少而变小的减少而变小,12TBTPRkkk所以我们只能取合适的K,使得R2足够大,而K本身较小,且随着K的增加(zngji),R2的增幅不大。1、Rk2统计量第43页/共61页第四十四页,共61页。()(1)()kkTPkFPnk2.伪F统计(tngj)量第44页/共61页第四十五页,共61页。和L类的效果,伪统计量大说明不应该合并这两类,应该取合并前的水平。2t)2()(2LKLKKLNNWWBt2t3.伪 统计(tngj)量第45页/共61页第四十六页,共61页。第46页/共61页第四十七页,共61页。选择(xunz)凝聚点分 类修改(xigi)分类分类(fn li)是否合理分类结束YesNo第47页/共61页第四十八页,共61页。)1(1x)1(2xkx),(),()1(2)1(1xxdxxdkk和),(),()1(2)1(1xxdxxdkkkx 4、分别计算(j sun)两个类的重心,则得 和 ,以其为新的聚核,对空间中的点进行重新分类,得到新分类。)2(1x)2(2x第48页/共61页第四十九页,共61页。(a)空间(kngjin)的群点 (b)任取两个聚核 (c)第一次分类(fn li)(d)求各类中心第49页/共61页第五十页,共61页。(e)第二次分类(fn li)第50页/共61页第五十一页,共61页。第51页/共61页第五十二页,共61页。n第52页/共61页第五十三页,共61页。、等等。15(1)22X 第53页/共61页第五十四页,共61页。第54页/共61页第五十五页,共61页。第55页/共61页第五十六页,共61页。的聚类结果是A独自成一类,B、C、D聚成一类。表 样品(yngpn)聚类结果第56页/共61页第五十七页,共61页。第57页/共61页第五十八页,共61页。确定待研究(ynji)的问题 选择聚类用的距离(jl)或相似系数 选择聚类方法 确定类别的个数 评估聚类分析的效果 解释聚类分析的结果1.先确定待研究的问题和待分类的对象 1.所选的方法与所选的距离是有关的 2.小样本与大样本3.两者的串联使用1.样品聚类时多采用距离统计量 2.变量聚类时多采用相似系数统计量 3.不同度量单位的影响 透过比较各类别的中心,来识别各个类别的意义,从而给各个类别命名 1.相关的理论或实践上的需要 2.系统聚类法 3.非系统聚类法 第58页/共61页第五十九页,共61页。人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操(qngco),给我们巨大的精神力量,鼓舞我们前进。第59页/共61页第六十页,共61页。第60页/共61页第六十一页,共61页。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!