MBA统计学11聚类分析

上传人:jk****g 文档编号:244451968 上传时间:2024-10-04 格式:PPTX 页数:29 大小:418.11KB
返回 下载 相关 举报
MBA统计学11聚类分析_第1页
第1页 / 共29页
MBA统计学11聚类分析_第2页
第2页 / 共29页
MBA统计学11聚类分析_第3页
第3页 / 共29页
点击查看更多>>
资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,统,计,计,学,学,第,十,十,一,一,章,章,聚,类,类,分,分,析,析,分类,物以类,聚,聚、人,以,以群分,;,;,但根据,什,什么分,类,类呢?,如要想,把,把中国,的,的县分,类,类,就,有,有多种,方,方法,可以按,照,照自然,条,条件来,分,分,比,如,如考虑,降,降水、,土,土地、,日,日照、,湿,湿度等,,,,,也可考,虑,虑收入,、,、教育,水,水准、,医,医疗条,件,件、基,础,础设施,等,等指标,;,;,既可以,用,用某一,项,项来分,类,类,也,可,可以同,时,时考虑,多,多项指,标,标来分,类,类。,聚类分,析,析,对一个,数,数据,,既,既可以,对,对变量(指标)进行,分,分类(,相,相当于,对,对数据,中,中的列,分,分类),,,,也可,以,以对观,测,测值(,事,事件,,样,样品),来,来分类(相当,于,于对数,据,据中的,行,行分类)。,当然,,不,不一定,事,事先假,定,定有多,少,少类,,完,完全可,以,以按照,数,数据本,身,身的规,律,律来分,类,类。,本章要,介,介绍的,分,分类的,方,方法称,为,为聚类,分,分析(cluster analysis)。,对,对变量,的,的聚类,称,称为R,型,型聚类,,,,而对,观,观测值,聚,聚类称,为,为Q型,聚,聚类。,它,它们在,数,数学上,是,是无区,别,别的。,饮料数,据,据(drink.txt,),),16种,饮,饮料的,热,热量、,咖,咖啡因,、,、钠及,价,价格四,种,种变量,11.1如何,度,度量距,离,离远近,?,如果想,要,要对100个,学,学生进,行,行分类,,,,而仅,知,知道他,们,们的数,学,学成绩,,,,则只,好,好按照,数,数学成,绩,绩分类,;,;这些,成,成绩在,直,直线上,形,形成100个,点,点。这,样,样就可,以,以把接,近,近的点,放,放到一,类,类。,如果还,知,知道他,们,们的物,理,理成绩,,,,这样,数,数学和,物,物理成,绩,绩就形,成,成二维,平,平面上,的,的100个点,,,,也可,以,以按照,距,距离远,近,近来分,类,类。,11.1如何,度,度量距,离,离远近,?,三维或,者,者更高,维,维的情,况,况也是,类,类似;,只,只不过,三,三维以,上,上的图,形,形无法,直,直观地,画,画出来,而,而已。,在饮料,数,数据中,,,,每种,饮,饮料都,有,有四个,变,变量值,。,。这就,是,是四维,空,空间点,的,的问题,了,了。,两个距,离,离概念,按照远,近,近程度,来,来聚类,需,需要明,确,确两个,概,概念:,一,一个是点和点,之,之间的距离,,,,一个,是,是类和类,之,之间的距离,。,。,点间距,离,离有很多,定,定义方,式,式。最,简,简单的,是,是歐氏,距,距离。,当然还,有,有一些,和,和距离,相,相反但,起,起同样,作,作用的,概,概念,,比,比如相,似,似性等,,,,两点,越,越相似,度,度越大,,,,就相,当,当于距,离,离越短,。,。,两个距,离,离概念,由一个,点,点组成,的,的类是,最,最基本,的,的类;,如,如果每,一,一类都,由,由一个,点,点组成,,,,那么,点,点间的,距,距离就,是,是类间,距,距离。,但,但是如,果,果某一,类,类包含,不,不止一,个,个点,,那,那么就,要,要确定,类,类间距,离,离,,类间距,离,离是基于,点,点间距,离,离定义,的,的:比,如,如两类之,间,间最近,点,点之间,的,的距离可以作,为,为这两,类,类之间,的,的距离,,,,也可,以,以用两类中,最,最远点,之,之间的,距,距离或各类,的,的中心,之,之间的,距,距离来,作,作为类,间,间距离,。,。,两个距,离,离概念,在计算,时,时,各,种,种点间,距,距离和,类,类间距,离,离的选,择,择是通,过,过统计,软,软件的,选,选项实,现,现的。,不,不同的,选,选择的,结,结果会,不,不同,,但,但一般,不,不会差,太,太多。,向量x=(x,1,x,p,)与y=(y,1,y,p,)之间的,距,距离或,相,相似系,数,数:,欧氏距,离,离:,Euclidean,平方欧,氏,氏距离:,Squared Euclidean,夹角余,弦,弦,(相似,系,系数1),:,cosine,Pearson correlation,(相似,系,系数2):,Chebychev:Max,i,|x,i,-y,i,|,Block(,绝,绝对距,离,离):,S,i,|x,i,-y,i,|,Minkowski:,当变量,的,的测量,值,值相差,悬,悬殊时,要先,进,进行标,准,准化.,如,如R,为,为极差,s,为,为标,准,准差,则,则标,准,准化的,数,数据为,每,每个观,测,测值减,去,去均值,后,后再除,以,以R或s.,当,当观测,值,值大于0时,有,有人,采,采用Lance和Williams的距,离,离,类G,p,与类G,q,之间的,距,距离D,pq,(d(x,i,x,j,)表示点x,i,G,p,和x,j,G,q,之间的,距,距离),最短距,离,离法:,最长距,离,离法:,重心法:,离差平,方,方和:,(Wald),类平均,法,法:,(中间,距,距离,可,可变,平,平均法,可变,法,法等可,参,参考各,书,书).,在用欧,氏,氏距离,时,时,有统一,的,的递推,公,公式,有了上,面,面的点,间,间距离,和,和类间,距,距离的,概,概念,,就,就可以,介,介绍聚,类,类的方,法,法了。,这,这里介,绍,绍两个,简,简单的,方,方法。,11.2 事,先,先要确,定,定分多,少,少类:k-均,值,值聚类,前面说,过,过,聚,类,类可以,走,走着瞧,,,,不一,定,定事先,确,确定有,多,多少类,;,;但是,这,这里的k-均,值,值聚类,(,(k-meanscluster,也,叫,叫快速,聚,聚类,quickcluster)却,要,要求你,先,先说好,要,要分多,少,少类。,看,看起来,有,有些主,观,观,是,吧,吧!,假定你,说,说分3,类,类,这,个,个方法,还,还进一,步,步要求,你,你事先,确,确定3,个,个点为,“,“聚类,种,种子”(SPSS软,件,件自动为你选,种,种子),;,;也就,是,是说,,把,把这3,个,个点作,为,为三类,中,中每一,类,类的基,石,石。,11.2,事,事先要确定,分,分多少类:k-均值聚,类,类,然后,根据,和,和这三个点,的,的距离远近,,,,把所有点,分,分成三类。,再,再把这三类,的,的中心(均,值,值)作为新,的,的基石或种,子,子(原来,“,“种子”就,没,没用了),,再,再重新按照,距,距离分类。,如此叠代下,去,去,直到达,到,到停止叠代,的,的要求(比,如,如,各类最,后,后变化不大,了,了,或者叠,代,代次数太多,了,了)。显然,,,,前面的聚,类,类种子的选,择,择并不必太,认,认真,它们,很,很可能最后,还,还会分到同,一,一类中呢。,下,下面用饮料,例,例的数据来,做,做k-均值,聚,聚类。,假定要把这,16,种饮料分成,3,类。利用,SPSS,,只叠代了,三,三次就达到,目,目标了(计,算,算机选的种,子,子还可以),。,。这样就可,以,以得到最后,的,的三类的中,心,心以及每类,有,有多少点,根据需要,,可,可以输出哪,些,些点分在一,起,起。结果是,:,:第一类为,饮,饮料1、10;第二类,为,为饮料2、4、8、11、12、13、14,;,;第三类为,剩,剩下的饮料3、5、6,、,、7、9、15、16,。,。,SPSS实,现,现,(,聚类分析,),K-均值聚,类,类,以数据drink.sav为例,,在,在SPSS,中,中选择Analyze,ClassifyK-Menas Cluster,,,,,然后把calorie,(,(热量)、caffeine(咖,啡,啡因)、sodium,(,(钠)、price(,价,价格)选入Variables,在Number ofClusters处,选,选择3(想,要,要分的类数,),),,如果想要知,道,道哪种饮料,分,分到哪类,,则,则选Save,再选Cluster Membership等。,注意k-均,值,值聚类只能,做,做Q型聚类,,,,如要做R,型,型聚类,需,要,要把数据阵,进,进行转置。,11.2,事,事先不用确,定,定分多少类,:,:分层聚类,另一种聚类,称,称为分层聚,类,类或系统聚,类,类(hierarchicalcluster)。开,始,始时,有多,少,少点就是多,少,少类。,它第一步先,把,把最近的两,类,类(点)合,并,并成一类,,然,然后再把剩,下,下的最近的,两,两类合并成,一,一类;,这样下去,,每,每次都少一,类,类,直到最,后,后只有一大,类,类为止。越,是,是后来合并,的,的类,距离,就,就越远。,对于,饮料聚类。,SPSS输,出,出为,“冰柱图”(icicle),例:5个样,品,品距离阵,令D,k,为系统聚类,法,法种第k次,合,合并时的距,离,离,如D,k,为单调的,则称具有,单,单调性.前,面,面只有重心,和,和中间距离,法,法不具有单,调,调性.,步骤:最短距离法最长距离法,阶段b,k,(第k阶,段,段类的集,合,合)D,k,D,k,D,(0),(1)(2)(3)(4)(5)00,D,(1),(1,3)(2)(4)(5)11,D,(2),(1,3)(2,4)(5)33,D,(3),(1,3)(2,4,5)45,D,(4),(1,3,2,4,5)69,注:最短,和,和最长距,离,离法结果,一,一样(一,般,般不一定,一,一样),聚类要注,意,意的问题,聚类结果,主,主要受所,选,选择的变,量,量影响。,如,如果去掉,一,一些变量,,,,或者增,加,加一些变,量,量,结果,会,会很不同,。,。,相比之下,,,,聚类方,法,法的选择,则,则不那么,重,重要了。,因,因此,聚,类,类之前一,定,定要目标,明,明确。,聚类要注,意,意的问题,另外就分,成,成多少类,来,来说,也,要,要有道理,。,。只要你,高,高兴,从,分,分层聚类,的,的计算机,结,结果可以,得,得到任何,可,可能数量,的,的类。,但是,聚,类,类的目的,是,是要使各,类,类之间的,距,距离尽可,能,能地远,,而,而类中点,的,的距离尽,可,可能的近,,,,并且分,类,类结果还,要,要有令人,信,信服的解,释,释。这一,点,点就不是,数,数学可以,解,解决的了,。,。,SPSS,实,实现,(,聚类分析,),分层聚类,对drink.sav数据,在,在SPSS中选择AnalyzeClassify,Hierarchical Cluster,然后把calorie(热,量,量)、caffeine(,咖,咖啡因),、,、sodium(,钠,钠)、price,(,(价格),选,选入Variables,在Cluster,选,选Cases(这,是,是Q型聚,类,类:对观,测,测值聚类,),),如果,要,要对变量,聚,聚类(R,型,型聚类),则,则选Variables,为了画出,树,树状图,,选,选Plots,再,点,点Dendrogram等,。,。,附录,Lance和Williams给出(对,欧,欧氏距离)统一,递推,公式:,D,2,(k,r)=,a,p,D,2,(k,p)+,a,q,D,2,(k,q)+,b,D,2,(p,q)+,g,|D,2,(k,p)-D,2,(k,q)|,前面方法,的,的递推公,式,式可选择,参,参数而得:,方法,a,i,(i=p,q),bg,最短距离,0-1/2,最长距离,01/2,重心n,i,/n,r,-,a,p,a,q,0,类平均n,i,/n,r,00,离差平方,和,和,(n,i,+n,k,)/(n,r,+n,k,)-n,k,/(n,r,+n,k,),0,中间距离1/2-1/40
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!