Matlab数据分析方法

上传人:cel****460 文档编号:243722220 上传时间:2024-09-29 格式:PPTX 页数:45 大小:587.18KB
返回 下载 相关 举报
Matlab数据分析方法_第1页
第1页 / 共45页
Matlab数据分析方法_第2页
第2页 / 共45页
Matlab数据分析方法_第3页
第3页 / 共45页
点击查看更多>>
资源描述
Matlab数据分析方法,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Matlab数据分析方法,谱系聚类的有效性,1,模糊聚类的有效性,2,Matlab,数据分析方法,样品之间和两个总体(类)之间终究采用何种距离为好?,先假定样品之间的距离已定,例如选取欧氏距离. 对于类间五种不同距离, 哪种距离使得聚类效果最好?,聚类树的cophenet距离与生成该聚类树的原始距离之间的线性相关系数定义为聚类树的cophenet相关, 它度量了个体间的不相似性, 假设该系数越接近于1,那么聚类效果越好.,6.4 .1,谱系聚类的有效性,Matlab,数据分析方法,d,分量依次为样品,(2,1),(3,1),(n,1),(3,2),(n,2),(n,n-1),的距离,即用距离命令,d=pdist(X),得到的距离向量。,-,样本间,距离行向量,-,样本观测矩阵,分量依次为样品,(2,1),(3,1),(n,1),(3,2),(n,2),(n,n-1),初次并为一个类中时的距离,称为,cophenetic,距离,(,和聚类树产生的距离相关,),。,-,cophenetic,距离向量,Matlab,数据分析方法,注意:cophenet相关系数R反响了聚类效果好坏,R越接近1,聚类效果越好。可通过R比照各种不同的距离计算方法和不同的系统聚类方法的聚类效果。,-,平,均值,MATLAB,计算,cophenet,相关系数命令,:,d=pdist(X, distance),%,计算样品距离向量,d,z=linkage(d, method),%,计算类间距离,R=cophenet(z, d),%,求,Z,和,d,的,cophenet,相关系数,R,copd=cophenet(z, d),输入,d,是样品之间的某种距离,,,z,是用某种类间距离,linkage,后的结果,.,输出,R,为,cophene,相关系数,,copd,为,cophene,距离向量,.,判断:,R,越接近于,1,,聚类效果越好。,表,6.1 5,省,(,区、市,),城镇居民人均家庭收入,例6.4.1 2021年我国5省、区、市城镇居民人均年家庭,收入如下表,为了研究上述5个省、区、市的城镇居民收入差异,进展谱系聚类时,选用哪种类间距离好?,解:以样品间的距离为欧氏距离为例,考虑类间的五种不同距离:,最短距离,:,z1= linkage(d),最长距离,:,z2= linkage(d,complete),类平均距离,:,z3= linkage(d,average),重心距离,:,z4= linkage(d,centroid),离差平方和,:,z5= linkage(d,ward),其中,d=pdist(x), x,为原始矩阵,.,程序:,9422.22 938.15 141.75 1976.49;,d=pdist(x);,%,计算出各行之间的欧氏距离,z1= linkage(d) %,最短距离法系统聚类,z2= linkage(d,complete) %,最长距离,z3= linkage(d,average) %,类平均距离,z4= linkage(d,centroid) %,重心距离,z5= linkage(d,ward) %,离差平方和,R=cophenet(z1,d),cophenet(z2,d),cophenet(z3,d),cophenet(z4,d),cophenet(z5,d) %,计算,cophenet,相关系数,输出结果:,最大最大,由于最大值为,0.9812,所以类间距离为类平均距离和重心距离效果最好,.,说明:,如果要找到最理想的分类方法,可对每一种样品之间的距离,都计算上述的复合相关系数,这样就可找到最理想的样品距离与对应的类间距离,.,2.样品之间距离与类间距离搭配评价准那么自学:,1,统计量,:,越大,聚类效果越好,样本总离差平方和分解:,-,总离差平方和,-,类内偏差差平方和,-,类间偏差差平方和,第,t,类样品总离差平方和,第,t,类样品距离总类重心总离差平方和,第,t,类样品重心到总类重心加权离差平方和,Pk,小,Bk,大,分类效果好,总离差平方和,类内偏差平方和,类内偏差平方和,样本总离差平方和分解:,当样品各自为一类时,而当所有的样品为同一类时,, 因此如何恰当地使用该准那么,要具体问题具体分析.,随着,的减少而减少,可以从,确定分为几类比较适宜.,由于,取值的变化来,例,6.4.2,试利用,统计量确定,Iris data,的分类数,.,解,:,load fisheriris,x=meas;,n,p=size(x);,n1=n-1;,format long,c=zeros(n1-1,1);,for j=2:n1,d=pdist(x);,z1=linkage(d,complete);,c=cluster(z1,j); %,分类数,j,k=1;,if k0,a=x(b,:);,c(j)=sum(l*var(a)+c(j);,end,end,end,R=1-c/sum(n1*var(x);,输出结果为,: optimaln=8,分,8,类效果好,k=1;,if k0,a=x(b,:);,c(j)=sum(l*var(a)+c(j);,end,end,end,R=1-c/sum(n1*var(x);,optimaln=find(R=max(R),2伪F统计量,伪,F,统计量用于评价分为,k,类的效果,.,伪,F,统计量的值越大表示这,n,个样品可显著地分为,k,类。,3伪,统计量,其中,分别表示第,类和第,类的离差平方和,,表示合并类,和,为新类,后类内离差平方和的增值,.,4不一致系数,注意,:,不一致系数可用来确定最终分类个数;在并类过程中,如果某一次分类对应的不一致系数较上次有大幅度增加,说明该次并类效果不好;在使类的个数尽量少的前提下,参照不一致系数的变化,确定最终分类个数。,9422.22 938.15 141.75 1976.49;,d=pdist(x); %,计算出各行之间的欧氏距离,z1= linkage(d) %,类间距离为,最短距离,Y=inconsistent(z1),%,计算聚类树矩阵,z1,每次并类得到的链接的不一致系数,z1 =,系统聚类树矩阵,1.0e+04 *,H=dendrogram(z1),H =,为树形图中线条句柄值向量,可控制线条属性。,Y =,不一致系数,1.0e+03 *,1.2796 0 0.0010 0,3.4616 0 0.0010 0,第,4,次不一致系数较第,3,次,0,提升较大,故第,3,次,1,和,2,号样品聚类,并类好;,第,2,次并类效果不如第,1,次,好于第,4,次;最后选项第,3,次聚合结果,453,一类,12,类,.,模糊均值聚类需要预先给定分类数,如何确定最优的分类数,是聚类有效性所研究的内容至今为止,仍然没有一个最优的标准,只能是在相应的准那么下最优,对于二维数据,可根据其平面图像大致看出分为几类适宜,对于高维数据,此方法就失效了,因此,有必要给出一些判别准那么,比较有名的判别准那么有:,6.4.2 模糊聚类的有效性自学不要求,(1) Bezdek准那么,其中,表示第,个数据点到第,类中心的隶属度,且,的最小值点对应最正确聚类数,(2) Xie and Beni (XB) 准那么,对应的,即为最优聚类数,(3) Kuyama & Sugeno,其中,表示第,个数据点到第,类中心的隶属度,,的最小值点对应最正确聚类数,(4),Kwon,其中,表示第,个数据点到第,类中心的隶属度,的最小值点即为最正确聚类数,例对经典的Iris数据和葡萄酒数据,分别应用上述准那么,确定最正确聚类数,解:利用Matlab软件我们可以求得相应的最正确聚类数。,表6.3 两类经典数据FCM的最正确聚类数,Matlab,数据分析方法,变量聚类在实际中应用:,可发现某些变量间的一些共性,有利于分析问题和解决问题;,可作为某些数据分析的中间过程:,如在回归分析中,假设涉及自变量多,相关性强,先考虑变量聚类,再在每一类变量中进展主成分分析,选取各类中的某些主成分作为新自变量,这样不但消除变量间的复共线性,也可到达降低自变量维数的目的,1,.,相似系数矩阵,Matlab,数据分析方法,1.读取中数据,进展变量系统聚类,中数据,并转为距离向量,d=1-abs(X); %进展数据变换,把相关系数矩阵化为距离,d=tril(d); %提取d的下三角局部,b=nonzero(s); %去掉d中零元素,b=b; % 化为行向量,2计算距离,3)调用linkage函数创立系统聚类树距离,Z = linkage(y,average,),Z =,聚类过程,varlabel = textdata(2:end,1); %提取变量名称为后面聚类做准备,H = dendrogram(Z,0,orientation,right,labels,varlabel); %做出聚类树形图,方向从右至左,显示所有叶结点,用城市名作为叶结点标签,叶结点标签在左侧,返回线条句柄H,set(H,LineWidth,2,Color,r); %设置线条宽为2,颜色为红色r,xlabel(并类距离类平均法) %为X轴加标签,(4),绘制聚类树形图,T =cluster(Z,maxclust,2),%,给出分,2,类结果,结果:,T = 1,1 2,2 2 2 2 1 1 1 1 1 2 2,由结果看出,14个变量可以分为2大类,,1类变量:上体长,手臂长,前腰节高,后腰节高,总体长,身高,下体长,反响人高矮的变量;,2类变量:胸围,颈围,总肩宽,前胸宽,后背宽,腰围,臀围,反响人胖瘦的变量。,两大类各自又可以分为两小类,如第1大类中的后背、前胸、总肩宽是一个小类,颈围、臀围、腰围、胸围为另一个小类。,5给出分2类结果,总结,1.,样品间距离公式,类间距离距离法;,2.,谱系聚类法、快速聚类法、,K,均值聚类法,聚类命令,作业:,谢谢观赏,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 药学课件


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!