资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章 多元分析,结束,1,6.1 聚类分析,如何将认识对象分类是认识世界的一种重要方法.聚类分析作为一种定量的分类方法,是一种重要的分类工具.,一.相似性度量,1.,样本的相似性度量,可用样本点之间的距离来度量,.,1),2)称正定性,3)称对称性,4)称三角不等式.,结束,2,常用的有,Minkowski,距离,包括:,欧氏距离最常用,它具有平移和旋转不变性.,采用,Minkowski,距离时,应采用相同量纲的变量,如不能满足,应先进行标准化处理.还应尽可能避免变量的多重相关性.,出于这两点原因,可定义马氏距离:,结束,3,马氏距离:,马氏距离对一切线性变换不变,不受量纲影响.,2.类与类间相似性度量,可用类与类之间的距离来度量,.,常用的类与类之间距离,包括:,结束,4,二.系统聚类法:,结束,5,1.系统聚类法步骤:,1)计算,n,个样本两两间的距离,记入矩阵,D,=(,d,ij,);,2),首先构造,n,个类,每个类只含一个样本,每类的平台高度为0;,3)合并距离最近的两类为新类,并且以这两类间的距离作为聚类图中的平台高度;,4)计算新类与当前各类间的距离,若类的个数等于1,转入步骤5),否则回到3),5)画聚类图;,6)决定类的个数和类.,不同的距离计算法可能形成不同的聚类结果.,2.最短距离法和最长距离法.例6.1.1,使用绝对值距离计算点与点间的距离,使用最短距离法来测量类与类间的距离.,结束,6,计算距离矩阵:,第一步:所有元素自成一类,H=,w,1,w,2,w,3,w,4,w,5,每类的平台高度为0,即:,f,(,x,i,)=0,D,(,G,p,G,q,)=,d,(,w,p,w,q,).,将最近的,w,1,w,2,聚为,一个新类,h,6,其平台高度,f,(,h,6,)=,d,(,w,1,w,2,)=1,第二步:分类情况为,H,1,=,w,3,w,4,w,5,h,6,计算新的距离矩阵,选择最近的两类,w,3,w,4,合并为新类,h,7,其平台高度,f,(,h,7,)=2,第三步:分类情况为,H,2,=,w,5,h,6,h,7,计算新的距离矩阵,选择最近的两类,h,6,h,7,合并为新类,h,8,其平台高度,f,(,h,8,)=3,结束,7,第四步:将,w,5,h,8,聚为一类,h,9,平台高度,f,(,h,9,)=4.,最后画出聚类图和二分树.,w,1,w,2,w,3,w,4,w,5,4 3 2 1,h,6,h,7,h,8,h,9,w,1,w,2,w,3,w,4,h,7,h,8,h,8,w,5,h,9,可看出5个销售员中,w,5,最好,w,3,w,4,次之,w,1,w,2,较差.若用最长距离法计算,可得到另一种聚类图和二分树.,结束,8,三.变量聚类法:,1.变量相似性度量:,选取指标时,尽可能多地找出所有相关因素,可能造成变量过多,变量间相关度高,给建模和系统分析带来不便.希望能把他们聚合成若干类.,1)相关系数:,2)夹角余弦:,1.变量聚类法:,1)最大系数法:,2)最小系数法:,例6.1.2,结束,9,6.2 主成分分析,用较少的变量去解释大部分变异.希望选出几个新变量,比原始变量个数少,又能解释大部分变异.这些新变量称为主成分.,一个主成分,z,1,不足以代表原来的,p,个变量,需要第二个主成分,z,2,.,第二个主成分不应包含第一个主成分的信息,即应相互独立,Cov,(,z,1,z,2,).,在几何上表示为两个主成分方向正交.即:,结束,10,1)主成分分析时,应将,X,数据先标准化;,2)使用主成分分析是为了降维,一般选取主成分分析时,选取少量的主成分,能解释变异量的70-80%即可.,二.主成分估计,主成分估计采用的方法是将原有的回归变量的值变换到另一组变量,即主成分,选择一部分重要的变量作为新的自变量,丢弃一部分不影响不大的变量,达到降维的目的.用最小二乘法对参数进行估计,最后变换回原来的模型.,结束,11,假定原有,p,个,回归变量,结束,12,
展开阅读全文