SPSS 16实用教程：08 聚类分析与判别分析

资源描述

SPSS 16实用教程第第8章章聚类分析与判别分析聚类分析与判别分析聚类分析与判别分析的基本概念聚类分析与判别分析的基本概念8.1层次聚类分析中的层次聚类分析中的QQ型聚类型聚类8.2层次聚类分析中的层次聚类分析中的R R型聚类型聚类8.3快速聚类分析快速聚类分析8.4判判别别分分析析8.5 本章介绍统计学中经常使用的分类统计分本章介绍统计学中经常使用的分类统计分析方法析方法聚类分析与判别分析。主要内容有聚类分析与判别分析。主要内容有层次聚类分析、快速聚类分析和判别分析。其层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成中层次聚类分析根据聚类的对象不同分成Q Q型型聚类和聚类和R R型聚类。型聚类。统计学研究这类问题的常用分类统计方法统计学研究这类问题的常用分类统计方法主要有聚类分析（主要有聚类分析（cluster analysiscluster analysis）与判）与判别分析（别分析（discriminantdiscriminant analysis analysis）。其中聚）。其中聚类分析是统计学中研究这种类分析是统计学中研究这种“物以类聚物以类聚”问题问题的一种有效方法，它属于统计分析的范畴。聚的一种有效方法，它属于统计分析的范畴。聚类分析的实质是建立一种分类方法，它能够将类分析的实质是建立一种分类方法，它能够将一批样本数据按照他们在性质上的亲密程度在一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合，不说的类就是一个具有相似性的个体的集合，不同类之间具有明显的区别。同类之间具有明显的区别。聚类分析是一种探索性的分析，在分类的聚类分析是一种探索性的分析，在分类的过程中，人们不必事先给出一个分类的标准，过程中，人们不必事先给出一个分类的标准，聚类分析能够从样本数据出发，自动进行分类。聚类分析能够从样本数据出发，自动进行分类。聚类分析所使用方法的不同，常常会得到不同聚类分析所使用方法的不同，常常会得到不同的结论。不同研究者对于同一组数据进行聚类的结论。不同研究者对于同一组数据进行聚类分析，所得到的聚类数未必一致。因此我们说分析，所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。聚类分析是一种探索性的分析方法。对个案的聚类分析类似于判别分析，都是对个案的聚类分析类似于判别分析，都是将一些观察个案进行分类。聚类分析时，个案将一些观察个案进行分类。聚类分析时，个案所属的群组特点还未知。也就是说，在聚类分所属的群组特点还未知。也就是说，在聚类分析之前，研究者还不知道独立观察组可以分成析之前，研究者还不知道独立观察组可以分成多少个类，类的特点也无所得知。多少个类，类的特点也无所得知。变量的聚类分析类似于因素分析。两者都变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于，因素可用于辨别变量的相关组别。不同在于，因素分析在合并变量的时候，是同时考虑所有变量分析在合并变量的时候，是同时考虑所有变量之间的关系；而变量的聚类分析，则采用层次之间的关系；而变量的聚类分析，则采用层次式的判别方式，根据个别变量之间的亲疏程度式的判别方式，根据个别变量之间的亲疏程度逐次进行聚类。逐次进行聚类。聚类分析的方法，主要有两种，一种是聚类分析的方法，主要有两种，一种是“快速聚类分析方法快速聚类分析方法”（K KMeans Cluster Means Cluster AnalyAnaly-sis-sis），另一种是），另一种是“层次聚类分析方层次聚类分析方法法”（Hierarchical Cluster AnalysisHierarchical Cluster Analysis）。）。如果观察值的个数多或文件非常庞大（通常观如果观察值的个数多或文件非常庞大（通常观察值在察值在200200个以上），则宜采用快速聚类分析个以上），则宜采用快速聚类分析方法。因为观察值数目巨大，层次聚类分析的方法。因为观察值数目巨大，层次聚类分析的两种判别图形会过于分散，不易解释。两种判别图形会过于分散，不易解释。判别分析是一种有效的对个案进行分类分判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是，判别分析时，析的方法。和聚类分析不同的是，判别分析时，组别的特征已知。如银行为了对贷款进行管理，组别的特征已知。如银行为了对贷款进行管理，需要预测哪些类型的客户可能不会按时归还贷需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中，款。已知过去几年中，900900个客户的贷款归还个客户的贷款归还信誉度，据此可以将客户分成两组：可靠客户信誉度，据此可以将客户分成两组：可靠客户和不可靠客户。和不可靠客户。再通过收集客户的一些资料，如年龄、工再通过收集客户的一些资料，如年龄、工资收入、教育程度、存款等，将这些资料作为资收入、教育程度、存款等，将这些资料作为自变量。通过判别分析，建立判别函数。那么，自变量。通过判别分析，建立判别函数。那么，如果有如果有150150个新的客户提交贷款请求，就可以个新的客户提交贷款请求，就可以利用创建好的判别函数，对新的客户进行分析，利用创建好的判别函数，对新的客户进行分析，从而判断新的客户是属于可靠客户类，还是不从而判断新的客户是属于可靠客户类，还是不可靠客户类。可靠客户类。层次聚类分析是根据观察值或变量之间的层次聚类分析是根据观察值或变量之间的亲疏程度，将最相似的对象结合在一起，以逐亲疏程度，将最相似的对象结合在一起，以逐次聚合的方式（次聚合的方式（Agglomerative Agglomerative ClusteringClustering），它将观察值分类，直到最后），它将观察值分类，直到最后所有样本都聚成一类。所有样本都聚成一类。层次聚类分析有两种形式，一种是对样层次聚类分析有两种形式，一种是对样本（个案）进行分类，称为本（个案）进行分类，称为Q Q型聚类，它使具型聚类，它使具有共同特点的样本聚齐在一起，以便对不同类有共同特点的样本聚齐在一起，以便对不同类的样本进行分析；另一种是对研究对象的观察的样本进行分析；另一种是对研究对象的观察变量进行分类，称为变量进行分类，称为R R型聚类。它使具有共同型聚类。它使具有共同特征的变量聚在一起，以便从不同类中分别选特征的变量聚在一起，以便从不同类中分别选出具有代表性的变量作分析，从而减少分析变出具有代表性的变量作分析，从而减少分析变量的个数。量的个数。本节讲述本节讲述Q Q型聚类的原理和型聚类的原理和SPSSSPSS的实现过的实现过程，下一节将讲述程，下一节将讲述R R型聚类的实现过程。型聚类的实现过程。定义：层次聚类分析中的定义：层次聚类分析中的Q Q型聚类，它使型聚类，它使具有共同特点的样本聚齐在一起，以便对不同具有共同特点的样本聚齐在一起，以便对不同类的样本进行分析。类的样本进行分析。8.2.1 统计学上的定义和计算公式统计学上的定义和计算公式层次聚类分析中，测量样本之间的亲疏程层次聚类分析中，测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏度是关键。聚类的时候会涉及到两种类型亲疏程度的计算：一种是样本数据之间的亲疏程度，程度的计算：一种是样本数据之间的亲疏程度，一种是样本数据与小类、小类与小类之间的亲一种是样本数据与小类、小类与小类之间的亲疏程度。下面讲述这两种类型亲疏程度的计算疏程度。下面讲述这两种类型亲疏程度的计算方法和公式。方法和公式。计算公式如下。计算公式如下。样本数据之间的亲疏程度主要通过样本之样本数据之间的亲疏程度主要通过样本之间的距离、样本间的相关系数来度量。间的距离、样本间的相关系数来度量。SPSSSPSS根根据变量数据类型的不同，采用不同的测定亲疏据变量数据类型的不同，采用不同的测定亲疏程度的方法。程度的方法。样本若有样本若有k k个变量，则可以将样本看成是个变量，则可以将样本看成是一个一个k k维的空间的一个点，样本和样本之间的维的空间的一个点，样本和样本之间的距离就是距离就是k k维空间点和点之间的距离，这反映维空间点和点之间的距离，这反映了样本之间的亲疏程度。聚类时，距离相近的了样本之间的亲疏程度。聚类时，距离相近的样本属于一个类，距离远的样本属于不同类。样本属于一个类，距离远的样本属于不同类。1连续变量的样本距离测量方法连续变量的样本距离测量方法（1 1）欧氏距离（）欧氏距离（Euclidean DistanceEuclidean Distance）两个样本之间的欧氏距离是样本各个变量值之两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根，计算公式为差的平方和的平方根，计算公式为（2 2）欧氏距离平方（）欧氏距离平方（Squared Squared Euclidean DistanceEuclidean Distance）两个样本之间的欧氏距离平方是各样本每两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和，计算公式为个变量值之差的平方和，计算公式为（3 3）ChebychevChebychev距离距离两个样本之间的两个样本之间的ChebychevChebychev距离是各样距离是各样本所有变量值之差绝对值中的最大值，计算公本所有变量值之差绝对值中的最大值，计算公式为式为（4 4）BlockBlock距离距离两个样本之间的两个样本之间的BlockBlock距离是各样本所距离是各样本所有变量值之差绝对值的总和，计算公式为有变量值之差绝对值的总和，计算公式为（5 5）MinkowskiMinkowski距离距离两个样本之间的两个样本之间的MinkowskiMinkowski距离是各样距离是各样本所有变量值之差绝对值的本所有变量值之差绝对值的p p次方的总和，再次方的总和，再求求p p次方根。计算公式为次方根。计算公式为（6 6）CustomizedCustomized距离（用户自定义距离）距离（用户自定义距离）两个样本之间的两个样本之间的CustomizedCustomized距离是各样距离是各样本所有变量值之差绝对值的本所有变量值之差绝对值的p p次方的总和，再次方的总和，再求求q q次方根。计算公式为次方根。计算公式为连续变量亲疏程度的度量，除了上面的各连续变量亲疏程度的度量，除了上面的各种距离外，还可以计算其他统计指标。如种距离外，还可以计算其他统计指标。如PearsonPearson相关系数、相关系数、SosineSosine相似度等。相似度等。2连续变量的样本亲疏程度的其他测量方法连续变量的样本亲疏程度的其他测量方法3顺序或名义变量的样本亲疏程度测量顺序或名义变量的样本亲疏程度测量方法方法对于此类变量，可以计算一些有关相似性对于此类变量，可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也可以的统计指标来测定样本间的亲疏程度。也可以通过下面两个计算公式来得到。通过下面两个计算公式来得到。4样本数据与小类、小类与小类之间的样本数据与小类、小类与小类之间的亲疏程度测量方法亲疏程度测量方法 SPSS SPSS默认的变量为默认的变量为Var00001Var00001、Var00002Var00002等，用户也可以根据自己的需要来命名变量。等，用户也可以根据自己的需要来命名变量。SPSSSPSS变量的命名和一般的编程语言一样，有一变量的命名和一般的编程语言一样，有一定的命名规则，具体内容如下。定的命名规则，具体内容如下。所谓小类，是在聚类过程中根据样本之间所谓小类，是在聚类过程中根据样本之间亲疏程度形成的中间类，小类和样本、小类与亲疏程度形成的中间类，小类和样本、小类与小类继续聚合，最终将所有样本都包括在一个小类继续聚合，最终将所有样本都包括在一个大类中。大类中。在在SPSSSPSS聚类运算过程中，需要计算样本聚类运算过程中，需要计算样本与小类、小类与小类之间的亲疏程度。与小类、小类与小类之间的亲疏程度。SPSSSPSS提提供了多种计算方法（计算规则）。供了多种计算方法（计算规则）。（1 1）最短距离法（）最短距离法（Nearest NeighborNearest Neighbor）以当前某个样本与已经形成小类中的各样以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的本距离的最小值作为当前样本与该小类之间的距离。距离。（2 2）最长距离法（）最长距离法（Furthest NeighborFurthest Neighbor）以当前某个样本与已经形成小类中的各样以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的本距离的最大值作为当前样本与该小类之间的距离。距离。（3 3）类间平均链锁法（）类间平均链锁法（Between-groups Between-groups LinkageLinkage）两个小类之间的距离为两个小类内所有样两个小类之间的距离为两个小类内所有样本间的平均距离。本间的平均距离。（4 4）类内平均链锁法（）类内平均链锁法（Within-groups Within-groups LinkageLinkage）与小类间平均链锁法类似，这里的平均距与小类间平均链锁法类似，这里的平均距离是对所有样本对的距离求平均值，包括小类离是对所有样本对的距离求平均值，包括小类之间的样本对、小类内的样本对。之间的样本对、小类内的样本对。（5 5）重心法（）重心法（CentroidCentroid Clustering Clustering）将两小类间的距离定义成两小类重心间的将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。各个变量上的均值代表点。（6 6）离差平方和法（）离差平方和法（Wards MethodWards Method）小类合并的方法：在聚类过程中，使小类小类合并的方法：在聚类过程中，使小类内各个样本的欧氏距离总平方和增加最小的两内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。小类合并成一类。研究问题研究问题对一个班同学的数学水平进行聚类。聚类对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的的依据是第一次数学考试的成绩和入学考试的成绩。数据如表成绩。数据如表8-18-1所示。所示。8.2.2 SPSS中实现过程中实现过程姓姓名名数数学学入入学学成成绩绩hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.00 实现步骤实现步骤由于本例中选中的选项较多，这里按照各由于本例中选中的选项较多，这里按照各个结果分别解释。个结果分别解释。（1 1）首先是层次聚类分析的概要结果，）首先是层次聚类分析的概要结果，该结果是该结果是SPSSSPSS输出结果文件中的第一个表格，输出结果文件中的第一个表格，如下表所示。如下表所示。8.2.3 结果和讨论结果和讨论（2 2）输出的结果文件中第二个表格如下表）输出的结果文件中第二个表格如下表所示。所示。（3 3）输出的结果文件中第三个表格为层）输出的结果文件中第三个表格为层次聚类分析的凝聚状态表，包括：次聚类分析的凝聚状态表，包括：（4 4）输出的结果文件中第四个表格如下）输出的结果文件中第四个表格如下表所示。表所示。（5 5）输出的结果文件中第五个表格如下）输出的结果文件中第五个表格如下表所示。表所示。（6 6）输出的结果文件中第六部分如图）输出的结果文件中第六部分如图8-8-7 7所示。所示。（7 7）由于对图）由于对图8-6“Hierarchical 8-6“Hierarchical Cluster Analysis:Save New VarCluster Analysis:Save New Var”对话框对话框进行了设置，将聚类成三类时，各个样本的类进行了设置，将聚类成三类时，各个样本的类归属情况保存为一个变量，因此在归属情况保存为一个变量，因此在SPSSSPSS数据编数据编辑窗口中就新增了一个变量的值，如图辑窗口中就新增了一个变量的值，如图8-88-8所所示。示。8.3.1 统计学上的定义和计算公式统计学上的定义和计算公式定义：层次聚类分析中的定义：层次聚类分析中的R R型聚类是对研型聚类是对研究对象的观察变量进行分类，它使具有共同特究对象的观察变量进行分类，它使具有共同特征的变量聚在一起。以便可以从不同类中分别征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量作分析，从而减少分析选出具有代表性的变量作分析，从而减少分析变量的个数。变量的个数。计算公式：计算公式：R R型聚类的计算公式和型聚类的计算公式和Q Q型聚型聚类的计算公式是类似的，不同的是类的计算公式是类似的，不同的是R R型聚类是型聚类是对变量间进行距离的计算，对变量间进行距离的计算，Q Q型聚类则是对样型聚类则是对样本间进行距离的计算。本间进行距离的计算。研究问题研究问题对一个班同学的各科成绩进行聚类，分析对一个班同学的各科成绩进行聚类，分析哪些课程是属于一个类的。聚类的依据是哪些课程是属于一个类的。聚类的依据是4 4门门功课的考试成绩，数据如表功课的考试成绩，数据如表8-28-2所示。所示。8.3.2 SPSS中实现过程中实现过程姓姓名名数数学学物物理理语语文文政政治治hxh99.0098.0078.0080.00yaju88.0089.0089.0090.00yu79.0080.0095.0097.00shizg89.0078.0081.0082.00hah75.0078.0095.0096.00john60.0065.0085.0088.00watet79.0087.0050.0051.00jess75.0076.0088.0089.00wish60.0056.0089.0090.00Iiakii100.00100.0085.0084.00 实现步骤实现步骤（1 1）首先是层次）首先是层次R R型聚类分析的结果，型聚类分析的结果，该结果是该结果是SPSSSPSS输出结果文件中的第一个表格。输出结果文件中的第一个表格。8.3.3 结果和讨论结果和讨论（2 2）输出的结果文件中第二个表格如下）输出的结果文件中第二个表格如下表所示。表所示。（3 3）输出的结果文件中第三个表格如下）输出的结果文件中第三个表格如下表所示。表所示。（4 4）输出的结果文件中第四个表格如下）输出的结果文件中第四个表格如下表所示。表所示。（5 5）输出的结果文件中第五个表格如）输出的结果文件中第五个表格如下表所示。下表所示。（6 6）输出的结果文件中第六部分如下：）输出的结果文件中第六部分如下：SPSS SPSS层次聚类分析对计算机的要求比较层次聚类分析对计算机的要求比较高，在大样本的情况下，可以采用快速聚类分高，在大样本的情况下，可以采用快速聚类分析的方法。采用快速聚类分析，得到的结果比析的方法。采用快速聚类分析，得到的结果比较简单易懂，对计算机的性能要求也不高，因较简单易懂，对计算机的性能要求也不高，因此应用也比较广。此应用也比较广。定义：快速聚类分析是由用户指定类别数定义：快速聚类分析是由用户指定类别数的大样本资料的逐步聚类分析。它先对数据进的大样本资料的逐步聚类分析。它先对数据进行初始分类，然后逐步调整，得到最终分类。行初始分类，然后逐步调整，得到最终分类。快速聚类分析的实质是快速聚类分析的实质是K-MeanK-Mean聚类。聚类。8.4.1 统计学上的定义和计算公式统计学上的定义和计算公式和层次聚类分析一致，快速聚类分析也和层次聚类分析一致，快速聚类分析也以距离为样本间亲疏程度的标志。但两者的不以距离为样本间亲疏程度的标志。但两者的不同在于：层次聚类可以对不同的聚类类数产生同在于：层次聚类可以对不同的聚类类数产生一系列的聚类解，而快速聚类只能产生固定类一系列的聚类解，而快速聚类只能产生固定类数的聚类解，类数需要用户事先指定。数的聚类解，类数需要用户事先指定。另外，在快速聚类分析中，用户可以自己另外，在快速聚类分析中，用户可以自己指定初始的类中心点。如果用户的经验比较丰指定初始的类中心点。如果用户的经验比较丰富，则可以指定比较合理的初始类中心点，否富，则可以指定比较合理的初始类中心点，否则，需要增加迭代的次数，以保证最终聚类结则，需要增加迭代的次数，以保证最终聚类结果的准确性。果的准确性。计算公式如下。计算公式如下。快速聚类分析计算过程如下。快速聚类分析计算过程如下。首先需要用户指定聚类成多少类（比首先需要用户指定聚类成多少类（比如如k k类）。类）。然后然后SPSSSPSS确定确定k k个类的初始类中心点。个类的初始类中心点。SPSSSPSS会根据样本数据的实际情况，选择会根据样本数据的实际情况，选择k k个由个由代表性的样本数据作为初始类中心。初始类中代表性的样本数据作为初始类中心。初始类中心也可以由用户自行指定，需要指定心也可以由用户自行指定，需要指定K K组样本组样本数据作为初始类中心点。数据作为初始类中心点。计算所有样本数据点到计算所有样本数据点到k k个类中心点的个类中心点的欧氏距离，欧氏距离，SPSSSPSS按照距按照距k k个类中心点距离最短个类中心点距离最短原则，把所有样本分派到各中心点所在的类中，原则，把所有样本分派到各中心点所在的类中，形成一个新的形成一个新的k k类，完成一次迭代过程。其中类，完成一次迭代过程。其中欧氏距离（欧氏距离（Euclidean DistanceEuclidean Distance）的计算公）的计算公式为式为 SPSS SPSS重新确定重新确定k k个类的中心点。个类的中心点。SPSSSPSS计计算每个类中各个变量的变量值均值，并以均值算每个类中各个变量的变量值均值，并以均值点作为新的类中心点。点作为新的类中心点。重复上面的两步计算过程，直到达到重复上面的两步计算过程，直到达到指定的迭代次数或终止迭代的判断要求为止。指定的迭代次数或终止迭代的判断要求为止。研究问题研究问题为研究不同公司的运营特点，调查了为研究不同公司的运营特点，调查了1515个公司的组织文化、组织氛围、领导角色和员个公司的组织文化、组织氛围、领导角色和员工发展工发展4 4方面的内容。现要将这方面的内容。现要将这1515个公司按照个公司按照其各自的特点分成其各自的特点分成4 4种类型，数据如表种类型，数据如表8-38-3所示。所示。8.4.2 SPSS中实现过程中实现过程公公司司组组织织文文化化组组织织氛氛围围领领导导角角色色员员工工发发展展Microsof80.0085.0075.0090.00IBM 85.0085.0090.0090.00Dell 85.0085.0085.0060.00Apple 90.0090.0075.0090.00联想联想 99.0098.0078.0080.00NPP 88.0089.0089.0090.00北京电子北京电子79.0080.0095.0097.00清华紫光清华紫光89.0078.0081.0082.00北大方正北大方正75.0078.0095.0096.00TCL 60.0065.0085.0088.00娃哈哈娃哈哈 79.0087.0050.0051.00Angel 75.0076.0088.0089.00Hussar 60.0056.0089.0090.00世纪飞扬世纪飞扬100.00100.0085.0084.00Vinda 61.0064.0089.0060.00 实现步骤实现步骤本例中选中的选项较多，这里按照各个结本例中选中的选项较多，这里按照各个结果分别解释。果分别解释。（1 1）SPSSSPSS输出结果文件中的第一部分如输出结果文件中的第一部分如下表所示。下表所示。8.4.3 结果和讨论结果和讨论（2 2）输出的结果文件中第二部分如下表）输出的结果文件中第二部分如下表所示。所示。（3 3）输出的结果文件中第三部分是快速）输出的结果文件中第三部分是快速聚类分析后的各个类包含样本的情况。聚类分析后的各个类包含样本的情况。（4 4）输出的结果文件中第四部分如下表）输出的结果文件中第四部分如下表所示。所示。（5 5）输出的结果文件中第五个部分如下）输出的结果文件中第五个部分如下表所示。表所示。（6 6）输出的结果文件中第六个部分如下）输出的结果文件中第六个部分如下表所示。表所示。（7 7）输出结果的最后一个表格列出了）输出结果的最后一个表格列出了4 4个类中分别包括的样本数，如下表所示。个类中分别包括的样本数，如下表所示。（8 8）在步骤）在步骤5 5中曾指定了将样本所属类中曾指定了将样本所属类以及样本和类中心点的距离，作为样本的以及样本和类中心点的距离，作为样本的2 2个个新变量保存到新变量保存到SPSSSPSS的数据编辑窗口中。的数据编辑窗口中。SPSSSPSS运行后，数据编辑窗口如图运行后，数据编辑窗口如图8-218-21所示，其中我所示，其中我们可以看到新增加了两个变量（图中加深的两们可以看到新增加了两个变量（图中加深的两列），分别表示样本所属类以及样本和类中心列），分别表示样本所属类以及样本和类中心点的距离。点的距离。前面前面3 3节讲述了不同种聚类分析的方法，节讲述了不同种聚类分析的方法，不论是哪种方法，聚类分析都是直接比较各事不论是哪种方法，聚类分析都是直接比较各事物之间的性质，将性质相近的归为一类，将性物之间的性质，将性质相近的归为一类，将性质差别较大的归入不同的类。质差别较大的归入不同的类。本节讲述的判别分析，也是一种比较常用本节讲述的判别分析，也是一种比较常用的分类分析方法。判别分析先根据已知类别的的分类分析方法。判别分析先根据已知类别的事物的性质，利用某种技术建立函数式，然后事物的性质，利用某种技术建立函数式，然后对未知类别的新事物进行判断以将之归入已知对未知类别的新事物进行判断以将之归入已知的类别中。的类别中。有学者在研究中提出，可以利用判别分析有学者在研究中提出，可以利用判别分析来对聚类分析结果的准确性进行检验。聚类分来对聚类分析结果的准确性进行检验。聚类分析分成几类后，即可以作为判别分析的类别输析分成几类后，即可以作为判别分析的类别输入，进行判断。入，进行判断。定义：判别分析先根据已知类别的事物的定义：判别分析先根据已知类别的事物的性质（自变量），建立函数式（自变量的线性性质（自变量），建立函数式（自变量的线性组合，即判别函数），然后对未知类别的新事组合，即判别函数），然后对未知类别的新事物进行判断以将之归入已知的类别中。物进行判断以将之归入已知的类别中。8.5.1 统计学上的定义和计算公式统计学上的定义和计算公式判别分析有如下的假定：判别分析有如下的假定：预测变量服从正态分布。预测变量服从正态分布。预测变量之间没有显著的相关。预测变量之间没有显著的相关。预测变量的平均值和方差不相关。预测变量的平均值和方差不相关。预测变量应是连续变量，因变量（类预测变量应是连续变量，因变量（类别或组别）是间断变量。别或组别）是间断变量。两个预测变量之间的相关性在不同类两个预测变量之间的相关性在不同类中是一样的。中是一样的。在分析的各个阶段应把握如下的原则：在分析的各个阶段应把握如下的原则：事前组别（类）的分类标准（作为判事前组别（类）的分类标准（作为判别分析的因变量）要尽可能准确和可靠，否则别分析的因变量）要尽可能准确和可靠，否则会影响判别函数的准确性，从而影响判别分析会影响判别函数的准确性，从而影响判别分析的效果。的效果。所分析的自变量应是因变量的重要影所分析的自变量应是因变量的重要影响因素，应该挑选既有重要特性又有区别能力响因素，应该挑选既有重要特性又有区别能力的变量，达到以最少变量而有高辨别能力的目的变量，达到以最少变量而有高辨别能力的目标。标。初始分析的数目不能太少。初始分析的数目不能太少。这些判别函数是各个独立预测变量的线性这些判别函数是各个独立预测变量的线性组合。程序自动选择第一个判别函数，以尽可组合。程序自动选择第一个判别函数，以尽可能多地区别各个类，然后再选择和第一个判别能多地区别各个类，然后再选择和第一个判别函数独立的第二个判别函数，尽可能多地提供函数独立的第二个判别函数，尽可能多地提供判别能力。程序将按照这种方式，提供剩下的判别能力。程序将按照这种方式，提供剩下的判别函数。判别函数的个数为判别函数。判别函数的个数为k k。研究问题研究问题调查了调查了1515个公司的组织文化、领导角色个公司的组织文化、领导角色和员工发展和员工发展3 3个方面内容作为预测变量，因变个方面内容作为预测变量，因变量为公司对员工的吸引力。为符合研究问题，量为公司对员工的吸引力。为符合研究问题，将公司对员工的吸引力根据被测的实际填答情将公司对员工的吸引力根据被测的实际填答情形，划分为高吸引力组（形，划分为高吸引力组（group=1group=1）、中吸引）、中吸引力组（力组（group=2group=2）和低吸引力组（）和低吸引力组（group=3group=3）。）。数据如表数据如表8-48-4所示。所示。8.5.2 SPSS中实现过程中实现过程公公司司组组织织文文化化领领导导角角色色员员工工发发展展GroupMicrosoft80.0075.0090.001IBM85.0090.0090.001Dell85.0085.0060.001Apple90.0075.0090.001联想联想99.0078.0080.001NPP88.0089.0090.002北京电子北京电子79.0095.0097.003清华紫光清华紫光89.0081.0082.001北大方正北大方正75.0095.0096.001TCLE60.0085.0088.003世纪成世纪成79.0050.0051.002Angel75.0088.0089.001Hussar160.0089.0090.003世纪飞扬世纪飞扬100.0085.0084.003Vinda61.0089.0060.003 实现步骤实现步骤（1 1）SPSSSPSS输出结果文件中的第一部分如输出结果文件中的第一部分如下表所示。下表所示。8.5.3 结果和讨论结果和讨论（2 2）输出的结果文件中第二部分如下表所）输出的结果文件中第二部分如下表所示。示。（3 3）输出的结果文件中第三部分如下表所）输出的结果文件中第三部分如下表所示。示。（4 4）输出的结果文件中第四部分如下表）输出的结果文件中第四部分如下表所示。所示。（5 5）输出的结果文件中第五个部分为组）输出的结果文件中第五个部分为组间的协方差矩阵，如下表所示。间的协方差矩阵，如下表所示。（6 6）输出的结果文件中第六个部分如下两）输出的结果文件中第六个部分如下两个表格所示。个表格所示。（7 7）输出的结果文件中第七个部分如下表）输出的结果文件中第七个部分如下表所示。所示。（8 8）输出的结果文件中第八个部分如下表）输出的结果文件中第八个部分如下表所示。所示。（9 9）输出的结果文件中第九个部分如下表）输出的结果文件中第九个部分如下表所示。所示。（1010）输出的结果文件中第十个部分如下）输出的结果文件中第十个部分如下表所示。表所示。（1111）输出的结果文件中第十一个部分如）输出的结果文件中第十一个部分如下表所示。下表所示。（1212）输出的结果文件中第十二个部分包）输出的结果文件中第十二个部分包括括3 3个分类统计信息表格个分类统计信息表格（1313）输出的结果文件中第十三个部分为）输出的结果文件中第十三个部分为每一个个案的实际分组摘要表。如下表所示。每一个个案的实际分组摘要表。如下表所示。（1414）输出的结果文件中第十四个部分如）输出的结果文件中第十四个部分如图图8-308-30所示。所示。（1515）输出的结果文件中第十五个部分如）输出的结果文件中第十五个部分如下：下：（1616）在实现过程中曾指定了将判别分析）在实现过程中曾指定了将判别分析的结果作为样本的变量保存到的结果作为样本的变量保存到SPSSSPSS的数据编辑的数据编辑窗口中。窗口中。SPSSSPSS运行后，数据编辑窗口如图运行后，数据编辑窗口如图8-8-3131所示。所示。聚类分析的实质是建立一种分类方法，将聚类分析的实质是建立一种分类方法，将一批样本数据按照他们在性质上的密切程度在一批样本数据按照他们在性质上的密切程度在没有先验知识的情况下自动进行分类。聚类方没有先验知识的情况下自动进行分类。聚类方法主要分为层析聚类分析方法和快速聚类分析法主要分为层析聚类分析方法和快速聚类分析方法，其中层次聚类分析方法又有两种形式：方法，其中层次聚类分析方法又有两种形式：一种是对样本进行分类，称为一种是对样本进行分类，称为Q Q型聚类；一种型聚类；一种是对研究变量进行分类，称为是对研究变量进行分类，称为R R型聚类。型聚类。判别分析是指先根据已知类别的事物的性判别分析是指先根据已知类别的事物的性质，建立函数式，然后对未知类别的新事物进质，建立函数式，然后对未知类别的新事物进行判断以将之归入已知的类别中。判别分析的行判断以将之归入已知的类别中。判别分析的模型按照判别的不同准则可以分为典型判别分模型按照判别的不同准则可以分为典型判别分析、贝叶斯判别分析、非参数判别分析等不同析、贝叶斯判别分析、非参数判别分析等不同模型。模型。SPSS SPSS中中“Analyze”/“Classify”Analyze”/“Classify”菜单专菜单专门用于聚类分析和判别分析。其中，门用于聚类分析和判别分析。其中，“K-K-Means Cluster”Means Cluster”适用于快速聚类分析方法，适用于快速聚类分析方法，“Hierarchical Cluster”Hierarchical Cluster”适用于层次聚类适用于层次聚类分析方法，分析方法，“DiscriminantDiscriminant”主要用于判别主要用于判别分析。分析。

展开阅读全文

SPSS 16实用教程：08 聚类分析与判别分析

最新文档