判别分析的对象课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,中国人民大学六西格玛质量管理研究中心,*,2024/8/7,中国人民大学六西格玛质量管理研究中心,1,多元统计分析,何晓群,中国人民大学出版社,2023/8/20中国人民大学六西格玛质量管理研究中心1多元,2024/8/7,中国人民大学六西格玛质量管理研究中心,2,4.1,判别分析的基本理论,4.2,距离判别,4.3 Bayes,判别,4.4 Fisher,判别,4.5,逐步判别,4.6,判别分析方法步骤及框图,4.7,判别分析的上机实现,4.8,判别分析应用的几个例子,第四章判别分析,2023/8/20中国人民大学六西格玛质量管理研究中心24,2024/8/7,中国人民大学六西格玛质量管理研究中心,3,目录上页下页返回结束,第四章判别分析,回归模型普及性的基础在于用它去预测和解释度量,(metric),变量。但是对于非度量,(nonmetric),变量，多元回归不适合解决此类问题。本章介绍的判别分析来解决被解释变量是非度量变量的情形。在这种情况下，人们对于预测和解释影响一个对象所属类别的关系感兴趣，比如为什么某人是或者不是消费者，一家公司成功还是破产等。,判别分析在主要目的是识别一个个体所属类别的情况下有着广泛的应用。潜在的应用包括预测新产品的成功或失败、决定一个学生是否被录取、按职业兴趣对学生分组、确定某人信用风险的种类、或者预测一个公司是否成功。在每种情况下，将对象进行分组，并且要求使用这两种方法中的一种可以通过人们选择的解释变量来预测或者解释每个对象的所属类别。,2023/8/20中国人民大学六西格玛质量管理研究中心3,2024/8/7,中国人民大学六西格玛质量管理研究中心,4,目录上页下页返回结束,4.1,判别分析的基本理论,有时会遇到包含属性被解释变量和几个度量解释变量的问题，这时需要选择一种合适的分析方法。比如，我们希望区分好和差的信用风险。如果有信用风险的度量指标，就可以使用多元回归。但我们可能仅能判断某人是在好的或者差的一类，这就不是多元回归分析所要求的度量类型。,当被解释变量是属性变量而解释变量是度量变量时，判别分析是合适的统计分析方法。,判别分析能够解决两组或者更多组的情况。,当包含两组时，称作两组判别分析。当包含三组或者三组以上时，称作多组判别分析（,Multiple discriminant analysis,）。,判别分析的假设条件,判别分析最基本的要求是,分组类型在两组以上；在第一阶段工作是每组案例的规模必须至少在一个以上。解释变量必须是可测量的，才能够计算其平均值和方差，使其能合理地应用于统计函数。,2023/8/20中国人民大学六西格玛质量管理研究中心4,2024/8/7,中国人民大学六西格玛质量管理研究中心,5,目录上页下页返回结束,4.1,判别分析的基本理论,判别分析的假设之一，是每一个判别变量（解释变量）不能是其他判别变量的线性组合。即不存在多重共线性问题。,判别分析的假设之二，是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数，它们是判别变量的简单线性组合。在各组协方差矩阵相等的假设条件下，可以使用很简单的公式来计算判别函数和进行显著性检验。,判别分析的假设之三，是各判别变量之间具有多元正态分布，即每个变量对于所有其他变量的固定值有正态分布。在这种条件下可以精确计算显著性检验值和分组归属的概率。当违背该假设时，计算的概率将非常不准确。,2023/8/20中国人民大学六西格玛质量管理研究中心5,2024/8/7,中国人民大学六西格玛质量管理研究中心,6,4.2,距离判别,目录上页下页返回结束,4.2.1,两总体情况,2023/8/20中国人民大学六西格玛质量管理研究中心64,2024/8/7,中国人民大学六西格玛质量管理研究中心,7,4.2,距离判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心74,2024/8/7,中国人民大学六西格玛质量管理研究中心,8,4.2,距离判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心84,2024/8/7,中国人民大学六西格玛质量管理研究中心,9,4.2,距离判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心94,2024/8/7,中国人民大学六西格玛质量管理研究中心,10,4.2,距离判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心10,2024/8/7,中国人民大学六西格玛质量管理研究中心,11,4.2,距离判别,目录上页下页返回结束,4.2.2,多总体情况,1.,协差阵相同。,2023/8/20中国人民大学六西格玛质量管理研究中心11,2024/8/7,中国人民大学六西格玛质量管理研究中心,12,4.2,距离判别,目录上页下页返回结束,2.,协差阵不相同。,2023/8/20中国人民大学六西格玛质量管理研究中心12,2024/8/7,中国人民大学六西格玛质量管理研究中心,13,4.2,距离判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心13,2024/8/7,中国人民大学六西格玛质量管理研究中心,14,4.2,距离判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心14,2024/8/7,中国人民大学六西格玛质量管理研究中心,15,4.3 Bayes,判别,目录上页下页返回结束,贝叶斯（,Bayes,）统计的思想是：假定对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本，用样本来修正已有的认识（先验概率分布），得到后验概率分布，各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析，就得到贝叶斯判别。,2023/8/20中国人民大学六西格玛质量管理研究中心15,2024/8/7,中国人民大学六西格玛质量管理研究中心,16,4.3 Bayes,判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心16,2024/8/7,中国人民大学六西格玛质量管理研究中心,17,4.4 Fisher,判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心17,2024/8/7,中国人民大学六西格玛质量管理研究中心,18,4.4 Fisher,判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心18,2024/8/7,中国人民大学六西格玛质量管理研究中心,19,4.4 Fisher,判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心19,2024/8/7,中国人民大学六西格玛质量管理研究中心,20,4.4 Fisher,判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心20,2024/8/7,中国人民大学六西格玛质量管理研究中心,21,4.4 Fisher,判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心21,2024/8/7,中国人民大学六西格玛质量管理研究中心,22,4.5,逐步判别,目录上页下页返回结束,在多元回归中熟知，变量选择的好坏直接影响回归的效果，而在判别分析中也有类似的问题。如果在某个判别问题中，将其中最主要的指标忽略了，由此建立的判别函数其效果一定不好。但是在许多问题中，事先并不十分清楚哪些指标是主要的，这时，是否将有关的指标尽量收集加入计算才好呢？理论和实践证明，指标太多了，不仅带来大量的计算，同时许多对判别无作用的指标反而会干扰了我们的视线。因此适当筛选变量的问题就成为一个很重要的事情。,凡具有筛选变量能力的判别方法统称为逐步判别法。和通常的判别分析一样，逐步判别也有许多不同的原则，从而产生各种方法。有关逐步判别法的理论基础详见,1,所讨论指标的附加信息检验。,2023/8/20中国人民大学六西格玛质量管理研究中心22,2024/8/7,中国人民大学六西格玛质量管理研究中心,23,4.5,逐步判别,目录上页下页返回结束,逐步判别的原则,2023/8/20中国人民大学六西格玛质量管理研究中心23,2024/8/7,中国人民大学六西格玛质量管理研究中心,24,4.5,逐步判别,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心24,2024/8/7,中国人民大学六西格玛质量管理研究中心,25,4.5,逐步判别,目录上页下页返回结束,（,）这时既不能选进新变量，又不能剔除已选进的变量，将已选中的变量建立判别函数。,2023/8/20中国人民大学六西格玛质量管理研究中心25,2024/8/7,中国人民大学六西格玛质量管理研究中心,26,4.6,判别分析方法步骤及框图,目录上页下页返回结束,使用判别分析可以看作是下面,6,个步骤的过程：,第,1,步：判别分析的对象,判别分析的研究目的：,1.,确定在两个或者更多事先定义的组上的一组变量的平均得分剖面是否存在显著性差异。,2.,确定哪些变量在两个或更多组的平均得分剖面的差异中解释最多。,3.,在一组变量得分的基础上，建立将对象（个体、公司、产品等等）分类的步骤。,4.,建立由这组变量形成的组与组之间判别函数的数目及构成。,2023/8/20中国人民大学六西格玛质量管理研究中心26,2024/8/7,中国人民大学六西格玛质量管理研究中心,27,4.6,判别分析方法步骤及框图,目录上页下页返回结束,第,2,步：判别分析的研究设计,判别分析的成功应用需要考虑到几个要点。这些要点包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割。,（一）,解释变量和被解释变量的选择,要应用判别分析，研究者必须首先指定解释变量与被解释变量。这里，解释变量为定量变量，而被解释变量为定性变量。,2023/8/20中国人民大学六西格玛质量管理研究中心27,2024/8/7,中国人民大学六西格玛质量管理研究中心,28,4.6,判别分析方法步骤及框图,目录上页下页返回结束,研究者首先应该关注被解释变量。被解释变量的组数可以是两个或更多，但这些组必须具有相互排斥性和完全性。被解释变量有时确实是定性的变量。然而也有一些情况，即使被解释变量不是真的定性变量，判别分析也是适用的。我们可能有一个被解释变量是顺序或者间隔尺度的变量，而要作为定性变量使用。这种情况下我们可以创建一个定性变量。,当确定了被解释变量后，研究者必须确定分析中应包括的解释变量。解释变量的选择通常有两种方法。第一种是从以前的研究中或者从该研究问题根本的理论模型中确定变量。第二种方法是直觉,运用研究者的知识，直观地选择没有以前研究或理论存在但是逻辑上与预测解释变量的组相关的变量。,2023/8/20中国人民大学六西格玛质量管理研究中心28,2024/8/7,中国人民大学六西格玛质量管理研究中心,29,4.6,判别分析方法步骤及框图,目录上页下页返回结束,（二）,样本容量,判别分析对样本量与预测变量个数的比率很敏感。许多研究建议比率为每个预测变量,20,个观测。尽管这个比率在实际中难以保持，但研究者应注意,当样本量相对于解释变量个数在减少时，结果是不稳定的。建议最小的样本量是每个变量有,5,个观测。,除总的样本量以外，研究者还必须考虑每组的样本容量。至少，最小的组的大小必须超过解释变量的个数。作为实际的指导，每组应至少有,20,个观测。但即使所有的组大小都超过了,20,，研究者还应注意组的相对大小。如果组的大小相差很大，这可能影响到判别函数的估计和观测的分类。在分类阶段，大的组有不相称的高的分类机会。,2023/8/20中国人民大学六西格玛质量管理研究中心29,2024/8/7,中国人民大学六西格玛质量管理研究中心,30,4.6,判别分析方法步骤及框图,目录上页下页返回结束,（三）,样本的分割,很多时候样本需要分割为两个子样本，一个用于估计判别函数，另一个用于验证。每个子样本都有适当的大小来支持结论是很重要的。,分割样本有很多种方法，最常用的一种是通过一个子样本来估计判别函数，而用另一个子样本来验证。常用的过程是将整个样本随机地分为两组。其中的一组，分析样本是用来估计判别函数的。另一组保留样本，是用来验证结论的。这种验证方法称为分割样本或者交叉验证方法。,2023/8/20中国人民大学六西格玛质量管理研究中心30,2024/8/7,中国人民大学六西格玛质量管理研究中心,31,4.6,判别分析方法步骤及框图,目录上页下页返回结束,如果划分分析样本和保留样本没有固定的原则。最常用的程序是分为两半。,当选择分析组和保留组的个体时，通常遵循比例分层抽样。也就是分析组和保留组的各组大小比率应与整个样本的各组大小比率相同。,如果研究者要划分样本，这个样本应该充分的大。一般来讲，研究者需要整个样本至少为,100,，将它分为两组。,2023/8/20中国人民大学六西格玛质量管理研究中心31,2024/8/7,中国人民大学六西格玛质量管理研究中心,32,4.6,判别分析方法步骤及框图,目录上页下页返回结束,第,3,步：判别分析的假定,推导判别函数的关键假定是解释变量的多元正态性和由被解释变量定义的各组的未知但相等的协方差结构。不满足多元正态性假定在估计判别方程时可能会出现问题。因此，如果可能的话，建议使用,Logistic,回归作为一种替代方法。,不等的协方差矩阵可能会负面影响分类过程。如果样本量小而协方差阵不等，那么估计过程的统计显著性会受到负面影响。最可能的情况是在适当的样本量的组之间存在不等的协方差阵，那么观测会被“过度归类”到大的协方差阵的组中。可以通过增加样本量和使用各组特定的协方差阵减小这种影响。,2023/8/20中国人民大学六西格玛质量管理研究中心32,2024/8/7,中国人民大学六西格玛质量管理研究中心,33,4.6,判别分析方法步骤及框图,目录上页下页返回结束,最后，如果组间的协方差阵存在大的差异，没有方法可以减小这种影响时，在许多统计问题中可以使用二次判别技术。,另一个可能影响结果的是解释变量的多重共线性。当使用逐步判别时这种考虑尤为重要。研究者在解释判别方程时必须注意多重共线性的程度和它对哪些变量进入逐步解的影响。,2023/8/20中国人民大学六西格玛质量管理研究中心33,2024/8/7,中国人民大学六西格玛质量管理研究中心,34,4.6,判别分析方法步骤及框图,目录上页下页返回结束,第,4,步：估计判别模型和评估整体拟合,为了推导判别函数，研究者必须确定估计的方法，然后确定保留的函数个数。随着估计的函数，可以用多种方法来评估模型拟合。首先，判别,Z,得分，可以为每一个观测计算。基于,Z,得分的各组均值的比较提供了组与组之间判别的一种测量。通过分到正确类中的观测来测量预测精度。一系列准则可以用来评价判别过程是否达到了实际的或者统计的显著性。最后，个体诊断可以分析每个观测的分类精度和它对于整个模型估计的相对影响。,2023/8/20中国人民大学六西格玛质量管理研究中心34,2024/8/7,中国人民大学六西格玛质量管理研究中心,35,4.6,判别分析方法步骤及框图,目录上页下页返回结束,（一）计算方法,推导判别函数时可以使用两种计算方法：联立（直接）法和逐步法。联立估计在计算判别函数时同时考虑所有的解释变量。这样，判别函数是基于解释变量的整个集合来计算的，而不管每个解释变量的判别力。,逐步估计是另一种估计方法。它以解释变量的判别力为基础，每次进入一个变量到判别函数中。逐步估计开始是选取一个最有判别力的变量。然后这个变量与其他的解释变量一一配对，那么与第一个变量一起最能够提高判别力的变量被选中。第三个及以后的用类似的方式选取。增加新的变量时，如果一些前面选中的变量所包含的关于组差异信息可由后面选中的变量所包含，它们将被剔除。最后，既不能选进新的变量，又不能剔除已有变量。,2023/8/20中国人民大学六西格玛质量管理研究中心35,2024/8/7,中国人民大学六西格玛质量管理研究中心,36,4.6,判别分析方法步骤及框图,目录上页下页返回结束,（二）评估整体拟合,一旦判别方程通过了显著性检验，注意力转向确定保留的判别函数的整体拟合。这个评估包括三个任务：计算每个观测的判别,Z,得分，检验各组在判别,Z,得分上的差异和评估组的关系的预测精度。,1.,计算判别,Z,得分,2023/8/20中国人民大学六西格玛质量管理研究中心36,2024/8/7,中国人民大学六西格玛质量管理研究中心,37,4.6,判别分析方法步骤及框图,目录上页下页返回结束,这个得分是定量变量，提供了在每个函数上比较对象的直接手段。有类似的,Z,得分的观测被认为在构成函数的变量上比得分悬殊的观测更相似。判别函数既有用标准化的权重和值，也有用非标准化的权重和值。标准化形式更易于解释，而非标准化形式更易于计算判别,Z,得分。,2023/8/20中国人民大学六西格玛质量管理研究中心37,2024/8/7,中国人民大学六西格玛质量管理研究中心,38,4.6,判别分析方法步骤及框图,目录上页下页返回结束,应当注意判别函数不同于分类函数，也称为费歇线性判别函数。分类函数，可用于对观测进行分类。在这种分类方法中，一个观测的解释变量的值代入分类函数中，这个观测针对每组可以计算一个分类得分。然后这个观测被分到分类得分最高的组中。我们使用判别函数作为分类手段，是因为它提供了每个判别函数的一个简洁表示，简化了解释过程和对解释变量贡献的评估。,2023/8/20中国人民大学六西格玛质量管理研究中心38,2024/8/7,中国人民大学六西格玛质量管理研究中心,39,4.6,判别分析方法步骤及框图,目录上页下页返回结束,2.,检验组的差异,一种评估整体拟合的方法是根据判别,Z,得分，确定各组个体的差异大小。组差异的一种综合测量是比较组的重心，即组中所有个体的平均判别,Z,得分。,重心的差异是用马氏距离来测量的，这样检验可用来确定差异是否在统计上显著。研究者应保证即使有显著的判别函数，组间应存在显著的差异。,在每个判别函数上组的重心可以从球面的角度来绘图显示结果。通常用前两个或者三个判别函数来作图。每组的值显示了它在降维的空间中的值（并非画出所有的函数）。,2023/8/20中国人民大学六西格玛质量管理研究中心39,2024/8/7,中国人民大学六西格玛质量管理研究中心,40,4.6,判别分析方法步骤及框图,目录上页下页返回结束,3.,评价组关系预测的精度,判别分析中每个观测是通过它是否被正确归类来评价的。要这样做，应当解决一些主要的考虑：利用分类矩阵的统计和实际的基本原理、分割点的确定、分类矩阵的构造和评价分类精度的标准。,判别函数的显著性检验并没有说明函数拟合有多好。比如，假定两个组在,0.01,的水平上有显著性差异，如果样本量足够大，组的均值（重心）可能实际上相等。因此显著性水平可能并不是反映判别函数判别能力的很好的指标。为了确定一个判别函数的预测能力，研究者必须构造分类矩阵。,2023/8/20中国人民大学六西格玛质量管理研究中心40,2024/8/7,中国人民大学六西格玛质量管理研究中心,41,4.6,判别分析方法步骤及框图,目录上页下页返回结束,如果统计检验显示判别函数显著，通常构造分类矩阵来提供函数的判别效力的更精确的估计。然而，在分类矩阵构造之前，研究者必须确定临界得分。每个观测的判别得分与临界得分比较来确定个体应分到哪一类中。,在构造分类矩阵时，研究者希望确定最优临界得分（也称临界,Z,值）。最优临界得分会因各组大小是否相等而不同。如果两组是相同的大小，最优临界得分是两组重心的中点。,2023/8/20中国人民大学六西格玛质量管理研究中心41,2024/8/7,中国人民大学六西格玛质量管理研究中心,42,4.6,判别分析方法步骤及框图,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心42,2024/8/7,中国人民大学六西格玛质量管理研究中心,43,4.6,判别分析方法步骤及框图,目录上页下页返回结束,所有计算最优临界得分的公式都假定正态分布和已知组的协方差结构。,为了用分类矩阵来验证判别分析的结果，样本必须随机地分割为分析样本和保留样本。保留样本的每个观测的判别得分可与临界得分相比较，进行分类。分类的结果用矩阵的形式表示出来。,2023/8/20中国人民大学六西格玛质量管理研究中心43,2024/8/7,中国人民大学六西格玛质量管理研究中心,44,4.6,判别分析方法步骤及框图,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心44,2024/8/7,中国人民大学六西格玛质量管理研究中心,45,4.6,判别分析方法步骤及框图,目录上页下页返回结束,评估模型拟合的最后一个方法就是在每个观测的基础上研究预测结果。与回归分析的残差分析相似，目的是为了理解被错判的观测和不是该组代表的观测。研究者可以通过马氏距离来评估一个观测与该组其他个体的相似性。靠近重心的观测被认为比远离重心的观测更加代表该组。,用图形的方式表示观测是研究观测特征的另一种方法。尤其是错判的观测。一种常用的方法是将观测点根据判别,Z,得分绘图，并且画出各组重叠部分和错判的观测。如果保留了两个或两个以上的判别函数，可以用区域图来表示各组所对应的区域和最优临界点。将每个观测与组的重心画在一起，不仅可以用组的重心反映一般特征，还可以反映组中成员的变动。,2023/8/20中国人民大学六西格玛质量管理研究中心45,2024/8/7,中国人民大学六西格玛质量管理研究中心,46,4.6,判别分析方法步骤及框图,目录上页下页返回结束,第,5,步：结果的解释,2023/8/20中国人民大学六西格玛质量管理研究中心46,2024/8/7,中国人民大学六西格玛质量管理研究中心,47,4.6,判别分析方法步骤及框图,目录上页下页返回结束,解释判别函数传统的方法是观察计算判别函数时赋予每个变量的标准化判别权重（有时也称为判别系数）的符号和大小。忽略符号时，较大权重的解释变量意味着对判别函数的判别力贡献更多。符号只是代表那个变量有正的还是负的贡献。对判别权重的解释也有一些批评。比如解释变量存在多重共线性情况时，判别权重可能会出现问题。另一个问题是判别权重被认为不稳定。,近年来，由于判别权重的缺陷，判别载荷逐渐作为解释的基础。判别载荷，有时也称为结构相关系数，是每个解释变量与判别函数的简单相关系数。判别载荷反映的是每个解释变量对判别函数的相对贡献。判别载荷也可能存在不稳定性。,2023/8/20中国人民大学六西格玛质量管理研究中心47,2024/8/7,中国人民大学六西格玛质量管理研究中心,48,4.6,判别分析方法步骤及框图,目录上页下页返回结束,当存在两个或以上的判别函数的时候，我们面临着其他的解释问题。首先，我们能简化判别权重或载荷以利于刻画判别函数吗？再者，我们如何表示解释变量对判别函数的影响？我们介绍函数旋转和能力指数的概念来解决这两个问题。,2023/8/20中国人民大学六西格玛质量管理研究中心48,2024/8/7,中国人民大学六西格玛质量管理研究中心,49,4.6,判别分析方法步骤及框图,目录上页下页返回结束,在推导出判别函数以后，它们可以旋转来重新分配方差。旋转保持了原始结构和判别解的稳定性，而且使方程更易于解释。,当保留两个或两个以上的判别函数时，需要一个综合的量来描述一个变量对所有显著函数的贡献。,能力指数（,potency index,）是反映每个变量判别能力的相对指标。它既包含一个变量对判别函数的贡献（判别载荷），又包含一个方程对整个解的相对贡献（对方程特征值的相对测量）。,2023/8/20中国人民大学六西格玛质量管理研究中心49,2024/8/7,中国人民大学六西格玛质量管理研究中心,50,4.6,判别分析方法步骤及框图,目录上页下页返回结束,综合指数只是在所有显著的判别函数上的个体能力指数之和。综合指数仅当描述每个变量的相对重要性时是有用的，其绝对数值没有实际意义。能力指数通过两步计算：,2023/8/20中国人民大学六西格玛质量管理研究中心50,2024/8/7,中国人民大学六西格玛质量管理研究中心,51,4.6,判别分析方法步骤及框图,目录上页下页返回结束,（,2,）：计算在所有显著的函数上的综合能力指数。,当每个函数都计算了能力值后，综合指数为每个显著的判别函数上的能力值之和。这个能力指数表示该变量在所有显著的判别函数上的全部判别效果。,第,6,步：结果的验证,判别分析的最后一个阶段就是验证判别分析的结果，通常采用分割样本或者交叉验证法。两种广泛使用的方法是法和小刀法。这两种方法都是以“留一个观测在外”的原则为基础。（“留一个观测在外”的原则是指在交叉验证时，某个观测不参与估计判别函数，但是根据除这个观测以外的其他观测估计的判别函数来预测该观测的所属类，从而使每个观测得到验证。）进行两者的主要区别在于法主要关注分类精度，而小刀法强调判别系数的稳定性。两种方法都对小样本量非常敏感。,2023/8/20中国人民大学六西格玛质量管理研究中心51,2024/8/7,中国人民大学六西格玛质量管理研究中心,52,4.6,判别分析方法步骤及框图,目录上页下页返回结束,判别分析的逻辑框图如下：,2023/8/20中国人民大学六西格玛质量管理研究中心52,2024/8/7,中国人民大学六西格玛质量管理研究中心,53,4.6,判别分析方法步骤及框图,目录上页下页返回结束,图,4.1,判别分析步骤框图,2023/8/20中国人民大学六西格玛质量管理研究中心53,2024/8/7,中国人民大学六西格玛质量管理研究中心,54,4.7,判别分析的上机实现,目录上页下页返回结束,这里举两个例子，一个例子是分两组的情况，一个是分多组的情况。我们分别用,SPSS,软件中的,Discriminant,模块来实现判别分析。,2023/8/20中国人民大学六西格玛质量管理研究中心54,2024/8/7,中国人民大学六西格玛质量管理研究中心,55,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心55,2024/8/7,中国人民大学六西格玛质量管理研究中心,56,4.7,判别分析的上机实现,目录上页下页返回结束,（一）二元变量的判别分析计算,2023/8/20中国人民大学六西格玛质量管理研究中心56,2024/8/7,中国人民大学六西格玛质量管理研究中心,57,4.7,判别分析的上机实现,目录上页下页返回结束,另外，如果需要更深入的分析，可以选择其他项。统计量,(Statistics),选项中可以选择描述统计量,Mean,ANVOA,BoxM,函数可以选择,Fisher,和非标准化函数，同时还可以使用哪种矩阵。由于只有两个自变量，我们不需要使用逐步判别法。分类,(Classify),选项中可以选择先验概率（所有组相等或根据组的大小计算概率），子选项显示,(display),中可以选择每个个体的结果,(Casewise results),，综合表,(Summery Table),和“留一个在外”的验证原则，还可以选择使用哪种协方差矩阵以及作图。保存,(Save),选项中可以选择预测的分类、判别得分以及所属类别的概率。如果采用逐步判别法，我们还可以选择判别的方法,(Method),。得到分析结果如下：,2023/8/20中国人民大学六西格玛质量管理研究中心57,2024/8/7,中国人民大学六西格玛质量管理研究中心,58,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心58,2024/8/7,中国人民大学六西格玛质量管理研究中心,59,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心59,2024/8/7,中国人民大学六西格玛质量管理研究中心,60,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心60,2024/8/7,中国人民大学六西格玛质量管理研究中心,61,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心61,2024/8/7,中国人民大学六西格玛质量管理研究中心,62,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4.3,分析的是典型判别函数。第,1,张表反映判别函数的特征值、解释方差的比例和典型相关系数。（注意我们仅选取了两个解释变量，所以判别函数解释了全部的方差）第,2,张表是对第一个判别函数的显著性检验。由,Wilks Lambda,检验，认为判别函数在,0.01,的显著性水平上是极显著的。,2023/8/20中国人民大学六西格玛质量管理研究中心62,2024/8/7,中国人民大学六西格玛质量管理研究中心,63,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4.4,显示的是判别函数、判别载荷和各组的重心。,2023/8/20中国人民大学六西格玛质量管理研究中心63,2024/8/7,中国人民大学六西格玛质量管理研究中心,64,4.7,判别分析的上机实现,目录上页下页返回结束,第,2,张表是结构矩阵，即判别载荷。由判别权重和判别载荷可以看出两个解释变量对判别函数的贡献较大。,2023/8/20中国人民大学六西格玛质量管理研究中心64,2024/8/7,中国人民大学六西格玛质量管理研究中心,65,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心65,2024/8/7,中国人民大学六西格玛质量管理研究中心,66,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心66,2024/8/7,中国人民大学六西格玛质量管理研究中心,67,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4.5,是分类的统计结果。,第,1,张表概括了分类过程，说明,24,个观测都参与分类。第,2,张表说明各组的先验概率，我们在,Classify,选项中选择的是所有组的先验概率相等。,第,3,张表是每组的分类函数（区别于判别函数），也称费歇线性判别函数，,2023/8/20中国人民大学六西格玛质量管理研究中心67,2024/8/7,中国人民大学六西格玛质量管理研究中心,68,4.7,判别分析的上机实现,目录上页下页返回结束,第,4,张表是分类矩阵表。,Predicted Group Membership,表示预测的所属组关系，,Original,表示原始数据的所属组关系，,Cross-validated,表示交叉验证的所属组关系，这里交叉验证是采用“留一个在外”的原则，即每个观测是通过除了这个观测以外的其他观测推导出来的判别函数来分类的。,2023/8/20中国人民大学六西格玛质量管理研究中心68,2024/8/7,中国人民大学六西格玛质量管理研究中心,69,4.7,判别分析的上机实现,目录上页下页返回结束,我们还可以通过保存,(Save),选项选择预测的类别关系和判别得分等，对观测进行诊断。,下面我们看一个三总体判别的例子。,【,例,4.2】,研究者希望能够根据气候、经济因素、人口等信息来判断某国家或地区属于哪一类型。这里国家,country,（因变量）有,3,种类别，,OECD,表示经合组织的国家（包括美国、加拿大和西欧等发达国家），,Pacific/Asia,表示亚太地区的国家，,Africa,表示非洲地区的国家。考虑了以下几个自变量，,climate(,气候因素，包括沙漠气候、干旱气候、地中海气候、海洋气候、温带气候和极地气候等,),，,urban,（城市居民的比例）,population,（人口数），,gdp_cap,（人均,GDP,）。数据集来自,SPSS10.0,自带的数据集,World95.sav,。,2023/8/20中国人民大学六西格玛质量管理研究中心69,2024/8/7,中国人民大学六西格玛质量管理研究中心,70,4.7,判别分析的上机实现,目录上页下页返回结束,进入判别分析对话框以后，我们使用逐步判别分析，,Method,选择马氏距离。得到如下输出结果：,首先显示有类的输出结果,4.1,的,3,张表，第,1,张表是分析的样本及其缺失情况。第,2,张表是各组变量的描述统计分析。第,3,张表是各组变量均值是否相等的统计检验，结果说明四个自变量各组的均值在,0.05,的显著性水平上是不相等的。此处从略。,2023/8/20中国人民大学六西格玛质量管理研究中心70,2024/8/7,中国人民大学六西格玛质量管理研究中心,71,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4.6,是对协方差阵是否相等的检验。由第,2,张表可以看出，原假设被拒绝，即认为各组的协方差阵不等。（注意这里违反了原假设）,2023/8/20中国人民大学六西格玛质量管理研究中心71,2024/8/7,中国人民大学六西格玛质量管理研究中心,72,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心72,2024/8/7,中国人民大学六西格玛质量管理研究中心,73,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心73,2024/8/7,中国人民大学六西格玛质量管理研究中心,74,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4.7,是说明逐步回归的结果。第,1,，,2,张表说明变量进入判别函数的情况。第,3,张表说明不在判别函数的变量，结果反映城市居民的比例,(urban),对判别函数的贡献不显著，其他三个自变量被选入判别方程。第,4,张表说明判别函数的显著性，由,Step3,的结果说明判别函数在,0.05,的显著性水平上是显著的，模型拟合较好。,2023/8/20中国人民大学六西格玛质量管理研究中心74,2024/8/7,中国人民大学六西格玛质量管理研究中心,75,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心75,2024/8/7,中国人民大学六西格玛质量管理研究中心,76,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4.8,分析的是典型判别函数。第,1,张表说明选取了两个典型判别函数，它们可以解释全部的方差。第,2,张表是对两个判别函数的,Wilks Lamada,检验，检验结果说明两个判别函数在,0.05,的显著性水平上是显著的。第,3,张表是标准化判别函数，第,4,张表是结构矩阵（即判别载荷矩阵），第,5,张表是非标准化判别函数，由这几张表可以说明，第一判别函数主要反映一国的气候和经济因素，第二判别函数主要反映人口因素。第,6,张表反映各组的重心，我们由此可以计算出临界点，从而根据判别函数计算出判别,Z,得分，对各个观测进行归类。,2023/8/20中国人民大学六西格玛质量管理研究中心76,2024/8/7,中国人民大学六西格玛质量管理研究中心,77,4.7,判别分析的上机实现,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心77,2024/8/7,中国人民大学六西格玛质量管理研究中心,78,4.7,判别分析的上机实现,目录上页下页返回结束,输出结果,4-9,的第,1,张表是对观测分类的总体概括，有一个观测至少有,1,个自变量缺失。第,2,张表是各组的先验概率，由于我们选择先验概率按各组大小计算，所以各组的先验概率是与各组大小成比例的。第,3,张表说明分类函数，也就是费歇线性判别函数，我们可以根据这三组的函数计算每个观测在各组的分类得分，然后将该观测归到得分最高的组中。,第,4,张图是根据典型判别函数作的所有组的散点图，比较直观地反映了各组观测的分类情况和各组的重心。,2023/8/20中国人民大学六西格玛质量管理研究中心78,2024/8/7,中国人民大学六西格玛质量管理研究中心,79,4.7,判别分析的上机实现,目录上页下页返回结束,第,5,张表是分类结果的矩阵，这里我们也使用了“留一个在外”的原则进行交叉验证，验证的结果还是可以接受的，表明模型拟合还是不错的。由分类矩阵可以看出，,OECD,国家和非洲国家的个体误判概率很小，而亚太国家误判概率很大。这说明了,OECD,国家经济比较发达，城市化水平较高，而且各成员国发展水平相差不大；非洲国家经济水平较低，城市化水平也较低，其成员国发展水平相差也不大；因此这两类国家比较容易判别，而亚太国家和地区发展水平不均衡，没有太多的共同点，导致其成员国不易判别。（根据输出结果,4.8,第,2,张表的均值和协差阵可以说明）我们还可以在对话框中选择,ClassifyDisplayCasewise results,对每个观测进行诊断分析。,2023/8/20中国人民大学六西格玛质量管理研究中心79,2024/8/7,中国人民大学六西格玛质量管理研究中心,80,4.8,判别分析应用的几个例子,目录上页下页返回结束,下面用,SPSS,软件中的,Discriminant,模块来实现判别分析。,例,4.3,为了研究,2005,年全国各地区农村居民家庭人均消费支出情况，按标准化欧氏平方距离、离差平方和聚类方法将,29,个省、市、自治区（除广东和西藏以外）分为三种类型，设置,group,变量取值分别为,1,、,2,、,3,。试建立判别函数，判定广东、西藏分别属于哪个消费水平类型。判别指标及原始数据见表,4,2,。,2023/8/20中国人民大学六西格玛质量管理研究中心80,2024/8/7,中国人民大学六西格玛质量管理研究中心,81,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心81,2024/8/7,中国人民大学六西格玛质量管理研究中心,82,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心82,2024/8/7,中国人民大学六西格玛质量管理研究中心,83,4.8,判别分析应用的几个例子,目录上页下页返回结束,将原,29,个样品的回报结果列于表,4,3,，两个待判样品的判别结果列于表,4,4,。广东省应判归第二类消费水平，西藏自治区归入第三类消费水平为宜。本例的回报准确率高，说明各地区农村居民的消费水平划分为三种类型是合适的。由于,SPSS,中的判别分析没有距离判别这一方法，因此距离判别法无法在,SPSS,中直接实现，但可以通过,Excel,等软件来进行手工计算。,2023/8/20中国人民大学六西格玛质量管理研究中心83,2024/8/7,中国人民大学六西格玛质量管理研究中心,84,4.8,判别分析应用的几个例子,目录上页下页返回结束,这里顺便指出，回报的误判率并不是“误判概率”，而且前者通常要小些，回判情况仅供使用时参考。,2023/8/20中国人民大学六西格玛质量管理研究中心84,2024/8/7,中国人民大学六西格玛质量管理研究中心,85,4.8,判别分析应用的几个例子,目录上页下页返回结束,例,4.4,为了研究,2005,年全国各地区国有及国有控股工业企业的经营状况，按标准化欧氏平方距离、离差平方和聚类方法将,29,个省、市、自治区（除广东和西藏以外）分为三种类型，设置,group,变量取值分别为,1,、,2,、,3,。试建立判别函数，判定广东、西藏分别属于哪个发展类型。判别指标及原始数据见表,4,5,。,2023/8/20中国人民大学六西格玛质量管理研究中心85,2024/8/7,中国人民大学六西格玛质量管理研究中心,86,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心86,2024/8/7,中国人民大学六西格玛质量管理研究中心,87,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心87,2024/8/7,中国人民大学六西格玛质量管理研究中心,88,4.8,判别分析应用的几个例子,目录上页下页返回结束,将原,29,个样品的回报结果列于表,4,6,，两个待判样品的判别结果列于表,4,7,。广东省应判归第一类，西藏自治区归入第三类为宜。本例的回报准确率高，说明各地区国有及控股工业企业经济效益划分为三种类型是合适的。这也可看成聚类分析与判别分析的结合应用。,2023/8/20中国人民大学六西格玛质量管理研究中心88,2024/8/7,中国人民大学六西格玛质量管理研究中心,89,4.8,判别分析应用的几个例子,目录上页下页返回结束,例,4.5 2005,年全国城镇居民月平均消费状况可划分为两类，分类后的数据见表,4,8,。试建立费歇尔线性判别函数，并将广东、西藏两个待判省区归类。,2023/8/20中国人民大学六西格玛质量管理研究中心89,2024/8/7,中国人民大学六西格玛质量管理研究中心,90,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心90,2024/8/7,中国人民大学六西格玛质量管理研究中心,91,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心91,2024/8/7,中国人民大学六西格玛质量管理研究中心,92,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心92,2024/8/7,中国人民大学六西格玛质量管理研究中心,93,4.8,判别分析应用的几个例子,目录上页下页返回结束,6,回判及待判样品的归类。,2023/8/20中国人民大学六西格玛质量管理研究中心93,2024/8/7,中国人民大学六西格玛质量管理研究中心,94,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心94,2024/8/7,中国人民大学六西格玛质量管理研究中心,95,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心95,2024/8/7,中国人民大学六西格玛质量管理研究中心,96,4.8,判别分析应用的几个例子,目录上页下页返回结束,SPSS,中进行费歇尔判别分析是十分快捷的。首先按照表,4,16,把数据输入,SPSS,数据表中，然后依次点击“,Analyze”“Classify”“Discriminant”,，打开,Discriminant Analysis,对话框，将对话框左侧变量列表中的,group,选入,Grouping Variable,框，并点击“,Define Range”,钮，在弹出的,Discriminant Analysis:Define Range,对话框中，定义判别原始数据的类别区间，本例为两类，故在,Minimum,处输入,1,、在,Maximum,处输入,2,，点击,Continue,钮返回,Discriminant Analysis,对话框。,2023/8/20中国人民大学六西格玛质量管理研究中心96,2024/8/7,中国人民大学六西格玛质量管理研究中心,97,4.8,判别分析应用的几个例子,目录上页下页返回结束,再从对话框左侧的变量列表中选将八个变量选,Independents,框，作为判别分析的基础数据变量。点击“,Statistics”,钮，弹出,Discriminant Analysis:Statistics,对话框，在,Descriptive,栏中选,Means,项，要求对各组的各变量作均数与标准差的描述；在,Function Coefficients,栏中选,Unstandardized,项（注意，不是,Fishers,项！），要求显示费歇尔判别法建立的非标准化系数。,2023/8/20中国人民大学六西格玛质量管理研究中心97,2024/8/7,中国人民大学六西格玛质量管理研究中心,98,4.8,判别分析应用的几个例子,目录上页下页返回结束,之后，点击“,Continue”,钮返回,Discriminant Analysis,对话框。点击“,Save”,钮，弹出,Discriminant Analysis:Save New Variables,对话框，选,Predicted group membership,项要求将回判的结果存入原始数据库中。点击“,Continue”,钮返回,Discriminant Analysis,对话框，其他项目不变，点击“,OK”,钮即完成分析。在输出结果中可以看到各组均值、标准差、协方差阵等描述统计结果以及判别函数，返回数据表中，可以看到判别结果已经作为一个新的变量被保存，广东和西藏均被划分到第二大类，篇幅所限，各输出结果在此不再列示。,2023/8/20中国人民大学六西格玛质量管理研究中心98,2024/8/7,中国人民大学六西格玛质量管理研究中心,99,4.8,判别分析应用的几个例子,目录上页下页返回结束,例,4.6 2005,年全国各地区农村居民家庭人均消费情况可划分为三种类型，分类后的数据见表,4,2,。试用,SPSS,软件建立,Bayes,判别函数，并将待判样品归类。,2023/8/20中国人民大学六西格玛质量管理研究中心99,2024/8/7,中国人民大学六西格玛质量管理研究中心,100,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心100,2024/8/7,中国人民大学六西格玛质量管理研究中心,101,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心101,2024/8/7,中国人民大学六西格玛质量管理研究中心,102,4.8,判别分析应用的几个例子,目录上页下页返回结束,根据判别函数，就可以对原各组样品以及待判样品进行回判和判别，此时在,SPSS,中返回原数据表，可以看到一个新的变量名为,Dis_1,，其对应的各值就是对各地区的回判和判别结果，可知广东被划分到第二类消费水平地区，西藏被划分到第三类消费水平地区，并且原各组样品的回报误判率为零。以上判别结果综合整理列于表,4,10,。,2023/8/20中国人民大学六西格玛质量管理研究中心102,2024/8/7,中国人民大学六西格玛质量管理研究中心,103,4.8,判别分析应用的几个例子,目录上页下页返回结束,2023/8/20中国人民大学六西格玛质量管理研究中心103,2024/8/7,中国人民大学六西格玛质量管理研究中心,104,4.8

展开阅读全文

判别分析的对象课件

最新文档