资源描述
第四章 判别分析,内容和要求,内容: 判别分析简介、基本原理、判别分析方法 要求: 1、熟悉判别分析基本原理。 2、掌握常用的判别分析准则。 3、能熟练使用软件进行判别分析,并能对判别结果作深入讨论。,第一节 判别分析简介,关于判别分析基本概念和基本原理,一、什么是判别分析?,判别分析是在已知分类情况的条件下根据一定的指标对未知类别的数据进行归类的方法。判别分析在生物学、医学、地质学、石油、气象等领域得到较为广泛的应用,在经济分析和市场研究中也是我们认知事物的重要方法。 举例,例 中小企业的破产模型 为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:,判别分析利用已知类别的样本培训模型,为未知样本判类的一种统计方法。 它产生于本世纪30年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。 判别分析的特点是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。,二、判别分析原理,原理: 判别分析是利用原有的分类信息,得到体现这种分类的函数关系式(即判别函数,一般是与分类相关的若干个指标的线性关系式),然后利用该函数去判断未知样品属于哪一类 要点: 1、判别分析需要明确所研究样本共有几个类别 2、判别分析需要从现有已知类别的样本数据中提练出一个判别函数,三、常用判别方法,距离判别法 Fisher判别法 贝叶斯判别法 典型判别与逐步判别法,第二节 距离判别法,一、基本思想,由训练样本得出每个分类的重心(中心)坐标,然后对新样品求出它们离各个类别重心的距离远近,从而归入离得最近的分类。最常用的距离是马氏距离。,(一)马氏距离,距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。,设 是从期望= 和方差阵= 的总体G抽得的两个观测值,则称 为X与Y之间的Mahalanobis距离,样本X和Gi类之间的马氏距离定义为X与Gi类重心间的距离:,(二)两个总体距离判别法,先考虑两个总体的情况,设有两个协差阵相同的p维正态总体和,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来指定判别规则,有:,1、方差相等,则前面的判别法则表示为,当 和已知时, 是一个已知的p维向量,W(y)是y的线性函数,称为线性判别函数。称为判别系数。用线性判别函数进行判别分析非常直观,使用起来最方便,在实际中的应用也最广泛。,常数项,例 4.1 在企业的考核中,可以根据企业的生产经营情况把企业分为优秀企业和一般企业。考核企业经营状况的指标有: 资金利润率=利润总额/资金占用总额 劳动生产率=总产值/职工平均人数 产品净值率=净产值/总产值 三个指标的均值向量和协方差矩阵如下。现有二个企业,观测值分别为 (7.8,39.1,9.6)和(8.1,34.2,6.9),问这两个企业应该属于哪一类?,线性判别函数:,由此可以判断第一个企业属于优秀企业,第二个企业属于一般企业,2、当总体的协方差已知,且不相等,当总体的方差未知时,应该用样本的协方差矩阵代替。步骤如下(假如两个总体): (1)分别计算各组的离差矩阵S1和S2; (2)计算 (3)计算类的均值 (4)计算 (5)计算 从而计算 (6)生成判别函数,将检验样本代入,得分,判类。,随着计算机计算能力的增强和计算机的普及,距离判别法的判别函数也在逐步改进,一种等价的距离判别为: 设有个K总体,分别有均值向量i(i=1,2,k)和协方差阵i= ,各总体出现的先验概率相等。又设Y是一个待判样品。则距离为(即判别函数),(三) 多总体的距离判别法,上式中的第一项Y -1Y与i无关,则舍去,得一个等价的函数,将上式中提-2,得,则距离判别法的判别函数为: 判别规则为,注:这与前面所提出的距离判别是等价的.,(三)、判别分析效果检验,良好的判别效果即是指所建立的判别函数具有相当的稳定性和准确性,优良的判别函数应该是:一理论基础稳固,具有准确判别的能力;二回代错判率低;三具有良好的外部数据应用性质。 由于判别分析是假设两组或多组样品取自不同总体,因此要求样本各类型的均值向量在统计上具有显著差异,如能反映出显著差异,则判别函数显著,有能力将不同的类型区别开来。,所以对判别效果的检验即是对多元正态总体的均值向量是否相等进行检验,利用Hotelling T2统计量进行检验。 回代是指将训练样本依次代入判别函数,检查错判情况,回代错判率低即是指依训练样本建立的判别函数偏差小,建立方法可靠。 良好的外部应用性质是指该判别函数具有相当程度的稳定性,不仅适用于本训练样本,而且在大多数情况下具有普遍应用能力,这也正是我们建立判别函数想要达到的目的。,为检验外部性,可采用的方法有:,1.外部数据验证法: 即判别函数建立完成后,重新再收集一部分数据,用判别函数进行判别,看错判是否严重。这种验证方法从理论上说较好,但再收集样本数据不能用来建立判别函数有些浪费,而且很难保证两个样本具有同质性。 2.样本二分法: 是外部数据法的改进,采用随机函数将所用样本分为两部分,一般是按2:1的比例拆分,多的部分用于建立判别函数,剩下的用于验证。这种做法可以保证验证样本和训练样本的同质性是最为理想的,但它要求样本量较大,否则建立的判别函数不稳定,白白浪费信息。,3.交互验证: 这是近年来逐渐发展起来的一种非常重要的判别效果验证技术。它在样本二分法的基础上又大大前进了一步,具体来说,就是在建立判别函数时依次去掉一例,然后用建立起来的判别函数对该例进行判别,用这种方法可以非常有效地避免强影响点的干扰。在SPSS中已经提供了交互验证功能,可直接使用对话框操作。,第三节 费歇尔(Fisher)判别法,该方法是Fisher,R.A等人在1936年提出的最优判别准则以及判别函数的求解法。 最佳的判别函数应该具有准确区分不同类别的能力,根据方差分析的基本原理构造判别函数,该函数的确定可以使组内的方差达到最小,而使组间的方差达到最大,由此构造出求解条件,从而确定判别函数。根据该判别函数对待判样本计算判别值,根据判别值与判别临界值的相对位置进行判别,一、两组Fisher判别法,基本思想: 从两个总体中抽取具有P个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数或判别式,其中各系数的确定原则是使两组间的区别最大,而使每个组内部的离差最小。依据该判别式,求出新样本的判别值并与临界值相比较判别其类型。,判别函数的导出。 判别函数的一般形式: 要确定该判别函数就是要确定各个 系数ci的值。 对于p元总体而言,线性判别函数一般是 要确定该判别函数就是要确定各个系数ci的值。,函数的导出:,Fisher两组判别的步骤:,判别准则,例4.2 利用例4.1数据对上例两企业作两组Fisher判别,写出Fisher判别函数,求出判别临界值对待判样品进行判别,对训练样本进行回代判断,对判别效果进行评价。,二、多个总体的Fisher判别法,(一) 判别函数,Fisher判别法实际上是致力于寻找一个最能反映组和组之间差异的投影方向,即寻找线性判别函数 ,设有 个总体 ,分别有均值向量 , , 和协方差阵 , 分别各总体中得到样品:,第i个总体的样本均值向量,综合的样本均值向量,第i个总体样本组内离差平方和,综合的组内离差平方和,组间离差平方和,如果判别分析是有效的,则所有的样品的线性组合 满足组内离差平方和小,而组间离差平方和大。则,而 所对应的特征向量即 。,Fisher样品判别函数是,然而,如果组数k太大,讨论的指标太多,则一个判别函数是不够的,这时需要寻找第二个,甚至第三个线性判别函数 其特征向量构成第二个判别函数的系数。 类推得到m(mk)个线性函数。,关于需要几个判别函数得问题,需要累计判别效率达到85以上,即有 设 为B相对于E得特征根,则,以m个线性判别函数得到的函数值为新的变量,再进行距离判别。 判别规则:,设Yi(X)为第i个线性判别函数, ,,则,办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为0.5。坏人总是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为0.9,坏人做好事的概率为0.2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人?,第四节 贝叶斯判别法,一 、标准的Bayes判别,距离判别简单直观,很实用,但是距离判别的方法把 总体等同看待,没有考虑到总体会以不同的概率(先验 概率)出现,也没有考虑误判之后所造成的损失的差异。 一个好的判别方法,既要考虑到各个总体出现的先验概 率,又要考虑到错判造成的损失,Bayes判别就具有这 些优点,其判别效果更加理想,应用也更广泛。,贝叶斯公式是一个我们熟知的公式,设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。即当样本 发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有:,则 判给 。在正态的假定下, 为正态分布的 密度函数。,二、 考虑错判损失的Bayes判别分析,设有总体 , 具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 。,又D1,D2,Dk是R(p)的一个分划,判别法则为: 当样品X落入Di 时,则判,别的关键的问题是寻找D1,D2,Dk分划, 这个分划应该使平均错判率最小。,【定义】(平均错判损失),用P(j/i)表示将来自总体Gi的样品错判到总体Gj的条件概率。,C(j/i)表示相应错判所造成的损失。,则平均错判损失为:,使ECM最小的分划,是Bayes判别分析的解。,【定理】,若总体G1,G2,Gk的先验概率为 且相应的密度函数为 ,损失为 时, 则划分的Bayes解为 其中,含义是:当抽取了一个未知总体的样品值x,要判别它属于那个总体,只要先计算出k个按先验概率加权的误判平均损失 然后比较其大小,选取其中最小的,则判定样 品属于该总体。,实验练习根据相应的人文发展指标,从1995年世界各国中选择高发展水平、中等发展水平的国家各5个作为样品,另选4个国家作为待判样品,要求: 1用fisher判别准则进行判别分析; 2用贝叶斯判别准则进行判别分析,
展开阅读全文