资源描述
单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第六章 判别分析,第一节 什么是判别分析,在科学研究和日常生活中,往往会遇到这样的问题,即根据观测数据对所研究的对象进行分类(组)判别。例如,在经济学中可根据人均国内生产总值、人均消费水平等多种指标来判别一个国家的经济发展程度所属类型;在气象学中,根据已有的气象资料(气温、气压、湿度等)来判断明天是阴天还是晴天,有雨还是无雨等。以上各方面的问题具有一个共同特点:就是事先已有“类”的划分,或事先已对某些已知样品分好了“类”,需要判断那些还未分好的的样品究竟属于哪一类。,判别分析就是在研究对象用某种方法分好若干类(组)的情况下,确定新样品属于已知类别中哪一类的多元统计分析方法。,判别分析和聚类分析不同,判别分析是在已知研究对象分成若干类型(或 组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某种准则建立判别函数式,然后对未知类型的样品进行判别分类。而对于聚类分析,一批给定样品要划分的类型事先并不知道,需要通过聚类分析来确定各样品所属的类型。所以,判别分析和聚类分析往往结合起来运用。,用判别分析方法处理问题时,通常要给出一个衡量新样品(样本点)与已知组别接近程度的描述指标,即判别函数,同时也指定一种判别规则,用来判定新样品的归属,判别规则可以是统计性的,决定新样品所属类别时用的是显著性检验;也可以是确定性的,决定样品归属时,只考虑判别函数值的大小。,判别分析按判别的组数来分有两组(两个总体)判别和多组(多个总体)判别;按区分不同总体所用的数学模型来分有线性判别和非线性判别等。,其判别方法:距离判别法、,Fisher,判别法、,贝叶斯(,Bayes,)判别法,.,等。,第二节 距离判别,首先根据已知分类的数据,分别计算各类的重心,即各组(类)的均值,判别准则是对任给的一次观测,若它与第,i,类的重心距离最近,就认为它来自第,i,组,.,一、两个总体的距离判断法,设有两个总体(或称两类),两个总体的均值向量为,协方差矩阵分别为,那么对于一个样品,要判断它来自哪一个总体,就应该看,它与哪一个总体最近。,首先计算,到,总体的距离,分别记为,按距离最近,准则判别归类,则判别规则可写成,如果距离定义采用欧氏距离,则可计算出,:,按距离最近准则判别归类即可。,通常情况下我们所说的距离是指欧氏距离。但在统计学中,特别是在多元分析中,有时用欧氏距离显得不是太合适。,设有两个正态总体,,现有一个样品如图所示的,A,点,,A,距总体,X,的中心,远,距总体,Y,的中心,远,若按欧氏距离来度量,,A,点离总体,X,要比离总体,Y,近一些。但是,从概率论的,角度看,,A,点位于,右侧的,而位于,左侧的,处,应该认为,A,点离总体,Y,近一些。,样品点,x,到,的马氏距离为:,(一)当,时,(二)当,时,虽然在两个总体有显著差异的条件下,误判概率很小,但当这种差异不很显著时,误判的概率就很大。因此,只有当两个总体的均值有显著差异时,做判别分析才有意义。,例,6.1,:,某地市场上销售的电视机有多种牌子,某商场从市场上随机抽取了,20,种牌子的电视机进行调查,其中,13,种畅销,,7,种滞销。按电视机的质量评分、功能评分和销售价格(单位:百元)搜集资料(见表),在销售状态中:,1,表示畅销,,2,表示滞销,根据资料建立距离判别函数,并根据判别准则进行回判。,编号,质量评分,功能评分,销售价格(,百元),销售状态(组别),1,8.3,4.0,29,1,2,9.5,7.0,68,1,3,8.0,5.0,39,1,4,7.4,7.0,50,1,5,8.8,6.5,55,1,6,9.0,7.5,58,1,7,7.0,6.0,75,1,8,9.2,8.0,82,1,9,8.0,7.0,67,1,10,7.6,9.0,90,1,11,7.2,8.5,86,1,12,6.4,7.0,53,1,13,7.3,5.0,48,1,14,6.0,2.0,20,2,15,6.4,4.0,39,2,16,6.8,5.0,48,2,17,5.2,3.0,29,2,18,5.8,3.5,32,2,19,5.5,4.0,34,2,20,6.0,4.5,36,2,20,种电视机的销售情况,Tests of Equality of Group Means,Wilks Lambda,F,df1,df2,Sig.,质量评分,0.399,27.075,1,18,0.000,功能评分,0.426,24.246,1,18,0.000,销售价格,0.568,13.677,1,18,0.002,Boxs Test of Equality of Covariance Matrices(a),Boxs M,16.008,F,2.089,df1,6,df2,957.66,Sig.,0.052,所以,判别在,下进行。,销售状态(组别),mean,1,质量评分,7.977,功能评分,6.731,销售价格,61.538,2,质量评分,5.957,功能评分,3.714,销售价格,34.000,采用距离判别函数所得结果,编号,原分类,新分类,1,1.876,1,1,2,9.364,1,1,3,2.675,1,1,4,4.704,1,1,5,7.112,1,1,6,9.561,1,1,7,0.391,1,1,8,9.972,1,1,9,5.469,1,1,10,7.450,1,1,11,5.556,1,1,12,1.932,1,1,13,0.405,1,1,14,-7.873,2,2,15,-3.597,2,2,16,-0.910,2,2,17,-8.340,2,2,18,-5.873,2,2,19,-5.724,2,2,20,-3.472,2,2,二、多个总体的距离判别,(一)当协方差相等时,即,判别函数为,相应的判别规则为:,当均值和协方差矩阵未知时,(二)当,判别函数为,例,6.2,:,在例,6.1,中,,20,种电视的,13,个畅销品种中,实际只有,5,种真正畅销,而有,8,种是平销,另外,7,种滞销,其各项指标如表,6,8,。在销售状态中:,1,表示畅销,,2,表示平销,,3,表示滞销。根据资料建立距离判别函数,并根据判别准则进行回判。假设一家厂商生产的产品,其质量评分,8.0,,功能评分,7.5,,销售价格为,65,百元,该产品的销售前景如何?,编号,质量评分,功能评分,销售价格(,百元),销售状态(组别),1,8.3,4.0,29,1,2,9.5,7.0,68,1,3,8.0,5.0,39,1,4,7.4,7.0,50,1,5,8.8,6.5,55,1,6,9.0,7.5,58,2,7,7.0,6.0,75,2,8,9.2,8.0,82,2,9,8.0,7.0,67,2,10,7.6,9.0,90,2,11,7.2,8.5,86,2,12,6.4,7.0,53,2,13,7.3,5.0,48,2,14,6.0,2.0,20,3,15,6.4,4.0,39,3,16,6.8,5.0,48,3,17,5.2,3.0,29,3,18,5.8,3.5,32,3,19,5.5,4.0,34,3,20,6.0,4.5,36,3,Tests of Equality of Group Means,Wilks,Lambda,F,df1,df2,Sig.,质量评分,0.352,15.629,2,17,0.000,功能评分,0.348,15.901,2,17,0.000,销售价格,0.387,13.444,2,17,0.000,Boxs Test of Equality of Covariance,Matrices(a,),Boxs M,25.468,F,1.518,df1,12,df2,886.161,Sig.,0.112,判别分析就在,的条件下进行,而,建立判别函数,并进行回判,编号,原分类,新分类,1,5.174,4.418,1,1,2,1.349,9.102,1,1,3,3.078,3.864,1,1,4,0.662,4.271,1,1,5,2.260,7.544,1,1,6,2.553,7.487,2,1,7,-5.555,1.866,2,2,8,-1.535,9.408,2,2,9,-1.479,5.134,2,2,10,-5.858,8.647,2,2,11,-6.117,6.956,2,2,12,-1.947,1.968,2,2,13,-0.108,-0.164,2,3,14,-8.528,-7.182,3,3,15,-3.748,-4.379,3,3,16,-1.027,-2.144,3,3,17,-7.879,-9.440,3,3,18,-5.871,-6.573,3,3,19,-5.446,-6.906,3,3,20,-3.640,-4.245,3,3,采用距离判别函数所得结果,该厂商生产的产品,属于平销商品,.,、,第二节 贝叶斯(,Bayes,)判别,一、,Bayes,判别法的基本思想,假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识。然后取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将贝叶斯思想用于判别分析就是贝叶斯判别。,设有,k,个总体,它们的先验概率为,各总体的密度函数分别是,在观测到一个样品,x,的情况下,可用,Bayes,公式计算它来自,g,总体的后验概率。,并且当,判,x,来自,h,总体。,二、多元正态总体的,Bayes,判别法,(一)判别函数的导出,P,元正态分布密度函数为,把,代入,由于我们只关心寻找使,达到最大的,中的分母不论,为任何值都是常数,故只需要寻找,取对数,并去掉与,g,无关的项,记为:,(二)假定协差阵相等,(三)计算后验概率,作判别分类时,主要是根据判别函数,的数值大小,但它并不是后验概率,因为,例,6.2,:,在例,6.1,中,,20,种电视的,13,个畅销品种中,实际只有,5,种真正畅销,而有,8,种是平销,另外,7,种滞销,其各项指标如表,6,8,。在销售状态中:,1,表示畅销,,2,表示平销,,3,表示滞销。根据资料建立距离判别函数,并根据判别准则进行回判。假设一家厂商生产的产品,其质量评分,8.0,,功能评分,7.5,,销售价格为,65,百元,该产品的销售前景如何?,编号,质量评分,功能评分,销售价格(,百元),销售状态(组别),1,8.3,4.0,29,1,2,9.5,7.0,68,1,3,8.0,5.0,39,1,4,7.4,7.0,50,1,5,8.8,6.5,55,1,6,9.0,7.5,58,2,7,7.0,6.0,75,2,8,9.2,8.0,82,2,9,8.0,7.0,67,2,10,7.6,9.0,90,2,11,7.2,8.5,86,2,12,6.4,7.0,53,2,13,7.3,5.0,48,2,14,6.0,2.0,20,3,15,6.4,4.0,39,3,16,6.8,5.0,48,3,17,5.2,3.0,29,3,18,5.8,3.5,32,3,19,5.5,4.0,34,3,20,6.0,4.5,36,3,编号,质量评分,功能评分,销售价格,新分类,后验概率,1,8.3,4,29,54.997,50.293,50.911,1,0.975,2,9.5,7,68,70.721,69.840,61.949,1,0.707,3,8,5,39,52.119,49.510,48.588,1,0.908,4,7.4,7,50,49.370,49.178,45.433,1,0.542,5,8.8,6.5,55,63.757,61.966,56.544,1,0.857,6,9,7.5,58,69.734,67.649,60.023,1,0.889,7,7,6,75,31.429,37.457,35.459,2,0.879,8,9.2,8,82,66.505,68.509,5
展开阅读全文