距离判别分析课件

上传人:沈*** 文档编号:197187688 上传时间:2023-04-03 格式:PPT 页数:34 大小:224.50KB
返回 下载 相关 举报
距离判别分析课件_第1页
第1页 / 共34页
距离判别分析课件_第2页
第2页 / 共34页
距离判别分析课件_第3页
第3页 / 共34页
点击查看更多>>
资源描述
实际问题中如何应用主成分分析实际问题中如何应用主成分分析 如果遇到多目标决策问题,即有如果遇到多目标决策问题,即有n个样品,个样品,每个样品有每个样品有p个指标,要确定个指标,要确定n个样品的排序就个样品的排序就可以采取主成分分析可以采取主成分分析.其思路就是将原有的其思路就是将原有的p个个指标,换成指标,换成k(kp)个主成分,然后根据主成分个主成分,然后根据主成分的数值(又称主成分的得分)进行排序。的数值(又称主成分的得分)进行排序。若为利润型指标,则主成分得分大者排名靠前;若为利润型指标,则主成分得分大者排名靠前;若为成本型指标,则主成分得分小者排名靠前若为成本型指标,则主成分得分小者排名靠前;若只选第一主成分,则按其得分进行排名;若只选第一主成分,则按其得分进行排名;若选若选k个主成分,则按他们的加权平均进行排个主成分,则按他们的加权平均进行排名名其中权向量就是其中权向量就是k个特征值的归一化向量个特征值的归一化向量.解决实际问题有时采用协方差矩阵,有解决实际问题有时采用协方差矩阵,有时采取相关系数矩阵,究竟用那个矩阵要具时采取相关系数矩阵,究竟用那个矩阵要具体问题具体分析,通常有以下准则:体问题具体分析,通常有以下准则:1.若量纲不一样,应当先进行无量纲化,而相若量纲不一样,应当先进行无量纲化,而相关系数矩阵就是实现无量纲化的方法之一,故关系数矩阵就是实现无量纲化的方法之一,故此时应采取相关系数矩阵计算;此时应采取相关系数矩阵计算;2.用协方差矩阵与相关系数矩阵计算主成分用协方差矩阵与相关系数矩阵计算主成分得分的公式不一样,协方差矩阵用原始数据得分的公式不一样,协方差矩阵用原始数据(统一趋势后统一趋势后)左乘特征值矩阵;相关系数矩阵左乘特征值矩阵;相关系数矩阵用标准化以后的矩阵左乘特征值矩阵用标准化以后的矩阵左乘特征值矩阵.如何解读计算主成分的数学表达式如何解读计算主成分的数学表达式我们设计算第一主成分的公式为:我们设计算第一主成分的公式为:4143132121111xaxaxaxaY若若a11,a12,a14的绝对值比较大,表明第一主成的绝对值比较大,表明第一主成分主要提取了分主要提取了x1,x2,x4三个原始指标的信息;三个原始指标的信息;如果此时再计算第二主成分,你会发现第二主如果此时再计算第二主成分,你会发现第二主成分成分x3系数的绝对值就比系数的绝对值就比x1,x2,x4系数的绝对系数的绝对值要大,也就是说第二主成分弥补了第一主成值要大,也就是说第二主成分弥补了第一主成分的不足分的不足.主成分分析可以有助于回归分析中自变量主成分分析可以有助于回归分析中自变量的选择,如果原有的选择,如果原有n个自变量进行拟合效果个自变量进行拟合效果不好,可考虑选择不好,可考虑选择k个主成分为自变量进行个主成分为自变量进行拟合(拟合(kn),其原因在于原始的自变量之间其原因在于原始的自变量之间可能存在一定的相关性,而主成分之间彼可能存在一定的相关性,而主成分之间彼此不相关,可望消除多重共线性此不相关,可望消除多重共线性.判别分析利用已知类别的样本为标准,对未判别分析利用已知类别的样本为标准,对未知样本进行判类的一种统计方法。它产生于本世知样本进行判类的一种统计方法。它产生于本世纪纪3030年代。近年来,在自然科学、社会学及经济年代。近年来,在自然科学、社会学及经济管理学科中都有广泛的应用。管理学科中都有广泛的应用。判别分析的特点判别分析的特点是根据已掌握的、历史上每个类别的若干样本的是根据已掌握的、历史上每个类别的若干样本的数据信息,总结出客观事物分类的规律性,建立数据信息,总结出客观事物分类的规律性,建立判别公式和判别准则。然后,当遇到新的样本点判别公式和判别准则。然后,当遇到新的样本点时,只要根据总结出来的判别公式和判别准则,时,只要根据总结出来的判别公式和判别准则,就能判别该样本点所属的类别。就能判别该样本点所属的类别。第四章第四章 判别分析判别分析 1 距离判别 (一)(一)马氏距离马氏距离 距离判别的最直观的想法是计算样距离判别的最直观的想法是计算样品到第品到第i i类总体的平均数的距离,哪个类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别距离的大小,判别其所属类别。设设 是从期望是从期望为为 、协方差阵、协方差阵=的总体的总体G抽得的两个观测值,则称抽得的两个观测值,则称 和和),(pxxx21x),(pyyy21y),(p 210ppij)()(),(2yxyxyx1d)()(),(xxx12 Gd 样本样本X X和和G G类之间的马氏距离平方定义为类之间的马氏距离平方定义为X X与与G G类重心间的距离平方:类重心间的距离平方:注:重心即均值注:重心即均值马氏距离和欧式距离之间的差别马氏距离和欧式距离之间的差别 2(,)(dG-1xx-)(x-)2(,)(dGxx-)(x-)马氏距离马氏距离欧氏距离欧氏距离马氏距离有如下的特点:马氏距离有如下的特点:1-2y=x-11-22y y=x-x-11-22=x-x-1-=x-x-2、马氏距离是标准化后的变量的欧式距离、马氏距离是标准化后的变量的欧式距离1、马氏距离不受计量单位的影响马氏距离不受计量单位的影响;3、若变量之间是相互无关的,则协方差、若变量之间是相互无关的,则协方差矩阵为对角矩阵矩阵为对角矩阵1122pp11122111pp1122211(,)(1ppdGxx-)(x-)22211221122ppppxxx (二)两个总体距离判别法二)两个总体距离判别法 先考虑两个总体的情况,设有两个总体先考虑两个总体的情况,设有两个总体 对给定的样本对给定的样本Y Y,判别一个样本,判别一个样本Y Y到底到底是来自哪一个总体,一个最直观的想法是计是来自哪一个总体,一个最直观的想法是计算算Y Y到两个总体的距离。故我们用马氏距离来到两个总体的距离。故我们用马氏距离来给定判别规则,有:给定判别规则,有:),(),(22121222222121GydGydGdGdGGdGdG如待判,如,如,yyyyyy21GG,1.两个总体协方差矩阵相等两个总体协方差矩阵相等由于实际问题中只能得到两个样本的协方由于实际问题中只能得到两个样本的协方差矩阵差矩阵S1,S2,因此当两个总体协方差矩阵因此当两个总体协方差矩阵相等时如何确定总体的协方差矩阵相等时如何确定总体的协方差矩阵S?2nnS)1n(S)1n(S212211 其中其中n1,n2分别为两个样本的容量分别为两个样本的容量.判别步骤:判别步骤:1.计算计算A、B两类的均值向量与协方差阵两类的均值向量与协方差阵;ma=mean(A),mb=mean(B),S1=cov(A),S2=cov(B)2.计算总体的协方差矩阵计算总体的协方差矩阵2nnS)1n(S)1n(S212211 其中其中n1,n2分别为分别为两个样本的容量两个样本的容量.3.计算未知样本计算未知样本x到到A,B两类马氏距离之差两类马氏距离之差 d=(x-ma)S-1(x-ma)-(x-mb)S-1(x-mb)4.若若d0,则则x属于属于B类类上述公式可以化简为:上述公式可以化简为:W(x)=(ma-mb)S-1(x-(ma+mb)/2)若若W(x)0,x属于属于G1;若若W(x)0,则,则x属于属于Af;若若d0,则,则x属于属于Apf.Ans:d=1.7611 3.8812 3.6468故三个蠓虫均属故三个蠓虫均属Af.从刚才的例从刚才的例1,我们发现对于两个总体,我们发现对于两个总体的协方差矩阵是否相等,得到的结论可能的协方差矩阵是否相等,得到的结论可能不同,因此在解决实际问题时,首先要判不同,因此在解决实际问题时,首先要判别两个总体的协方差矩阵是否相等?别两个总体的协方差矩阵是否相等?1,2)(i,SS:HSS:Hi1i0 检验检验统计量:统计量:)2,1i()2/)1p(p()SS(trp|S|ln|S|ln)1n(Q2i-1iii 对给定的对给定的 ,查卡方分布表得到临界值,查卡方分布表得到临界值 若若Q0 ,则接受则接受H0,否则拒绝,否则拒绝H0 对于例对于例1,应用检验程序如下:,应用检验程序如下:n1=6;n2=9;p=2;s=(5*s1+8*s2)/13;Q01=(n1-1)*(log(det(s)-log(det(s1)-p+trace(inv(s)*s1),Q02=(n2-1)*(log(det(s)-log(det(s2)-p+trace(inv(s)*s2),ans:Q01=2.5784,Q02=0.741805.0 对对 ,查自由度为,查自由度为3的卡方分布的卡方分布,得得到临界值为:到临界值为:7.815,05.0 由于由于 Q017.815,Q027.815,故认为,故认为两总体协方差矩阵相同。例两总体协方差矩阵相同。例1的那种解法的那种解法更合理?更合理?(三三).判别准则的评价判别准则的评价 当一个判别准则提出以后,还要研究它的可当一个判别准则提出以后,还要研究它的可靠性。通常,我们利用回代误判率和交叉误判靠性。通常,我们利用回代误判率和交叉误判率进行误差的估计。若属于率进行误差的估计。若属于G1的样品被误判为的样品被误判为属于属于G2的个数为的个数为N1个,属于个,属于G2的样品被误判的样品被误判为属于为属于G1的个数为的个数为N2个,两类总体的样品总数个,两类总体的样品总数为为n,则误判率为:,则误判率为:12NNpn(1)回代误判率)回代误判率 设设G1,G2为两个总体,为两个总体,X1,X2,Xm和和Y1,Y2,Yn是分别来自是分别来自G1,G2的训练样本,的训练样本,以全体训练样本作为以全体训练样本作为m+n个新样品,逐个代个新样品,逐个代入已建立的判别准则中判别其归属,这个过入已建立的判别准则中判别其归属,这个过程称为回判。若属于程称为回判。若属于G1的样品被误判为属于的样品被误判为属于G2的个数为的个数为N1个,属于个,属于G2的样品被误判为属的样品被误判为属于于G1的个数为的个数为N2个,则误判率估计为:个,则误判率估计为:12NNpmn(2)交叉误判率估计)交叉误判率估计 交叉误判率估计是每次剔除一个样品,利用其余交叉误判率估计是每次剔除一个样品,利用其余的的m+n1个训练样本建立判别准则再用所建立的个训练样本建立判别准则再用所建立的准则对删除的样品进行判别。对训练样本中每个样准则对删除的样品进行判别。对训练样本中每个样品都做如上分析,以其误判的比例作为误判率,具品都做如上分析,以其误判的比例作为误判率,具体步骤如下:体步骤如下:从总体为从总体为G1的训练样本开始,剔除其中一个样品,的训练样本开始,剔除其中一个样品,剩余的剩余的m1个样品与个样品与G2中的全部样品建立判别函数;中的全部样品建立判别函数;用建立的判别函数对剔除的样品进行判别;用建立的判别函数对剔除的样品进行判别;重复步骤重复步骤,直到,直到G1中的全部样品依次被删除,中的全部样品依次被删除,又进行判别,其误判的样品个数记为又进行判别,其误判的样品个数记为m12 对对G2的样品重复步骤的样品重复步骤,直到直到G2中的全部样中的全部样品依次被删除又进行判别,其误判的样品个数记为品依次被删除又进行判别,其误判的样品个数记为n21于是交叉误判率估计为:于是交叉误判率估计为:1221mnpmn 为了说明我们建立的方法能够正确地区分两为了说明我们建立的方法能够正确地区分两类蠓虫,我们将已知的两类蠓虫的数据代入判类蠓虫,我们将已知的两类蠓虫的数据代入判别函数利用别函数利用MATLAB编程计算回代误判率、交编程计算回代误判率、交叉误判率,在两个总体协方差矩阵不等时:叉误判率,在两个总体协方差矩阵不等时:d11=mahal(Apf,Apf)-mahal(Apf,Af)d22=mahal(Af,Af)-mahal(Af,Apf)因为因为d11和和d22的各行都小于零,故回代误的各行都小于零,故回代误判率为零判率为零.交叉误判率计算程序作为作业,同学们解决交叉误判率计算程序作为作业,同学们解决.三三.多个总体的距离判别多个总体的距离判别设有设有k个总体,个总体,G1,G2,Gk,若判别某个体,若判别某个体y属于哪个总体,则有如下方法:属于哪个总体,则有如下方法:若存在某个正整数若存在某个正整数k0,使得使得mahal(y,Gk0)=min(y,Gi),(i=1,2,k)则判别则判别y属于第属于第k0个个体个个体.例例2.某气象站预报某地区有无春旱的资料中某气象站预报某地区有无春旱的资料中有如下数据有如下数据(G1春旱春旱,G2无春旱无春旱),计算回代误计算回代误判率判率G1:24.8,-2;24.7,-2.4;26.6,-3;23.5,-1.9;25.5,-2.1;27.4,-3.1G2:22.1,-0.7;21.6,-1.4;22,-0.8;22.8,-1.6;22.7,-1.5;21.5,-1;22.1,-1.2;21.4,-1.3解:当两个总体协方差阵不等时,有解:当两个总体协方差阵不等时,有G1=24.8,-2;24.7,-2.4;26.6,-3;23.5,-1.9;25.5,-2.1;27.4,-3.1;G2=22.1,-0.7;21.6,-1.4;22,-0.8;22.8,-1.6;22.7,-1.5;21.5,-1;22.1,-1.2;21.4,-1.3;d12=mahal(G1,G1)-mahal(G1,G2)d21=mahal(G2,G2)-mahal(G2,G1)由于由于d12,d21均小于零,故回代误判率为零均小于零,故回代误判率为零.注意:书中与此处不同!注意:书中与此处不同!请大家思考,实际解决此类问题,能否请大家思考,实际解决此类问题,能否主观地认为两个总体协方差矩阵一样呢?主观地认为两个总体协方差矩阵一样呢?应该进行协方差矩阵检验,我们将此问应该进行协方差矩阵检验,我们将此问题作为作业题作为作业.今后,看书或者看有判别分析的论文时,今后,看书或者看有判别分析的论文时,就要考察总体协方差矩阵是否相等,只有就要考察总体协方差矩阵是否相等,只有这样才能保证准确性这样才能保证准确性.例例2.根据下表,判别未知地区的类别,以及根据下表,判别未知地区的类别,以及回代误判率回代误判率类别类别农农林林牧牧鱼鱼类别类别农农林林牧牧鱼鱼289.79.5105.29.61405.911.3236.45.8286.71.560.820.61450.615.7224.620.1295.53.588.440.11529.573.7195.9308.82191.312.396.31.71688.066.2371.6132.32307.626.1216.26.01433.282.3215.5330.52141.343.358.282.31405.954.0226.1104.32250.411.2154.415.21658.327.1352.6134.82337.423.6114.13.81665.751.9480.385.22254.08.680.91.11817.956.8423.2390.1228.91.832.50.11439.939.4292.3101.2249.43.530.32.11769.950.9605.041.02348.810.1134.03.9x431.347.2210.614.42899.434.0685.961.2x1401.347.2654.7350.721142.730.8448.5334.2x1331.657.0693.820.41503.121.8332.3188.5x279.915.1118.55.1解:解:g1=data1;%按行输入是一个矩阵按行输入是一个矩阵 g2=data2;s1=cov(g1);s2=cov(g2);p=4;n1=12;n2=14;代入代入检验统计量检验统计量得到统计量观测值:得到统计量观测值:Q1=10.8824,Q2=11.0851对对0.05的检验水平,查表的临界值为的检验水平,查表的临界值为18.307,可知两总体协方差矩阵相等,可知两总体协方差矩阵相等,故采取如下方法故采取如下方法:)2,1i()2/)1p(p()SS(trp|S|ln|S|ln)1n(Q2i-1iii g1=data1;g2=data2;s1=cov(g1);s2=cov(g2);s=(11*s1+13*s2)/24;x=431.3,47.2,210.6,14.4;1401.3,47.2,654.7,350.7;1331.6,57.0,693.8,20.4;279.9,15.1,118.5,5.1;D=-1.2313,-4.7511,-4.8792 ,4.0777故未知地区中前三个属于故未知地区中前三个属于g1,其余属于其余属于g2.for i=1:4,D(i)=(x(i,:)-m1)*inv(S)*(x(i,:)-m1)-(x(i,:)-m2)*inv(S)*(x(i,:)-m2);endd12=mahal(g1,g1)-mahal(g1,g2)d21=mahal(g2,g2)-mahal(g2,g1)由于由于d12中大于零的样品有中大于零的样品有2个,个,d21中大于中大于零的样品有零的样品有3个,于是回代误判率为:个,于是回代误判率为:P=(3+2)/26,ans=0.1923即误判率为:即误判率为:19.23%为什么回代误判率较大呢?因为题目中为什么回代误判率较大呢?因为题目中给出的分类不是用马氏距离,而是模糊均给出的分类不是用马氏距离,而是模糊均值聚类法值聚类法.
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!