资源描述
判别分析,3.1 判别分析(discriminant analysis),某些昆虫的性别只有通过解剖才能够判别 但雄性和雌性昆虫在若干体表度量上有些综合的差异。人们就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并以此标准来判别其他未知性别的昆虫。 这样虽非100%准确的判别至少大部分是对的,而且用不着杀生。此即判别分析。,判别分析(discriminant analysis),判别分析和聚类分析有何异同? 判别分析和聚类分析都是分类. 但判别分析是在已知对象有若干类型和一批已知样品的观测数据(训练样本)后的基础上根据某些准则建立判别式.在聚类分析中,人们一般事先并不知道应该分成几类及哪几类,全根据数据确定。 可以先聚类以得知类型,再进行判别.,判别分析例子,数据disc.txt:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。 指标有:企业规模(is)、服务(se)、雇员工资比例(sa)、利润增长(prr)、市场份额(ms)、市场份额增长(msr)、流动资金比例(cp)、资金周转速度(cs)等. 另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。,希望根据这些企业的上述变量的打分及其已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对尚未被分类的企业进行分类。 该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。,判别分析例子,Disc.sav数据,1. 根据距离判别的思想,Disc.txt数据有8个用来建立判别标准(或判别函数)的(预测)变量,另一个(group)是类别 每一个企业的打分在这8个变量所构成的8维空间中是一个点。这个数据在8维空间有90个点, 由于已知所有点的类别,可以求得每个类型的中心。这样只要定义了距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。,最简单的办法就是:某点离哪个中心距离最近,就属于哪一类。 一个常用距离是Mahalanobis距离。 用来比较到各个中心距离的数学函数称为判别函数(discriminant function). 这种根据远近判别的思想,原理简单,直观易懂。为判别分析的基础,1. 根据距离判别的思想,距离判别法,假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1)和D(x,G2), 则 如果D(x,G1) D(x,G2)则 xG1 如果D(x,G2) D(x,G1)则 xG2 如果D(x,G1) = D(x,G2)则待判,1. 根据距离判别的思想,Mahalanobis距离,假设m(1), m(2), S(1), S(2)分别为G1和G2的均值向量和协差阵,则点x到Gi的马氏距离定义为 D2(x,Gi)=(x- m(i)(S(i)-1(x- m(i) 其他一些距离为马氏距离的特殊情况,因此我们着重讨论马氏距离.马氏距离的好处是可以克服变量之间的相关性干扰,并且消除各变量量纲的影响.,线性判别函数:当S(1)=S(2)=S时,记,如果W(x)0即D(x,G1)D(x,G2)则 xG2 如果W(x)=0即D(x,G1)=D(x,G2)则待判,当m(1), m(2), S 已知时, 令a= S-1(m(1)- m(2) ) (a1, ap),则,显然W(x)为x1, xp的线性函数, 称为线性判别函数; a称为判别系数.,当m(1), m(2), S 未知时, 可通过样本来估计:,判别函数为,为来自Gi的样本为(i=1,2),非线性判别函数:当S(1) S(2)时,这是x的一个二次函数, 按照距离最近原则,判别准则仍然为 如果W(x)0即D(x,G1)D(x,G2)则 xG2 如果W(x)=0即D(x,G1)=D(x,G2)则待判,多总体时的线性判别函数:当S(1)=S(k)=S时,记,相应的准则为: 如果对一切ji, Wij(x)0, 则 xGi 如果有某一个Wij(x)=0, 则待判,非线性判别函数:当S(1) , S(k) 不等时,相应的准则为: 如果对一切ji, Wij(x)0, 则 xGi 如果有某一个Wij(x)=0, 则待判. 当m(i), S(i) 未知时, 可通过样本来估计,2. Fisher判别法(先进行投影),Fisher判别法是一种先投影的方法。 考虑只有两个(预测)变量的判别问题。 假定只有两类。数据中的每个观测值是二维空间的一个点。见下页图。 这里只有两种已知类型的训练样本。一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按原来变量(横坐标和纵坐标),很难将这两种点分开。,-4,-2,0,2,4,6,-4,-3,-2,-1,0,1,2,3,于是就寻找一个方向,下页图上的虚线方向,沿该方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。 有了投影之后,再用前面讲到的距离远近的方法得到判别准则。这种先投影的判别方法就是Fisher判别法。,2. Fisher判别法(先进行投影),Fisher判别法的数学,练习: 中小企业的破产问题研究 为了研究中小企业的破产模型,选定4个经济指标: X1总负债率(现金收益/总负债) X2收益性指标(纯收入/总财产) X3短期支付能力(流动资产/流动负债) X4生产效率性指标(流动资产/纯销售额) 对17个破产企业(1类)和21个正常运行企业(2类)进行了调查,得如下资料:,3.2 判别分析要注意的问题,训练样本中必须包含所有要判别的类型,分类必须清楚,不能有混杂。 要选择好可能用于判别的预测变量。这是最重要的。当然,在应用中,选择余地不见得有多大。 判别分析是为了正确地分类,但同时也要注意对未知样本的判定不一定总会得到正确的结果。所以我们需要对错判率进行进一步的思考和研究。,判别分析的Matlab命令:calssify,附录,费歇(Fisher)判别法,并未要求总体分布类型 工作原理就是对原数据系统进行坐标变换,寻求能够将总体尽可能分开的方向. 点x在以a为法方向的投影为ax 各组数据的投影为,将Gm组中数据投影的均值记为 有,记k组数据投影的总均值为 有,组间离差平方和为:,这里,组内离差平方和为:,这里,希望寻找a使得SSG尽可能大而SSE尽可能小,即,记方程|B-lE|=0的全部特征根为l1 lr0, 相应的特征向量为v1,vr. D(a)的大小可以估计判别函数yi(x)=vix (= ax)的效果. 记pi为判别能力(效率), 有,最大的值为方程|B-lE|=0的最大特征根l1.,使,m个判别函数的判别能力定义为,据此来确定选择多少判别函数。,
展开阅读全文