资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第十一章 偏最小二乘法,第十一章 偏最小二乘法,1,偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。,偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:,(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。,(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。,偏最小二乘回归是一种新型的多元统计数据,2,在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重共线性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。,在普通多元线形回归的应用中,我们常受到,3,(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。,偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析,(3)偏最小二乘回归之所以被称为第二代回归方法,,4,由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。,由于偏最小二乘回归在建模的同时实现了数据,5,一、偏最小二乘回归的建模原理和方法,(一),建模原理,设有 q个因变量 y,1,y,2,y,q,和p个自变量 x,1,x,2,x,p,。为了讨论两组变量之间的关系,观测了n个样本点。偏最小二乘回归开始与典型相关分析相同,分别在X与Y中提取出主成分。设 t,1,t,2,t,r,为 x,1,x,2,x,p,的主成分,u,1,u,2,u,r,为 y,1,y,2,y,q,,其中r=min(p,q)。,一、偏最小二乘回归的建模原理和方法 (一),6,(1)t,1,和u,1,应尽可能大地携带他们各自数据表中的变异信息;,(2)t,1,和u,1,的相关程度能够达到最大。,这两个要求表明,t,1,和 u,1,应尽可能好的代表数据表X和Y,同时自变量的成分t,1,对因变量的成分u,1,又有最强的解释能力。,(1)t1和u1应尽可能大地携带他们各自,7,在第一个成分t,1,和u,1,被提取后,偏最小二乘回归分别实施X对t,1,的回归以及 Y对t,1,的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用 X被t1解释后的残余信息以及Y 被t1 解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对 X共提取了 m个成分,t,1,t,2,t,r,,偏最小二乘,将通过实施Y,1,,Y,2,,Y,q,对,t,1,t,2,t,r,的回归,,然后再表达成Y,K,关于原变量X,1,,X,2,,X,p,的回归方程,其中k=1,2,q。,在第一个成分t1和u1被提取后,偏最小,8,(二)计算方法推导,首先将数据做标准化处理。设X组变量标准化的观测值矩阵为,设Y组变量标准化的观测值矩阵为,(二)计算方法推导 首先将数据做标准化处理,9,求X组变量的第一主成分t,1,,w,1,为第一主成分的系数向量,w,1,是一个单位向量。,t,1,=X,0,w,1,求Y组变量的第一主成分t,1,,c,1,为第一主成分的系数向量,c,1,是一个单位向量。,u,1,=Y,0,c,1,有Var(t,1,)=max,Var(u,1,)=max,(,t,1,u,1,)=max,求X组变量的第一主成分t1,w1为第一主成分,10,因此综合起来,在偏最小二乘回归中,我们要求与的协方差达到最大,既,因此综合起来,在偏最小二乘回归中,我们要,11,(1)求w1和c1,对Q分别求关于c,1,,w,2,,,1,,,2,和的偏导并令之为零,有,采用拉格朗日乘数法,讨论有约束条件的极值问题。,(1)求w1和c1 对Q分别求关于,12,可以推出,则,记,可以推出则记,13,可得,可见,w,1,是矩阵的 特征向量,对应的特征值为 。所以w,1,是对应于矩阵 最大特征值 的单位特征向量。而另一方面,c,1,是对应于 矩阵最大特征值,的单位特征向量c,1,。,注意这里,t,1,和,u,1,分别为n维向量,是n个个案在两组变量的主成分的取值。,可得 可见,w1是矩阵的,14,分别求,X,0,和,Y,0,对t,1,和u,1,的两个回归方程,根据最小二乘估计的原理,则,称,1,为模型效应载荷量。,2.建立回归方程,分别求X0和Y0对t1 和u1的两个回归方程,15,3.用残差代替,X,0,和,Y,0,的进行以上的工作,在第二步工作中,由于第一对主成分并未将相关的信息提取完,所以需要再重复第一步工作,在残差矩阵,E,0,和,F,0,中再提取第二对主成分。,3.用残差代替X0和Y0的进行以上的工作 在,16,分别求,E,1,和,F,1,对t,2,和u,2,的两个回归方程,即,根据最小二乘估计的原理,则,进而有,分别求E1和F1对t2和u2的两个回归方程,即,17,4.设n,p数据观测矩阵的秩为r=min(n,p),则存在r个成分t,1,,t,2,,t,r,。使得,将(3)式代入(2)式,并合并同类项,非标准化的偏最小二乘回归方程为,4.设np数据观测矩阵的秩为r=min,18,5.抽取主成分个数,l,的确定,至于抽取几个主成份进行偏最小二乘模型,需要进行进一步的检验。当然一定小于r。我们首先定义残差平方和,其中i为第i个样本点,j为第j个指标,k为主成分的个数。通常情况下,选择使残差平方和最小的个数l。有四种方法。,5.抽取主成分个数l的确定 至于抽取几个主成份进行,19,(1)舍一交叉验证法,依次舍去第i(i=1,2,n)个样本点,用余下的n-1个样本点做偏最小二乘回归模型,并预测相应的 ,k为主成分的个数。,选择使PRESS(k)最小的主成分的个数。,(1)舍一交叉验证法 依次舍去第i(i=1,2,,20,(2)分批交叉验证法,分批交叉验证法是每次留下q个观测作为检验数据,q=1是为“舍一交叉验证方法”。类似按预测残差平方和达到最小的主成分个数。,(2)分批交叉验证法 分批交叉验证法是每次留下q个,21,(3)分裂样本交叉验证法,与分批交叉验证法不同的是分裂样本法所扣留的样本不是连续的,而是灯具抽取的。例如第一次抽1,11,第二次抽2,12,22,等等。然后再根据预测残差平方和最小的原则,确定主成份的个数l。,(3)分裂样本交叉验证法 与分批交叉验证法不同,22,(4)随机样本交叉验证,按随机的原则来扣留样本,再根据预测残差平方和最小的原则,确定主成份的个数。,(4)随机样本交叉验证 按随机的原则来扣留样本,,23,
展开阅读全文