资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,应用多元统计分析,第十一章 偏最小二乘回归,1,1,第十一章,偏最小二乘回归,目 录,11.1,偏最小二乘回归分析方法,11.2,应用例子,2,第十一章 偏最小二乘回归11.1 偏最小二乘回归分析方法,在实际问题中,经常迂到需要研究两组多重相关变量间的相互依赖关系,并研究用一组变量(常称为自变量或预测变量)去预测另一组变量(常称为因变量或响应变量),除了最小二乘准则下的,经典多元线性回归分析,(MLR),提取自变量组主成分的,主成分回归分析,(PCR)等方法外,还有近年发展起来的,偏最小二乘(PLS)回归方法,.,第十一章,什么是,偏最小二乘回归,3,在实际问题中,经常迂到需要研究两组多重相关变量间,偏最小二乘回归提供一种多对多线性回归建模的方法,特别当两组变量的个数很多,且都存在多重相关性,而观测数据的数量(样本量)又较少时,用偏最小二乘回归建立的模型具有传统的经典回归分析等方法所没有的优点。,偏最小二乘回归分析在建模过程中集中了主成分分析,典型相关分析和线性回归分析方法的特点,因此在分析结果中,除了可以提供一个更为合理的回归模型外,还可以同时完成一些类似于主成分分析和典型相关分析的研究内容,提供更丰富、深入的一些信息。,第十一章,什么是,偏最小二乘回归,4,偏最小二乘回归提供一种多对多线性回归建模的方法,特别当,本章结合SAS/STAT软件中用于完成偏最小二乘回归的PLS过程,介绍偏最小二乘回归分析的建模方法;,并通过例子从预测角度对所建立的回归模型进行比较。,第十一章,什么是,偏最小二乘回归,5,本章结合SAS/STAT软件中用于完成偏最小二乘,考虑,p,个因变量,Y,1,Y,p,与,m,个自变量,X,1,X,m,的建模问题。,偏最小二乘回归的基本作法是首先在自变量集中提取第一成分,T,1,(,T,1,是,X,1,X,m,的线性组合,且尽可能多地提取原自变量集中的变异信息);,同时在因变量集中也提取第一成分,U,1,并要求,T,1,与,U,1,相关程度达最大。然后建立因变量,Y,1,Y,p,与,T,1,的回归,如果回归方程已达到满意的精度,则算法终止。,11.1,偏最小二乘回归分析,6,考虑p个因变量Y1,Yp与m个自变量X1,X,11.1 什么是,偏最小二乘回归,否则继续第二对成分的提取,直到能达到满意的精度为止。,若最终对自变量集提取,r,个成分,T,1,T,2,T,r,偏最小二乘回归将通过建立,Y,1,Y,p,与,T,1,T,2,T,r,的回归式,然后再表示为,Y,1,Y,p,与原自变量的回归方程式,即偏最小二乘回归方程式.,7,11.1 什么是偏最小二乘回归 否则继续第二对成分的提,假定,p,个因变量,Y,1,Y,p,与,m,个自变量,X,1,X,m,均为标准化变量。因变量组和自变量组的,n,次标准化观测数据阵分别记为:,11.1,偏最小二乘回归分析,Y,0,=,y,11,y,1,p,y,n,1,y,np,X,0,=,x,11,x,1,m,x,n,1,x,nm,n,p,n,m,8,假定p个因变量Y1,Yp与m个自变量X1,X,偏最小二乘回归分析建模的具体步骤如下:,(1)分别提取两变量组的第一对成分,并使之相关性达最大。,假设从两组变量分别提取第一对成分为,T,1,和,U,1,T,1,是自变量集,X,=,(,X,1,X,m,),的线性组合:,T,1,=,w,11,X,1,+,w,1,m,X,m,=,w,1,X,,,U,1,是因变量集,Y,=(,Y,1,Y,p,)的线性组合:,U,1,=,v,11,Y,1,+,v,1,p,Y,p,=,v,1,Y.,11.1 偏最小二乘回归分析,9,偏最小二乘回归分析建模的具体步骤如下:11.1 偏最小二,为了回归分析的需要,要求:,T,1,和,U,1,各自尽可能多地提取所在变量组的变异信息;,T,1,和,U,1,的相关程度达到最大。,由两组变量集的标准化观测数据阵,X,0,和,Y,0,,可以计算第一对成分的得分向量,记为,t,1,和,u,1,:,t,1,=,X,0,w,1,=,11.1 偏最小二乘回归分析,10,为了回归分析的需要,要求:11.1 偏最小二乘,u,1,=,Y,0,v,1,=,11.1 偏最小二乘回归分析,第一对成分,T,1,和,U,1,的协方差Cov(,T,1,U,1,)可用第一对成分的得分向量,t,1,和,u,1,的内积来计算。故而以上两个要求可化为数学上的条件极值问题:,11,11.1 偏最小二乘回归分析第一对成分T1和U1的协方差,对中心化的数据,有:,=,w,1,X,0,Y,0,v,1,最大,约束条件:,w,1,2,=1,v,1,2,=1,11.1 偏最小二乘回归分析,同时最大化方差Var(T,1,)、Var(U,1,)和,(T,1,U,1,):,12,对中心化的数据,有:11.1 偏最小二乘回归分析同,11.1 偏最小二乘回归分析,令,13,11.1 偏最小二乘回归分析令13,11.1 偏最小二乘回归分析,由(1)和(4)可以得到:,定义,,,由(3)和(4)得到,还可得到,14,11.1 偏最小二乘回归分析由(1)和(4)可以得到:定,11.1 偏最小二乘回归分析,由,以及,可知w,1,是,的最大特征值,对应的特征向量。,v,1,是,的最大特征值,对应的特征向量。,15,11.1 偏最小二乘回归分析由以及可知w1是的最大特征值,11.1 偏最小二乘回归分析,问题的求解只须通过计算,m,m,矩阵,M,=,X,0,Y,0,Y,0,X,0,的特征值和特征向量,且,M,的最大特征值为,1,2,相应的单位特征向量就是所求的解,w,1,,而,v,1,可由,w,1,计算得到,:(见p14),16,11.1 偏最小二乘回归分析问题的求解只须通过计算mm,11.1 偏最小二乘回归分析,(2)建立,Y,1,Y,p,对,T,1,的回归及,X,1,X,m,对,T,1,的回归.,假定回归模型为,其中,1,=(,11,1,m,),1,=(,11,1,p,),分别是多对一的回归模型中的参数向量,E,1,和,F,1,是残差阵.回归系数向量,1,1,的最小二乘估计为,17,11.1 偏最小二乘回归分析 (2)建立Y,11.1 偏最小二乘回归分析,在PLS过程中称,1,=(,11,1,m,)为模型效应负荷量(Model Effect Loadings).,18,11.1 偏最小二乘回归分析在PLS过程中称1=,11.1 偏最小二乘回归分析,(3)用残差阵,E,1,和,F,1,代替,X,0,和,Y,0,重复以上步骤.,如果残差阵,F,1,中元素的绝对值近似为0,则认为用第一个成分建立的回归式精度已满足需要了,可以停止抽取成分.否则用残差阵,E,1,和,F,1,代替,X,0,和,Y,0,重复以上步骤即得,:,19,11.1 偏最小二乘回归分析 (3)用残差阵E,11.1 偏最小二乘回归分析,w,2,=(,w,21,w,2,m,),v,2,=(,v,21,v,2,p,)分别为第二对成分的权数.而,t,2,=,E,1,w,2,u,2,=,F,1,v,2,为第二对成分的得分向量.,分别为,X,Y,的第二对成分的负荷量.,这时有,20,11.1 偏最小二乘回归分析 w2=(w21,11.1 偏最小二乘回归分析,(4)设,n,m,数据阵,X,0,的秩为,r,min(,n,-1,m,),则存在,r,个成分,t,1,t,2,t,r,使得,表示标准化变量,把,t,k,=,21,11.1 偏最小二乘回归分析(4)设nm数据,11.1 偏最小二乘回归分析,代入,即得,p,个标准化因变量的偏最小二乘回归方程,然后再还原为原始变量的偏最小二乘回归方程:,22,11.1 偏最小二乘回归分析代入即得p个标准化因变,11.1 偏最小二乘回归分析,(5)确定抽取成分的个数,l,.,一般情况下,偏最小二乘回归并不需要选用存在的所有,r,个成分,t,1,t,2,t,r,来建立回归式,而像主成分分析一样,只选用前,l,个成分(,l,r,),即可得到预测能力较好的回归模型.,23,11.1 偏最小二乘回归分析 (5)确定抽取,11.1 偏最小二乘回归分析,下面讨论确定抽取成分个数,l,的几种方法.,“舍一交叉验证方法”:,每次舍去第,i,个观测(,i,=1,n,),用余下的,n,-1个观测按偏最小二乘回归方法建模,并考虑抽取,k,个成分后拟合的回归式,然后把舍去的第,i,个观测点代入所拟合的回归方程式,得到,Y,j,(j=1,p,)在第,i,个观测点上的预测值y,j(i),(,k,).对,i,=1,2,n,重复以上的验证,即得抽取,k,个成分时第,j,个因变量,Y,j,(,j,=1,p,)的预测残差平方和为,24,11.1 偏最小二乘回归分析下面讨论确定抽取成分个,11.1 偏最小二乘回归分析,Y,=(,Y,1,Y,p,)的预测残差平方和为,对抽取成分的个数,k,从1个至,r,个逐个计算Y的预测残差平方和PRESS(,k,),然后选取使,Y,的预测残差平方和达最小值的,k,让,l,=,k,.,25,11.1 偏最小二乘回归分析 Y=(Y1,11.1 偏最小二乘回归分析,“分批交叉验证方法”:,每次扣留连续的,q,个观测作为检验数据集,q,=1时就是“舍一交叉验证方法”,类似地按使预测残差平方和达最小的准则确定抽取成分的个数.,“分裂样本(SplitSample)交叉验证方法”:,此方法中扣留起来作为检验数据集的观测不必是连续的,而是按一定宽度抽取而构成的.例如第一次扣留的观测为1,11,21,.,然后是2,12,22,.等等.,26,11.1 偏最小二乘回归分析 “分批交叉,11.1 偏最小二乘回归分析,“随机样本交叉验证方法”:,此方法中扣留起来作为检验数据集的观测可以是随机抽取.,以上方法是SAS/STAT软件中PLS过程提供的,此外还有其它的方法(见参考献11).在实际应用中这些方法所确定的成分个数也不完全一致,最后确定成分的个数可综合各种验证的结果及从理论上给出的检验方法,.,27,11.1 偏最小二乘回归分析 “随机样,11.2 PLS,过程与应用例子,以下通过康复俱乐部20名成员测试数据的偏最小二乘回归分析例子介绍PLS过程的用法.,例11.2.1,康复俱乐部对20名中年人测量了三个生理指标:WEIGHT(体重),WAIST(腰围),PULSE(脉膊)和三个训练指标:CHINS(拉单杠次数),SITUPS(仰卧起坐次数),JUMPS(跳高)(数据见第十章例10.3.1).试用偏最小二乘回归方法建立由三个生理指标分别预测三个训练指标回归模型,并对计算结果进行分析.,28,11.2 PLS过程与应用例子 以下通过康复俱,11.2 PLS,过程与应用例子,解,使用SAS/STAT软件中PLS过程来完成偏最小二乘回归分析.假设测试数据已生成为,d1121的SAS数据集,SAS程序如下:,proc pls data=d1121 details;,/*cv=one 或 nfac=2*/,model chins situps jumps=weight waist pulse,/solution;,output out=outpls yscore=u xscore=t,predicted=pr1-pr3;,run;,29,11.2 PLS过程与应用例子 解,11.2 PLS,过程与应用例子,对标准化数据进行分析计算.生成的输出数据集outpls中除原始数据外,其中还包括成分的得分向量:,t,1,t,2,t,3,u,1,u,2,u,3,及偏最小二乘回归式对,p,个因变量的预测结果.部分结果见输出11.2.1至输出11.2.3.,30,11.2 PLS过程与应用例子 对标准化数据进行,11.2 PLS,过程与应用例子,输出11.2.1 被偏最小二乘因子解释的变差的百分比,31,11.2 PLS过程与应用例子输出11.2.1,11
展开阅读全文