第15-17章多因素分析(统计学)

资源描述

第第15-1715-17章章多因素分析多因素分析(统计学统计学)n n概念概念概念概念多因素分析是同时对观察对象的两个或两个以上多因素分析是同时对观察对象的两个或两个以上多因素分析是同时对观察对象的两个或两个以上多因素分析是同时对观察对象的两个或两个以上的变量进行分析。的变量进行分析。的变量进行分析。的变量进行分析。常用的统计分析方法有：常用的统计分析方法有：常用的统计分析方法有：常用的统计分析方法有：多元线性回归、多元线性回归、多元线性回归、多元线性回归、LogisticLogistic回归、回归、回归、回归、COXCOX比例风险回归比例风险回归比例风险回归比例风险回归模型、因子分析、主成分分析，等。模型、因子分析、主成分分析，等。模型、因子分析、主成分分析，等。模型、因子分析、主成分分析，等。2多变量资料数据格式多变量资料数据格式多变量资料数据格式多变量资料数据格式例号例号例号例号X X1 1X X2 2X Xp pY Y1 1X X1111X X1212X X1p1pY Y1 12 2X X2121X X2222X X2p2pY Y2 2n nX Xn1n1X Xn2n2X XnpnpY Yn nY Y为定量变量为定量变量为定量变量为定量变量Linear RegressionLinear RegressionY Y为二项分类变量为二项分类变量为二项分类变量为二项分类变量Binary Logistic RegressionBinary Logistic RegressionY Y为多项分类变量为多项分类变量为多项分类变量为多项分类变量Multinomial Logistic RegressionMultinomial Logistic RegressionY Y为有序分类变量为有序分类变量为有序分类变量为有序分类变量Ordinal Logistic RegressionOrdinal Logistic RegressionY Y为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局为生存时间与生存结局Cox RegressionCox Regression3Y，X直线回归直线回归Y，X1，X2，Xm多元回归（多重回归）多元回归（多重回归）第十五章第十五章多元线性回归多元线性回归(multiple linear regressoin)P.261例：例：欲研究血压受年龄、性别、体重、性格、欲研究血压受年龄、性别、体重、性格、职业（体力劳动或脑力劳动）、饮食、吸烟、职业（体力劳动或脑力劳动）、饮食、吸烟、血脂水平等因素的影响。血脂水平等因素的影响。4 0 0为回归方程的常数项（为回归方程的常数项（为回归方程的常数项（为回归方程的常数项（constant)constant)，表示各自变量均为，表示各自变量均为，表示各自变量均为，表示各自变量均为0 0时时时时y y的平的平的平的平均值；均值；均值；均值；mm为自变量的个数；为自变量的个数；为自变量的个数；为自变量的个数；1 1、2 2、mm为偏回归系数（为偏回归系数（为偏回归系数（为偏回归系数（Partial regression coefficientPartial regression coefficient）意义：意义：意义：意义：如如如如 1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下，固定条件下，固定条件下，固定条件下，X X1 1 每增减一每增减一每增减一每增减一个单位对个单位对个单位对个单位对Y Y 的效应（的效应（的效应（的效应（Y Y 增减增减增减增减个单位）。个单位）。个单位）。个单位）。e e为去除为去除为去除为去除mm个自变量对个自变量对个自变量对个自变量对Y Y影响后的随机误差，称残差（影响后的随机误差，称残差（影响后的随机误差，称残差（影响后的随机误差，称残差（residual)residual)。多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式多元回归方程的一般形式一、多元回归模型一、多元回归模型一、多元回归模型一、多元回归模型5 为为为为y y的估计值或预测值（的估计值或预测值（的估计值或预测值（的估计值或预测值（predicted value)predicted value)；b b0 0为回归方程的常数项（为回归方程的常数项（为回归方程的常数项（为回归方程的常数项（constant)constant)，表示各自变量均为，表示各自变量均为，表示各自变量均为，表示各自变量均为0 0时时时时y y的估计值；的估计值；的估计值；的估计值；由样本估计而得的多元回归方程：由样本估计而得的多元回归方程：由样本估计而得的多元回归方程：由样本估计而得的多元回归方程：b b1 1、b b2 2、b bmm为偏回归系数（为偏回归系数（为偏回归系数（为偏回归系数（Partial regression coefficientPartial regression coefficient）意义：如意义：如意义：如意义：如 b b1 1 表示在表示在表示在表示在X X2 2、X X3 3 X Xmm固定条件下，固定条件下，固定条件下，固定条件下，X X1 1 每增每增每增每增减一个单位对减一个单位对减一个单位对减一个单位对Y Y 的效应（的效应（的效应（的效应（Y Y 增减增减增减增减 b b 个单位）。个单位）。个单位）。个单位）。6适用条件：适用条件：适用条件：适用条件：线性（线性（线性（线性（linearlinear）、独立性（）、独立性（）、独立性（）、独立性（independentindependent）、正态性（）、正态性（）、正态性（）、正态性（normalnormal）、）、）、）、等方差（等方差（等方差（等方差（equal varianceequal variance）“LINE”“LINE”。线性线性线性线性自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。自变量与应变量的关系是线性的。用散点图判断。独立性独立性独立性独立性任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。任意两个观察值互相独立。常利用专业知识判断。正态性正态性正态性正态性就自变量的任何一个线性组合，应变量就自变量的任何一个线性组合，应变量就自变量的任何一个线性组合，应变量就自变量的任何一个线性组合，应变量y y均服从正均服从正均服从正均服从正态分布。即要求残差服从正态分布。常用残差图分析。态分布。即要求残差服从正态分布。常用残差图分析。态分布。即要求残差服从正态分布。常用残差图分析。态分布。即要求残差服从正态分布。常用残差图分析。等方差等方差等方差等方差就自变量的任何一个线性组合，应变量就自变量的任何一个线性组合，应变量就自变量的任何一个线性组合，应变量就自变量的任何一个线性组合，应变量y y的方差均的方差均的方差均的方差均相同。即要求残差的方差齐性。用散点图或残差图判断。相同。即要求残差的方差齐性。用散点图或残差图判断。相同。即要求残差的方差齐性。用散点图或残差图判断。相同。即要求残差的方差齐性。用散点图或残差图判断。78（1 1）因素筛选：）因素筛选：）因素筛选：）因素筛选：（因素分析）（因素分析）（因素分析）（因素分析）例如影响高血压的诸多因素中：例如影响高血压的诸多因素中：例如影响高血压的诸多因素中：例如影响高血压的诸多因素中：1 1）哪些是主要因素？）哪些是主要因素？）哪些是主要因素？）哪些是主要因素？2 2）各因素的作用大小？）各因素的作用大小？）各因素的作用大小？）各因素的作用大小？（2 2）提高回归方程的估计精度）提高回归方程的估计精度）提高回归方程的估计精度）提高回归方程的估计精度多元回归比只有一个自变量的简单直线回归更多元回归比只有一个自变量的简单直线回归更多元回归比只有一个自变量的简单直线回归更多元回归比只有一个自变量的简单直线回归更能缩小应变量能缩小应变量能缩小应变量能缩小应变量Y Y对其估计值的离差，在预测和统计对其估计值的离差，在预测和统计对其估计值的离差，在预测和统计对其估计值的离差，在预测和统计控制方面应用的效果更好。控制方面应用的效果更好。控制方面应用的效果更好。控制方面应用的效果更好。（3 3）控制混杂因素）控制混杂因素）控制混杂因素）控制混杂因素n n多元线性回归除具有直线回归的基本性质外，还具有多元线性回归除具有直线回归的基本性质外，还具有多元线性回归除具有直线回归的基本性质外，还具有多元线性回归除具有直线回归的基本性质外，还具有以下特点（用途）：以下特点（用途）：以下特点（用途）：以下特点（用途）：9（1 1）用各变量的数据建立回归方程）用各变量的数据建立回归方程）用各变量的数据建立回归方程）用各变量的数据建立回归方程（2 2）对总的方程进行假设检验）对总的方程进行假设检验）对总的方程进行假设检验）对总的方程进行假设检验（3 3）当总的方程有显著性意义时，应对每个自变量的）当总的方程有显著性意义时，应对每个自变量的）当总的方程有显著性意义时，应对每个自变量的）当总的方程有显著性意义时，应对每个自变量的偏回归系数再进行假设检验，若某个自变量的偏回归偏回归系数再进行假设检验，若某个自变量的偏回归偏回归系数再进行假设检验，若某个自变量的偏回归偏回归系数再进行假设检验，若某个自变量的偏回归系数无显著性，则应把该变量剔除，重新建立不包含系数无显著性，则应把该变量剔除，重新建立不包含系数无显著性，则应把该变量剔除，重新建立不包含系数无显著性，则应把该变量剔除，重新建立不包含该变量的多元回归方程。该变量的多元回归方程。该变量的多元回归方程。该变量的多元回归方程。二、多元回归分析步骤二、多元回归分析步骤二、多元回归分析步骤二、多元回归分析步骤对新建立的多元回归方程及偏回归系数按上述程对新建立的多元回归方程及偏回归系数按上述程对新建立的多元回归方程及偏回归系数按上述程对新建立的多元回归方程及偏回归系数按上述程序进行检验，直到余下的偏回归系数都具有统计意义序进行检验，直到余下的偏回归系数都具有统计意义序进行检验，直到余下的偏回归系数都具有统计意义序进行检验，直到余下的偏回归系数都具有统计意义为止。最后得到最优方程。为止。最后得到最优方程。为止。最后得到最优方程。为止。最后得到最优方程。10例例例例15-115-1（P.262P.262）2727名糖尿病人的血清总胆固醇、甘油三脂、名糖尿病人的血清总胆固醇、甘油三脂、名糖尿病人的血清总胆固醇、甘油三脂、名糖尿病人的血清总胆固醇、甘油三脂、空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表空腹胰岛素、糖化血红蛋白、空腹血糖的测量值列于表15-215-2中，中，中，中，试建立血糖与其它几项指标关系的多元线性回归方程。试建立血糖与其它几项指标关系的多元线性回归方程。试建立血糖与其它几项指标关系的多元线性回归方程。试建立血糖与其它几项指标关系的多元线性回归方程。表表15-2 27名糖尿病人的血糖及有关变量的测量结果名糖尿病人的血糖及有关变量的测量结果序号序号i总胆固醇总胆固醇甘油三脂甘油三脂胰岛素胰岛素糖化血糖化血血血糖糖（mmol/L）(mmol/L)(U/ml)红蛋白红蛋白(%)(mmol/L)X1X2X3X4Y15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.3265.840.928.616.413.3273.841.206.459.610.411由上表得到如下多元线性回归方程：由上表得到如下多元线性回归方程：1 1、建立回归方程、建立回归方程、建立回归方程、建立回归方程122 2、回归方程的假设检验、回归方程的假设检验、回归方程的假设检验、回归方程的假设检验FF检验检验检验检验n n结果无显著性结果无显著性结果无显著性结果无显著性 1 1）表明所观察的自变量与应变量不存在线性回归关系；）表明所观察的自变量与应变量不存在线性回归关系；）表明所观察的自变量与应变量不存在线性回归关系；）表明所观察的自变量与应变量不存在线性回归关系；2 2）也可能由于样本例数过少；）也可能由于样本例数过少；）也可能由于样本例数过少；）也可能由于样本例数过少；n n结果有显著性结果有显著性结果有显著性结果有显著性表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。表明至少有一个自变量与应变量之间存在线性回归关系。HH0 0：1 1=2 2=mm=0=0HH1 1：1 1、2 2、mm不等于不等于不等于不等于0 0或不全等于或不全等于或不全等于或不全等于0 013143 3、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验、各个偏回归系数的假设检验tt检验检验检验检验n n将将将将总胆固醇总胆固醇总胆固醇总胆固醇(X(X1 1)剔除。剔除。剔除。剔除。注意：注意：注意：注意：通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。通常每次只剔除关系最弱的一个因素。对于同一资料，不同自变量的对于同一资料，不同自变量的对于同一资料，不同自变量的对于同一资料，不同自变量的t t值可以相互比较，值可以相互比较，值可以相互比较，值可以相互比较，t t的绝对的绝对的绝对的绝对值越大，或值越大，或值越大，或值越大，或P P越小，说明该自变量对越小，说明该自变量对越小，说明该自变量对越小，说明该自变量对Y Y所起的作用越大。所起的作用越大。所起的作用越大。所起的作用越大。15n n重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程重新建立不包含提出因素的回归方程注意：表中偏回归系数已变化。注意：表中偏回归系数已变化。注意：表中偏回归系数已变化。注意：表中偏回归系数已变化。16n n对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验对新建立的回归方程进行检验检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。检验结果有显著性意义。17n对新方程的偏回归系数进行检验对新方程的偏回归系数进行检验检验结果均有意义，因此回归方程保留检验结果均有意义，因此回归方程保留甘油三酯甘油三酯(X2)、胰岛、胰岛素素(X3)和糖化血红蛋白和糖化血红蛋白(X4)三个三个因素。因素。最后获得回归方程为：最后获得回归方程为：181 1、确定系数（、确定系数（、确定系数（、确定系数（R R2 2）：）：）：）：意义：意义：意义：意义：在在在在y y的总变异中，由的总变异中，由的总变异中，由的总变异中，由x x变量组建立的线性回归方程所能解变量组建立的线性回归方程所能解变量组建立的线性回归方程所能解变量组建立的线性回归方程所能解释的比例。释的比例。释的比例。释的比例。0101，越大越优。，越大越优。，越大越优。，越大越优。特点：特点：特点：特点：R R2 2是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。是随自变量的增加而增大。因此，因此，因此，因此，在相近的情况下，以包含的自变量少者为优。在相近的情况下，以包含的自变量少者为优。在相近的情况下，以包含的自变量少者为优。在相近的情况下，以包含的自变量少者为优。三、回归方程的评价三、回归方程的评价三、回归方程的评价三、回归方程的评价、RR复相关系数复相关系数复相关系数复相关系数（multiple correlation coefficientmultiple correlation coefficient）表示表示表示表示mm个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程个自变量共同对应变量线性相关的密切程度。度。度。度。0R10R1。即。即。即。即Y Y与与与与的相关系数。的相关系数。的相关系数。的相关系数。19、校正确定系数（、校正确定系数（、校正确定系数（、校正确定系数（adjusted R-squareadjusted R-square，R R2 2a a ）越大越优。越大越优。越大越优。越大越优。R R2 2a a不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。不会随无意义的自变量增加而增大。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。是衡量方程优劣的常用指标。校正确定系数的计算：校正确定系数的计算：校正确定系数的计算：校正确定系数的计算：p p 为方程中包含的自变量个数，为方程中包含的自变量个数，为方程中包含的自变量个数，为方程中包含的自变量个数，p mp m。R R2 2一定时，一定时，一定时，一定时，p p R R2 2 a a P.268 P.268 2021四、各自变量的评价四、各自变量的评价1、偏回归平方和、偏回归平方和是指将某自变量是指将某自变量是指将某自变量是指将某自变量x xj j从回归方程中剔除后所引起的从回归方程中剔除后所引起的从回归方程中剔除后所引起的从回归方程中剔除后所引起的回归平方和的减少量回归平方和的减少量回归平方和的减少量回归平方和的减少量间接反应了自变量间接反应了自变量间接反应了自变量间接反应了自变量x xj j对应对应对应对应变量的贡献大小。变量的贡献大小。变量的贡献大小。变量的贡献大小。各个自变量的偏回归平方和可以通过拟合包含不各个自变量的偏回归平方和可以通过拟合包含不各个自变量的偏回归平方和可以通过拟合包含不各个自变量的偏回归平方和可以通过拟合包含不同自变量的回归方程计算得到。同自变量的回归方程计算得到。同自变量的回归方程计算得到。同自变量的回归方程计算得到。22回归方程中包含的自变量回归方程中包含的自变量回归方程中包含的自变量回归方程中包含的自变量平方和平方和平方和平方和SSSS回回回回SSSS残残残残X X1 1、X X2 2、X X3 3、X X4 4133.711133.71188.84188.841X X2 2、X X3 3、X X4 4133.098133.09889.45489.454X X1 1、X X3 3、X X4 4121.748121.748100.804100.804X X1 1、X X2 2、X X4 4113.647113.647108.905108.905X X1 1、X X2 2、X X3 3105.917105.917116.635116.635对例对例对例对例15-115-1作回归分析的部分中间结果作回归分析的部分中间结果作回归分析的部分中间结果作回归分析的部分中间结果SSSS回回回回（X X1 1）=133.711=133.711133.098=0.613133.098=0.613SSSS回回回回（X X2 2）=133.711=133.711 121.748=11.963121.748=11.963SSSS回回回回（X X3 3）=133.711=133.711113.647=20.064113.647=20.064SSSS回回回回（X X4 4）=133.711=133.711 105.917=27.794105.917=27.794232 2、标准化偏回归系数（、标准化偏回归系数（、标准化偏回归系数（、标准化偏回归系数（standardized partial standardized partial regression coefficientregression coefficient）消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数消除测量单位影响后的偏回归系数标准化偏回标准化偏回标准化偏回标准化偏回归系数。归系数。归系数。归系数。n n意义：意义：意义：意义：用以比较各自变量对应变量的影响程度大小用以比较各自变量对应变量的影响程度大小用以比较各自变量对应变量的影响程度大小用以比较各自变量对应变量的影响程度大小（即相对贡献大小）。（即相对贡献大小）。（即相对贡献大小）。（即相对贡献大小）。24bj X的偏回归系数的偏回归系数 Sj为自变量的标准差为自变量的标准差 SY 为应变量的标准差为应变量的标准差n若将各变量先经标准状态化处理后，再进行多元回归，若将各变量先经标准状态化处理后，再进行多元回归，则所得到的偏回归系数即为标准偏回归系数。则所得到的偏回归系数即为标准偏回归系数。n计算：计算：25对血糖影响大小的顺序依次为：糖化血红蛋白对血糖影响大小的顺序依次为：糖化血红蛋白(X4)、胰岛、胰岛素素(X3)、甘油三酯、甘油三酯(X2)。比较糖化血红蛋白和甘油三酯的标准偏回归系数：比较糖化血红蛋白和甘油三酯的标准偏回归系数：0.413/0.354=1.17（倍）（倍）糖化血红蛋白对血糖的影响强度约为甘油三酯的糖化血红蛋白对血糖的影响强度约为甘油三酯的 1.17倍。倍。例例例例15-115-1资料，比较各个自变量对血糖的贡献大小比较。资料，比较各个自变量对血糖的贡献大小比较。资料，比较各个自变量对血糖的贡献大小比较。资料，比较各个自变量对血糖的贡献大小比较。26五、自变量的筛选五、自变量的筛选基本思路：基本思路：尽可能将回归效果显著的自变量选尽可能将回归效果显著的自变量选入方程中，作用不显著的自变量排除在外。入方程中，作用不显著的自变量排除在外。（1）全局择优法（）全局择优法（all possible subsets selection）：）：（2）逐步选择法）逐步选择法前进法前进法前进法前进法（Forward selectionForward selection）后退法后退法后退法后退法（Backward eliminationBackward elimination）逐步法逐步法逐步法逐步法（StepwiseStepwise）271、全局择优法（最优子集回归）、全局择优法（最优子集回归）（all possible subsets selection）：）：有有m个自变量就有个自变量就有2m-1个自变量子集。在个自变量子集。在各子集中选择最优的回归方程。各子集中选择最优的回归方程。仅适用于自变量个数不太多的情况。仅适用于自变量个数不太多的情况。282 2、向前筛选法、向前筛选法、向前筛选法、向前筛选法（Forward selectionForward selection）：）：）：）：事先给定一个入选标准，即事先给定一个入选标准，即事先给定一个入选标准，即事先给定一个入选标准，即（通常（通常（通常（通常 =0.05=0.05），然后根据各因素偏回归平方和从大到小，依次逐个引然后根据各因素偏回归平方和从大到小，依次逐个引然后根据各因素偏回归平方和从大到小，依次逐个引然后根据各因素偏回归平方和从大到小，依次逐个引入回归方程至无显著性自变量可以入选为止，因素一入回归方程至无显著性自变量可以入选为止，因素一入回归方程至无显著性自变量可以入选为止，因素一入回归方程至无显著性自变量可以入选为止，因素一旦入选便始终保留在方程中而不被剔除。旦入选便始终保留在方程中而不被剔除。旦入选便始终保留在方程中而不被剔除。旦入选便始终保留在方程中而不被剔除。局限性：后续变量的引入可能会使先进入方程的局限性：后续变量的引入可能会使先进入方程的局限性：后续变量的引入可能会使先进入方程的局限性：后续变量的引入可能会使先进入方程的变量变得不重要。变量变得不重要。变量变得不重要。变量变得不重要。293 3、向后剔除法、向后剔除法、向后剔除法、向后剔除法（Backward eliminationBackward elimination）首先建立全部自变量的全回归方程，给定剔首先建立全部自变量的全回归方程，给定剔首先建立全部自变量的全回归方程，给定剔首先建立全部自变量的全回归方程，给定剔除标准，根据各因素偏回归平方和从小到大，依次除标准，根据各因素偏回归平方和从小到大，依次除标准，根据各因素偏回归平方和从小到大，依次除标准，根据各因素偏回归平方和从小到大，依次逐个将无显著性的自变量从回归方程中剔除。逐个将无显著性的自变量从回归方程中剔除。逐个将无显著性的自变量从回归方程中剔除。逐个将无显著性的自变量从回归方程中剔除。优点：考虑到了自变量的组合作用，选中的自优点：考虑到了自变量的组合作用，选中的自优点：考虑到了自变量的组合作用，选中的自优点：考虑到了自变量的组合作用，选中的自变量数目一般会比前进法选中的多。变量数目一般会比前进法选中的多。变量数目一般会比前进法选中的多。变量数目一般会比前进法选中的多。缺点：当自变量数目较多或有某些自变量高度缺点：当自变量数目较多或有某些自变量高度缺点：当自变量数目较多或有某些自变量高度缺点：当自变量数目较多或有某些自变量高度相关时，可能得不出正确的结果。相关时，可能得不出正确的结果。相关时，可能得不出正确的结果。相关时，可能得不出正确的结果。304 4、逐步法、逐步法、逐步法、逐步法（StepwiseStepwise）：）：）：）：给出入选标准（通常给出入选标准（通常给出入选标准（通常给出入选标准（通常 1 1=0.05=0.05）和剔除标准（）和剔除标准（）和剔除标准（）和剔除标准（通常通常通常通常 2 2=0.10=0.10），每次选入一个在方程外且最具统计），每次选入一个在方程外且最具统计），每次选入一个在方程外且最具统计），每次选入一个在方程外且最具统计学意义的自变量后，就对原在方程中的自变量做剔除学意义的自变量后，就对原在方程中的自变量做剔除学意义的自变量后，就对原在方程中的自变量做剔除学意义的自变量后，就对原在方程中的自变量做剔除检验，这个过程逐步进行，直到没有有统计意义的自检验，这个过程逐步进行，直到没有有统计意义的自检验，这个过程逐步进行，直到没有有统计意义的自检验，这个过程逐步进行，直到没有有统计意义的自变量可以入选，也没有无统计学意义的自变量保留在变量可以入选，也没有无统计学意义的自变量保留在变量可以入选，也没有无统计学意义的自变量保留在变量可以入选，也没有无统计学意义的自变量保留在方程中为止。方程中为止。方程中为止。方程中为止。n n 实际工作中，多采用逐步法。实际工作中，多采用逐步法。实际工作中，多采用逐步法。实际工作中，多采用逐步法。n n 用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。用上述方法对上例资料进行分析。31 六、应用多元线性回归分析时需注意的事项六、应用多元线性回归分析时需注意的事项（1 1）样本量要求：）样本量要求：）样本量要求：）样本量要求：无精确的计算公式。据经验，无精确的计算公式。据经验，无精确的计算公式。据经验，无精确的计算公式。据经验，样本量应是自变量数的样本量应是自变量数的样本量应是自变量数的样本量应是自变量数的510510倍以上。倍以上。倍以上。倍以上。(20?)(20?)（2 2）做预报时，只能在自变量）做预报时，只能在自变量）做预报时，只能在自变量）做预报时，只能在自变量X X的观察值范围内的观察值范围内的观察值范围内的观察值范围内进行；进行；进行；进行；（3 3）在资料要求上，应变量）在资料要求上，应变量）在资料要求上，应变量）在资料要求上，应变量Y Y服从正态分布；服从正态分布；服从正态分布；服从正态分布；（4 4）注意资料的特异点（）注意资料的特异点（）注意资料的特异点（）注意资料的特异点（outlieroutlier）；）；）；）；32（5 5）观测值重新量化问题）观测值重新量化问题）观测值重新量化问题）观测值重新量化问题二项分类资料：用二项分类资料：用二项分类资料：用二项分类资料：用X X表示分类变量，阴性为表示分类变量，阴性为表示分类变量，阴性为表示分类变量，阴性为0 0，阳性为，阳性为，阳性为，阳性为1 1。有序多项分类资料：用一个有序多项分类资料：用一个有序多项分类资料：用一个有序多项分类资料：用一个X X 作为分类变量，以自然数作为分类变量，以自然数作为分类变量，以自然数作为分类变量，以自然数0 0，1 1，2 2，赋值。如将病情分为轻中重三类时，用赋值。如将病情分为轻中重三类时，用赋值。如将病情分为轻中重三类时，用赋值。如将病情分为轻中重三类时，用X X表示病情，表示病情，表示病情，表示病情，赋值方法为：赋值方法为：赋值方法为：赋值方法为：无序多项分类资料：无序多项分类资料：无序多项分类资料：无序多项分类资料：或或或或33 上述以职员作为对比水平上述以职员作为对比水平上述以职员作为对比水平上述以职员作为对比水平(基础水平基础水平基础水平基础水平)。哑变量。哑变量。哑变量。哑变量X X1 1、X X2 2、X X3 3分别代表了工人、农民、干部与职员相比的系数。分别代表了工人、农民、干部与职员相比的系数。分别代表了工人、农民、干部与职员相比的系数。分别代表了工人、农民、干部与职员相比的系数。哑变量代表的是同一个变量的不同取值，在分析时应当同时进哑变量代表的是同一个变量的不同取值，在分析时应当同时进哑变量代表的是同一个变量的不同取值，在分析时应当同时进哑变量代表的是同一个变量的不同取值，在分析时应当同时进入或移出方程。即使只有部分哑变量有统计学意义也是如此。入或移出方程。即使只有部分哑变量有统计学意义也是如此。入或移出方程。即使只有部分哑变量有统计学意义也是如此。入或移出方程。即使只有部分哑变量有统计学意义也是如此。34（7 7）自变量的联合作用分析）自变量的联合作用分析）自变量的联合作用分析）自变量的联合作用分析若要考虑若要考虑若要考虑若要考虑X X3 3、X X4 4对应变量对应变量对应变量对应变量 y y 的联合作用，可设置一个新变的联合作用，可设置一个新变的联合作用，可设置一个新变的联合作用，可设置一个新变量量量量X X5 5=X=X3 3X X4 4。若。若。若。若b b3 3、b b4 4和和和和b b5 5都有统计学意义，则说明都有统计学意义，则说明都有统计学意义，则说明都有统计学意义，则说明X X3 3、X X4 4对对对对应变量既有单独作用，又有交互作用。应变量既有单独作用，又有交互作用。应变量既有单独作用，又有交互作用。应变量既有单独作用，又有交互作用。（6 6）自变量筛选过程中引入和剔除变量时检验水准）自变量筛选过程中引入和剔除变量时检验水准）自变量筛选过程中引入和剔除变量时检验水准）自变量筛选过程中引入和剔除变量时检验水准的确定的确定的确定的确定1 1）引入变量检验的水准）引入变量检验的水准）引入变量检验的水准）引入变量检验的水准小于小于小于小于或或或或等于等于等于等于剔除变量时检验的水准剔除变量时检验的水准剔除变量时检验的水准剔除变量时检验的水准2 2）通常引入变量检验的水准为）通常引入变量检验的水准为）通常引入变量检验的水准为）通常引入变量检验的水准为0.050.05，剔除变量时，剔除变量时，剔除变量时，剔除变量时0.100.10，但不，但不，但不，但不绝对。绝对。绝对。绝对。35说明说明X3、X4对应变量既有单独作用，又有交互作用。即说对应变量既有单独作用，又有交互作用。即说明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的明糖尿病人体内胰岛素对血糖的影响依赖于糖化血红蛋白的含量。含量。36（8 8）自变量的共线性）自变量的共线性）自变量的共线性）自变量的共线性当自变量之间存在较强的相关关系时，称之为共线性。当自变量之间存在较强的相关关系时，称之为共线性。当自变量之间存在较强的相关关系时，称之为共线性。当自变量之间存在较强的相关关系时，称之为共线性。后果后果后果后果偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。偏回归系数的估计值容易失真。当多元回归的分析结果出现以下情况时可考虑是否存在自变当多元回归的分析结果出现以下情况时可考虑是否存在自变当多元回归的分析结果出现以下情况时可考虑是否存在自变当多元回归的分析结果出现以下情况时可考虑是否存在自变量共线性：量共线性：量共线性：量共线性：1 1）在某个检验水准下，整个回归方程有统计学意义，但是每）在某个检验水准下，整个回归方程有统计学意义，但是每）在某个检验水准下，整个回归方程有统计学意义，但是每）在某个检验水准下，整个回归方程有统计学意义，但是每个偏回归系数的检验均无统计学意义。个偏回归系数的检验均无统计学意义。个偏回归系数的检验均无统计学意义。个偏回归系数的检验均无统计学意义。2 2）偏回归系数的符号与医学专业知识不一致。）偏回归系数的符号与医学专业知识不一致。）偏回归系数的符号与医学专业知识不一致。）偏回归系数的符号与医学专业知识不一致。3 3）参数估计的标准误变得很大，使）参数估计的标准误变得很大，使）参数估计的标准误变得很大，使）参数估计的标准误变得很大，使t t值变得很小，值变得很小，值变得很小，值变得很小，P P值很大。值很大。值很大。值很大。37判断方法：判断方法：判断方法：判断方法：利用自变量间的相关系数阵。利用自变量间的相关系数阵。利用自变量间的相关系数阵。利用自变量间的相关系数阵。（r r 0.90.9，共线性可能性大），共线性可能性大），共线性可能性大），共线性可能性大）处理方法：处理方法：处理方法：处理方法：最简单、有效的方法是根据专业知识人为去最简单、有效的方法是根据专业知识人为去最简单、有效的方法是根据专业知识人为去最简单、有效的方法是根据专业知识人为去除在专业上比较次要的、或缺失值较多、测除在专业上比较次要的、或缺失值较多、测除在专业上比较次要的、或缺失值较多、测除在专业上比较次要的、或缺失值较多、测量误差较大的共线性因子。量误差较大的共线性因子。量误差较大的共线性因子。量误差较大的共线性因子。38（9）残差分析）残差分析模型诊断模型诊断通常以标准化残差（通常以标准化残差（standardized residual)为纵为纵坐标，以坐标，以为横坐标，作残差图。为横坐标，作残差图。3940第十六章第十六章 Logistic 回归回归一、概念一、概念 Logistic 回归是一种适用于应变量为分类回归是一种适用于应变量为分类值多因素概率型曲线模型。值多因素概率型曲线模型。Y Y为二项分类：为二项分类：为二项分类：为二项分类：非条件非条件非条件非条件Logistic Logistic 回归回归回归回归成组设计成组设计成组设计成组设计条件条件条件条件Logistic Logistic 回归回归回归回归配对设计配对设计配对设计配对设计 Y Y为多分类：多分类为多分类：多分类为多分类：多分类为多分类：多分类Logistic Logistic 回归回归回归回归 P.278 P.278 41Binary Logistic Binary Logistic 适用于应变量为二项分类的资料。适用于应变量为二项分类的资料。适用于应变量为二项分类的资料。适用于应变量为二项分类的资料。应变量（应变量（应变量（应变量（Y Y）在一组自变量（）在一组自变量（）在一组自变量（）在一组自变量（X X）的作用下所发生的结果）的作用下所发生的结果）的作用下所发生的结果）的作用下所发生的结果赋值规则为：赋值规则为：赋值规则为：赋值规则为：logistic logistic 回归模型：回归模型：回归模型：回归模型：n n统计学中，把统计学中，把统计学中，把统计学中，把lnln（P/QP/Q）称为）称为）称为）称为 P P的的的的LogitLogit转换或对数转换，即转换或对数转换，即转换或对数转换，即转换或对数转换，即Logit PLogit P。由此得到的回归方程，称为。由此得到的回归方程，称为。由此得到的回归方程，称为。由此得到的回归方程，称为LogisticLogistic回归方程。回归方程。回归方程。回归方程。出现阳性的结果出现阳性的结果出现阳性的结果出现阳性的结果 1 1 ，其概率用，其概率用，其概率用，其概率用P P来表示；来表示；来表示；来表示；出现阴性的结果出现阴性的结果出现阴性的结果出现阴性的结果 0 0 ，其概率用，其概率用，其概率用，其概率用QQ或（或（或（或（1 P1 P）来表示。）来表示。）来表示。）来表示。42由上式可得由上式可得由上式可得由上式可得:由样本估计而得的由样本估计而得的由样本估计而得的由样本估计而得的logisticlogisticlogisticlogistic回归模型：回归模型：回归模型：回归模型：43将将将将P/QP/Q称为比数（称为比数（称为比数（称为比数（oddsodds，优势、比值）；两个比数之比称为，优势、比值）；两个比数之比称为，优势、比值）；两个比数之比称为，优势、比值）；两个比数之比称为比比比比数比数比数比数比OROR（odds ratioodds ratio，优势比、比值比）。，优势比、比值比）。，优势比、比值比）。，优势比、比值比）。第第第第i i个观察对象的发病概率比数（个观察对象的发病概率比数（个观察对象的发病概率比数（个观察对象的发病概率比数（odds)odds)为为为为P Pi i/Q/Qi i，则：，则：，则：，则：第第第第l l个观察对象的发病概率比数为个观察对象的发病概率比数为个观察对象的发病概率比数为个观察对象的发病概率比数为P Pl l/Q/Ql l，则：，则：，则：，则：44则：则：则：则：式中：式中：式中：式中：同一因素同一因素同一因素同一因素x xj j的不同暴露水平之差。的不同暴露水平之差。的不同暴露水平之差。的不同暴露水平之差。b bj j在其它自变量固定不变的情况下，在其它自变量固定不变的情况下，在其它自变量固定不变的情况下，在其它自变量固定不变的情况下，x xj j的水的水的水的水平每增加一个单位时，平每增加一个单位时，平每增加一个单位时，平每增加一个单位时，ln(OR)ln(OR)的改变量，即的改变量，即的改变量，即的改变量，即所引起的比数比为增加前的所引起的比数比为增加前的所引起的比数比为增加前的所引起的比数比为增加前的e ebjbj倍倍倍倍若若若若X X X Xj j j j赋值为：赋值为：赋值为：赋值为：45b bj j=0=0时，时，时，时，ORORj j=1=1，说明因素，说明因素，说明因素，说明因素x xj j对疾病不起作用；对疾病不起作用；对疾病不起作用；对疾病不起作用；b bj j0 0时，时，时，时，ORORj j1 1，说明，说明，说明，说明x xj j是一个危险因素；是一个危险因素；是一个危险因素；是一个危险因素；b bj j0 0时，时，时，时，ORORj j11，说明，说明，说明，说明x xj j是一个保护因素。是一个保护因素。是一个保护因素。是一个保护因素。对于发病率很低的慢性病（如心脑血管疾病、恶性肿瘤等）对于发病率很低的慢性病（如心脑血管疾病、恶性肿瘤等）对于发病率很低的慢性病（如心脑血管疾病、恶性肿瘤等）对于发病率很低的慢性病（如心脑血管疾病、恶性肿瘤等），由于，由于，由于，由于P1P1，OROR可作为可作为可作为可作为RRRR的近似估计：的近似估计：的近似估计：的近似估计：所以，所以，所以，所以，logisticlogistic回归常用于流行病学调查资料，其优点是得到回归常用于流行病学调查资料，其优点是得到回归常用于流行病学调查资料，其优点是得到回归常用于流行病学调查资料，其优点是得到某一因素的回归系数估计值后，就可得到不同水平下相对危某一因素的回归系数估计值后，就可得到不同水平下相对危某一因素的回归系数估计值后，就可得到不同水平下相对危某一因素的回归系数估计值后，就可得到不同水平下相对危险度的近似估计值。险度的近似估计值。险度的近似估计值。险度的近似估计值。46模型的应用模型的应用主要有三个方面：主要有三个方面：主要有三个方面：主要有三个方面：l筛选危险因素筛选危险因素筛选危险因素筛选危险因素：求出各协变量对应变量的比数比（求出各协变量对应变量的比数比（求出各协变量对应变量的比数比（求出各协变量对应变量的比数比（OROROROR）；）；）；）；l校正混杂因素校正混杂因素校正混杂因素校正混杂因素：可以很方便地控制混杂因素，得到校正后可以很方便地控制混杂因素，得到校正后可以很方便地控制混杂因素，得到校正后可以很方便地控制混杂因素，得到校正后比数比的估计值和置信区间；比数比的估计值和置信区间；比数比的估计值和置信区间；比数比的估计值和置信区间；l预测与判断预测与判断预测与判断预测与判断：LogisticLogisticLogisticLogistic回归模型是概率型模型，在一定条回归模型是概率型模型，在一定条回归模型是概率型模型，在一定条回归模型是概率型模型，在一定条件下能预测某事件发生的概率，或估计各种自变量组合条件件下能预测某事件发生的概率，或估计各种自变量组合条件件下能预测某事件发生的概率，或估计各种自变量组合条件件下能预测某事件发生的概率，或估计各种自变量组合条件下应变量的某一类结果是否发生。下应变量的某一类结果是否发生。下应变量的某一类结果是否发生。下应变量的某一类结果是否发生。47二、二、Logistic 回归的参数估计及假设检验回归的参数估计及假设检验例：例：在研究医院抢救急性心肌梗塞在研究医院抢救急性心肌梗塞(AMI)患者能否成患者能否成功的危险因素调查中，某医院收集了功的危险因素调查中，某医院收集了5年中该院所有年中该院所有的的AMI患者的抢救病史，共患者的抢救病史，共200例。其中例。其中P表示抢救表示抢救是否成功（是否成功（0表示成功，表示成功，1表示死亡），表示死亡），X1表示抢救表示抢救前是否已休克（前是否已休克（0表示未休克，表示未休克，1表示已休克），表示已休克），X2表示抢救前是否已心衰（表示抢救前是否已心衰（0表示未心衰，表示未心衰，1表示已心表示已心衰），衰），X3表示患者从开始有表示患者从开始有AMI症状到抢救时是否症状到抢救时是否已超过已超过12小时（小时（0表示未超过表示未超过12小时，小时，1表示已超过表示已超过12小时）。试分析影响抢救成功率的因素。小时）。试分析影响抢救成功率的因素。48P=0(P=0(抢救成功抢救成功)P=1(P=1(抢救不成功而死亡抢救不成功而死亡)X X1 1X X2 2X X3 3N NX X1 1X X2 2X X3 3N N0 00 00 035350 00 00 04 40 00 01 134340 00 01 110100 01 10 017170 01 10 04 40 01 11 119190 01 11 115151 10 00 017171 10 00 06 61 10 01 16 61 10 01 19 91 11 10 06 61 11 10 06 61 11 11 16 61 11 11 16 6AMI患者的抢救危险因素资料患者的抢救危险因素资料49（一）（一）（一）（一）LogisticLogistic 回归的参数估计及意义回归的参数估计及意义回归的参数估计及意义回归的参数估计及意义参数估计方法：参数估计方法：最大似然法最大似然法最大似然法最大似然法（maximum likelihood）b0=-2.086，表示在其它自变量均为，表示在其它自变量均为0时死亡优势的对数值；时死亡优势的对数值；exp(b0)=0.124是无休克、无心衰和抢救及时组死亡的优势，当是无休克、无心衰和抢救及时组死亡的优势，当死亡概率很低时，近似等于自然死亡率。死亡概率很低时，近似等于自然死亡率。51b1=1.110X1的的logistic回归系数；回归系数；exp(1.110)=3.033，表示在其它自变量取值固定时，表示在其它自变量取值固定时，休克与没有休克相比死亡的优势比（休克与没有休克相比死亡的优势比（OR），反映），反映死亡与休克的关联程度。死亡与休克的关联程度。52（二）假设检验及回归系数的区间估计（二）假设检验及回归系数的区间估计（二）假设检验及回归系数的区间估计（二）假设检验及回归系数的区间估计1.似然比检验似然比检验比较两个模型的拟合效果。比较两个模型的拟合效果。模型模型1含较少自变量，模型含较少自变量，模型2含较多自变量。含较多自变量。H0：模型模型1与模型与模型2拟合效果无区别拟合效果无区别H1：模型模型1与模型与模型2拟合效果不同拟合效果不同检验统计量：检验统计量：2lnL2lnL1 1为模型为模型为模型为模型1 1的值，的值，的值，的值，2lnL2lnL2 2为模型为模型为模型为模型2 2的值。的值。的值。的值。G G G G反映模型反映模型反映模型反映模型2 2 2 2较模型较模型较模型较模型1 1 1 1拟合优度提高的程度。拟合优度提高的程度。拟合优度提高的程度。拟合优度提高的程度。GG服从服从服从服从 2 2(v)(v)分布，分布，分布，分布，v=v=增加变量的个数增加变量的个数增加变量的个数增加变量的个数-2lnL-2lnL被称为被称为被称为被称为DevianceDeviance，记，记，记，记为为为为D D。532.Wald检验检验用于回归系数的假设检验。用于回归系数的假设检验。H0：=0H1：0检验统计量：检验统计量：543.优势比的估计优势比的估计55Logistic Regression显示的是应变量的赋值情况。显示的是应变量的赋值情况。Binary Logistic过程默认以应变量过程默认以应变量Y=1所对应的概率为所对应的概率为P，即以，即以P（Y=1）建立模型。）建立模型。56Block 0:Beginning Block Block 0:Beginning Block 是模型中只有常数项，而不含任何自变量的输出结果。是模型中只有常数项，而不含任何自变量的输出结果。是模型中只有常数项，而不含任何自变量的输出结果。是模型中只有常数项，而不含任何自变量的输出结果。Block 1:Method=Backward Stepwise(Likelihood Ratio)Block 1:Method=Backward Stepwise(Likelihood Ratio)开始输出将自变量引入模型后的结果。采用开始输出将自变量引入模型后的结果。采用开始输出将自变量引入模型后的结果。采用开始输出将自变量引入模型后的结果。采用Backward Backward StepwiseStepwise（LRLR）法作自变量筛选。）法作自变量筛选。）法作自变量筛选。）法作自变量筛选。57对模型全局检验的结果。对模型全局检验的结果。对模型全局检验的结果。对模型全局检验的结果。StepStep统计量是每一步与上一步比较的似然比检验结果；统计量是每一步与上一步比较的似然比检验结果；统计量是每一步与上一步比较的似然比检验结果；统计量是每一步与上一步比较的似然比检验结果；BlockBlock统计量是指将统计量是指将统计量是指将统计量是指将Block 1Block 1（或（或（或（或Block 2Block 2）与）与）与）与Block 0Block 0相比的相比的相比的相比的似然比检验结果；似然比检验结果；似然比检验结果；似然比检验结果；ModelModel统计量是指模型的似然比检验的结果。统计量是指模型的似然比检验的结果。统计量是指模型的似然比检验的结果。统计量是指模型的似然比检验的结果。58模型的拟合优度情况简报模型的拟合优度情况简报模型的拟合优度情况简报模型的拟合优度情况简报 59模型对应变量的分类预测结果模型对应变量的分类预测结果模型对应变量的分类预测结果模型对应变量的分类预测结果模型的预测准确率模型的预测准确率模型的预测准确率模型的预测准确率 60标准化

展开阅读全文

第15-17章 多因素分析(统计学)

最新文档

第15-17章多因素分析(统计学)