多因素分析简介20141222

上传人:深*** 文档编号:239860251 上传时间:2024-02-25 格式:PPTX 页数:74 大小:3.46MB
返回 下载 相关 举报
多因素分析简介20141222_第1页
第1页 / 共74页
多因素分析简介20141222_第2页
第2页 / 共74页
多因素分析简介20141222_第3页
第3页 / 共74页
点击查看更多>>
资源描述
会计学1多因素分析简介多因素分析简介20141222性别性别年龄年龄种族种族营养、环境营养、环境父代身高父代身高疾病疾病变异变异多变量分析多变量分析n n研究客观事物中多种因素间相互依赖和作用统计规律性的统计学方法,是数理统计学的一个重要分支n n客观客观全面地反映真实情况,更精确地刻画指标全面地反映真实情况,更精确地刻画指标/变量变量/事物的本来面目事物的本来面目n n准确的预测准确的预测n n精确地说明影响因素的大小和强度精确地说明影响因素的大小和强度n n控制混杂因素的重要手段控制混杂因素的重要手段n n分析目的的需要n n多个变量的综合比较多个变量的综合比较n n多个因素对一个多个因素对一个(或多个或多个)指标的影响,构造预指标的影响,构造预测模型测模型n n进行数值分类,构造分类模型进行数值分类,构造分类模型n n简化系统简化系统结构结构n n计算机和相关统计分析软件的发展与普及n n多变量统计学分析内容十分丰富,其计算较为多变量统计学分析内容十分丰富,其计算较为复杂,工作量大,必须借助统计分析软件包在复杂,工作量大,必须借助统计分析软件包在计算机上予以实现计算机上予以实现常见多变量分析常见多变量分析n n多变量方差分析n n回归分析n n多变量线性回归多变量线性回归分析、多重线性回归分析分析、多重线性回归分析n n多重多重logisticlogistic回归分析、回归分析、PoissonPoisson回归分析回归分析n n路径分析路径分析n nCoxCox比例风险回归分析比例风险回归分析n n聚类分析、判别分析n n典型相关分析、主成分分析、因子分析李晓松主编.医学统计学(第3版).北京:高等教育出版社,2014.多重线性回归多重线性回归第第一一节节n n了解糖尿病患者空腹血糖与其它糖、脂代谢指标间的关系n n数量依存关系数量依存关系n n伴随关系?伴随关系?n n因果关系?因果关系?n n2727名糖尿病名糖尿病患者患者n n空腹空腹血糖血糖(Glu(Glu)n n空腹空腹胰岛素胰岛素(Ins)(Ins)、糖化血红蛋白、糖化血红蛋白(HbA1c(HbA1c)、血清、血清总胆总胆固醇固醇(TC)(TC)、甘油三酯、甘油三酯(TG)(TG)例例16.1编号编号TCTGInsHbA1cGlu编号编号TCTGInsHbA1cGlu15.681.904.538.211.2156.132.0610.3510.510.923.791.647.326.98.8165.711.788.538.010.136.023.566.9510.812.3176.402.404.5310.314.844.851.075.888.311.6186.063.6712.797.19.154.602.324.057.513.4195.091.032.538.910.866.050.641.4213.618.3206.131.715.289.910.274.908.5012.608.511.1215.783.362.968.013.687.083.006.7511.512.1225.431.134.3111.314.993.852.1116.287.99.6236.506.213.4712.316.0104.650.636.597.18.4247.987.923.379.813.2114.591.973.618.79.32511.5410.891.2010.520.0124.291.976.617.810.6265.840.928.616.413.3137.971.937.579.98.4273.841.206.459.610.4146.191.181.426.99.6表表16.1 27名糖尿病患者空腹血糖含量及其他有关指标的测量结果名糖尿病患者空腹血糖含量及其他有关指标的测量结果多重线性回归多重线性回归n n回归(regression):说明因变量和自变量间数量依存关系,并用函数形式表达这种关系的统计分析方法n n多重线性回归多重线性回归(multiple linear regression analysis)(multiple linear regression analysis)n n自变量自变量(independent variable)(independent variable)指的是一组独立的变量,指的是一组独立的变量,常用常用X X1 1,X X2 2,X Xm m表示表示n n因变量因变量(dependent variable)(dependent variable)指的是受其他变量影响的指的是受其他变量影响的变量,变量,常用常用Y Y表示表示n n研究变量间数量依存关系,并以函数的形式表达研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法这种关系的统计学方法n n确定确定Y Y、X X,并量化,并量化n n确定确定回归回归模型模型:绘制散点图绘制散点图绘制散点图绘制散点图n n估计模型中的参数估计模型中的参数估计模型中的参数估计模型中的参数,形成,形成回归方程回归方程回归方程回归方程:y=ay=a b xb x e en n绘制回归绘制回归绘制回归绘制回归函数图形函数图形函数图形函数图形n n回归分析的统计推断回归分析的统计推断回归分析的统计推断回归分析的统计推断:=0=0n n回归模型诊断回归模型诊断回归模型诊断回归模型诊断n n回归方程回归方程回归方程回归方程预测效果预测效果预测效果预测效果的评价的评价的评价的评价:R R2 2回归分析回归分析的基本步骤的基本步骤自变量自变量的量化的量化n n自变量X既可以是定量变量,也可以是定性变量n n定量变量定量变量n n如如自变量自变量和因变量存在线性关系和因变量存在线性关系,则直接以原,则直接以原变量变量取值引入模型取值引入模型n n如自变量与应变量是非线性关系,则需作适当变换,如自变量与应变量是非线性关系,则需作适当变换,如如X X2 2、loglogX X等等,直到变换后与应变量成,直到变换后与应变量成线性关系线性关系n n转化为有序多分类转化为有序多分类/二分类数据二分类数据n n定性变量:需定量化后方可引入定性变量:需定量化后方可引入模型模型定性变量的量化定性变量的量化n n二分类定性变量:常用0,1指示。如组别:n n无序多分类定性变量n n以哑以哑变量变量(dummy variables(dummy variables)形式形式纳入纳入n n有序多分类定性变量(等级变量)n n以以0 0、1 1、2 2、c c-1-1来来表示表示c c个类别直接纳入个类别直接纳入n n以哑变量形式引入以哑变量形式引入模型模型n n研究变量间数量依存关系,并以函数的形式表达研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法这种关系的统计学方法n n确定确定Y Y、X X,并量化,并量化n n确定确定回归回归模型模型:绘制散点图绘制散点图绘制散点图绘制散点图n n估计模型中的参数估计模型中的参数估计模型中的参数估计模型中的参数,形成,形成回归方程回归方程回归方程回归方程n n绘制回归绘制回归绘制回归绘制回归函数图形函数图形函数图形函数图形n n回归分析的统计推断回归分析的统计推断回归分析的统计推断回归分析的统计推断:=0=0n n回归模型诊断回归模型诊断回归模型诊断回归模型诊断n n回归方程回归方程回归方程回归方程预测预测预测预测/拟合效果拟合效果拟合效果拟合效果的评价的评价的评价的评价回归分析回归分析的基本步骤的基本步骤TC024681012510152025TG2468101214510152025Ins05101520510152025HbA1c4681012141657911131517192127名糖尿病患者空腹血糖含量及其他有关指标的测量结果散点图名糖尿病患者空腹血糖含量及其他有关指标的测量结果散点图多重线性回归模型简介多重线性回归模型简介n n说明1个因变量和多个自变量间数量依存关系,并用线性关系进行表达的统计分析方法y=+1 x1+2 x2+m xm+常数项或常数项或截距截距偏回归偏回归系数系数残差项残差项回归部分回归部分固定部分固定部分随机部分随机部分Glu=+1 TC+2 TG+3 Ins+4 HbA1c+模型基本模型基本假定假定y=+1 x1+2 x2+m xm+固定部分固定部分随机部分随机部分 N(0,2)Cov(i,j)=0 y|x1,x2,xm=+1x1+2x2+mxm参数含义参数含义n n常数项或截距常数项或截距(intercept/constant)(intercept/constant):或或 0 0n n所有所有自变量取值均为自变量取值均为0 0时时,Y Y的总体条件均数的总体条件均数n n y|xy|x1 1,x x2 2,xxm m=+1 10+0+2 200+m m00n n偏回归系数偏回归系数(partial regression coefficient(partial regression coefficient):):j jn n在其它在其它m m-1-1个自变量固定个自变量固定不变的条件下不变的条件下,X Xj j改变改变1 1个个单位单位时时应变应变量量Y Y的的平均改变平均改变量量参数含义参数含义n n残差项(residual)n n实测值与总体实测值与总体条件条件均数之均数之差,差,表示表示Y Y的的变异中变异中不能由不能由自变量解释自变量解释的的部分部分n n假设其服从假设其服从 NN(0,(0,2 2)n n研究变量间数量依存关系,并以函数的形式表达研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法这种关系的统计学方法n n确定确定Y Y、X X,并量化,并量化n n确定确定回归回归模型模型:绘制散点图绘制散点图绘制散点图绘制散点图n n估计模型中的参数估计模型中的参数估计模型中的参数估计模型中的参数,形成,形成回归方程回归方程回归方程回归方程n n绘制回归绘制回归绘制回归绘制回归函数图形函数图形函数图形函数图形n n回归分析的统计推断回归分析的统计推断回归分析的统计推断回归分析的统计推断:=0=0n n回归模型诊断回归模型诊断回归模型诊断回归模型诊断n n回归方程回归方程回归方程回归方程预测预测预测预测/拟合效果拟合效果的评价的评价的评价的评价回归分析回归分析的基本步骤的基本步骤系数估计方法系数估计方法n n利用已知的样本信息,获得最能表达变量间数量依存关系的多项式方程n n使使y y的总变异中,不能用自变量解释部分的变异的总变异中,不能用自变量解释部分的变异达到最小达到最小最小二乘估计最小二乘估计(least square estimate,(least square estimate,LSE)LSE)n n在一定分布的基础上,使出现的样本观测值发在一定分布的基础上,使出现的样本观测值发生概率达到最大生概率达到最大极大似然估计极大似然估计(maximum(maximum likelihood estimate,MLE)likelihood estimate,MLE)最小二乘估计最小二乘估计n n实际数据中所有y的实测值与模型预测值 之差的平方和Q达到最小n n建立关于bj的一阶偏导数,整理得到正规方程组,最终获得回归系数的估计值极大似然估计极大似然估计n n一次试验/观察就出现的事件/观察值有较大的概率,则使出现的样本观察值达到概率为最大的参数组合为参数估计值n n n n建立似然函数,并使其值达到建立似然函数,并使其值达到最大最大n n建立关于建立关于b bj j和和 的的一阶偏导数,整理得到正规方一阶偏导数,整理得到正规方程组,最终获得程组,最终获得估计值估计值其他系数估计方法其他系数估计方法n n偏最小二乘估计(partial least squares,PLS)n n加权最小二乘估计(Weighted Least Squares,WLS)n n岭估计(ridge estimation,RR)n n稳健估计法n nR R估计估计n nMM估计估计最小二乘法参数估计结果最小二乘法参数估计结果n n回归方程形式回归方程形式n nSPSSSPSS分析结果分析结果CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd.ErrorBeta1(Constant)5.943 2.829 2.101 0.047 TC0.142 0.366 0.078 0.390 0.701 TG0.351 0.204 0.309 1.721 0.099 Ins-0.271 0.121-0.339-2.229 0.036 HbA1c0.638 0.243 0.398 2.623 0.016 a.Dependent Variable:Glun na a=5.943mmol/L=5.943mmol/L,表示,表示TCTC、TGTG、InsIns、HbA1cHbA1c取值均为取值均为0 0时,空腹血糖的平均估计值为时,空腹血糖的平均估计值为5.943mmol/L5.943mmol/Ln nb b1 1=0.142=0.142mmol/Lmmol/L/mg/dlmg/dl,表示,表示TGTG、InsIns、HbA1cHbA1c取值固定时,取值固定时,TCTC每增加每增加1mg/dl1mg/dl,空腹血糖的,空腹血糖的平均增高平均增高0.142mmol/L0.142mmol/L编号编号(i)TCTGInsHbA1cGlu15.681.904.538.211.223.791.647.326.98.836.023.566.9510.812.344.851.075.888.311.654.602.324.057.513.466.050.641.4213.618.374.908.5012.608.511.187.083.006.7511.512.193.852.1116.287.99.6104.650.636.597.18.4114.591.973.618.79.3273.841.206.459.610.4表表16.1 27名糖尿病患者空腹血糖含量及其他有关指标的测量结果名糖尿病患者空腹血糖含量及其他有关指标的测量结果残差残差(ei)11.428-0.2289.482-0.68213.064-0.76410.7160.88411.1052.29515.3252.97511.644-0.54413.519-1.4197.871.739.575-1.17511.865-2.56511.293-0.893n n研究变量间数量依存关系,并以函数的形式表达研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法这种关系的统计学方法n n确定确定Y Y、X X,并量化,并量化n n确定确定回归回归模型模型:绘制散点图绘制散点图绘制散点图绘制散点图n n估计模型中的参数估计模型中的参数估计模型中的参数估计模型中的参数,形成,形成回归方程回归方程回归方程回归方程n n绘制回归绘制回归绘制回归绘制回归函数图形函数图形函数图形函数图形n n回归分析的统计推断回归分析的统计推断回归分析的统计推断回归分析的统计推断n n回归模型诊断回归模型诊断回归模型诊断回归模型诊断n n回归方程回归方程回归方程回归方程预测预测预测预测/拟合效果拟合效果的评价的评价的评价的评价回归分析回归分析的基本步骤的基本步骤多重线性回归的假设检验多重线性回归的假设检验n n所得回归方程根据样本资料获得,在外推到总体的过程中,亦可能存在抽样误差的影响n n模型的假设检验模型的假设检验n n回归系数的回归系数的假设检验假设检验模型的假设检验模型的假设检验1.建立检验假设,确立检验水准HH0 0:1 1=2 2=3 3=4 4=0=0HH1 1:1 1、2 2 、3 3 、4 4不不全为全为0 0=0.05=0.052.检验方法:方差分析3 3.确定确定P P值,作出值,作出统计推断统计推断按按=0.050.05水准,拒绝水准,拒绝HH0 0,接受,接受HH1 1,说明模型中自变量的系,说明模型中自变量的系数数不全为不全为0 0。变异来源变异来源SS MSFP回归回归133.711433.4288.278 n n诊断方法n nKleinKlein判别判别n n方差膨胀因子方差膨胀因子(variance inflation factor(variance inflation factor,VIF)VIF)和容和容忍度(忍度(tolerancetolerance,TOLTOL)n n特征根系统特征根系统(system of eigenvalues(system of eigenvalues)多重共线性及其诊断多重共线性及其诊断Klein判别判别n n通过自变量Xi与Xj间的线性相关系数rij进行初步判断n n ,说明,说明X Xi i与与X Xj j之间存在共线性之间存在共线性本例简单本例简单相关系数矩阵相关系数矩阵R2=0.601TCTGInsHbA1cTC1.000 0.632-0.355 0.415 TG0.632 1.000-0.039 0.219 Ins-0.355-0.039 1.000-0.330 HbA1c0.415 0.219-0.330 1.000 容忍度与方差膨胀因子容忍度与方差膨胀因子容忍度与方差膨胀因子容忍度与方差膨胀因子YXTOLjVIFjTCTG、Ins、HbA1c0.5420.4582.183 TGTC、Ins、HbA1c0.4380.5621.779 InsTC、TG、HbA1c0.2180.7821.279 HbA1cTC、TG、Ins0.2110.7891.267 例例16.1 模型模型的共线性诊断结果的共线性诊断结果无无TOLj0.1或或VIFj 10的情况的情况线性相关性的数学表达线性相关性的数学表达n n给定向量组X:1、X1、X2、Xm,若存在不全为0的数0、1、2、m,使n n则称向量则称向量组组X X是是线性相关线性相关的的n n j j为为X XT TX X的特征根的特征根条件条件指数与方差分量指数与方差分量n n条件指数(conditions index):最大特征根与每个特征根之比的平方根n nh hj j 1010时认为存在多重共线性时认为存在多重共线性n nh hj j 3030时认为时认为存在存在严重严重多重共线性多重共线性n n方差分量(Proportion of Variation):各变量在各主成份上的分解,以百分数的形式给出,方差分量之和为1n nh hj j 1010,且,且方差分量方差分量大于大于0.50.5时,可认为多重共线时,可认为多重共线性严重性严重存在存在Collinearity DiagnosticsaModelEigenvalueConditionIndexVariance Proportions(Constant)TCTGInsHbA1c114.356 1.000 0.001 0.002 0.009 0.008 0.001 20.392 3.334 0.002 0.001 0.390 0.167 0.001 30.216 4.487 0.006 0.015 0.218 0.435 0.022 40.023 13.636 0.001 0.744 0.237 0.028 0.510 50.013 18.548 0.990 0.238 0.145 0.362 0.465 a.Dependent Variable:Glu多重共线性多重共线性n n对多重共线性的认识对多重共线性的认识n n现实数据中该现象难以避免,一般认为共线性在程度现实数据中该现象难以避免,一般认为共线性在程度上较弱时,线性回归仍然是有效的工具上较弱时,线性回归仍然是有效的工具n n多重共线性较强时的处理方法多重共线性较强时的处理方法n n单单因素分析:初筛因素分析:初筛n n删除删除共线性较强且专业上或统计学上认为不重要的共线性较强且专业上或统计学上认为不重要的变变量量n n增大样本例数增大样本例数n n换换用其它方法用其它方法n n岭回归、主成分回归、偏岭回归、主成分回归、偏最小二乘回归最小二乘回归逐步回归结果逐步回归结果CoefficientsaModelUnstandardized CoefficientsStandardized CoefficientstSig.BStd.ErrorBeta1(Constant)3.006 2.364 1.272 0.215 HbA1c0.978 0.254 0.610 3.845 0.001 2(Constant)2.998 2.189 1.369 0.184 HbA1c0.858 0.241 0.535 3.555 0.002 TG0.388 0.171 0.341 2.269 0.033 3(Constant)6.500 2.396 2.713 0.012 HbA1c0.663 0.230 0.413 2.880 0.008 TG0.402 0.154 0.354 2.612 0.016 Ins-0.287 0.112-0.360-2.570 0.017 a.Dependent Variable:Glu离群值识别与强影响点分析离群值识别与强影响点分析n n离群值(outliner):远离数据主体的数据点n n杠杆值杠杆值(leverage)(leverage):h hii ii,帽子,帽子矩阵中第矩阵中第i i个对角元个对角元的的值值n n说明第说明第i i个点个点 背离中心点背离中心点,即即x x的的均向量均向量 的的程度程度n n 可可认为该数据点为认为该数据点为离群值离群值n n学生化残差学生化残差(studentized residual)(studentized residual)n n 可认为该数据点为离群值可认为该数据点为离群值离群值识别与强影响点分析离群值识别与强影响点分析n n强影响点(high leverage point):对模型系数的估计和统计推断影响特别大的数据点n n剔除该点后系数及其标准误的估计值变化剔除该点后系数及其标准误的估计值变化较大较大n nCookCook距离距离D Di i(Cooks(Cooks distancedistance)n nDFFITSDFFITS离群值识别与强影响点分析离群值识别与强影响点分析n nCook距离:剔除第i个观察对象与否,所有对象预测值的改变量的标准化值D Di i0.50.5或或D Di i4/4/n n为为强影响强影响点点离群值识别与强影响点分析离群值识别与强影响点分析n nDFFITS:剔除第i个观察对象与否,该观测对象预测值改变量的标准化值n nSPSSSPSS:Standardized Standardized DfFit DfFit 为为强影响点强影响点强影响强影响点的处理点的处理n n当数据中存在强影响点时,其将对参数及其标准误的估计产生影响n n删除删除n n稳健估计方法稳健估计方法n nR R估计估计n nMM估计估计残差图残差图n n用途n n残差是否服从正态分布残差是否服从正态分布 的诊断的诊断n n离群值离群值识别识别n n线性诊断线性诊断n n残差方差齐性的诊断残差方差齐性的诊断n n独立性独立性诊断诊断n n自变量与残差的独立性诊断自变量与残差的独立性诊断n n残差之间的独立性诊断残差之间的独立性诊断t0 2-2n n研究变量间数量依存关系,并以函数的形式表达研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法这种关系的统计学方法n n确定确定Y Y、X X,并量化,并量化n n确定确定回归回归模型模型:绘制散点图绘制散点图绘制散点图绘制散点图n n估计模型中的参数估计模型中的参数估计模型中的参数估计模型中的参数,形成,形成回归方程回归方程回归方程回归方程n n绘制回归绘制回归绘制回归绘制回归函数图形函数图形函数图形函数图形n n回归分析的统计推断回归分析的统计推断回归分析的统计推断回归分析的统计推断n n回归模型诊断回归模型诊断回归模型诊断回归模型诊断:NN(0,(0,2 2)、共线性诊断等、共线性诊断等n n回归方程回归方程回归方程回归方程预测预测预测预测/拟合效果拟合效果的评价的评价的评价的评价回归分析回归分析的基本步骤的基本步骤决定系数决定系数决定系数决定系数n n决定系数的特征n n无单位,取值在无单位,取值在0101之间之间n n其值越大,说明回归效果越好其值越大,说明回归效果越好n n方程中的自变量增加时,无论自变量有无统计方程中的自变量增加时,无论自变量有无统计学意义学意义R R2 2总是总是增大增大n n消除决定系数在评价回归效果时,与自变量个数有关的缺陷n n校正决定系数越大,说明回归效果越好n n本例本例校正决定系数校正决定系数n n研究变量间数量依存关系,并以函数的形式表达研究变量间数量依存关系,并以函数的形式表达这种关系的统计学方法这种关系的统计学方法n n确定确定Y Y、X X,并量化,并量化n n确定确定回归回归模型模型:绘制散点图绘制散点图绘制散点图绘制散点图n n估计模型中的参数估计模型中的参数估计模型中的参数估计模型中的参数,形成,形成回归方程回归方程回归方程回归方程n n绘制回归绘制回归绘制回归绘制回归函数图形函数图形函数图形函数图形n n回归分析的统计推断回归分析的统计推断回归分析的统计推断回归分析的统计推断n n回归模型诊断回归模型诊断回归模型诊断回归模型诊断:NN(0,(0,2 2)、共线性诊断等、共线性诊断等n n回归方程回归方程回归方程回归方程预测预测预测预测/拟合效果拟合效果的评价的评价的评价的评价回归分析回归分析的基本步骤的基本步骤多重线性回归分析的用途多重线性回归分析的用途n n分析一个因变量与多个自变量间线性关系n n说明自变量对因变量的影响强度说明自变量对因变量的影响强度n n用已知的自变量预测因变量n n筛选疾病的影响因素:危险因素或保护因素n n用于建立专家辅助诊断系统或进行统计控制多重线性回归分析的注意事项多重线性回归分析的注意事项n n因变量Y必须是连续型定量变量,且服从总体均数依赖于x的正态分布n n自变量可以是连续型定量变量或定性变量n n样本含量一般要求为自变量个数的520倍
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!