线性回归计算方法及公式.ppt

上传人:max****ui 文档编号:6433542 上传时间:2020-02-25 格式:PPT 页数:35 大小:279.74KB
返回 下载 相关 举报
线性回归计算方法及公式.ppt_第1页
第1页 / 共35页
线性回归计算方法及公式.ppt_第2页
第2页 / 共35页
线性回归计算方法及公式.ppt_第3页
第3页 / 共35页
点击查看更多>>
资源描述
多元线性回归 多元线性回归 多元线性回归是简单线性回归的直接推广 其包含一个因变量和二个或二个以上的自变量 简单线性回归是研究一个因变量 Y 和一个自变量 X 之间数量上相互依存的线性关系 而多元线性回归是研究一个因变量 Y 和多个自变量 Xi 之间数量上相互依存的线性关系 简单线性回归的大部分内容可用于多元回归 因其基本概念是一样的 内容安排 多元线性回归模型与参数估计回归方程和偏回归系数的假设检验标准化偏回归系数和确定系数多元回归分析中的若干问题回归分析中自变量的选择多元线性回归分析的作用 多元线性回归模型与参数估计 设有自变量x1 x2 xp和因变量Y以及一份由n个个体构成的随机样本 x1i x2i xpi Yi 且有如下关系 y B0 B1x1 B2x2 Bpxp 模型 B0 B1 B2和Bp为待估参数 为残差 由一组样本数据 可求出等估参数的估计值b0 b1 b2和bp 得到如下回归方程 i b0 b1x1 b2x2 bpxp由此可见 建立回归方程的过程就是对回归模型中的参数 常数项和偏回归系数 进行估计的过程 参数的最小二乘估计 与简单回归类似 我们寻求参数B0 B1 B2和Bp的适宜估计数值b0 b1 b2和bp 使实际观察值和回归方程估计值之间残差平方和最小 即Q yi i 2 yi b0 b1x1i b2x2i bpxpi 2对b0 b1 bp分别求偏导数 今偏导数为零可获得P 1个正规方程 求解正规方程可得待估参数值 回归方程和偏回归系数的假设检验 回归方程的假设检验 建立回归方程后 须分析应变量Y与这p个自变量之间是否确有线性回归关系 可用F分析 H0 B1 B2 Bp 0H1 H0不正确 0 05F MS回归 MS误差MS回归 SS回归 pSS回归 bjLjy j 1 2 P MS误差 SS误差 n p 1 SS误差为残差平方和 偏回归系数的假设检验回归方程的假设检验若拒绝H0 则可分别对每一个偏回归系数bj作统计检验 实质是考察在固定其它变量后 该变量对应变量Y的影响有无显著性 H0 Bj 0H1 Bj不为零 0 05F Xj的偏回归平方和 1 MS误差Xj的偏回归平方和 去Xj后回归平方和的减少量若H0成立 可把Xj从回归方程中剔除 余下变量重新构建新的方程 标准化偏回归系数和确定系数 标准化偏回归系数 在比较各自变量对应变量相对贡献大小时 由于各自变量的单位不同 不能直接用偏回归系数的大小作比较 须用标准化偏回归系数 bj bj sj sy 确定系数 简记为R2 即回归平方和SS回归与总离均差平方和SS总的比例 R2 SS回归 SS总可用来定量评价在Y的总变异中 由P个X变量建立的线性回归方程所能解释的比例 回归分析中的若干问题 资料要求 总体服从多元正态分布 但实际工作中分类变量也做分析 n足够大 至少应是自变量个数的5倍分类变量在回归分析中的处理方法有序分类 治疗效果 x 0 无效 x 1 有效 x 2 控制 无序分类 有k类 则用k 1变量 伪变量 如职业 分四类可用三个伪变量 y1y2y3工人100农民010干部001学生000 多元线性回归方程的评价评价回归方程的优劣 好坏可用确定系数R2和剩余标准差Sy x1 2 p Sy x1 2 p SQRT SS误差 n p 1 如用于预测 重要的是组外回代结果 回归方程中自变量的选择 多元线性回归方程中并非自变量越多越好 原因是自变量越多剩余标准差可能变大 同时也增加收集资料的难度 故需寻求 最佳 回归方程 逐步回归分析是寻求 较佳 回归方程的一种方法 选择变量的统计学标准 R2最大R2 SS回归 SS总adjR2最大 adjR2 1 MS误差 MS总Cp值最小Cp n p 1 MS误差 p MS误差 全部 1 p 1 选择变量的方法 最优子集回归分析法 p个变量有2p 1个方程逐步回归分析向前引入法 forwardselection 向后剔除法 backwardselection 逐步引入 剔除法 stepwiseselection H0 K个自变量为好H1 K 1个自变量为好 向前引入法 forwardselection 自变量由少到多一个一个引入回归方程 将corr y xj 最大而又能拒绝H0者 最先引入方程 余此类推 至不能再拒绝H0为止 向后剔除法 backwardselection 自变量先全部选入方程 每次剔除一个使上述检验最不能拒绝H0者 直到不能剔除为止 逐步引入 剔除法 stepwiseselection 先规定两个阀值F引入和F剔除 当候选变量中最大F值 F引入时 引入相应变量 已进入方程的变量最小F F剔除时 剔除相应变量 如此交替进行直到无引入和无剔除为止 计算复杂 多元线性回归方程的作用 因素分析调整混杂因素的作用统计预测 例 测量16名四岁男孩心脏纵径X1 CM 心脏横径X2 CM 和心象面积Y CM2 三项指标 得如下数据 试作象面积Y对心脏纵径X1 心脏横径X2多元线性回归分析 例 某科研协作组调查山西某煤矿2期高血压病患者40例 资料如下表 试进行影响煤矿工人2期高血压病病人收缩压的多元线性回归分析 Logistic回归 多元回归分析可用来分析多个自变量与一个因变量的关系 模型中因变量Y是边连续性随机变量 并要求呈正态分布 但在医学研究中 常碰到因变量的取值仅有两个 如药物实验中 动物出现死亡或生存 死亡概率与药物剂量有关 设P表示死亡概率 X表示药物剂量 P和X的关系显然不能用一般线性回归模型P B0 B1X来表示 这时可用Logistic回归分析 内容安排 Logistic回归模型模型参数的意义Logistic回归模型的参数估计Logistic回归方程的假设检验Logistic回归模型中自变量的筛选Logistic回归的应用 Logistic回归模型 先引入Logistic分布函数 表达式为 F x ex 1 ex X的取值在正负无穷大之间 F x 则在0 1之间取值 并呈单调上升S型曲线 人们正是利用Logistic分布函数这一特征 将其应用到临床医学和流行病学中来描述事件发生的概率 以因变量D 1表示死亡 D 0表示生存 以P D 1 X 表示暴露于药物剂量X的动物死亡的概率 设P D 1 X eBo BX 1 eBo BX 记Logit P ln p 1 p 则上式可表示为 Logit P Bo BX这里X的取值仍是任意的 Logit P 的值亦在正负无穷大之间 概率P的数值则必然在0 1之间 p 1 p 为事件的优势 Logit P 为对数优势 故logistic回归又称对数优势线性回归 一般地 设某事件D发生 D 1 的概率P依赖于多个自变量 x1 x2 xp 且P D 1 eBo B1X1 BpXp 1 eBo B1X1 BpXp 或Logit P Bo B1X1 BpXp则称该事件发生的概率与变量间关系符合多元Logistic回归或对数优势线性回归 logistic回归模型参数的意义 优势比 oddsratio OR 暴露人群发病优势与非暴露人群发病优势之比 P 1 1 p 1 OR P 0 1 p 0 Ln oR logit p 1 logit p 0 B0 B 1 B0 B 0 B可见B是暴露剂量增加一个单位所引起的对数优势的增量 或单位暴露剂量与零剂量死亡优势比的对数 eB就是两剂量死亡优势比 常数项B0是所有变量X等于零时事件发生优势的对数 Logistic回归的参数估计 Logistic回归模型的参数估计常用最大似然法 最大似然法的基本思想是先建立似然函数或对数似然函数 似然函数或对数似然函数达到极大时参数的取值 即为参数的最大似然估计值 其步骤为对对数似然函数中的待估参数分别求一阶偏导数 令其为0得一方程组 然后求解 由于似然函数的偏导数为非线性函数 参数估计需用非线性方程组的数值法求解 常用的数值法为Newton Raphson法 不同研究的设计方案不同 其似然函数的构造略有差别 故Logistic回归有非条件Logistic回归与条件Logistic回归两种 Logistic回归的假设检验 1 拟合优度检验 目的是检验模型估计值与实际观察值的符合程度 SAS程序提供了下列统计量 A AIC和SC 对同一份资料 在模型比较中 这两个越小 表明模型越合适 B 2LogL 用于检验全部自变量 协变量 的联合作用 如显著 表明全部协变量的联合作用显著 如不显著 表明全部协变量的联合作用不大 可予忽视 C Score 用于检验全部协变量联合作用的显著性 但不包截距项 2 偏回归系数的显著性检验 目的是检验回归模型中自变量的系数是否为零 等价于总体优势比OR是否为零 H0 B等于零H1 B不等于零A wald检验 B Scoretest C likelihoodratiotest waldchi squaretest 回归模型中自变量的筛选 和多元线性回归分析一样 在Logistic回归分析中也须对自变量进行筛选 方法和多元线性回归中采用的方法一样 有向后剔除法 向前引入法及逐步筛选法三种 筛选自变量的方法有wald检验 Scoretest likelihoodratiotest waldchi squaretest 三种 Logistic回归的应用 筛选危险因素校正混杂因素预测与判别 例1 在饮酒与食道癌的成组病例对照研究中 共有200例食道癌患者和774例非食道癌对照 年龄是混杂因素 按年龄分层后资料如下 age对象 1 病例0 对照 饮酒不饮酒合计OR25 3411010910611535 4414595 0502616419045 5412521465 6702913816755 6414234766 3602713816565 7411936552 580188810675 15813003131 例2 研究女生月经初潮与体质关系的调查中 某地调查了23名11 15岁女生的月经和体质情况 脉搏X1为30秒脉搏数 体重X2单位为公斤 年龄X3单位为岁 月经Y为0表示未来月经 1表示已来月经 试用非条件Logistic回归进行分析 X1 40X2 40X3 13p 0 92 X1 39X2 35X3 11p 0 23 例3 在研究新生儿出生时体重 妊娠周数与支气管肺的发育不良病 BPD 的关系时 得下表资料 出生时体重 组中值 妊娠周数观察人数患BPD人数birthweightagenBPD75027413375029 521157503261115027177115029 536711503227415502700155029 5164155032595
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!