线性回归计算方法及公式

上传人:奇异 文档编号:24238356 上传时间:2021-06-25 格式:PPT 页数:35 大小:256.50KB
返回 下载 相关 举报
线性回归计算方法及公式_第1页
第1页 / 共35页
线性回归计算方法及公式_第2页
第2页 / 共35页
线性回归计算方法及公式_第3页
第3页 / 共35页
点击查看更多>>
资源描述
多 元 线 性 回 归 多 元 线 性 回 归 是 简 单 线 性 回 归 的 直 接 推 广 , 其 包 含 一个 因 变 量 和 二 个 或 二 个 以 上 的 自 变 量 。 简 单 线 性 回 归 是 研 究 一 个 因 变 量 ( Y) 和 一 个 自 变 量( X) 之 间 数 量 上 相 互 依 存 的 线 性 关 系 。 而 多 元 线 性 回归 是 研 究 一 个 因 变 量 ( Y) 和 多 个 自 变 量 ( Xi) 之 间 数量 上 相 互 依 存 的 线 性 关 系 。 简 单 线 性 回 归 的 大 部 分 内 容 可 用 于 多 元 回 归 , 因 其 基本 概 念 是 一 样 的 。 内容安排 多元线性回归模型与参数估计 回归方程和偏回归系数的假设检验 标准化偏回归系数和确定系数 多元回归分析中的若干问题 回归分析中自变量的选择 多元线性回归分析的作用 多 元 线 性 回 归 模 型 与 参 数 估 计 设 有 自 变 量 x1,x2,xp和 因 变 量 Y以 及 一 份 由 n个 个 体 构成 的 随 机 样 本 (x1i,x2i,xpi,, Yi) , 且 有 如 下 关 系 : y =B0+B1x1+B2x2+Bp xp+ (模 型 ) B0、 B1、 B2和 Bp为 待 估 参 数 , 为 残 差 。 由 一 组 样 本 数 据 , 可 求 出 等 估 参 数 的 估 计 值 b0、 b1、 b2和 bp,, 得 到 如 下 回 归 方 程 : i =b0+b1x1+b2x2+bp xp 由 此 可 见 , 建 立 回 归 方 程 的 过 程 就 是 对 回 归 模 型 中 的参 数 ( 常 数 项 和 偏 回 归 系 数 ) 进 行 估 计 的 过 程 。 参 数 的 最 小 二 乘 估 计 与 简 单 回 归 类 似 , 我 们 寻 求 参 数 B0、 B1、 B2和Bp的 适 宜 估 计 数 值 b0、 b1、 b2和 bp,, 使 实 际 观察 值 和 回 归 方 程 估 计 值 之 间 残 差 平 方 和 最 小 , 即 Q (yi i) 2 = (yi b0 b1x1i b2x2i bp xp i) 2 对 b0、 b1、 bp分 别 求 偏 导 数 , 今 偏 导 数 为 零可 获 得 P 1个 正 规 方 程 , 求 解 正 规 方 程 可 得 待估 参 数 值 。 回 归 方 程 和 偏 回 归 系 数 的 假 设 检 验回 归 方 程 的 假 设 检 验 : 建 立 回 归 方 程 后 , 须 分 析 应 变 量 Y与 这 p个 自变 量 之 间 是 否 确 有 线 性 回 归 关 系 , 可 用 F分 析 。 H0: B1 B2 .=Bp=0 H1: H0不 正 确 0.05 F MS回 归 / MS误 差 MS回 归 SS回 归 p SS回 归 = bjLjy ( j =1,2.,P)MS 误 差 SS误 差 (n-p-1) SS误 差 为 残 差 平 方 和 偏 回 归 系 数 的 假 设 检 验 回 归 方 程 的 假 设 检 验 若 拒 绝 H0, 则 可 分 别 对 每一 个 偏 回 归 系 数 bj作 统 计 检 验 , 实 质 是 考 察 在 固定 其 它 变 量 后 , 该 变 量 对 应 变 量 Y 的 影 响 有 无显 著 性 。 H0: Bj=0 H1: Bj不 为 零 0.05 F ( Xj 的 偏 回 归 平 方 和 1) / MS误 差 Xj 的 偏 回 归 平 方 和 : 去 Xj后 回 归 平 方 和 的 减 少 量 若 H0成 立 , 可 把 Xj从 回 归 方 程 中 剔 除 , 余 下 变量 重 新 构 建 新 的 方 程 。 标 准 化 偏 回 归 系 数 和 确 定 系 数 标 准 化 偏 回 归 系 数 : 在 比 较 各 自 变 量 对 应 变 量 相 对 贡 献 大 小 时 , 由于 各 自 变 量 的 单 位 不 同 , 不 能 直 接 用 偏 回 归 系数 的 大 小 作 比 较 , 须 用 标 准 化 偏 回 归 系 数 。 bj = bj (sj / sy) 确 定 系 数 : 简 记 为 R2, 即 回 归 平 方 和 SS回 归 与 总 离 均差 平 方 和 SS总 的 比 例 。 R2 SS回 归 SS总 可 用 来 定 量 评 价 在 Y的 总 变 异 中 , 由 P个X变 量 建 立 的 线 性 回 归 方 程 所 能 解 释 的 比例 。 回 归 分 析 中 的 若 干 问 题 资 料 要 求 : 总 体 服 从 多 元 正 态 分 布 。 但 实 际 工作 中 分 类 变 量 也 做 分 析 。 n足 够 大 , 至 少 应 是 自 变 量 个 数 的 5倍 分 类 变 量 在 回 归 分 析 中 的 处 理 方 法 有 序 分 类 :治 疗 效 果 : x=0(无 效 ) x=1(有 效 ) x=2(控 制 ) 无 序 分 类 : 有 k类 , 则 用 k 1变 量 ( 伪 变 量 ) 如 职 业 ,分 四 类 可 用 三 个 伪 变 量 : y1 y2 y3 工 人 1 0 0 农 民 0 1 0 干 部 0 0 1 学 生 0 0 0 多 元 线 性 回 归 方 程 的 评 价 评 价 回 归 方 程 的 优 劣 、 好 坏 可 用 确 定 系数 R2和 剩 余 标 准 差 Sy,x1,2.p 。 Sy,x1,2. p SQRT( SS误 差 n-p-1) 如 用 于 预 测 , 重 要 的 是 组 外 回 代 结 果 。 回 归 方 程 中 自 变 量 的 选 择 多 元 线 性 回 归 方 程 中 并 非 自 变 量 越 多 越好 , 原 因 是 自 变 量 越 多 剩 余 标 准 差 可 能变 大 ; 同 时 也 增 加 收 集 资 料 的 难 度 。 故需 寻 求 “ 最 佳 ” 回 归 方 程 , 逐 步 回 归 分析 是 寻 求 “ 较 佳 ” 回 归 方 程 的 一 种 方 法 。 选 择 变 量 的 统 计 学 标 准 R2最 大 R2 SS回 归 SS总 adjR2最 大 : adjR2 1 MS误 差 / MS总 Cp值 最 小 Cp ( n-p-1)(MS误 差 .p/MS误 差 .全 部 1) ( p+1) 选 择 变 量 的 方 法 最 优 子 集 回 归 分 析 法 : p个 变 量 有 2p 1个 方 程 逐 步 回 归 分 析向 前 引 入 法 (forward selection)向 后 剔 除 法 (backward selection)逐 步 引 入 剔 除 法 (stepwise selection)H0: K个 自 变 量 为 好 H1: K 1个 自 变 量 为 好 向 前 引 入 法 ( forward selection) 自 变 量 由 少 到 多 一 个 一 个 引 入 回 归 方 程 。将 corr(y , xj)最 大 而 又 能 拒 绝 H0者 , 最先 引 入 方 程 , 余 此 类 推 。 至 不 能 再 拒 绝H0为 止 。 向 后 剔 除 法 ( backward selection) 自 变 量 先 全 部 选 入 方 程 , 每 次 剔 除 一 个 使上 述 检 验 最 不 能 拒 绝 H0者 , 直 到 不 能 剔除 为 止 。 逐 步 引 入 剔 除 法 ( stepwise selection) 先 规 定 两 个 阀 值 F引 入 和 F剔 除 , 当 候 选 变量 中 最 大 F值 F引 入 时 , 引 入 相 应 变 量 ;已 进 入 方 程 的 变 量 最 小 F F剔 除 时 , 剔除 相 应 变 量 。 如 此 交 替 进 行 直 到 无 引 入和 无 剔 除 为 止 。 ( 计 算 复 杂 ) 多 元 线 性 回 归 方 程 的 作 用 因 素 分 析 调 整 混 杂 因 素 的 作 用 统 计 预 测 例 : 测 量 16名 四 岁 男 孩 心 脏 纵 径 X1( CM) 、 心 脏 横 径X2( CM) 和 心 象 面 积 Y( CM2) 三 项 指 标 , 得 如 下 数据 。 试 作 象 面 积 Y对 心 脏 纵 径 X1、 心 脏 横 径 X2多 元 线性 回 归 分 析 。例 : 某 科 研 协 作 组 调 查 山 西 某 煤 矿 2期 高 血 压 病 患 者 40例 ,资 料 如 下 表 , 试 进 行 影 响 煤 矿 工 人 2期 高 血 压 病 病 人 收缩 压 的 多 元 线 性 回 归 分 析 。 Logistic回 归 多 元 回 归 分 析 可 用 来 分 析 多 个 自 变 量 与 一个 因 变 量 的 关 系 , 模 型 中 因 变 量 Y是 边 连续 性 随 机 变 量 , 并 要 求 呈 正 态 分 布 。 但 在医 学 研 究 中 , 常 碰 到 因 变 量 的 取 值 仅 有 两个 , 如 药 物 实 验 中 , 动 物 出 现 死 亡 或 生 存 ,死 亡 概 率 与 药 物 剂 量 有 关 。 设 P表 示 死 亡概 率 , X表 示 药 物 剂 量 , P和 X的 关 系 显 然不 能 用 一 般 线 性 回 归 模 型 P B0 B1X来表 示 。 这 时 可 用 Logistic回 归 分 析 。 内 容 安 排 Logistic回 归 模 型 模 型 参 数 的 意 义 Logistic回 归 模 型 的 参 数 估 计 Logistic回 归 方 程 的 假 设 检 验 Logistic回 归 模 型 中 自 变 量 的 筛 选 Logistic回 归 的 应 用 Logistic回 归 模 型 先 引 入 Logistic分 布 函 数 , 表 达 式 为 : F( x) = ex / ( 1+ex ) X的 取 值 在 正 负 无 穷 大 之 间 ; F(x)则 在 0 1之间 取 值 , 并 呈 单 调 上 升 S型 曲 线 。 人 们 正 是 利用 Logistic分 布 函 数 这 一 特 征 , 将 其 应 用 到 临 床医 学 和 流 行 病 学 中 来 描 述 事 件 发 生 的 概 率 。 以 因 变 量 D 1表 示 死 亡 , D 0表 示 生 存 , 以 P( D 1 X)表 示 暴 露 于 药 物 剂 量 X的 动 物 死 亡 的 概 率 , 设 P( D 1 X) e Bo+BX /(1+e Bo+BX )记 Logit(P)=lnp/(1-p),则 上 式 可 表 示 为 : Logit(P) Bo+BX 这 里 X的 取 值 仍 是 任 意 的 , Logit(P)的 值 亦在 正 负 无 穷 大 之 间 , 概 率 P的 数 值 则 必 然 在0 1之 间 。 p/(1-p)为 事 件 的 优 势 , Logit(P)为 对 数 优 势 , 故 logistic回 归 又 称 对 数 优 势线 性 回 归 一 般 地 , 设 某 事 件 D发 生 ( D 1) 的 概率 P依 赖 于 多 个 自 变 量 ( x1,x2, ,xp), 且 P( D 1) e Bo+B1X1+BpXp /(1+e Bo+B1X1+BpXp ) 或 Logit(P) Bo+B1X1+Bp X p则 称 该 事 件 发 生 的 概 率 与 变 量 间 关 系 符 合 多 元Logistic回 归 或 对 数 优 势 线 性 回 归 。 logistic回 归 模 型 参 数 的 意 义 优 势 比 ( odds ratio, OR): 暴 露 人 群 发 病 优 势 与 非 暴 露人 群 发 病 优 势 之 比 。 P(1) / 1-p(1) OR= P(0) / 1-p(0) Ln(oR)=logitp(1)-logitp(0)=(B0+B 1) (B0+B 0)=B 可 见 B是 暴 露 剂 量 增 加 一 个 单 位 所 引 起 的 对 数 优 势 的 增量 , 或 单 位 暴 露 剂 量 与 零 剂 量 死 亡 优 势 比 的 对 数 。 eB就是 两 剂 量 死 亡 优 势 比 。 常 数 项 B 0是 所 有 变 量 X等 于 零 时事 件 发 生 优 势 的 对 数 。 Logistic回 归 的 参 数 估 计 Logistic回 归 模 型 的 参 数 估 计 常 用 最 大 似 然 法 , 最 大 似然 法 的 基 本 思 想 是 先 建 立 似 然 函 数 或 对 数 似 然 函 数 ,似 然 函 数 或 对 数 似 然 函 数 达 到 极 大 时 参 数 的 取 值 , 即为 参 数 的 最 大 似 然 估 计 值 。 其 步 骤 为 对 对 数 似 然 函 数中 的 待 估 参 数 分 别 求 一 阶 偏 导 数 , 令 其 为 0得 一 方 程 组 ,然 后 求 解 。 由 于 似 然 函 数 的 偏 导 数 为 非 线 性 函 数 , 参数 估 计 需 用 非 线 性 方 程 组 的 数 值 法 求 解 。 常 用 的 数 值法 为 Newton-Raphson法 。 不 同 研 究 的 设 计 方 案 不 同 ,其 似 然 函 数 的 构 造 略 有 差 别 , 故 Logistic回 归 有 非 条 件Logistic回 归 与 条 件 Logistic回 归 两 种 。 Logistic回 归 的 假 设 检 验1、 拟 合 优 度 检 验 : 目 的 是 检 验 模 型 估 计 值 与 实 际 观 察 值的 符 合 程 度 。 SAS程 序 提 供 了 下 列 统 计 量 。A、 AIC和 SC: 对 同 一 份 资 料 , 在 模 型 比 较 中 , 这 两 个 越小 , 表 明 模 型 越 合 适 。B、 2LogL: 用 于 检 验 全 部 自 变 量 ( 协 变 量 ) 的 联 合 作用 。 如 显 著 , 表 明 全 部 协 变 量 的 联 合 作 用 显 著 ; 如 不显 著 , 表 明 全 部 协 变 量 的 联 合 作 用 不 大 , 可 予 忽 视 。C、 Score: 用 于 检 验 全 部 协 变 量 联 合 作 用 的 显 著 性 , 但不 包 截 距 项 。 2、 偏 回 归 系 数 的 显 著 性 检 验 : 目 的 是 检 验 回归 模 型 中 自 变 量 的 系 数 是 否 为 零 , 等 价 于 总体 优 势 比 OR是 否 为 零 。 H0: B等 于 零 H1: B不 等 于 零A、 wald检 验 :B、 Score test:C、 likelihood ratio test(wald chi-square test): 回 归 模 型 中 自 变 量 的 筛 选 和 多 元 线 性 回 归 分 析 一 样 , 在 Logistic回归 分 析 中 也 须 对 自 变 量 进 行 筛 选 。 方 法和 多 元 线 性 回 归 中 采 用 的 方 法 一 样 , 有向 后 剔 除 法 、 向 前 引 入 法 及 逐 步 筛 选 法三 种 。 筛 选 自 变 量 的 方 法 有 wald检 验 、Score test、 likelihood ratio test(wald chi-square test)三 种 。 Logistic 回 归 的 应 用 筛 选 危 险 因 素 校 正 混 杂 因 素 预 测 与 判 别 例 1: 在 饮 酒 与 食 道 癌 的 成 组 病 例 对 照 研 究 中 , 共 有 200例 食 道 癌 患 者 和 774例 非 食 道 癌 对 照 , 年 龄 是 混 杂 因 素 ,按 年 龄 分 层 后 资 料 如 下 : age 对 象 ( 1=病 例 0=对 照 ) 饮 酒 不 饮 酒 合 计 OR 2534 1 1 0 1 0 9 106 115 35-44 1 4 5 9 5.05 0 26 164 19045-54 1 25 21 46 5.67 0 29 138 16755-64 1 42 34 76 6.36 0 27 138 16565-74 1 19 36 55 2.58 0 18 88 106 75- 1 5 8 13 0 0 31 31 例 2: 研 究 女 生 月 经 初 潮 与 体 质 关 系 的 调查 中 , 某 地 调 查 了 23名 1115岁 女 生 的月 经 和 体 质 情 况 , 脉 搏 X1为 30秒 脉 搏 数 ,体 重 X2单 位 为 公 斤 , 年 龄 X3单 位 为 岁 。月 经 Y为 0表 示 未 来 月 经 , 1表 示 已 来 月 经 。试 用 非 条 件 Logistic 回 归 进 行 分 析 。 ( X1=40 X2=40 X3=13 p=0.92; X1=39 X2=35 X3=11 p=0.23) 例 3: 在 研 究 新 生 儿 出 生 时 体 重 、 妊 娠 周 数 与 支 气 管 肺 的 发 育 不 良病 ( BPD) 的 关 系 时 , 得 下 表 资 料 。 出 生 时 体 重 ( 组 中 值 ) 妊 娠 周 数 观 察 人 数 患 BPD人 数 birth weight age n BPD 750 27 41 33 750 29.5 21 15 750 32 6 1 1150 27 17 7 1150 29.5 36 7 1150 32 27 4 1550 27 0 0 1550 29.5 16 4 1550 32 59 5
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!