资源描述
基 本 统 计( Basic Statistics) DefineMeasure AnalyzeImproveControlStep 4- 确 定 项 目 Ys Step 5- 确 认 Y的 现 水 准 Step 6-发 掘 潜 在 的 原 因 变 量 (X)q 基 础 统 计 学q Minitab简 介q 测 量 系 统 分 析 q Y的 表 现 水 平 及 目 标q 确 定 改 进 目 标 如果工程不稳定,鉴别并祛除不稳定的要因 - 它在目标线上吗?如果不在,确定影响平均值的变量,并决定最优的设置以达到 目标值 -与顾客的要求(规格限)比起来,是可接受的吗? 如果不是, 确定散布源,而后消除或减少他们对工程的影响。 q Data的种类 q 统计的基础q 流程的散布 q Graphical Presentationq 正态分布q 统计量的陈述方法q Data Mining 种类好 / 坏机器1, 机器2, 机器3班次记数事件 (如文件中的错误数, 装船的部品数,等) - 连续的数据 (有意义的小数)时间(秒)压力 (psi)传送带速度 (ft/min)Rate (inches) 等等. Categorical Data(分 类 数 据 ) Measurement Data(测 量 数 据 )Nominal(定 性 数 据 )Ordinal(顺 序 数 据 ) Continuous(连 续 数 据 )Counting(计 数 数 据 )Discrete Data(离 散 数 据 ) 问 题 判 断 下 面 的 情 况 是 计 数 型 还 是 计 量 型 ?1) 不 同 地 区 顾 客 的 平 均 消 费 ,电 话 待 机 时 间2) Zip drive 中 发 生 的 S/W 故 障 次 数3) 雇 员 - Tom, Nancy, Howard.4) 顾 客 别 商 品 保 证 金5) 没 有 误 差 发 生 的 支 出6) 输 入 预 定 支 出 完 了 所 用 时 间 记 数 型 计 量 型计 量 型记 数 型 输 出输入 Chi-square 散 布 分 析判 别 式 分 析Logistic regression 相 关 分 析多 重 回 归统 计 分 析 路 径 图 在 统 计 调 查 中 可 以 基 于 概 率 论 知 识 , 通 过 观 察 被 调 查 对 象 的 一 部 分 的结 果 对 总 体 作 以 统 计 性 的 推 测 .l 我 们 不 可 能 对 所 有 事 件 (或 现 象 )都 进 行 调 查 , 而 且 这 样 会 消 耗 很 多 时间 和 费 用 .所 以 我 们 可 以 从 母 集 团 选 择 sample,并 通 过 求 出 sample的 代表 值 来 推 测 母 集 团 . p 通 过 投 骰 子 游 戏 了 解 概 率 想 象 投 两 个 骰 子 的 实 验 . 如 果 每 次 投 两 个 骰 子 其 和 为 3 11时 其 结 果 “ 满 足 ” 的 话 预 测 投 骰 子 出 现 缺 陷 的 概 率 ? 1 2 3 4 5 61 2 3 4 5 6 72 3 4 5 6 7 83 4 5 6 7 8 94 5 6 7 8 9 105 6 7 8 9 10 116 7 8 9 10 11 12两 个 股 子 的 和 出 现 2的 组 合 有 多 少 ?两 个 股 子 的 和 为 12的 组 合 是 ?总 组 合 数 是 ? 1 2 3 4 5 61 0.028 0.028 0.028 0.028 0.028 0.0282 0.028 0.028 0.028 0.028 0.028 0.0283 0.028 0.028 0.028 0.028 0.028 0.0284 0.028 0.028 0.028 0.028 0.028 0.0285 0.028 0.028 0.028 0.028 0.028 0.0286 0.028 0.028 0.028 0.028 0.028 0.028即 , 出 现 缺 陷 的 可 能 性 是 %? 用 dice 1和 2投 500次 12108642 90 80 70 60 50 40 30 20 10 0 骰 子 1+2 频率 113 骰 子 1+2 的 直 方 图规 格 下 限 规 格 上 限 q 概 率 的 了 解 概 率 代 表 可 能 性 , 以 个 数 或 分 布 开 始 计 算 .q 概 率 分 布 的 定 义 这 样 的 概 率 的 累 积 叫 概 率 分 布 .问 : 前 页 的 histogram图 是 计 数 型 数 据 的 概 率 分 布 图 那 么 如 果 采 用 计 量 型 数 据 的 话 其 图 形 将 会 是 什 么 形 态 ? 一 组 数 据 的 算 术 平 均 - 反 映 所 有 数 据 的 影 响 - 受 极 端 值 影 响 很 大 反 映 50%等 级 - 把 一 组 数 据 由 小 到 大 排 列 后 位 于 中 央 的 值 - 在 计 算 中 不 必 要 包 括 所 有 的 数 值 - 对 极 端 数 值 很 “ 稳 定 ” x xnnn n 1 ex) BMW和 SM3 价 格 平 均 不 能 代 表 所 有 车 辆 的 价 格 . - 正 态 分 布 平 均 , - 向 一 侧 倾 斜 的 分 布 - median l 范 围 : 一 组 数 据 中 极 限 值 间 的 距 离 ( 最 高 -最 低 ) l 方 差 ( ):每 个 数 值 点 到 平 均 值 的 平 均 偏 差 的 平 方 l 标 准 偏 差 ( ): 散 布 的 平 方 根 l 和 散 布 相 比 , 范 围 对 逃 逸 点 “ outlier” 更 敏 感 统 计 量 预 测 (推 测 ) 参 数 (母 集 团 )s = 样 本 的 标 准 偏 差X = 样 本 平 均 = 母 集 团 平 均 = 母 集 团 标 准 偏 差 N : 总 体 数n : 样 本 数总 体 平 均样 本 平 均总 体 标 准 偏 差样 本 标 准 偏 差 = XN ii N 1x = xn ii=1n = S = (X )Ni 2i= 1N - - s x xn ii n 1 21 - 在 制 造 中 可 预 测 是 很 重 要 的 .但 前 提 是 工 程 要 稳 定 . 图 A:平 均 值 不 随 时 间 的 变 化 而 变 化 , 是 可 以 预 测 散 布 的 稳 定 的 流 程 . (可 以 说 是 在 “ 管 理 限 以 内 ” ) 图 B:发 生 管 理 异 常 点 ,不 可 预 测 的 不 稳 定 的 流 程 . -散 布 的 大 小 直 接 影 响 工 程 的 稳 定 性 ( Stability) 2520151050 75 70 65 Sample Number Sam ple M ean X-Bar Chart for Process A X=70.91 UCL=77.20 LCL=64.62 2520151050 80 70 60 50 Sample Number Sam ple M ean X-Bar Chart for Process B X=70.98 UCL=77.27 LCL=64.70 A B 正 常 的 管 理 散 布 (Controlled Variation : Noise) - 随 着 时 间 的 推 移 显 示 稳 定 的 正 常 散 布 . - 当 这 种 散 布 与 一 般 原 因 (Common causes)有 关 联 时 , 为 减 少 这 样 的 散 布 ,需 要对 工 序 进 行 根 本 性 的 改 进 . 例 ) 原 材 料 ,设 备 ,作 业 标 准 等 在 允 许 范 围 内 变 动 . 非 正 常 的 管 理 散 布 (Uncontrolled Variation : Signal) -随 着 时 间 的 推 移 散 布 发 生 变 化 ,且 不 可 测 定 . - 与 异 常 要 因 (Special causes)相 关 联 ,这 需 要 通 过 工 序 管 理 , monitoring 等 进 行及 时 的 改 善 . 例 ) 工 程 本 身 的 问 题 即 机 械 磨 损 ,设 备 故 障 ,原 材 不 良 ,没 有 作 业 标 准 等 原 因 导 致 的散 步 ,必 须 加 以 消 除 . 22 Total 222 22X 12X 2total 21 2121 , , ;X ;X ; BXX XXTotal 所 以那 么 的 方 差源 于 输 入 变 量 的 方 差源 于 输 入 变 量工 程 输 出 的 方 差如 果 一 个 工 程 输 出 变 量 的 总 的 变 化 (方 差 ) 可 以 分 割 成 各 工 程 输 入 的 变 化 CostLSL USLNom可 以 容 忍 的水 准 CostLSL USLNom老 的 观 点 新 的 观 点 - 工 序 的 平 均 值 位 于 目 标 值 , 与 规 格 相 比 总 散 布 要 小 , 工 序 随 时 间的 变 化 呈 现 稳 定 状 态 . - 即 便 是 在 管 理 规 格 内 ,随 着 远 离 目 标 所 发 生 的 费 用 将 与 远 离 目 标的 距 离 的 平 方 成 比 例 增 长 (Taguchi loss function) Cost LSL USLNomCost LSL USLNom 在 目 标 线 上 ; 最 小 的 散 布在 目 标 线 上 ; 几 乎 不 可 接 受的 散 布 Cost LSL USLNomCost LSL USLNom 脱 离 目 标 ; 最 小 的 散 布脱 离 目 标 ; 几 乎 不 可 接 受的 散 布 为 了 说 明 工 序 或 系 统 的 运 营 状 态 , 需 要 记 录 同 一 变 量 的 很 多 数 据 . - 按 不 同 的 时 间 段 测 定 数 据 - 对 所 有 产 品 测 定 数 据 - 对 不 同 设 备 测 定 数 据 .这 样 数 据 的 累 积 可 以 认 为 是 测 定 值 的 分 布 . 这 样 的 分 布 可 用 以 下 几 种 图 表 示- Histograms- Dot plot - Box plot 观 察 油 漆 比 率 (Rate)打 开RATE 转 换 为 变 量 . 现 在 设 想 同 样 的 数 据 , 用 次 数 分 成 “ 间 隔 ” , 每 一 个 速 率 数 点 落 在 给 定的 间 隔 内 , 决 定 间 隔 条 的 高 度 。 产 生 具 有 正 态 曲 线 的 柱 状 图 正 态 分 布 的 直 方 图 最 后 , 我 们 把 数 据 分 布 连 成 光 滑 的 曲 线 。 在 这 个 例 子 中 使 用 了 “ 正 态 分 布 ” 的 假设 (我 们 将 稍 后 讨 论 ), 如 果 我 们 收 集 了 一 组 无 限 多 的 数 据 点 , 它 将 提 供 一 个 近 似的 数 据 分 析 结 果 。 观 察 油 漆 比 率 (Rate) RATE 作 为 变 量 .点 图 Minitab 结 果设 想 一 个 泵 的 运 转 , 按 设 计 被 用 来 以 21 加 仑 /分 供 应 溶 剂 。 分 150次 测 定 了 实 际 的 泵 抽 速 , 作 图 如 上 。 每 一 个 点 代 表 一 个 具 有 给 定 值 输出 的 “ 事 件 ” 。 随 着 点 的 积 累 , 泵 运 转 的 实 际 表 现 的 特 性 可 被 看 作 一个 抽 速 数 值 的 “ 分 布 ” 。 箱 线 图l 是 各 分 布 差 异 容 易 把 握 的 数 据 调 查 方 法 . 让 我 们 看 一 下 上 漆 的 速 率 打 开 文 件 用 列 RATE 作 为 变 量 30.0 27.5 25.0 22.5 20.0 17.5 15.0 Rat e Rate 的 箱 线 图 Minitab 结 果 90%75% 50%25%10%Outlierl 箱 线 图 可 以 体 现 数 据 扩 散 性 及 中 心 . 箱 线 图 中 的 中 心 线 不 是 而 是 . 正 态 分 布 是 有 一 贯 性 的 数 据 的 分 布 .1700年 开 始 统 计 学 者 研 究 通 过 平 均 和 标 准 偏 差 两 个 值 来 把 握 全 部母 集 团 的 概 念 .收 集 这 样 的 数 据 对 理 解 重 要 的 工 序 特 性 很 有 用 . 可 以 假 设 自 然 的 或 人 为 的 工 序 大 多 呈 正 态 分 布 ,但 完 整 的 正 态 分布 是 不 可 能 的 . 分 布 曲 线 1分 布 曲 线 2分 布 曲 线 3这 三 个 正 态 分 布 的 差 异 是 什 么 ?属 性 1: 通 过 下 面 两 个 值 可 以 得 出 正 态 分 布 : 数 据 平 均 , 标 准 偏 差 43210-1-2-3-440%30%20%10% 0% 95%标准值得概率 到 平 均 的 距 离 内 可 容 纳 的 标 准 偏 差 的 个 数99.73%68% 两 个 值 之 间 可 以 得到 的 累 积 概 率 属 性 2: 通 过 曲 线 下 面 的 宽 度 可 以 推 测 发 生 某 种 “ 事 件 ” 的 概 率 . 前 面 的 累 计 概 率 的 规 则 即 使 在 数 据 不 是 完 美 的 正 态 分 布 时 也 适 用 让 我 们 比 较 数 值 的 理 论 正 态 分 布 ( 完 美 的 ) 和 经 验 正 态 分 布 ( 现 实 的 ) 即 , 是 否 正 态 分 布 的 6075%的 数 据 在 1西 格 玛 内 . +/- 1 68% 65-70% +/- 2 95% 92-98% +/- 3 99.7% 99-100% 标 准 偏 差 数 理 论 正 态 分 布 经 验 正 态 分 布 利 用 正 态 概 率 图 的 数 据 样 式 可 以 判 定 是 否 符 合 “ 正 态 分 布 ” 分 布 曲 线 接 近 曲 线 时 正 态 概 率 图 将 接 近 直 线 . Minitab 使 正 态 概 率 图 使 用 方 便 . 利 用 数 据 做 练 习 . 画 Normal Probability Plots 11010090807060504030 99.9 99 95 90 8070 6050 4030 20 10 5 1 0.1 Normal 百分 比 均 值 70.00 标 准 差 10.00 N 500 AD 0.418P 值 0.328 Normal 的 概 率 图正 态 - 95% 置 信 区 间 参 考 事 项 - 数 据 点 如 果 分 布 在 直 线 周 围 , 则 符 合 正 态 分 布 . - Goodness of Fit (AD)值 越 小 ,说 明 数 据 越 符 合 指 定 的 概 率 分 布 . - P值 大 于 0.05,则 可 以 认 为 是 正 态 分 布 .此 为 增 添 图 线 1101009080706050403099.99995908070605040302010510.1 Normal百分比 均 值 70.00标 准 差 10.00N 500AD 0.418P 值 0.328 Normal 的 概 率 图正 态 - 95% 置 信 区 间 打 开 文 件 DISTRIBUTIONS.MPJ 用 前 三 列 数 据 各 作 一 个 正 态 概 率 图 - 哪 个 看 上 去 象 正 态 的 然 后 各 作 一 个 直 方 图 - 这 显 示 了 什 么 ? 给 你 5分 钟 正 态 概 率 图 练 习 -1 100806040200 99.9 99 9590 807060 504030 2010 5 1 0.1 Neg Skew 百分比 均 值 70.00标 准 差 10.00 N 500AD 44.491 P 值 0.005 Neg Skew 的 概 率 图正 态 - 95% 置 信 区 间 130120110100908070605040 99.9 99 9590 807060 504030 2010 5 1 0.1 Pos Skew 百分比 均 值 70.00标 准 差 10.00 N 500AD 46.489 P 值 0.005 Pos Skew 的 概 率 图正 态 - 95% 置 信 区 间 11010090807060504030 99.9 99 9590 8070 605040 3020 105 1 0.1 Normal 百分比 均 值 70.00标 准 差 10.00 N 500AD 0.418 P 值 0.328 Normal 的 概 率 图正 态 - 95% 置 信 区 间 10090807060504030 70 60 50 40 30 20 10 0 Normal 频率 Normal 的 直 方 图 130120110100908070 140 120 100 80 60 40 20 0 Pos Skew 频率 Pos Skew 的 直 方 图 7260483624120 250 200 150 100 50 0 Neg Skew 频率 Neg Skew 的 直 方 图 l 用 C4中 的 神 秘 变 量 作 正 态 概 率 图 l 你 的 结 论 是 什 么 ? 它 是 正 态 分 布 吗 ? 象 这 样 有 两 个 正 态 分 布 的 例 子 - 供 应 商 提 供 两 种 品 质 的 材 料 时 200150100500 99.9 99 95 90 80 70 60 50 40 30 20 10 5 1 0.1 Mystery 百 分 比 均 值 100.0 标 准 差 32.38 N 500 AD 27.108 P 值 从 这 些 数 据 中 我 们 能 得 出 什 么 观 察 结 果 呢 ? 着 眼 于 中 心 , 分 散 , 和 形 状 的 指 标 描 述 统 计 量 Graphical Descriptive Statistics 光 看 这 些 数 据 可 能 有 些 迷 茫 让 我 们 用 数 据 绘 图 , 然 后 把 数 字 添 加 到 图 上 图 形 化 汇 总 160140120100806040 中 位 数 平 均 值 1201101009080 第 一 四 分 位 数 68.69 中 位 数 104.20 第 三 四 分 位 数 130.81 最 大 值 162.82 97.15 102.85 82.78 117.66 30.49 34.53 A 平 方 27.11 P 值 小 于 0.005 平 均 值 100.00 标 准 差 32.38 方 差 1048.78 偏 度 0.00716 峰 度 -1.63184 N 500 最 小 值 41.77 Anderson-Darling 正 态 性 检 验 95% 平 均 值 置 信 区 间 95% 中 位 数 置 信 区 间 95% 标 准 差 置 信 区 间95% 置 信 区 间 Mystery 摘 要 核 心 战 略 基 本 前 提 - 查 找 散 布 的 原 因 并 计 量 化 , 把 这 消 除 或 管 理 . 通 过 Data Mining 查 找 最 大 的 变 量 .例 题 : 刷 漆 工 程 的 例 - 利 用 PUMPING.MPJ 文 件- Output : 涂 敷 比 率 (Rate) - 观 察 输 入 : 日 期 , 班 次 (Shift), 形 态 和 喷 嘴 等 Input中 哪 个 变 量 的 散 布 影 响 Output的 散 布 工 作 表 上 的 信 息 列 数 量 名 称C1 150 DayC2 150 ShiftC3 150 Gear StyleC4 150 NozzleC5 150 RATEMinitab 中 的 此 项 功 能 显 示 出 数 据 集 所 包 含 的 信 息 : 日 , 班 次 , 齿 轮 型号 , 喷 嘴 和 泵 抽 速 。 每 项 有 150个 观 测 数 据面 临 的 挑 战 是 决 定 哪 个 ( 些 ) 输 入 导 致 了 输 出 ( 抽 速 ) 的 散 布 如 果 你 点 MTB 提 示 下 的 INFO 命 令 , 你 将 看 到 使 用 功 能 我 们 看 泵 速 的 分 布 。 数 值 范 围 大 约 为 14:30。描 述 性 统 计 : Rate 平 均 值变 量 N N* 平 均 值 标 准 误 标 准 差 最 小 值 下 四 分 位 数 中 位 数 上 四 分 位 数Rate 150 0 22.027 0.232 2.841 14.447 20.255 21.947 23.763变 量 最 大 值Rate 28.763 让 我 们 观 察 喷 嘴 对 泵 速 散 布 的 影 响 。 我 们 可 用 显 示 描 述 性 统 计 中 “按 变 量 ( 可 选 ) ” 的 描 述 来 选 择 变 量 并 观 察 不 同 喷 嘴 对 泵 速 散 布 的影 响 。 这 些 结 果 显 示 , 当 喷 嘴 从 1变 化 到 10时 , 平 均 泵 速 从 19.0 变 到 25.2 如 果 我 们 把 喷 嘴 置 于 5, 泵 速 的 sigma 将 从 2.8( 总 散 布 ) 减 少 到 约 1.1 描 述 性 统 计 : Rate 平 均 值变 量 Nozzle N N* 平 均 值 标 准 误 标 准 差 最 小 值 下 四 分 位 数 中 位 数Rate 1 47 0 19.024 0.241 1.655 14.447 17.660 19.354 5 57 0 21.907 0.143 1.077 19.201 21.267 21.917 10 46 0 25.242 0.232 1.576 22.408 23.722 25.197变 量 Nozzle 上 四 分 位 数 最 大 值Rate 1 20.362 22.536 5 22.578 24.277 10 26.575 28.763 让 我 们 用 来 显 示 喷 嘴 泵 速 的 影 响点 图 (按 变 量 “喷 嘴 ”) 2 82 62 42 22 01 81 6 1 5 1 0 R a t e No zz le R a t e 的 点 图花 5分 钟 时 间 用 同 样 的 方 法 调 查 日 , 班 次 , 齿 轮 型 号 等 对 泵 速 的 影 响, 然 后 准 备 发 表 结 果 。 哪 个 是 解 释 泵 速 散 布 的 最 强 的 输 入 箱 线 图 (按 变 量 “喷 嘴 ”) 还 有 另 一 个 方 法 可 分 析 这 个 数 据 , 通 过 它 可 以 更 容 易 地 看 到 分 布 中 的 差 异 箱 线 图 显 示 分 散 和 数 据 的 中 心 要 小 心 !- 箱 线 图 的 中 心 是 中 值 , 不 是 平 均 值 Rate 30.0 27.5 25.0 22.5 20.0 17.5 15.0 Boxplot of Rate 90%75%50%25%10%Outlier 我 们 也 可 以 用 一 个 变 量 来 作 , 以 分 析 由 此 变 量 导 致 的 散 布 1 051 3 0 . 0 2 7 . 5 2 5 . 0 2 2 . 5 2 0 . 0 1 7 . 5 1 5 . 0 N o z z l e Rat e R a t e 的 箱 线 图 非 制 造 例 打 开 文 件 这 个 文 件 包 含 了 这 样 的 数 据 例 子 : 从 定 单 被 确 认 到 给 顾 客 开 发 票的 时 间 ( 时 间 ) 变 量 包 括 - 定 单 大 小 - 本 月 中 的 日 期 - 顾 客 等 级 你 有 10分 钟 决 定 哪 些 变 量 ( 如 果 有 的 话 ) 影 响 时 间 散 布 GOLF实 习 目 标 :- 收 集 数 据 样 本 - 计 算 样 本 平 均 和 总 分 布 的 标 准 偏 差 - 作 数 据 总 分 布 的 直 方 图 - 经 验 数 据 的 正 态 性 - 作 一 些 数 据 挖 掘 程 序 :- 设 置 弹 射 活 动 , 让 所 有 的 条 件 固 定 得 尽 可 能 完 好 ( 操 作 者 ,晃 动 , 等 ) - 用 所 有 的 三 种 球 , 然 后 把 数 据 输 入 数 据 库 - 做 一 些 弹 射 实 验 以 估 计 距 离 - 用 Minitab中 已 设 定 的 格 式 记 录 30次 弹 射 的 距 离 - 进 行 适 当 的 分 析
展开阅读全文