资源描述
腾 讯 大 讲 堂第五十九期研发管理部 大讲堂主页:http:/ 数 据 蕴 含 商 机 , 挖 掘 决 胜 千 里腾 讯 研 究 院 数 据 分 析 研 究 室SimonJiang / 江 宇 闻2009-02-24 Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 从 运 筹 帷 幄 到 决 胜 千 里 舌 战 群 儒 草 船 借 箭巧 借 东 风 火 烧 赤 壁 赤壁怀古 苏轼羽扇纶巾谈笑间樯橹灰飞烟灭. 观 日 月 之 行 , 察 天 地 之 变风雷 电 雨云 云 多 会 下 雨刮 风 会 下 雨下 雨 会 闪 电闪 电 会 打 雷换 成 它 呢 ? ? ? 数 据 爆 炸 的 时 代Data Mining, circa 1963 IBM 7090 600 cases“ Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one time to 25.” 数 据 挖 掘 是 DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 、 、 Interesting / novel / useful / implicit / actable / meaningful 、 、 、 Information / knowledge / patterns / trends / rules / anomalies 、 、 、 In massive data / large data set / large database / data warehouse 、 、 、Data + contextInformation + rulesKnowledge + experience 多 学 科 的 融 合Databases StatisticsPatternRecognitionKDD MachineLearning AINeurocomputingData Mining Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 几 个 基 本 概 念n 模 型 ( Model) vs 模 式 ( Pattern) 数 据 挖 掘 的 根 本 目 的 就 是 把 样 本 数 据 中 隐 含 的 结 构 泛 化 ( Generalize)到 总 体 ( Population) 上 去 模 型 : 对 数 据 集 的 一 种 全 局 性 的 整 体 特 征 的 描 述 或 概 括 , 适 用 于 数 据 空间 中 的 所 有 点 , 例 如 聚 类 分 析 模 式 : 对 数 据 集 的 一 种 局 部 性 的 有 限 特 征 的 描 述 或 概 括 , 适 用 于 数 据 空间 的 一 个 子 集 , 例 如 关 联 分 析n 算 法 ( Algorithm) : 一 个 定 义 完 备 ( well-defined) 的 过 程 , 它 以数 据 作 为 输 入 并 产 生 模 型 或 模 式 形 式 的 输 出n 描 述 型 挖 掘 ( Descriptive) vs 预 测 型 挖 掘 ( Predictive) 描 述 型 挖 掘 : 对 数 据 进 行 概 括 , 以 方 便 的 形 式 呈 现 数 据 的 重 要 特 征 预 测 型 挖 掘 : 根 据 观 察 到 的 对 象 特 征 值 来 预 测 它 的 其 他 特 征 值 描 述 型 挖 掘 可 以 是 目 的 , 也 可 以 是 手 段 数 据 挖 掘 是 一 个 过 程 - “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996) 数 据 挖 掘 方 法 论 CRISP_DM ( Cross Industry Standard Process for DM) 1998年 , 由 NCR、Clementine、 OHRA和Daimler-Benz的 联 合 项 目 组提 出 SEMMA SAS公 司 提 出 的 方 法 Sample, Explore, Modify, Model, Assess 在 战 略 上 使 用 Crisp_DM方 法论 , 在 战 术 上 应 用 SEMMA方法 论 工 欲 善 其 事 必 先 利 其 器n 数 据 清 洗 填 充 缺 失 值 , 修 均 噪 声 数 据 , 识 别 或 删 除 孤 立 点 , 并 解 决 数 据 不 一 致 问题 主 要 分 析 方 法 : 分 箱 ( Binning) 、 聚 类 、 回 归n 数 据 集 成 多 个 数 据 库 、 数 据 方 或 文 件 的 集 成n 数 据 变 换 规 范 化 与 汇 总n 数 据 简 化 减 少 数 据 量 的 同 时 , 还 可 以 得 到 相 同 或 相 近 的 分 析 结 果 主 要 分 析 方 法 : 抽 样 、 主 成 分 分 析n 数 据 离 散 化 数 据 简 化 的 一 部 分 , 但 非 常 重 要 (尤 其 对 于 数 值 型 数 据 来 说 ) 先 来 玩 玩 数 据 ( EDA)n 探 索 性 数 据 分 析 ( Exploratory Data Analysis, EDA) 探 索 性 地 查 看 数 据 , 概 括 数 据 集 的 结 构 和 关 系 对 数 据 集 没 有 各 种 严 格 假 定n 主 要 任 务 数 据 可 视 化 ( a picture is worth a thousand words) 残 差 分 析 ( 数 据 拟 合 + 残 差 ) 数 据 的 重 新 表 达 ( 什 么 样 的 尺 度 对 数 抑 或 平 方 根 会 简 化 分 析 ) 方 法 的 耐 抗 性 ( 对 数 据 局 部 不 良 的 不 敏 感 性 , 如 中 位 数 耐 抗 甚 于 均值 )n 常 见 方 法 统 计 量 , 如 均 值 、 方 差 、 根 方 差 、 协 方 差 、 峰 度 、 偏 度 、 相 关 系 数 等 统 计 图 , 如 饼 图 、 直 方 图 、 散 点 图 、 箱 尾 图 等 模 型 , 如 聚 类 数 据 挖 掘 = 模 型 + 算 法 你 使 用 过 信 用 卡 吗 ? 卡 应 该 发 给 谁 ? 哪 些 持 卡 人 会 拖 欠 ? 哪 些 拖 欠 的 客 户 会 还 款 ? 影 响 资 产 组 合( Portfolio)1、 根 据 历 史 , 预 测 将 来2、 目 标 是 一 个 分 类 变 量3、 预 测 结 果 是 一 个 统 计 意 义 下 的 概 率 1、 哪 些 人 可 以 发 卡 , 额 度 是 多 少 。2、 持 卡 人 拖 欠 的 概 率 是 多 少3、 该 对 谁 催 收 分 类 过 程训 练 集 分 类 学 习 训 练 集 IF rank = professorOR years 6THEN tenured = yes Jef is YES!分 类 器 物 以 类 聚 , 人 以 群 分人 为 地 选 取 细 分 维 度 客 户 价 值 地 域 活 跃 程 度 维 度 灾 难 的 发 生 维 度 增 长 细 分 数 目 指 数 增 长 人 脑 仅 能 处 理 有 限 的 维 度市 场 聚 类 示 意n 基 于 欧 氏 距 离 的 三 维 空 间 中 的 聚 类n 基 于 质 心 的 聚 类 算 法(K-Means) )|(|),( 222 jzizjyiyjxixjid A1 A2B1 xy z 发 现 商 品 间 的 关 联 规 则buy(x,”diapers”) buy(x,”beers”) 关 联 规 则 的 量 度n 支 持 度 : Support(A=B)=#AB/#N, 表 示 A和 B同 时 出 现 的 概 率n 期 望 可 信 度 : Support(A)=#A/#N, 表 示 A出 现 的 概 率n 置 信 度 : Confidence(A=B)=Support(A=B)/Support(B)n 改 善 度 : Lift(A=B)=Confidence(A=B)/Support(B)名 称 描 述 公 式支 持 度 X、 Y同 时 出 现 的 频 率 P(X Y) 期 望 可 信 度 Y出 现 的 频 率 P(Y) 置 信 度 X出 现 的 前 提 下 , Y出 现 的 频 率 P(Y|X) 改 善 度 置 信 度 对 期 望 可 信 度 的 比 值 P(Y|X)/P(Y) 关 联 规 则 的 度 量 n 发 现 具 有 最 小 置 信 度 和 支 持 度 的 全部 规 则 X Y Z 支 持 度 (support), s, 事 务 中 包 含X & Y & Z的 概 率 置 信 度 (confidence), c, 事 务 中包 含 X & Y的 条 件 下 , 包 含 Z的 条件 概 率n 令 最 小 支 持 度 为 50%, 最 小 置 信 度 为50%, 则 有 A C (50%, 66.6%) C A (50%, 100%)顾 客 购 买 尿 布顾 客 购 买 两 者顾 客 购 买 啤 酒 从 算 法 到 应 用 数 据 挖 掘 厂 商挖 掘 和 统 计 分 析 平 台SAS EMSPSS ClementineS+MinerStatistic Data Miner 与 数 据 库 集 成 挖 掘 平 台IBM IMOracleNCR Teradata MinerSQL 2005 DM 行 业 运 用 及 解 决 方 案UnicaKXENHNC Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 看 看 QQ的 流 失 数 据流 失 率 2007年 3月 2007年 4月 2007年 5月 2007年 6月当 月 活 跃 总 帐 户 数 253,668,411 255,749,736 264,006,894 269,060,000当 月 流 失 老 帐 户 数 6,572,087 6,006,582 5,466,807 8,217,569当 月 老 帐 户 流 失 率 2.59% 2.35% 2.07% 3.05%每 个 月 5001000万 的 老 用 户 流 失 ,一 年 老 用 户 流 失 接 近 1亿 ,实 际 自 然 人 流 失 状 况 虽 然 没 有 这 么 严 重 , 但是 仍 然 是 一 个 惊 人 的 数 据 。客 户 流 失 是 每个 行 业 每 天 都在 面 对 的 问 题1、 建 立 流 失 预 测 模 型 , 回 答客 户 是 否 要 流 失 , 何 时 流 失 的问 题2、 通 过 预 测 模 型 建 立 客 户 流失 管 理 机 制 , 更 为 有 效 地 管 理流 失 , 而 不 是 去 防 止 流 失 一 切 从 目 标 出 发目 标 变 量 : 即 需 要 根 据 业 务 需 求 确 定 模 型需 要 预 测 的 对 象 , 在 QQ客 户 流 失 模 型 中 即是 在 业 务 上 对 “ 流 失 ” 的 定 义 。 沉 默 客 户 数 在 4月 后 区 域 稳 定 模 型 选 择 连 续沉 默 2个 月 作为 流 失 的 定 义 目 标 变 量 的 定 义 :G ood: 在 表 现 窗 口 连 续 两 个 月 有 登 陆 的 客 户Bad: 在 表 现 窗 口 连 续 两 个 月 都 没 有 登 陆 的 客 户Intermediate: 在 表 现 窗 口 其 中 一 个 月 有 登 陆 的 客 户 打 开 观 测 用 户 的 窗 口训 练 样 本 测 试 样 本观 察 窗 口 : 2007年 1月 2007年 3月 表 现 窗 口 : 2007年 5月 2007年 6月Time Lag: 2007年 4月交 叉 校 验 样 本观 察 窗 口 : 2007年 2月 2007年 4月表 现 窗 口 : 2007年 6月 2007年 7月Time Lag: 2007年 5月观 察 窗 口 表 现 窗 口Tim e LagMM-1M-2M-3M-4M-5 M+1 M+2 M+31 观 察 窗 口 : 形 成 自 变 量 的 时 间 段 。表 现 窗 口 : 形 成 因 变 量 的 时 间 段 。23 Time Lag: 预 留 给 业 务 部 门 进 行 相 应 操 作 的 时 间 段 。1 23 变 化 幅 度 特 征 变 量 描 述 用 户 使 用 量 上 的 变 化 幅 度 勾 勒 出 用 户 行 为 的 特 征基 本 属 性 变 量 描 述 用 户 的 基 本 属 性产 品 使 用 行 为 特 征 描 述 用 户 使 用 产 品 的 情 况消 息 业 务 使 用 行 为 特 征 描 述 用 户 使 用 消 息 业 务 的 情 况音 频 业 务 使 用 行 为 特 征 描 述 用 户 使 用 音 频 业 务 的 情 况视 频 业 务 使 用 行 为 特 征 描 述 用 户 使 用 视 频 业 务 的 情 况客 户 在 线 的 行 为 特 征 从 在 线 时 长 , 登 陆 次 数 , 登 陆 频 率 等 角 度 研 究 用 户 的 使 用 行 为归 属 地 变 化 的 行 为 特 征 描 述 用 户 在 某 一 时 间 周 期 内 登 陆 所 在 地 的 变 化 情 况 中 间 变 量比 例 特 征 变 量 描 述 用 户 业 务 使 用 占 比基 础 变 量 变 量 描 述行 为 趋 势 特 征 变 量 描 述 用 户 的 使 用 行 为 变 化 趋 势变 量 描 述 黄 沙 吹 尽 始 到 金基 础 变 量 和 中 间 变 量 数 目 约 为 224个经 过 变 量 变 换 后 的 变 量 数 目 约 为 1700个变 量 筛 选使 用 Logistic回 归 的 Stepwise方 法 进 行 下 一 步 拟 合卡 方 统 计 量 Chi Square信 息 价 值 Information Value 信 息 增 益 G ain Index单 变 量 回 归 偏 相 关 分 析 Partial Correlation Lift曲 线十 分 位 样 本 数 量 Lift0 226,729 5.171 226,729 2.272 226,728 1.033 226,730 0.554 226,729 0.355 226,729 0.256 226,730 0.15 7 226,729 0.118 226,729 0.079 226,730 0.05Total 2,267,293 1 ROC曲 线 50%75% 建 立 闭 环 的 业 务 流 程 流失客户分析数据挖掘数据分析 数据采集/ETL 现有流程评估计划和设计挽留行动执行挽留行动评估挽留结果调整应用流程 Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 几 点 心 得实 施 数 据 挖 掘 是 一 个 战 略 性 举 措Business First, Technique Second数 据 挖 掘 不 是 万 能 的 , 没 有 它 也 不 是 万 万 不 能数 据 挖 掘 是 一 个 循 环 探 索 的 过 程 参 考 文 献 网 络 资 源 u u u u u Tecent Research Question & Answer ? 联 系 我 们RTX: simonjiang TEL: 7999RTX: florayi TEL: 8889RTX: jeavinqiu TEL: 5909RTX: neilliao TEL: 4232Thank you !
展开阅读全文