腾讯大讲堂59-数据蕴含商机-挖掘决胜千里.ppt

上传人:za****8 文档编号:20841908 上传时间:2021-04-19 格式:PPT 页数:39 大小:2.32MB
返回 下载 相关 举报
腾讯大讲堂59-数据蕴含商机-挖掘决胜千里.ppt_第1页
第1页 / 共39页
腾讯大讲堂59-数据蕴含商机-挖掘决胜千里.ppt_第2页
第2页 / 共39页
腾讯大讲堂59-数据蕴含商机-挖掘决胜千里.ppt_第3页
第3页 / 共39页
点击查看更多>>
资源描述
腾 讯 大 讲 堂第五十九期研发管理部 大讲堂主页:http:/ 数 据 蕴 含 商 机 , 挖 掘 决 胜 千 里腾 讯 研 究 院 数 据 分 析 研 究 室SimonJiang / 江 宇 闻2009-02-24 Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 从 运 筹 帷 幄 到 决 胜 千 里 舌 战 群 儒 草 船 借 箭巧 借 东 风 火 烧 赤 壁 赤壁怀古 苏轼羽扇纶巾谈笑间樯橹灰飞烟灭. 观 日 月 之 行 , 察 天 地 之 变风雷 电 雨云 云 多 会 下 雨刮 风 会 下 雨下 雨 会 闪 电闪 电 会 打 雷换 成 它 呢 ? ? ? 数 据 爆 炸 的 时 代Data Mining, circa 1963 IBM 7090 600 cases“ Machine storage limitationsrestricted the total number ofvariables which could beconsidered at one time to 25.” 数 据 挖 掘 是 DataInformationKnowledgeWisdom To find / discover / extract / dredge / harvest 、 、 、 Interesting / novel / useful / implicit / actable / meaningful 、 、 、 Information / knowledge / patterns / trends / rules / anomalies 、 、 、 In massive data / large data set / large database / data warehouse 、 、 、Data + contextInformation + rulesKnowledge + experience 多 学 科 的 融 合Databases StatisticsPatternRecognitionKDD MachineLearning AINeurocomputingData Mining Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 几 个 基 本 概 念n 模 型 ( Model) vs 模 式 ( Pattern) 数 据 挖 掘 的 根 本 目 的 就 是 把 样 本 数 据 中 隐 含 的 结 构 泛 化 ( Generalize)到 总 体 ( Population) 上 去 模 型 : 对 数 据 集 的 一 种 全 局 性 的 整 体 特 征 的 描 述 或 概 括 , 适 用 于 数 据 空间 中 的 所 有 点 , 例 如 聚 类 分 析 模 式 : 对 数 据 集 的 一 种 局 部 性 的 有 限 特 征 的 描 述 或 概 括 , 适 用 于 数 据 空间 的 一 个 子 集 , 例 如 关 联 分 析n 算 法 ( Algorithm) : 一 个 定 义 完 备 ( well-defined) 的 过 程 , 它 以数 据 作 为 输 入 并 产 生 模 型 或 模 式 形 式 的 输 出n 描 述 型 挖 掘 ( Descriptive) vs 预 测 型 挖 掘 ( Predictive) 描 述 型 挖 掘 : 对 数 据 进 行 概 括 , 以 方 便 的 形 式 呈 现 数 据 的 重 要 特 征 预 测 型 挖 掘 : 根 据 观 察 到 的 对 象 特 征 值 来 预 测 它 的 其 他 特 征 值 描 述 型 挖 掘 可 以 是 目 的 , 也 可 以 是 手 段 数 据 挖 掘 是 一 个 过 程 - “from data mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996) 数 据 挖 掘 方 法 论 CRISP_DM ( Cross Industry Standard Process for DM) 1998年 , 由 NCR、Clementine、 OHRA和Daimler-Benz的 联 合 项 目 组提 出 SEMMA SAS公 司 提 出 的 方 法 Sample, Explore, Modify, Model, Assess 在 战 略 上 使 用 Crisp_DM方 法论 , 在 战 术 上 应 用 SEMMA方法 论 工 欲 善 其 事 必 先 利 其 器n 数 据 清 洗 填 充 缺 失 值 , 修 均 噪 声 数 据 , 识 别 或 删 除 孤 立 点 , 并 解 决 数 据 不 一 致 问题 主 要 分 析 方 法 : 分 箱 ( Binning) 、 聚 类 、 回 归n 数 据 集 成 多 个 数 据 库 、 数 据 方 或 文 件 的 集 成n 数 据 变 换 规 范 化 与 汇 总n 数 据 简 化 减 少 数 据 量 的 同 时 , 还 可 以 得 到 相 同 或 相 近 的 分 析 结 果 主 要 分 析 方 法 : 抽 样 、 主 成 分 分 析n 数 据 离 散 化 数 据 简 化 的 一 部 分 , 但 非 常 重 要 (尤 其 对 于 数 值 型 数 据 来 说 ) 先 来 玩 玩 数 据 ( EDA)n 探 索 性 数 据 分 析 ( Exploratory Data Analysis, EDA) 探 索 性 地 查 看 数 据 , 概 括 数 据 集 的 结 构 和 关 系 对 数 据 集 没 有 各 种 严 格 假 定n 主 要 任 务 数 据 可 视 化 ( a picture is worth a thousand words) 残 差 分 析 ( 数 据 拟 合 + 残 差 ) 数 据 的 重 新 表 达 ( 什 么 样 的 尺 度 对 数 抑 或 平 方 根 会 简 化 分 析 ) 方 法 的 耐 抗 性 ( 对 数 据 局 部 不 良 的 不 敏 感 性 , 如 中 位 数 耐 抗 甚 于 均值 )n 常 见 方 法 统 计 量 , 如 均 值 、 方 差 、 根 方 差 、 协 方 差 、 峰 度 、 偏 度 、 相 关 系 数 等 统 计 图 , 如 饼 图 、 直 方 图 、 散 点 图 、 箱 尾 图 等 模 型 , 如 聚 类 数 据 挖 掘 = 模 型 + 算 法 你 使 用 过 信 用 卡 吗 ? 卡 应 该 发 给 谁 ? 哪 些 持 卡 人 会 拖 欠 ? 哪 些 拖 欠 的 客 户 会 还 款 ? 影 响 资 产 组 合( Portfolio)1、 根 据 历 史 , 预 测 将 来2、 目 标 是 一 个 分 类 变 量3、 预 测 结 果 是 一 个 统 计 意 义 下 的 概 率 1、 哪 些 人 可 以 发 卡 , 额 度 是 多 少 。2、 持 卡 人 拖 欠 的 概 率 是 多 少3、 该 对 谁 催 收 分 类 过 程训 练 集 分 类 学 习 训 练 集 IF rank = professorOR years 6THEN tenured = yes Jef is YES!分 类 器 物 以 类 聚 , 人 以 群 分人 为 地 选 取 细 分 维 度 客 户 价 值 地 域 活 跃 程 度 维 度 灾 难 的 发 生 维 度 增 长 细 分 数 目 指 数 增 长 人 脑 仅 能 处 理 有 限 的 维 度市 场 聚 类 示 意n 基 于 欧 氏 距 离 的 三 维 空 间 中 的 聚 类n 基 于 质 心 的 聚 类 算 法(K-Means) )|(|),( 222 jzizjyiyjxixjid A1 A2B1 xy z 发 现 商 品 间 的 关 联 规 则buy(x,”diapers”) buy(x,”beers”) 关 联 规 则 的 量 度n 支 持 度 : Support(A=B)=#AB/#N, 表 示 A和 B同 时 出 现 的 概 率n 期 望 可 信 度 : Support(A)=#A/#N, 表 示 A出 现 的 概 率n 置 信 度 : Confidence(A=B)=Support(A=B)/Support(B)n 改 善 度 : Lift(A=B)=Confidence(A=B)/Support(B)名 称 描 述 公 式支 持 度 X、 Y同 时 出 现 的 频 率 P(X Y) 期 望 可 信 度 Y出 现 的 频 率 P(Y) 置 信 度 X出 现 的 前 提 下 , Y出 现 的 频 率 P(Y|X) 改 善 度 置 信 度 对 期 望 可 信 度 的 比 值 P(Y|X)/P(Y) 关 联 规 则 的 度 量 n 发 现 具 有 最 小 置 信 度 和 支 持 度 的 全部 规 则 X Y Z 支 持 度 (support), s, 事 务 中 包 含X & Y & Z的 概 率 置 信 度 (confidence), c, 事 务 中包 含 X & Y的 条 件 下 , 包 含 Z的 条件 概 率n 令 最 小 支 持 度 为 50%, 最 小 置 信 度 为50%, 则 有 A C (50%, 66.6%) C A (50%, 100%)顾 客 购 买 尿 布顾 客 购 买 两 者顾 客 购 买 啤 酒 从 算 法 到 应 用 数 据 挖 掘 厂 商挖 掘 和 统 计 分 析 平 台SAS EMSPSS ClementineS+MinerStatistic Data Miner 与 数 据 库 集 成 挖 掘 平 台IBM IMOracleNCR Teradata MinerSQL 2005 DM 行 业 运 用 及 解 决 方 案UnicaKXENHNC Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 看 看 QQ的 流 失 数 据流 失 率 2007年 3月 2007年 4月 2007年 5月 2007年 6月当 月 活 跃 总 帐 户 数 253,668,411 255,749,736 264,006,894 269,060,000当 月 流 失 老 帐 户 数 6,572,087 6,006,582 5,466,807 8,217,569当 月 老 帐 户 流 失 率 2.59% 2.35% 2.07% 3.05%每 个 月 5001000万 的 老 用 户 流 失 ,一 年 老 用 户 流 失 接 近 1亿 ,实 际 自 然 人 流 失 状 况 虽 然 没 有 这 么 严 重 , 但是 仍 然 是 一 个 惊 人 的 数 据 。客 户 流 失 是 每个 行 业 每 天 都在 面 对 的 问 题1、 建 立 流 失 预 测 模 型 , 回 答客 户 是 否 要 流 失 , 何 时 流 失 的问 题2、 通 过 预 测 模 型 建 立 客 户 流失 管 理 机 制 , 更 为 有 效 地 管 理流 失 , 而 不 是 去 防 止 流 失 一 切 从 目 标 出 发目 标 变 量 : 即 需 要 根 据 业 务 需 求 确 定 模 型需 要 预 测 的 对 象 , 在 QQ客 户 流 失 模 型 中 即是 在 业 务 上 对 “ 流 失 ” 的 定 义 。 沉 默 客 户 数 在 4月 后 区 域 稳 定 模 型 选 择 连 续沉 默 2个 月 作为 流 失 的 定 义 目 标 变 量 的 定 义 :G ood: 在 表 现 窗 口 连 续 两 个 月 有 登 陆 的 客 户Bad: 在 表 现 窗 口 连 续 两 个 月 都 没 有 登 陆 的 客 户Intermediate: 在 表 现 窗 口 其 中 一 个 月 有 登 陆 的 客 户 打 开 观 测 用 户 的 窗 口训 练 样 本 测 试 样 本观 察 窗 口 : 2007年 1月 2007年 3月 表 现 窗 口 : 2007年 5月 2007年 6月Time Lag: 2007年 4月交 叉 校 验 样 本观 察 窗 口 : 2007年 2月 2007年 4月表 现 窗 口 : 2007年 6月 2007年 7月Time Lag: 2007年 5月观 察 窗 口 表 现 窗 口Tim e LagMM-1M-2M-3M-4M-5 M+1 M+2 M+31 观 察 窗 口 : 形 成 自 变 量 的 时 间 段 。表 现 窗 口 : 形 成 因 变 量 的 时 间 段 。23 Time Lag: 预 留 给 业 务 部 门 进 行 相 应 操 作 的 时 间 段 。1 23 变 化 幅 度 特 征 变 量 描 述 用 户 使 用 量 上 的 变 化 幅 度 勾 勒 出 用 户 行 为 的 特 征基 本 属 性 变 量 描 述 用 户 的 基 本 属 性产 品 使 用 行 为 特 征 描 述 用 户 使 用 产 品 的 情 况消 息 业 务 使 用 行 为 特 征 描 述 用 户 使 用 消 息 业 务 的 情 况音 频 业 务 使 用 行 为 特 征 描 述 用 户 使 用 音 频 业 务 的 情 况视 频 业 务 使 用 行 为 特 征 描 述 用 户 使 用 视 频 业 务 的 情 况客 户 在 线 的 行 为 特 征 从 在 线 时 长 , 登 陆 次 数 , 登 陆 频 率 等 角 度 研 究 用 户 的 使 用 行 为归 属 地 变 化 的 行 为 特 征 描 述 用 户 在 某 一 时 间 周 期 内 登 陆 所 在 地 的 变 化 情 况 中 间 变 量比 例 特 征 变 量 描 述 用 户 业 务 使 用 占 比基 础 变 量 变 量 描 述行 为 趋 势 特 征 变 量 描 述 用 户 的 使 用 行 为 变 化 趋 势变 量 描 述 黄 沙 吹 尽 始 到 金基 础 变 量 和 中 间 变 量 数 目 约 为 224个经 过 变 量 变 换 后 的 变 量 数 目 约 为 1700个变 量 筛 选使 用 Logistic回 归 的 Stepwise方 法 进 行 下 一 步 拟 合卡 方 统 计 量 Chi Square信 息 价 值 Information Value 信 息 增 益 G ain Index单 变 量 回 归 偏 相 关 分 析 Partial Correlation Lift曲 线十 分 位 样 本 数 量 Lift0 226,729 5.171 226,729 2.272 226,728 1.033 226,730 0.554 226,729 0.355 226,729 0.256 226,730 0.15 7 226,729 0.118 226,729 0.079 226,730 0.05Total 2,267,293 1 ROC曲 线 50%75% 建 立 闭 环 的 业 务 流 程 流失客户分析数据挖掘数据分析 数据采集/ETL 现有流程评估计划和设计挽留行动执行挽留行动评估挽留结果调整应用流程 Agenda数 据 挖 掘 是 什 么 ?1 模 型 +算 法2 数 据 挖 掘 实 践 分 享3 心 得 与 总 结4 几 点 心 得实 施 数 据 挖 掘 是 一 个 战 略 性 举 措Business First, Technique Second数 据 挖 掘 不 是 万 能 的 , 没 有 它 也 不 是 万 万 不 能数 据 挖 掘 是 一 个 循 环 探 索 的 过 程 参 考 文 献 网 络 资 源 u u u u u Tecent Research Question & Answer ? 联 系 我 们RTX: simonjiang TEL: 7999RTX: florayi TEL: 8889RTX: jeavinqiu TEL: 5909RTX: neilliao TEL: 4232Thank you !
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!