知识发现过程与应用结构

上传人:san****019 文档编号:23739258 上传时间:2021-06-10 格式:PPT 页数:55 大小:638.50KB
返回 下载 相关 举报
知识发现过程与应用结构_第1页
第1页 / 共55页
知识发现过程与应用结构_第2页
第2页 / 共55页
知识发现过程与应用结构_第3页
第3页 / 共55页
点击查看更多>>
资源描述
主 讲 : 赵 宏 庆数 据 挖 掘 原 理 与 算 法 Chinese Academy of Science 2 第 二 章 知 识 发 现 过 程 与 应 用 结 构 Chinese Academy of Science 3 第 二 章 知 识 发 现 过 程 与 应 用 结 构 v2.1 知 识 发 现 的 基 本 过 程 v2.2 数 据 库 中 的 知 识 发 现 处 理 过 程 模 型v2.3 知 识 发 现 软 件 或 工 具 的 发 展v2.4 知 识 发 现 项 目 的 过 程 化 管 理 v2.5 数 据 挖 掘 语 言 介 绍 Chinese Academy of Science 4 如 何 学 习 本 章 内 容v在 上 一 章 我 们 指 出 , 数 据 挖 掘 有 广 义 和 狭 义 两 种 理 解 。 为了 避 免 混 淆 , 本 章 使 用 知 识 发 现 而 把 数 据 挖 掘 限 制 在 上 面所 描 述 的 狭 义 概 念 上 。 Chinese Academy of Science 5 如 何 学 习 本 章 内 容v 虽 然 不 同 企 业 会 有 不 同 的 业 务 逻 辑 , 解 决 问 题 的 具 体 方 法 有所 差 异 , 但 是 它 们 进 行 知 识 发 现 的 目 的 和 基 本 思 路 是 一 致 的 。v 本 章 首 先 对 知 识 发 现 的 基 本 过 程 进 行 分 析 , 旨 在 使 读 者 从 总体 上 掌 握 知 识 发 现 的 基 本 步 骤 和 技 术 。v 然 后 对 目 前 比 较 流 行 的 KDD过 程 处 理 模 型 进 行 剖 析 , 了 解KDD系 统 的 应 用 体 系 结 构 。v 通 过 对 KDD系 统 的 基 本 技 术 环 境 和 主 要 部 件 功 能 分 析 , 对KDD系 统 的 体 系 结 构 有 一 个 更 深 入 的 了 解 。v 在 此 基 础 上 对 KDD软 件 和 工 具 进 行 归 纳 、 举 例 和 分 析 , 帮 助读 者 在 实 际 应 用 中 学 会 选 择 和 使 用 相 应 的 软 件 和 工 具 。 Chinese Academy of Science 6 如 何 学 习 本 章 内 容v本 章 也 对 KDD系 统 项 目 的 过 程 化 管 理 、 交 互 式 数 据 挖 掘 过程 以 及 通 用 的 KDD原 型 系 统 进 行 讨 论 , 从 软 件 项 目 管 理 角度 来 更 好 地 理 解 KDD过 程 。v最 后 对 数 据 挖 掘 语 言 的 类 型 和 特 点 进 行 介 绍 。 Chinese Academy of Science 7 2.1 知 识 发 现 是 一 个 系 统 化 的 工 作v从 源 数 据 中 发 现 有 用 知 识 是 一 个 系 统 化 的 工 作 。 首 先 必 须 对 可 以 利 用 的 源 数 据 进 行 分 析 , 确 定 合 适 的 挖 掘 目 标 。然 后 才 能 着 手 系 统 的 设 计 和 开 发 。v完 成 从 大 型 源 数 据 中 发 现 有 价 值 知 识 的 过 程 可 以 简 单 地 概括 为 : 首 先 从 数 据 源 中 抽 取 感 兴 趣 的 数 据 , 并 把 它 组 织 成 适 合 挖 掘 的 数据 组 织 形 式 ; 然 后 , 调 用 相 应 的 算 法 生 成 所 需 的 知 识 ; 最 后 对 生 成 的 知 识 模 式 进 行 评 估 , 并 把 有 价 值 的 知 识 集 成 到 企 业的 智 能 系 统 中 。v 一 般 地 说 , KDD是 一 个 多 步 骤 的 处 理 过 程 , 一 般 分 为问 题 定 义 、 数 据 抽 取 、 数 据 预 处 理 、 数 据 挖 掘 以 及 模 式 评估 等 基 本 阶 段 。 Chinese Academy of Science 8 问 题 定 义 阶 段 的 功 能v KDD是 为 了 在 大 量 数 据 中 发 现 有 用 的 令 人 感 兴 趣 的 信 息 ,因 此 发 现 何 种 知 识 就 成 为 整 个 过 程 中 第 一 个 也 是 最 重 要 的一 个 阶 段 。v在 问 题 定 义 过 程 中 , 数 据 挖 掘 人 员 必 须 和 领 域 专 家 以 及 最终 用 户 紧 密 协 作 一 方 面 了 解 相 关 领 域 的 有 关 情 况 , 熟 悉 背 景 知 识 , 弄 清 用 户 要 求 ,确 定 挖 掘 的 目 标 等 要 求 ; 另 一 方 面 通 过 对 各 种 学 习 算 法 的 对 比 进 而 确 定 可 用 的 学 习 算 法 。后 续 的 学 习 算 法 选 择 和 数 据 集 准 备 都 是 在 此 基 础 上 进 行 的 。 Chinese Academy of Science 9 2.1.1 数 据 抽 取 与 集 成v数 据 抽 取 与 集 成 是 知 识 发 现 的 关 键 性 工 作 。 早 期 的 数 据 抽取 是 依 靠 手 工 编 程 来 实 现 的 , 现 在 可 以 通 过 高 效 的 抽 取 工具 来 实 现 。v源 数 据 库 的 选 取 以 及 从 中 抽 取 数 据 的 原 则 和 具 体 规 则 必 须依 据 系 统 的 任 务 来 界 定 。 主 要 任 务 是 设 计 存 储 新 数 据 的 结 构 和 准 确 定 义 它 与 源 数 据 的 转 换和 装 载 机 制 , 以 便 正 确 地 从 每 个 数 据 源 中 抽 取 所 需 的 数 据 。 这 些 结 构 和 转 换 信 息 应 该 作 为 元 数 据 ( Metadata) 被 存 储 起 来 。v来 自 不 同 源 的 数 据 可 能 有 模 式 定 义 上 的 差 异 , 也 可 能 存 在因 数 据 冗 余 而 无 法 确 定 有 效 数 据 的 情 形 。 此 外 , 还 要 考 虑数 据 库 系 统 本 身 可 能 存 在 不 兼 容 的 情 况 Chinese Academy of Science 10 2.1.2数 据 清 洗 与 预 处 理 v在 开 始 一 个 知 识 发 现 项 目 之 前 必 须 清 晰 地 定 义 挖 掘 目 标 。因 此 , 要 提 高 挖 掘 结 果 的 准 确 率 , 数 据 预 处 理 是 不 可 忽 视的 一 步 。v对 数 据 进 行 预 处 理 , 一 般 需 要 对 源 数 据 进 行 再 加 工 , 检 查数 据 的 完 整 性 及 数 据 的 一 致 性 , 对 其 中 的 噪 音 数 据 进 行 平滑 , 对 丢 失 的 数 据 进 行 填 补 , 消 除 “ 脏 ” 数 据 , 消 除 重 复记 录 等 。v数 据 清 洗 是 指 去 除 或 修 补 源 数 据 中 的 不 完 整 、 不 一 致 、 含噪 音 的 数 据 。 Chinese Academy of Science 11 2.1.2数 据 清 洗 与 预 处 理 v常 见 的 不 完 整 数 据 的 修 补 办 法 有 : 使 用 一 个 全 局 值 来 填 充 ( 如 “ unknown”、 估 计 的 最大 数 或 最 小 数 ) 。 统 计 该 属 性 的 所 有 非 空 值 , 并 用 平 均 值 来 填 充 空 缺 项 。 只 使 用 同 类 对 象 的 属 性 平 均 值 填 充 。 利 用 回 归 或 工 具 预 测 最 可 能 的 值 , 并 用 它 来 填 充 。v数 据 不 一 致 可 能 是 由 于 源 数 据 库 中 对 同 样 属 性 所 使 用 的 数据 类 型 、 度 量 单 位 等 不 同 而 导 致 的 。 因 此 需 要 定 义 它 们 的转 换 规 则 , 并 在 挖 掘 前 统 一 成 一 个 形 式 。 Chinese Academy of Science 12 2.1.3数 据 的 选 择 与 整 理v没 有 高 质 量 的 数 据 就 不 可 能 有 高 质 量 的 挖 掘 结 果 。 为 了 得 到 一 个 高 质 量 的 适 合 挖 掘 的 数 据 子 集 , 一 方 面需 要 通 过 数 据 清 洗 来 消 除 干 扰 性 数 据 , 另 一 方 面 也 需要 针 对 挖 掘 目 标 进 行 数 据 选 择 。 数 据 选 择 的 目 的 是 辨 别 出 需 要 分 析 的 数 据 集 合 , 缩 小处 理 范 围 , 提 高 数 据 采 掘 的 质 量 。 数 据 选 择 可 以 使 后 面 的 数 据 挖 掘 工 作 聚 焦 到 和 挖 掘 任务 相 关 的 数 据 子 集 中 。 不 仅 提 高 了 挖 掘 效 率 , 而 且 也保 证 了 挖 掘 的 准 确 性 。 Chinese Academy of Science 13 2.1.3数 据 的 选 择 与 整 理v利 用 数 据 变 换 或 规 约 等 技 术 可 以 将 数 据 整 理 成 适 合 进 一 步挖 掘 的 数 据 格 式 。 数 据 变 换 可 以 根 据 需 要 构 造 出 新 的 属 性 以 帮 助 理 解 分析 数 据 的 特 点 , 或 者 将 数 据 规 范 化 , 使 之 落 在 一 个 特定 的 数 据 区 间 中 。 数 据 规 约 则 是 在 尽 可 能 保 证 数 据 完 整 性 的 基 础 上 , 将数 据 以 其 他 方 式 进 行 表 示 , 以 减 少 数 据 存 储 空 间 , 使挖 掘 过 程 更 有 效 。 常 用 的 规 约 策 略 有 : 数 据 立 方 体 聚 集 、 维 规 约 、 数 据压 缩 、 数 值 压 缩 和 离 散 化 等 。 Chinese Academy of Science 14 2.1.4 数 据 挖 掘 阶 段 的 功 能v运 用 选 定 的 数 据 挖 掘 算 法 , 从 数 据 中 提 取 出 用 户 所 需 要 的知 识 , 这 些 知 识 可 以 用 一 种 特 定 的 方 式 表 示 。v选 择 数 据 挖 掘 算 法 有 两 个 考 虑 因 素 : 一 是 不 同 的 数 据 有 不 同 的 特 点 , 因 此 需 要 用 与 之 相 关的 算 法 来 挖 掘 ; 二 是 用 户 或 实 际 运 行 系 统 的 要 求 , 有 的 用 户 可 能 希 望获 取 描 述 型 的 ( Descriptive) 、 容 易 理 解 的 知 识 ( 采用 规 则 表 示 的 挖 掘 方 法 显 然 要 好 于 神 经 网 络 之 类 的 方法 ) , 而 有 的 用 户 只 是 希 望 获 取 预 测 准 确 度 尽 可 能 高的 预 测 型 ( Predictive) 知 识 , 并 不 在 意 获 取 的 知 识 是否 易 于 理 解 。 Chinese Academy of Science 15 2.1.5 知 识 评 估 阶 段 的 功 能v数 据 挖 掘 阶 段 发 现 出 来 的 模 式 , 经 过 评 估 , 可 能 存 在 冗 余或 无 关 的 模 式 , 这 时 需 要 将 其 剔 除 ;v也 有 可 能 模 式 不 满 足 用 户 要 求 , 这 时 则 需 要 整 个 发 现 过 程回 退 到 前 续 阶 段 , 如 重 新 选 取 数 据 、 采 用 新 的 数 据 变 换 方法 、 设 定 新 的 参 数 值 , 甚 至 换 一 种 算 法 等 等 。 Chinese Academy of Science 16 2.1.5 知 识 评 估 阶 段 的 功 能vKDD由 于 最 终 是 面 向 人 类 用 户 的 , 因 此 可 能 要 对 发 现 的 模式 进 行 可 视 化 , 或 者 把 结 果 转 换 为 用 户 易 懂 的 另 一 种 表 示 。v所 以 知 识 评 估 阶 段 是 KDD一 个 重 要 的 必 不 可 少 的 阶 段 , 它不 仅 担 负 着 将 KDD系 统 发 现 的 知 识 以 用 户 能 了 解 的 方 式 呈现 , 而 且 根 据 需 要 进 行 知 识 评 价 , 如 果 和 用 户 的 挖 掘 目 标不 一 致 就 需 要 返 回 前 面 相 应 的 步 骤 进 行 螺 旋 式 处 理 以 最 终获 得 可 用 的 知 识 。 Chinese Academy of Science 17 知 识 发 现 需 要 多 方 合 作v实 施 这 样 的 项 目 不 仅 需 要 充 足 的 资 金 , 而 且 需 要 有 良 好 的技 术 和 人 员 储 备 。 在 整 个 的 知 识 发 现 过 程 中 , 需 要 有 不 同专 长 的 技 术 人 员 支 持 。 业 务 分 析 人 员 : 要 求 精 通 业 务 , 能 够 解 释 业 务 对 象 ,并 根 据 各 业 务 对 象 确 定 出 用 于 数 据 定 义 和 挖 掘 算 法 的业 务 需 求 。 数 据 分 析 人 员 : 精 通 数 据 分 析 技 术 , 并 对 统 计 学 有 较熟 练 的 掌 握 , 有 能 力 把 业 务 需 求 转 化 为 知 识 发 现 的 各步 操 作 , 并 为 每 步 操 作 选 择 合 适 的 模 型 或 工 具 。 数 据 管 理 人 员 : 精 通 数 据 管 理 技 术 , 并 负 责 从 数 据 库或 数 据 仓 库 中 收 集 数 据 。 Chinese Academy of Science 18 第 二 章 知 识 发 现 过 程 与 应 用 结 构 v2.1 知 识 发 现 的 基 本 过 程 v2.2 数 据 库 中 的 知 识 发 现 处 理 过 程 模 型v2.3 知 识 发 现 软 件 或 工 具 的 发 展v2.4 知 识 发 现 项 目 的 过 程 化 管 理 v2.5 数 据 挖 掘 语 言 介 绍 Chinese Academy of Science 19 2.2.1 阶 梯 处 理 过 程 模 型v多 阶 段 流 水 处 理 模 型 : Chinese Academy of Science 20 2.2.2 螺 旋 处 理 过 程 模 型v它 强 调 领 域 专 家 参 与 的 重 要 性 , 并 以 问 题 的 定 义 为 中 心 循环 评 测 挖 掘 的 结 果 。 当 结 果 不 令 人 满 意 时 , 就 需 要 重 新 定义 问 题 , 开 始 新 的 处 理 循 环 。 每 次 循 环 都 使 问 题 更 清 晰 ,结 果 更 准 确 , 因 此 是 一 个 螺 旋 式 上 升 过 程 。 Chinese Academy of Science 21 2.2.3 以 用 户 为 中 心 的 处 理 模 型vBrachman和 Anand从 用 户 的 角 度 对 KDD处 理 过 程 进 行 了分 析 。 他 们 认 为 数 据 库 中 的 知 识 发 现 应 该 更 着 重 于 对 用 户进 行 知 识 发 现 的 整 个 过 程 的 支 持 , 而 不 是 仅 仅 限 于 在 数 据挖 掘 的 一 个 阶 段 上 。 该 模 型 强 调 对 用 户 与 数 据 库 的 交 互 的支 持 。 Chinese Academy of Science 22 2.2.4 联 机 KDD模 型v 实 现 联 机 交 互 式 KDD需 要 可 视 化 技 术 支 撑 。 这 种 可 视 化 需 要 从数 据 挖 掘 过 程 可 视 化 、 数 据 可 视 化 、 模 型 可 视 化 和 算 法 可 视 觉化 等 方 面 来 理 解 。v OLAM( On Line Analytical Mining: 联 机 分 析 挖 掘 ) 的 概 念是 OLAP的 发 展 。 An OLAM Architecture Data WarehouseMeta DataMDDB OLAMEngine OLAPEngineUser GUIAPIData Cube APIDatabase API Data cleaningData integration L2OLAP/OLAML1MDDBL0 Data Repository L3User Interface Filtering&Integration FilteringDatabases Mining query Mining result Chinese Academy of Science 23 2.2.5 支 持 多 数 据 源 多 知 识 模 式 的 KDD处 理 模 型v数 据 与 方 法 相 对 独 立 。 数 据 不 是 针 对 某 一 特 定 知 识 模 式 ,而 是 针 对 某 一 类 问 题 来 抽 取 。v经 过 预 处 理 后 , 这 些 数 据 对 于 某 些 挖 掘 算 法 来 说 可 能 存 在属 性 冗 余 、 与 目 标 无 关 等 问 题 , 因 此 在 后 面 的 阶 段 再 进 行相 关 的 数 据 清 洗 和 选 择 工 作 , 这 样 使 得 解 决 同 一 类 问 题 的不 同 算 法 可 以 在 统 一 的 KDD平 台 上 完 成 。 模 式 评 估模 式 评 估数 据 挖 掘数 据 挖 掘数 据 选 择数 据 预 处 理数 据 清 洗模 式 选 择数 据 集 成数 据 抽 取数 据 抽 取问 题 定 义 Web/TEXTDB DWDB/DW 源数据备选数据Cub e 目标数据DB知 识 库用 户 知识模 式 库 Chinese Academy of Science 24 第 二 章 知 识 发 现 过 程 与 应 用 结 构 v2.1 知 识 发 现 的 基 本 过 程 v2.2 数 据 库 中 的 知 识 发 现 处 理 过 程 模 型v2.3 知 识 发 现 软 件 或 工 具 的 发 展v2.4 知 识 发 现 项 目 的 过 程 化 管 理 v2.5 数 据 挖 掘 语 言 介 绍 Chinese Academy of Science 25 2.3 知 识 发 现 软 件 的 发 展v虽 然 市 场 上 已 经 有 许 多 所 谓 的 知 识 发 现 系 统 或 工 具 , 但 是 ,这 些 工 具 只 能 用 来 辅 助 技 术 人 员 进 行 设 计 和 开 发 , 而 且 知识 发 现 软 件 本 身 也 正 处 于 发 展 阶 段 , 仍 然 存 在 各 种 各 样 需要 解 决 的 问 题 。v粗 略 地 说 , 知 识 发 现 软 件 或 工 具 的 发 展 经 历 了 独 立 的 知 识发 现 软 件 、 横 向 的 知 识 发 现 工 具 集 和 纵 向 的 知 识 发 现 解 决方 案 三 个 主 要 阶 段 , 其 中 后 面 两 种 反 映 了 目 前 知 识 发 现 软件 的 两 个 主 要 发 展 方 向 。 Chinese Academy of Science 26 2.3.1 独 立 的 知 识 发 现 软 件v独 立 的 知 识 发 现 软 件 出 现 在 数 据 挖 掘 和 知 识 发 现 技 术 研 究的 早 期 。v当 研 究 人 员 开 发 出 一 种 新 型 的 数 据 挖 掘 算 法 后 , 就 在 此 基础 上 形 成 软 件 原 型 。 这 些 原 型 系 统 经 过 完 善 被 尝 试 使 用 。v这 类 软 件 要 求 用 户 必 须 对 具 体 的 数 据 挖 掘 技 术 和 算 法 有 相当 的 了 解 , 还 要 手 工 负 责 大 量 的 数 据 预 处 理 工 作 。 Chinese Academy of Science 27 2.3.2 横 向 的 知 识 发 现 工 具v集 成 化 的 知 识 发 现 辅 助 工 具 集 , 属 于 通 用 辅 助 工 具 范 畴 ,可 以 帮 助 用 户 快 速 完 成 知 识 发 现 的 不 同 阶 段 处 理 工 作 。v一 些 有 代 表 性 的 原 型 系 统 或 工 具 介 绍 。名 称 研 究 机 构 或 公 司 主 要 特 点 DBMiner1 Simon Fraser 以 OLAM引 擎 为 核 心 的 联 机 挖 掘 原 型 系 统 ; 包 含 多 特 征 /序 列 /关 联 等 多 模 式 。Quest75 IBM Almaden 面 向 大 数 据 集 的 多 模 式 ( 关 联 规 则 /分 类 等 ) 挖 掘 工 具 。IBM Intelligent Miner76 IBM 包 含 多 种 技 术 ( 神 经 网 络 /统 计 分 析 /聚 类 等 ) 的 辅 助 挖 掘 工 具 集 。Darwin76 Thinking Machines 基 于 神 经 网 络 的 辅 助 挖 掘 工 具 。ReMind Cognitive System 基 于 实 例 推 理 和 归 纳 逻 辑 的 辅 助 挖 掘 工 具 。 Chinese Academy of Science 28 2.3.3 纵 向 的 知 识 发 现 解 决 方 案v随 着 横 向 的 数 据 挖 掘 工 具 集 的 使 用 日 渐 广 泛 , 人 们 也 发 现这 类 工 具 只 有 精 通 数 据 挖 掘 算 法 的 专 家 才 能 熟 练 使 用 。 如 果 对 数 据 挖 掘 和 知 识 发 现 技 术 及 其 算 法 不 了 解 , 就 难 以 开 发 出好 的 应 用 。v纵 向 的 数 据 挖 掘 解 决 方 案 的 核 心 是 针 对 特 定 的 应 用 提 供 完整 的 数 据 挖 掘 和 知 识 发 现 解 决 方 案 。 由 于 和 具 体 的 商 业 逻 辑 相 结 合 , 因 此 , 数 据 挖 掘 技 术 专 门 为 了 解决 某 些 特 定 的 问 题 被 使 用 , 成 为 企 业 应 用 系 统 中 一 部 分 。 Chinese Academy of Science 29 2.3.3 纵 向 的 知 识 发 现 解 决 方 案v许 多 厂 商 或 研 究 机 构 可 以 提 供 纵 向 数 据 挖 掘 的 解 决 方 案 。因 此 , 数 据 挖 掘 技 术 在 最 近 几 年 开 始 在 一 些 领 域 得 到 应 用 。 例 如 , 证 券 系 统 的 趋 势 预 测 、 银 行 和 电 信 行 业 的 欺 诈 行 为 检 测 、在 CRM中 的 应 用 、 在 基 因 分 析 系 统 中 用 于 DNA识 别 等 。v特 定 领 域 的 数 据 挖 掘 工 具 针 对 性 比 较 强 , 只 能 用 于 一 种 应用 ; 也 正 因 为 针 对 性 强 , 往 往 采 用 特 殊 的 算 法 , 可 以 处 理特 殊 的 数 据 , 实 现 特 殊 的 目 的 , 发 现 的 知 识 可 靠 度 也 比 较高 。 Chinese Academy of Science 30 第 二 章 知 识 发 现 过 程 与 应 用 结 构 v2.1 知 识 发 现 的 基 本 过 程 v2.2 数 据 库 中 的 知 识 发 现 处 理 过 程 模 型v2.3 知 识 发 现 软 件 或 工 具 的 发 展v2.4 知 识 发 现 项 目 的 过 程 化 管 理 v2.5 数 据 挖 掘 语 言 介 绍 Chinese Academy of Science 31 2.4 知 识 发 现 项 目 的 过 程 化 管 理 问 题v开 发 一 个 数 据 挖 掘 和 知 识 发 现 项 目 需 要 各 方 面 协 同 合 作 而且 极 易 出 现 问 题 , 因 此 它 的 质 量 管 理 问 题 的 讨 论 是 重 要 而困 难 的 。v近 几 年 , 有 一 些 针 对 数 据 挖 掘 和 知 识 发 现 项 目 的 过 程 化 管理 所 开 展 的 工 作 , 其 中 一 个 典 型 的 模 型 三 被 称 作 强 度 挖 掘( Intension Mining) 的 I-MIN过 程 模 型 。vI-MIN过 程 模 型 把 KDD过 程 分 成 IM1、 IM2、 、 IM6等 步骤 处 理 , 在 每 个 步 骤 里 , 集 中 讨 论 几 个 问 题 , 并 按 一 定 的质 量 标 准 来 控 制 项 目 的 实 施 。 Chinese Academy of Science 32 IM1的 任 务 与 目 的v它 是 KDD项 目 的 计 划 阶 段 , 需 要 确 定 企 业 的 挖 掘 目 标 , 选择 知 识 发 现 模 式 , 编 译 知 识 发 现 模 式 得 到 的 元 数 据 。v目 的 是 将 企 业 的 挖 掘 目 标 嵌 入 到 对 应 的 知 识 模 式 中 。v对 数 据 挖 掘 研 究 人 员 来 说 , 往 往 把 主 要 精 力 用 在 改 进 现 有算 法 和 探 索 新 算 法 上 。 但 是 在 真 正 调 用 挖 掘 算 法 之 前 , 必须 对 企 业 的 决 策 机 制 和 流 程 进 行 充 分 调 研 , 理 解 企 业 急 需解 决 的 问 题 。 需 要 准 确 地 确 定 挖 掘 目 标 和 可 交 付 系 统 的 指标 等 。 Chinese Academy of Science 33 IM2的 任 务 与 目 标v它 是 KDD的 预 处 理 阶 段 , 可 以 用 IM2a、 IM2b、 IM2c等 分别 对 应 于 数 据 清 洗 、 数 据 选 择 和 数 据 转 换 等 阶 段 。v其 目 的 是 生 成 高 质 量 的 目 标 数 据 。v知 识 发 现 项 目 的 数 据 预 处 理 是 一 个 费 时 费 力 的 工 作 。 事 实上 , 数 据 挖 掘 的 成 功 与 否 , 数 据 预 处 理 起 到 了 至 关 重 要 的作 用 。 只 有 好 的 预 处 理 , 才 能 避 免 GIGO( 垃 圾 进 垃 圾 出 )的 现 象 发 生 。 Chinese Academy of Science 34 IM3的 任 务 与 目 标v它 是 KDD的 挖 掘 准 备 阶 段 , 数 据 挖 掘 工 程 师 进 行 挖 掘 实 验 ,反 复 测 试 和 验 证 模 型 的 有 效 性 。v其 目 的 是 通 过 实 验 和 训 练 得 到 浓 缩 知 识 (Knowledge Concentrate), 为 最 终 用 户 提 供 可 使 用 的 模 型 。 Chinese Academy of Science 35 IM4的 任 务 与 目 标v它 是 KDD的 数 据 挖 掘 阶 段 , 用 户 通 过 指 定 数 据 挖 掘 算 法 得到 对 应 的 知 识 。 Chinese Academy of Science 36 IM5的 任 务 与 目 标v它 是 KDD的 知 识 表 示 阶 段 , 按 指 定 要 求 形 成 规 格 化 的 知 识 。 Chinese Academy of Science 37 IM6的 任 务 与 目 标v它 是 KDD的 知 识 解 释 与 使 用 阶 段 , 其 目 的 是 根 据 用 户 要 求直 观 地 输 出 知 识 或 集 成 到 企 业 的 知 识 库 中 。 Chinese Academy of Science 38 第 二 章 知 识 发 现 过 程 与 应 用 结 构 v2.1 知 识 发 现 的 基 本 过 程 v2.2 数 据 库 中 的 知 识 发 现 处 理 过 程 模 型v2.3 知 识 发 现 软 件 或 工 具 的 发 展v2.4 知 识 发 现 项 目 的 过 程 化 管 理 v2.5 数 据 挖 掘 语 言 介 绍 Chinese Academy of Science 39 2.5 数 据 挖 掘 语 言 概 述v设 计 理 想 的 数 据 挖 掘 语 言 是 一 个 巨 大 的 挑 战 。 这 是 因 为 数 据 挖 掘 覆 盖 的 任 务 宽 、 包 含 知 识 形 式 广 ( 如 数 据 特 征化 、 关 联 规 则 、 数 据 分 类 、 聚 集 等 等 ) 。 每 个 任 务 都 有 不 同 的 需 求 , 每 种 知 识 表 示 形 式 都 有 不 同 内 涵 。 一 个 有 效 的 数 据 挖 掘 语 言 设 计 需 要 对 各 种 不 同 的 数 据 挖 掘 任 务 的能 力 、 约 束 以 及 运 行 机 制 有 深 入 地 理 解 。 Chinese Academy of Science 40 2.5 数 据 挖 掘 语 言 概 述v众 所 周 知 , 关 系 查 询 语 言 的 标 准 化 , 发 生 在 关 系 型 数 据 库开 发 的 早 期 阶 段 。 经 过 不 懈 的 努 力 , 以 SQL为 代 表 的 关 系型 数 据 库 查 询 语 言 的 标 准 化 被 成 功 解 决 。v同 样 , 一 个 好 的 数 据 挖 掘 语 言 可 以 有 助 于 数 据 挖 掘 系 统 平台 的 标 准 化 进 程 , 甚 至 可 以 象 HTML推 动 Internet的 发 展一 样 , 推 动 数 据 挖 掘 行 业 的 开 发 和 发 展 。 Chinese Academy of Science 41 2.5 数 据 挖 掘 语 言 概 述v数 据 挖 掘 语 言 的 发 展 大 致 经 历 了 两 个 阶 段 : 第 一 个 阶 段 是 研 究 单 位 和 公 司 自 行 研 究 和 开 发 阶 段 ; 第 二 阶 段 是 研 究 单 位 和 公 司 组 成 联 盟 , 研 制 和 开 发 数据 挖 掘 语 言 标 准 化 的 阶 段 。 Chinese Academy of Science 42 2.5.1数 据 挖 掘 语 言 分 类v根 据 功 能 和 侧 重 点 不 同 , 数 据 挖 掘 语 言 可 以 分 为 三 种 类 型 : 数 据 挖 掘 查 询 语 言 : 希 望 以 一 种 像 SQL这 样 的 数 据 库查 询 语 言 完 成 数 据 挖 掘 的 任 务 。 数 据 挖 掘 建 模 语 言 : 对 数 据 挖 掘 模 型 进 行 描 述 和 定 义的 语 言 , 设 计 一 种 标 准 的 数 据 挖 掘 建 模 语 言 , 使 得 数据 挖 掘 系 统 在 模 型 定 义 和 描 述 方 面 有 标 准 可 以 遵 循 。 通 用 数 据 挖 掘 语 言 : 通 用 数 据 挖 掘 语 言 合 并 了 上 述 两种 语 言 的 特 点 , 既 具 有 定 义 模 型 的 功 能 , 又 能 作 为 查询 语 言 与 数 据 挖 掘 系 统 通 信 , 进 行 交 互 式 挖 掘 。 Chinese Academy of Science 43 2.5.1数 据 挖 掘 语 言 分 类v通 用 数 据 挖 掘 语 言 的 标 准 化 是 目 前 解 决 数 据 挖 掘行 业 出 现 问 题 的 颇 具 吸 引 力 的 研 究 方 向 。 Chinese Academy of Science 44 2.5.2 数 据 挖 掘 查 询 语 言vJ. W. Han等 开 发 的 数 据 挖 掘 系 统 DBMiner中 数 据 挖 掘 查询 语 言 DMQL( Data Mining Query Language) 是 这 类挖 掘 语 言 的 典 型 代 表 。v数 据 挖 掘 查 询 语 言 DMQL由 数 据 挖 掘 原 语 组 成 , 数 据 挖 掘原 语 用 来 定 义 一 个 数 据 挖 掘 任 务 。v用 户 使 用 数 据 挖 掘 原 语 与 数 据 挖 掘 系 统 通 信 , 使 得 知 识 发现 更 有 效 。 Chinese Academy of Science 45 2.5.2 数 据 挖 掘 查 询 语 言v这 些 原 语 有 以 下 几 个 种 类 : 数 据 库 部 分 以 及 用 户 感 兴 趣 的 数 据 集 ( 包 括 感 兴 趣 的数 据 库 属 性 或 数 据 仓 库 的 维 度 ) ; 挖 掘 知 识 的 种 类 ; 在 指 导 挖 掘 过 程 中 有 用 的 背 景 知 识 ; 模 式 估 值 的 兴 趣 度 测 量 ; 挖 掘 出 的 知 识 如 何 可 视 化 表示 。 Chinese Academy of Science 46 2.5.2 数 据 挖 掘 查 询 语 言v数 据 挖 掘 查 询 的 基 本 单 位 是 数 据 挖 掘 任 务 , 通 过 数 据 挖 掘查 询 语 言 , 数 据 挖 掘 任 务 可 以 通 过 查 询 的 形 式 输 入 到 数 据挖 掘 系 统 中 。v一 个 数 据 挖 掘 查 询 由 五 种 基 本 的 数 据 挖 掘 原 语 定 义 。 Chinese Academy of Science 47 2.5.3 数 据 挖 掘 建 模 语 言v数 据 挖 掘 建 模 语 言 是 对 数 据 挖 掘 模 型 进 行 描 述 和 定 义 的 语言 。v预 言 模 型 标 记 语 言 ” ( Predictive Model Markup Language, PMML) 被 一 个 称 作 数 据 挖 掘 协 会 ( The Data Mining Group, DMG) 的 组 织 开 发 。vPMML是 一 种 基 于 XML的 语 言 , 用 来 定 义 预 言 模 型 。vPMML允 许 应 用 程 序 和 联 机 分 析 处 理 ( OLAP) 工 具 能 从数 据 挖 掘 系 统 获 得 模 型 , 而 不 用 独 自 开 发 数 据 挖 掘 模 块 。 Chinese Academy of Science 48 2.5.3 数 据 挖 掘 建 模 语 言v PMML的 模 型 定 义 由 以 下 几 部 分 组 成 : 头 文 件 ( Header) ; 数 据 模 式 ( Data Schema) ; 数 据 挖 掘 模 式 ( Data Mining Schema) ; 预 言 模 型 模 式 ( Predictive Model Schema) ; 预 言 模 型 定 义 ( Definitions for Predictive Models) ; 全 体 模 型 定 义 ( Definitions for Ensembles of Models) ; 选 择 和 联 合 模 型 和 全 体 模 型 的 规 则 ( Rules for Selecting and Combining Models and Ensembles of Models) ; 异 常 处 理 的 规 则 ( Rules for Exception Handling) Chinese Academy of Science 49 2.5.4 通 用 数 据 挖 掘 语 言v通 用 数 据 挖 掘 语 言 合 并 了 上 述 两 种 语 言 的 特 点 , 既 具 有 定义 模 型 的 功 能 , 又 能 作 为 查 询 语 言 与 数 据 挖 掘 系 统 通 信 ,进 行 交 互 式 挖 掘 。v2000年 3月 , 微 软 公 司 推 出 了 一 个 数 据 挖 掘 语 言 , 称 作OLE DB for Data Mining( DM) , 是 通 用 数 据 挖 掘 语 言中 最 具 代 表 性 的 尝 试 。 微 软 此 举 的 目 的 是 为 数 据 挖 掘 提 供行 业 标 准 。 只 要 符 合 这 个 标 准 , 都 能 容 易 地 嵌 入 应 用 程 序中 。vOLE DB for DM支 持 多 种 流 行 的 数 据 挖 掘 算 法 。 使 用OLE DB for DM, 数 据 挖 掘 应 用 能 够 通 过 OLE DB生 产 者接 进 任 何 表 格 式 的 数 据 源 。 Chinese Academy of Science 50 2.5.5 DMQL挖 掘 查 询 语 言 介 绍v DMQL语 言 的 顶 层 语 法DMQL:=; :=|v 数 据 挖 掘 声 明 ( Data_Mining_Statement) 语 句 相 关 项 说 明:=use database | use data warehouse use hierarchy for from where in relevance to order by group by having Chinese Academy of Science 51 2.5.5 DMQL挖 掘 查 询 语 言 介 绍v 例 子 :use database AllElecronics_dbin relevance to I.name,I.price,C.income,C.agefrom customer C, item I, purchases P, items_sold Swhere I.item_ID=S.item_ID and S.trans_ID=P.trans_ID and P.cust_ID=C.cust_ID and C.country=“Canada”group by P.date; Chinese Academy of Science 52 DMQL挖 掘 查 询 语 言 介 绍 (续 )v挖 掘 知 识 指 定 ( Mine_Knowledge_Specification) 语 句 相关 项 说 明:=| := mine characteristics as analyze := mine comparison as for where versus where analyze := mine associations as matching :=mine classification as analyze Chinese Academy of Science 53 DMQL挖 掘 查 询 语 言 介 绍 (续 )v 概 念 分 层 声 明 ( Concept_Hierarchy_Definition_Statement) 相 关 项 说 明 :=define hierarchy for on as where v 例 子 :define hierarchy age_hierarchy for age on customer aslevel1: young, middle_aged, senior level0:alllevel2: 20, ., 39 level1: younglevel2: 40, ., 59 level1: middle_agedlevel2: 60, ., 89 level1: senior;define hierarchy profit_margin_hierarchy on item as level1: low_profit_margin level_0: all if (price - cost) $50level1: medium-profit_margin $50) and (price - cost) = $250) level1: high_profit_margin $250; Chinese Academy of Science 54 DMQL挖 掘 查 询 语 言 介 绍 (续 )v模 式 表 示 和 可 视 化 说 明 的 语 法 :=display as | ; := roll up on | drill down on | add | drop ;其 中 可 以 是 规 则 、 表 、 交 叉 表 、 饼 图 或 条 图 、判 定 树 、 立 方 体 、 曲 线 或 曲 面 等 Chinese Academy of Science 55
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!