资源描述
PPT模 板 下 载 : www.1 总结与展望DBN(深度信念网)RBM( 受 限 玻 尔 兹 曼 机 )深 度 学 习 概 述目录 深 度 学 习 概 述 浅 层 学 习 是 机 器 学 习 的 第 一 次 浪 潮 人 工 神 经 网 络 ( BP算 法 ) 虽 被 称 作 多 层 感 知 机 , 但 实 际 是 种 只 含 有 一 层 隐层 节 点 的 浅 层 模 型 SVM、 Boosting、 最 大 熵 方 法 ( 如 LR, Logistic Regression) 带 有 一 层 隐 层 节 点 ( 如 SVM、 Boosting) , 或 没有 隐 层 节 点 ( 如 LR) 的 浅 层 模 型局 限 性 : 有 限 样 本 和 计 算 单 元 情 况 下 对 复 杂 函 数 的表 示 能 力 有 限 , 针 对 复 杂 分 类 问 题 其 泛 化 能 力 受限 。 浅 层 学 习 与 深 度 学 习 l 2006年 , 加 拿 大 多 伦 多 大 学 教 授 、 机 器 学 习 领 域的 泰 斗 Geoffrey Hinton在 科 学 上 发 表 论 文 提出 深 度 学 习 主 要 观 点 :l 1) 多 隐 层 的 人 工 神 经 网 络 具 有 优 异 的 特 征 学 习能 力 , 学 习 得 到 的 特 征 对 数 据 有 更 本 质 的 刻 画 ,从 而 有 利 于 可 视 化 或 分 类 ;l 2) 深 度 神 经 网 络 在 训 练 上 的 难 度 , 可 以 通 过“ 逐 层 初 始 化 ” ( layer-wise pre-training) 来 有 效克 服 , 逐 层 初 始 化 可 通 过 无 监 督 学 习 实 现 的 。 l 深 度 学 习 : 深 度 学 习 通 过 组 合 低 层特 征 形 成 更 加 抽 象 的 高 层 表 示 属 性类 别 或 特 征 , 以 发 现 数 据 的 分 布 式特 征 表 示l 深 度 神 经 网 络 : 含 有 多 个 隐 层 的 神经 网 络 l深 度 学 习 : 一 种 基 于 无 监 督 特 征学 习 和 特 征 层 次 结 构 的 学 习 方 法l可 能 的 的 名 称 :深 度 学 习特 征 学 习无 监 督 特 征 学 习基 本 概 念 l 深 度 学 习 的 优 势 :l 能 以 更 加 紧 凑 简 洁 的 方 式 来 表 达 比 浅 层 网 络 大 得多 的 函 数 集 合l 训 练 深 度 学 习 的 困 难 :l ( 1) 数 据 获 取 问 题l 考 虑 到 深 度 网 络 具 有 强 大 的 表 达 能 力 , 在 不 充 足的 数 据 上 进 行 训 练 将 会 导 致 过 拟 合l ( 2) 局 部 极 值 问 题l 与 梯 度 下 降 法 有 关 l 本 质 : 通 过 构 建 多 隐 层 的 模 型 和 海 量 训 练 数 据 ( 可 为 无 标 签 数据 ) , 来 学 习 更 有 用 的 特 征 , 从 而 最 终 提 升 分 类 或 预 测 的 准 确 性 。 “ 深 度 模 型 ” 是 手 段 , “ 特 征 学 习 ” 是 目 的 。l 与 浅 层 学 习 区 别 :1) 强 调 了 模 型 结 构 的 深 度 , 通 常 有 5-10多 层 的 隐 层 节 点 ;2) 明 确 突 出 了 特 征 学 习 的 重 要 性 , 通 过 逐 层 特 征 变 换 , 将 样 本 在 原空 间 的 特 征 表 示 变 换 到 一 个 新 特 征 空 间 , 从 而 使 分 类 或 预 测 更 加容 易 。 与 人 工 规 则 构 造 特 征 的 方 法 相 比 , 利 用 大 数 据 来 学 习 特 征 ,更 能 够 刻 画 数 据 的 丰 富 内 在 信 息 。 l好 处 : 可 通 过 学 习 一 种 深 层 非 线 性 网 络 结构 , 实 现 复 杂 函 数 逼 近 , 表 征 输 入 数 据 分布 式 表 示 。 相 同 点 : 二 者 均 采 用 分 层 结 构 , 系 统 包 括 输 入 层 、 隐 层 ( 多 层 ) 、输 出 层 组 成 的 多 层 网 络 , 只 有 相 邻 层 节 点 之 间 有 连 接 , 同 一 层以 及 跨 层 节 点 之 间 相 互 无 连 接 , 每 一 层 可 以 看 作 是 一 个logistic 回 归 模 型 。不 同 点 :神 经 网 络 : 采 用 BP算 法 调 整 参 数 , 即 采 用 迭 代 算 法 来 训 练 整 个 网络 。 随 机 设 定 初 值 , 计 算 当 前 网 络 的 输 出 , 然 后 根 据 当 前 输 出和 样 本 真 实 标 签 之 间 的 差 去 改 变 前 面 各 层 的 参 数 , 直 到 收 敛 ;深 度 学 习 : 采 用 逐 层 训 练 机 制 。 采 用 该 机 制 的 原 因 在 于 如 果 采 用BP机 制 , 对 于 一 个 deep network( 7层 以 上 ) , 残 差 传 播 到 最前 面 的 层 将 变 得 很 小 , 出 现 所 谓 的 gradient diffusion( 梯 度扩 散 ) 。 l神 经 网 络 的 局 限 性 :1) 比 较 容 易 过 拟 合 , 参 数 比 较 难 调 整 , 而 且需 要 不 少 技 巧 ;2) 训 练 速 度 比 较 慢 , 在 层 次 比 较 少 ( 小 于 等于 3) 的 情 况 下 效 果 并 不 比 其 它 方 法 更 优 ; l 不 采 用 BP算 法 的 原 因( 1) 反 馈 调 整 时 , 梯 度 越 来 越 稀 疏 , 从 顶 层 越 往下 , 误 差 校 正 信 号 越 来 越 小 ;( 2) 收 敛 易 至 局 部 最 小 , 由 于 是 采 用 随 机 值 初 始化 , 当 初 值 是 远 离 最 优 区 域 时 易 导 致 这 一 情 况 ;( 3) BP算 法 需 要 有 标 签 数 据 来 训 练 , 但 大 部 分 数据 是 无 标 签 的 ; l第 一 步 : 采 用 自 下 而 上 的 无 监 督 学 习1) 逐 层 构 建 单 层 神 经 元 。2) 每 层 采 用 wake-sleep算 法 进 行 调 优 。 每 次仅 调 整 一 层 , 逐 层 调 整 。 这 个 过 程 可 以 看 作 是 一 个 feature learning的 过 程 , 是 和 传 统 神 经 网 络 区 别 最 大 的 部分 。 l wake-sleep算 法 :1) wake阶 段 : 认 知 过 程 , 通 过 下 层 的 输 入 特 征 ( Input) 和 向 上 的 认 知 ( Encoder) 权 重产 生 每 一 层 的 抽 象 表 示 ( Code) , 再 通 过 当 前 的 生 成 ( Decoder) 权 重 产生 一 个 重 建 信 息 ( Reconstruction) , 计 算 输 入 特 征 和 重 建 信 息 残 差 ,使 用 梯 度 下 降 修 改 层 间 的 下 行 生 成 ( Decoder) 权 重 。 也 就 是 “ 如 果 现 实跟 我 想 象 的 不 一 样 , 改 变 我 的 生 成 权 重 使 得 我 想 象 的 东 西 变 得 与 现 实 一样 ” 。2) sleep阶 段 : 生 成 过 程 , 通 过 上 层 概 念 ( Code) 和 向 下 的 生 成 ( Decoder) 权 重 , 生 成下 层 的 状 态 , 再 利 用 认 知 ( Encoder) 权 重 产 生 一 个 抽 象 景 象 。 利 用 初 始上 层 概 念 和 新 建 抽 象 景 象 的 残 差 , 利 用 梯 度 下 降 修 改 层 间 向 上 的 认 知( Encoder) 权 重 。 也 就 是 “ 如 果 梦 中 的 景 象 不 是 我 脑 中 的 相 应 概 念 , 改变 我 的 认 知 权 重 使 得 这 种 景 象 在 我 看 来 就 是 这 个 概 念 ” 。 EncoderDecoder Input ImageClass labele.g.FeaturesEncoderDecoder FeaturesEncoderDecoderAutoEncoder: l 第 二 步 : 自 顶 向 下 的 监 督 学 习 这 一 步 是 在 第 一 步 学 习 获 得 各 层 参 数 进 的 基 础上 , 在 最 顶 的 编 码 层 添 加 一 个 分 类 器 ( 例 如 罗 杰斯 特 回 归 、 SVM等 ) , 而 后 通 过 带 标 签 数 据 的 监督 学 习 , 利 用 梯 度 下 降 法 去 微 调 整 个 网 络 参 数 。 深 度 学 习 的 第 一 步 实 质 上 是 一 个 网 络 参 数 初 始化 过 程 。 区 别 于 传 统 神 经 网 络 初 值 随 机 初 始 化 ,深 度 学 习 模 型 是 通 过 无 监 督 学 习 输 入 数 据 的 结 构得 到 的 , 因 而 这 个 初 值 更 接 近 全 局 最 优 , 从 而 能够 取 得 更 好 的 效 果 。 深度神经网络的演化神经网络 深度神经网络多层感知器 1) 强 调 了 模 型 结 构 的 深 度 , 通 常 有 5-10多 层的 隐 层 节 点 ;2) 明 确 突 出 了 特 征 学 习 的 重 要 性 , 通 过 逐 层特 征 变 换 , 将 样 本 在 原 空 间 的 特 征 表 示 变换 到 一 个 新 特 征 空 间 , 从 而 使 分 类 或 预 测更 加 容 易 。 与 人 工 规 则 构 造 特 征 的 方 法 相比 , 利 用 大 数 据 来 学 习 特 征 , 更 能 够 刻 画数 据 的 丰 富 内 在 信 息 。3) 可 通 过 学 习 一 种 深 层 非 线 性 网 络 结 构 , 实现 复 杂 函 数 逼 近 , 表 征 输 入 数 据 分 布 式 表示 。 神 经 网 络 : 深 度 学 习 : l 1) 自 动 编 码 器 ( AutoEncoder )l 2) 稀 疏 自 编 码 (Sparse AutoEncoder)l 3) 卷 积 神 经 网 络l 4) 限 制 玻 尔 兹 曼 机l 降 噪 自 动 编 码 器 (Denoising AutoEncoders); 深 度 玻 尔 兹 曼 机( Deep Boltzmann Machine) ; 卷 积 波 尔 兹 曼 机 ; RBM( 受 限 玻 尔 兹 曼 机 ) 受 限 玻 尔 兹 曼 机 (Restricted Boltzmann Machine,简 称 RBM)是 由 Hinton和 Sejnowski于 1986年 提 出 的 一 种 生 成 式 随 机 神 经 网 络(generative stochastic neural network), 该 网 络 由 一 些 可 见 单 元(visible unit, 对 应 可 见 变 量 , 亦 即 数 据样 本 )和 一 些 隐 藏 单 元 (hidden unit, 对 应隐 藏 变 量 )构 成 , 可 见 变 量 和 隐 藏 变 量 都 是二 元 变 量 , 亦 即 其 状 态 取 0,1。 整 个 网 络是 一 个 二 部 图 , 只 有 可 见 单 元 和 隐 藏 单 元之 间 才 会 存 在 边 , 可 见 单 元 之 间 以 及 隐 藏单 元 之 间 都 不 会 有 边 连 接 受 限 玻 尔 兹 曼 机 上 图 所 示 的 RBM含 有 9个 可 见 单 元(构 成 一 个 向 量 v)和 3个 隐 藏 单 元 (构 成 一个 向 量 h), W是 一 个 9*3的 矩 阵 , 表 示可 见 单 元 和 隐 藏 单 元 之 间 的 边 的 权 重 。 l RBM是 玻 尔 兹 曼 机 (Boltzmann machine, BM)的 一 种 特 殊 拓 扑 结 构 。 BM的 原 理 起源 于 统 计 物 理 学 , 是 一 种 基 于 能 量 函 数 的 建 模 方 法 , 能 够 描 述 变 量 之 间 的 高 阶 相互 作 用 , BM的 学 习 算 法 较 复 杂 , 但 所 建 模 型 和 学 习 算 法 有 比 较 完 备 的 物 理 解 释和 严 格 的 数 理 统 计 理 论 作 基 础 。l BM是 一 种 对 称 耦 合 的 随 机 反 馈 型 二 值 单 元 神 经 网 络 , 由 可 见 层 和 多 个 隐 层 组 成 ,网 络 节 点 分 为 可 见 单 元 (visible unit)和 隐 单 元 (hidden unit), 用 可 见 单 元 和 隐 单 元来 表 达 随 机 网 络 与 随 机 环 境 的 学 习 模 型 , 通 过 权 值 表 达 单 元 之 间 的 相 关 性 。l BM是 由 Hinton和 Sejnowski提 出 的 一 种 随 机 递 归 神 经 网 络 , 可 以 看 做 是 一 种 随 机生 成 的 Hopfield网 络 , 是 能 够 通 过 学 习 数 据 的 固 有 内 在 表 示 解 决 困 难 学 习 问 题 的最 早 的 人 工 神 经 网 络 之 一 , 因 样 本 分 布 遵 循 玻 尔 兹 曼 分 布 而 命 名 为 BM。 BM由 二值 神 经 元 构 成 , 每 个 神 经 元 只 取 1或 0这 两 种 状 态 , 状 态 1代 表 该 神 经 元 处 于 接 通状 态 , 状 态 0代 表 该 神 经 元 处 于 断 开 状 态 。 l 正 如 名 字 所 提 示 的 那 样 , 受 限 玻 尔 兹 曼 机 是 一 种玻 尔 兹 曼 机 的 变 体 , 但 限 定 模 型 必 须 为 二 分 图 。l 模 型 中 包 含 对 应 输 入 参 数 的 输 入 ( 可 见 ) 单 元 和对 应 训 练 结 果 的 隐 单 元 , 图 中 的 每 条 边 必 须 连 接一 个 可 见 单 元 和 一 个 隐 单 元 。( 与 此 相 对 , “ 无 限 制 ” 玻 尔 兹 曼 机 包 含 隐 单 元 间的 边 , 使 之 成 为 递 归 神 经 网 络 。 )l 这 一 限 定 使 得 相 比 一 般 玻 尔 兹 曼 机 更 高 效 的 训 练算 法 成 为 可 能 , 特 别 是 基 于 梯 度 的 对 比 分 歧( contrastivedivergence) 算 法 。受 限 玻 尔 兹 曼 机 RBM网 络 共 有 2层 , 其 中 第 一 层 称 为 可 视层 , 一 般 来 说 是 输 入 层 , 另 一 层 是 隐 含 层 ,也 就 是 我 们 一 般 指 的 特 征 提 取 层 。 是可 视 层 与 隐 藏 层 之 间 的 权 重 矩 阵 , 是 可视 节 点 的 偏 移 量 , 是 隐 藏 节 点 的 偏 移 量 。隐 含 层可 视 层n mWb c 1( 1| ) ( )mj ji i jiph v wv c 1( 1| ) ( )ni ji j ijpv h wh b RBM的 学 习 目 标 -最 大 化 似 然 (Maximizing likelihood) RBM是 一 种 基 于 能 量 (Energy-based)的 模 型 , 其 可 见 变 量 v和 隐 藏 变 量 h的 联 合 配 置 (joint configuration)的 能 量 为 : 其 中 是 RBM的 参 数 W, a, b, W为 可 见 单 元 和 隐 藏 单 元 之 间 的 边 的 权重 , b和 a分 别 为 可 见 单 元 和 隐 藏 单 元 的 偏 置 (bias)。 有 了 v和 h的 联 合 配置 的 能 量 之 后 , 我 们 就 可 以 得 到 v和 h的 联 合 概 率 : 其 中 Z()是 归 一 化 因 子 , 也 称 为 配 分 函 数 (partition function)。 ( 1)( 2) 根 据 式 子 (1), 可 以 将 (2)式 写 为 : 我 们 希 望 最 大 化 观 测 数 据 的 似 然 函 数 P(v), P(v)可 由 式 (3)求 P(v,h)对 h的边 缘 分 布 得 到 : 通 过 最 大 化 P(v)来 得 到 RBM的 参 数 , 最 大 化 P(v)等 同 于 最 大 化log(P(v)=L(): ( 3)( 4) T T T1(V,H) expVWH+aH+bV( )P Z ( 5) 定义能量函数: ,(, ) i i j j i j iji j i jEvh vb hc vhw 联合概率分布:Z为归一化系数,其定义为: 输入层的边缘概率为: ( , )1(, ) E vhpvh eZ ( , ), E vhvhZ e ( , )1( ) E vhhpv eZ 可 以 通 过 随 机 梯 度 下 降 (stochastic gradient descent)来 最 大 化 L(), 首 先 需要 求 得 L()对 W的 导 数 经 过 简 化 可 以 得 到 : ( 7) 中 后 项 等 于 ( 6)( 7) ( 8) 可 以 通 过 随 机 梯 度 下 降 (stichastic gradient descent)来 最 大 化 L(), 首 先 需要 求 得 L()对 W的 导 数 经 过 简 化 可 以 得 到 : ( 7) 中 后 项 等 于 式 子 ( 7) 中 的 前 者 比 较 好 计 算 , 只 需 要 求 vihj在 全 部 数 据 集 上 的 平 均 值 即可 , 而 后 者 涉 及 到 v, h的 全 部 2|v|+|h|种 组 合 , 计 算 量 非 常 大 (基 本 不 可 解 )。( 6)( 7)( 8) 网络学习的目的是最大可能的拟合输入数据,即最大化 。Hinton提出了一种快速算法,称作contrastive divergence(对比分歧)算法。这种算法只需迭代k次,就可以获得对模型的估计,而通常k等于1. CD算法在开始是用训练数据去初始化可见层,然后用条件分布计算隐层;然后,再根据隐层,同样,用条件分布来计算可见层。这样产生的结果是对输入的一个重构。根据CD算法:其中, 是学习率, 是样本数据的期望, 是重构后可视层数据的期望()pv ij i j i j data reconw vh vh i j datavh i j reconvh RBM的 学 习 方 法 -CD(Contrastive Divergence, 对 比 散 列 ) 网络学习的目的是最大可能的拟合输入数据,即最大化 。 Hinton提出了一种快速算法,称作contrastive divergence(对比分歧,又称对比散列)算法。这种算法只需迭代k次,就可以获得对模型的估计,而通常k等于1. CD算法在开始是用训练数据去初始化可见层,然后用条件分布计算隐层;然后,再根据隐层,同样,用条件分布来计算可见层。这样产生的结果是对输入的一个重构。 根据CD算法:权 值 更 新 ()pv ij i j i jdata reconw vh vh RBM的 学 习 方 法 -CD(Contrastive Divergence, 对 比 散 列 ) 首 先 根 据 数 据 v来 得 到 h的 状 态 , 然 后 通 过 h来 重 构 (Reconstruct)可 见 向 量 v 1, 然后 再 根 据 v1来 生 成 新 的 隐 藏 向 量 h1。 因 为 RBM的 特 殊 结 构 (层 内 无 连 接 , 层 间 有连 接 ), 所 以 在 给 定 v时 , 各 个 隐 藏 单 元 hj的 激 活 状 态 之 间 是 相 互 独 立 的 , 反 之 ,在 给 定 h时 , 各 个 可 见 单 元 的 激 活 状 态 vi也 是 相 互 独 立 的 , 可 得 到 : 抽 样 概 率 重 构 的 可 见 向 量 v 1和 隐 藏 向 量 h1就 是 对 P(v,h)的 一 次 抽 样 , 多 次 抽 样 得到 的 样 本 集 合 可 以 看 做 是 对 P(v,h)的 一 种 近 似 , 使 得 式 子 ( 7) 的 计 算变 得 可 行 。 RBM的 权 重 的 学 习 算 法 :1. 取 一 个 样 本 数 据 , 把 可 见 变 量 的 状 态 设 置 为 这 个 样 本 数 据 。 随 机 初 始 化 W。2. 根 据 式 (9)的 第 一 个 公 式 来 更 新 隐 藏 变 量 的 状 态 , 亦 即 hj以 P(hj=1|v)的 概 率 设 置 为 状态 1, 否 则 为 0。 然 后 对 于 每 个 边 vihj, 计 算 Pdata(vihj)=vi*hj (vi和 hj的 状 态 都 是 取0,1)。3. 根 据 h的 状 态 和 式 (9)的 第 二 个 公 式 来 重 构 v1, 并 且 根 据 v1和 式 (9)的 第 一 个 公 式 来 求得 h1, 计 算 Pmodel(v1ih1j)=v1i*h1j。4. 更 新 边 v ihj的 权 重 Wij为 Wij=Wij+alpha*(Pdata(vihj)-Pmodel(v1ih1j)。 取 下 一 个 数 据 样 本 , 重 复 1-4的 步 骤 。 以 上 过 程 迭 代 K次 。 DBN( 深 度 信 念 网 ) 深度学习的实质,是通过构建具有很多隐层的机器学习模型组合低层特征形成更加抽象的高层来表示属性类别或特征,以发现数据的分布式特征。其动机在于建立模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本。因此,“深度模型”是手段,“特征学习”是目的。深度学习的核心思路如下:无监督学习用于每一层网络的pre-train;每次用无监督学习只训练一层,将其训练结果作为其高一层的输入;用自顶而下的监督算法去调整所有层。 逐 层 迭 代 推 断 Fine Turning datahidden variableshidden variables hidden variables likelihood WpriorW v1 h1 v0 h0 v2 h2 TWTWTWWW 深 度 信 念 网 络 (Deep Belief Network, DBN) 由 Geoffrey Hinton 在 2006 年 提 出 。 它 是 一 种 生 成 模 型 , 通 过 训 练 其 神 经 元 间 的 权重 , 我 们 可 以 让 整 个 神 经 网 络 按 照 最 大 概 率 来 生 成 训 练 数 据 。 我们 不 仅 可 以 使 用 DBN 识 别 特 征 、 分 类 数 据 , 还 可 以 用 它 来 生 成数 据 。 右 面 的 图 片 展 示 的 是 用 DBN 识 别 手 写 数 字 : 图 1 用 深 度 信 念 网 络 识 别 手 写 数 字 。 图 中 右 下 角 是 待 识 别 数 字 的黑 白 位 图 , 它 的 上 方 有 三 层 隐 性 神 经 元 。 每 一 个 黑 色 矩 形 代 表 一层 神 经 元 , 白 点 代 表 处 于 开 启 状 态 的 神 经 元 , 黑 色 代 表 处 于 关 闭状 态 的 神 经 元 。 注 意 顶 层 神 经 元 的 左 下 方 即 使 别 结 果 , 与 画 面 左上 角 的 对 应 表 比 对 , 得 知 这 个 DBN 正 确 地 识 别 了 该 数 字 。DBNs是 一 个 概 率 生 成 模 型 , 与 传 统 的 判 别 模 型 的 神 经 网 络 相 对 , 生 成 模 型 是 建 立 一 个 观 察 数 据 和 标 签 之 间 的 联 合 分 布 , 对 P(Observation|Label)和 P(Label|Observation)都 做 了 评 估 , 而 判 别 模 型 仅 仅 而 已 评 估了 后 者 , 也 就 是 P(Label|Observation)。 对 于 在 深 度 神 经 网 络 应 用 传 统 的 BP算 法 的 时 候 , DBNs遇 到 了 以下 问 题 :( 1) 需 要 为 训 练 提 供 一 个 有 标 签 的 样 本 集 ;( 2) 学 习 过 程 较 慢 ;( 3) 不 适 当 的 参 数 选 择 会 导 致 学 习 收 敛 于 局 部 最 优 解 。 DBN 是 由 多 层 RBM 组 成 的 一 个 神 经 网 络 , 它 既 可 以 被 看 作 一 个 生 成 模 型 , 也 可 以 当 作 判 别模 型 , 其 训 练 过 程 是 : 使 用 非 监 督 贪 婪 逐 层 方 法 去 预 训 练 获 得 权 值 。 DBN 由 多 层 神 经 元 构 成 , 这 些 神 经 元 又 分 为 显 性 神 经 元 和 隐 性 神 经 元 ( 以 下 简 称 显 元 和 隐元 ) 。 显 元 用 于 接 受 输 入 , 隐 元 用 于 提 取 特 征 。 因 此 隐 元 也 有 个 别 名 , 叫 特 征 检 测 器 (feature detectors)。 最 顶 上 的 两 层 间 的 连 接 是 无 向 的 , 组 成 联 合 内 存 (associative memory)。较 低 的 其 他 层 之 间 有 连 接 上 下 的 有 向 连 接 。 最 底 层 代 表 了 数 据 向 量 (data vectors), 每 一 个神 经 元 代 表 数 据 向 量 的 一 维 。 DBN 的 组 成 元 件 是 受 限 玻 尔 兹 曼 机 (Restricted Boltzmann Machines, RBM)。 训 练 DBN 的过 程 是 一 层 一 层 地 进 行 的 。 在 每 一 层 中 , 用 数 据 向 量 来 推 断 隐 层 , 再 把 这 一 隐 层 当 作 下 一 层 (高 一 层 ) 的 数 据 向 量 。 这 些 网 络 被 “ 限 制 ” 为 一 个 可 视 层 和 一 个 隐 层 , 层 间 存 在 连 接 , 但 层内 的 单 元 间 不 存 在 连 接 。 隐 层 单 元 被 训 练 去 捕 捉 在 可 视 层 表 现 出 来 的 高 阶 数 据 的 相 关 性 。不 考 虑 最 顶 构 成 一 个 联 想 记 忆 ( associative memory) 的 两 层 , 一 个 DBN的 连 接 是 通 过 自 顶 向 下 的 生 成 权 值 来 指 导 确 定 的 , RBMs就 像 一 个 建 筑 块 一 样 , 相 比 传 统 和 深 度 分 层 的 sigmoid信 念 网 络 , 它 能 易 于 连 接 权 值 的 学 习 。 不 同 的 称 呼 :Deep Belief Network, DBN深 度 信 念 网络 ;深 度 置 信 网 ;深 信 度 网 络 ;深 信 网 ;多 层 置 信 网络 ;. DBN神 经 网络 模 型 使 用 BP算 法 单 独 训 练 每 一 层 的 时 候 , 我 们 发 现 , 必 须 丢 掉 网 络 的 第 三 层 , 才 能 级 联自 联 想 神 经 网 络 。 然 而 , 有 一 种 更 好 的 神 经 网 络 模 型 , 这 就 是 受 限 玻 尔 兹 曼 机 。 使 用层 叠 波 尔 兹 曼 机 组 成 深 度 神 经 网 络 的 方 法 , 在 深 度 学 习 里 被 称 作 深 度 信 念 网 络 DBN,这 是 目 前 非 常 流 行 的 方 法 。 经 典 的 DBN网 络 结 构 是 由 若 干 层 RBM 和 一 层 BP 组 成 的一 种 深 层 神 经 网 络 , 结 构 如 下 图 所 示 .: DBN 在 训 练 模 型 的 过 程 中 主 要 分 为 两 步 : 第 1步 : 分 别 单 独 无 监 督 地 训 练 每 一 层 RBM 网 络 ,确 保 特征 向 量 映 射 到 不 同 特 征 空 间 时 ,都 尽 可 能 多 地 保 留 特 征 信 息 ; 第 2步 : 在 DBN 的 最 后 一 层 设 置 BP 网 络 ,接 收 RBM 的 输 出 特 征 向 量 作 为 它 的 输 入 特 征 向 量 ,有 监 督 地 训 练 实 体 关 系分 类 器 .而 且 每 一 层 RBM 网 络 只 能 确 保 自 身 层 内 的 权 值 对该 层 特 征 向 量 映 射 达 到 最 优 ,并 不 是 对 整 个 DBN 的 特 征 向 量映 射 达 到 最 优 ,所 以 反 向 传 播 网 络 还 将 错 误 信 息 自 顶 向 下 传 播至 每 一 层 RBM,微 调 整 个 DBN 网 络 .RBM 网 络 训 练 模 型 的过 程 可 以 看 作 对 一 个 深 层 BP 网 络 权 值 参 数 的 初 始 化 ,使DBN 克 服 了 BP 网 络 因 随 机 初 始 化 权 值 参 数 而 容 易 陷 入 局部 最 优 和 训 练 时 间 长 的 缺 点 . 上 述 训 练 模 型 中 第 一 步 在 深 度 学 习 的 术 语 叫 做 预 训 练 , 第二 步 叫 做 微 调 。 最 上 面 有 监 督 学 习 的 那 一 层 , 根 据 具 体 的应 用 领 域 可 以 换 成 任 何 分 类 器 模 型 , 而 不 必 是 BP网 络 。 首 先 , 你 需要 用 原 始 输入 x(k) 训 练第 一 个 自 编码 器 , 它 能够 学 习 得 到原 始 输 入 的一 阶 特 征 表示 h(1)(k)。 接 着 , 你 需要 把 原 始 数据 输 入 到 上述 训 练 好 的稀 疏 自 编 码器 中 , 对 于每 一 个 输 入 x(k), 都 可以 得 到 它 对应 的 一 阶 特征 表 示 h(1)(k)。然 后 你 再 用这 些 一 阶 特征 作 为 另 一个 稀 疏 自 编 码 器 的 输 入 ,使 用 它 们 来学 习 二 阶 特征 h(2)(k)。 再 把 一 阶 特征 输 入 到 刚训 练 好 的 第二 层 稀 疏 自编 码 器 中 ,得 到 每 个h(1)(k) 对应 的 二 阶 特征 激 活 值 h(2)(k)。接 下 来 , 你可 以 把 这 些二 阶 特 征 作为 softmax分 类 器 的 输入 , 训 练 得 到 一 个 能 将二 阶 特 征 映射 到 数 字 标签 的 模 型 。 最 终 , 你 可以 将 这 三 层结 合 起 来 构建 一 个 包 含两 个 隐 藏 层和 一 个 最 终softmax分类 器 层 的 栈式 自 编 码 网络 , 这 个 网络 能 够 如 你所 愿 地 对MNIST数 字进 行 分 类 。 DBNs由 多个 限 制 玻 尔兹 曼 机(Restricted Boltzmann Machines)层 组 成 , 一个 典 型 的 神经 网 络 类 型如 图 所 示 。 最 终 在 构 筑 好 整 个 网 络 后 , 相 当 于 进行 了 一 次 完 整 的 无 监 督 学 习 。在 确 定 了 网 络 的 权 值 后 , 再 次 根 据 样本 , 以 BP神 经 网 络 的 算 法 , 进 行 一 次有 监 督 的 学 习 过 程 。 这 一 过 程 被 称 为多 层 置 信 网 络 的 微 调 。 总 结 与 展 望 DBNs的 灵 活 性 使 得 它 的 拓 展 比 较 容 易 。一 个 拓 展 就 是 卷 积 DBNs( Convolutional Deep Belief Networks (CDBNs)) 。DBNs并 没 有 考 虑 到 图 像 的 2维 结 构 信 息 ,因 为 输 入 是 简 单 的 从 一 个 图 像 矩 阵 一 维向 量 化 的 。 而 CDBNs就 是 考 虑 到 了 这 个问 题 , 它 利 用 邻 域 像 素 的 空 域 关 系 , 通过 一 个 称 为 卷 积 RBMs的 模 型 区 达 到 生 成模 型 的 变 换 不 变 性 , 而 且 可 以 容 易 得 变换 到 高 维 图 像 。 DBNs并 没 有 明 确 地 处 理对 观 察 变 量 的 时 间 联 系 的 学 习 上 , 虽 然目 前 已 经 有 这 方 面 的 研 究 , 例 如 堆 叠 时间 RBMs, 以 此 为 推 广 , 有 序 列 学 习 的dubbed temporal convolutionmachines,这 种 序 列 学 习 的 应 用 , 给 语 音 信 号 处 理 问 题 带 来 了 一 个 让 人 激 动 的 未 来 研 究 方向 。 pixelsedgesobject parts(combination of edges) object models lNote: Sparsity important for these results. l 对 于 一 个 特 定 的 框 架 , 多 少 维 的 输 入 它 可 以 表 现 得 较 优 ?l 对 捕 捉 短 时 或 者 长 时 间 的 时 间 依 赖 , 哪 种 架 构 才 是 有 效的 ?l 如 何 对 于 一 个 给 定 的 深 度 学 习 架 构 , 融 合 多 种 感 知 的 信息 ?l 如 何 分 辨 和 利 用 学 习 获 得 的 中 、 高 层 特 征 语 义 知 识 ?l 有 什 么 正 确 的 机 理 可 以 去 增 强 一 个 给 定 的 深 度 学 习 架 构 ,以 改 进 其 鲁 棒 性 和 对 变 形 及 数 据 丢 失 的 不 变 性 ?l 模 型 方 面 是 否 有 其 他 更 为 有 效 且 有 理 论 依 据 的 深 度 模 型学 习 算 法 ?l 是 否 存 在 更 有 效 的 可 并 行 训 练 算 法 ? l Deep Learning website http:/ Matlab code for R-ICA unsupervised algorithm http:/ Python-based learning library http:/ C+ code for ConvNets http:/ Lush learning library which includes ConvNets http:/ai.stanford.edu/quocle/rica_release.zipl learning library that supports neural net training http:/www.torch.chl Code used to generate demo for this tutorial Ranzato http:/cs.nyu.edu/fergus/tutorials/deep_learning_cvpr12/ l Arel, I., Rose, D. C. and Karnowski, T. P. Deep machine learning - a new frontier in artificial intelligence research. Computational Intelligence Magazine, IEEE, vol. 5, pp. 13-18, 2010. 深 度 学 习 的 介 绍 性 文 章 , 可 做 入 门 材 料 。l Bengio, Y. Learning deep architecture for AI. Foundations and Trends in Machine Learning, vol. 2, pp: 1-127, 2009. ( 深 度 学 习 的 经 典 论 文 , 集 大 成 者 。 可 以 当 作 深 度 学 习 的 学 习 材 料 )l Hinton, G. E. Learning multiple layers of representation. Trends in Cognitive Sciences, vol. 11, pp. 428-434, 2007. 不 需 要 太 多 数 学 知 识 即 可 掌 握 DBNs 的 关 键 算 法 。 这 篇 论 文 语 言 浅 白 , 篇 幅 短 小 , 适 合 初 学 者 理 解 DBNs。l Hinton, G. E. To recognize shapes, first learn to generate images.Technical Report UTML TR 2006-003, University of Toronto, 2006.( 多 伦 多 大 学 的 内 部 讲 义 。 推 荐 阅 读 )l Hinton, G. E., Osindero, S. and Teh, Y. W. A fast learning algorithm for deep belief nets. Neural Computation, vol 18, pp. 1527-1554, 2006。 ( DBNs 的 开 山 之 作 , 意 义 非 凡 , 一 定 要 好 好 看 几 遍 。 在 这 篇 论文 中 , 作 者 详 细 阐 述 了 DBNs 的 方 方 面 面 , 论 证 了 其 和 一 组 层 叠 的 RBMs 的 等 价 性 , 然 后 引 出 DBNs 的 学 习 算 法 )l Hinton, G. E. and Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science, vol. 313, no. 5786, pp. 504507,2006.( Science 上 的 大 作 。 这 篇 论 文 可 是 算 作 一 个 里 程 碑 , 它 标 志着 深 度 学 习 总 算 有 了 高 效 的 可 行 的 算 法 。 ) l Hinton, G. E. A practical guide to training restricted boltzmannmachines. Technical Report UTML TR 2010-003, University of Toronto, 2010.( 一 份 训 练 RBM 的 最 佳 实 践 ) 英 文 论 文 l 1. Representation Learning: A Review and New Perspectives, Yoshua Bengio, Aaron Courville, Pascal Vincent, Arxiv, 2012. l 2. The monograph or review paper Learning Deep Architectures for AI (Foundations & Trends in Machine Learning, 2009). l 3. Deep Machine Learning A New Frontier in Artificial Intelligence Research a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. l 4. A Fast Learning Algorithm for Deep Belief Nets by Geoffrey E. Hinton and Simon Osindero. 博 文 和 网 络 教 程 l 1. Introduction to Restricted Boltzmann Machines by Edwin Chen. l 2. An Introduction to Restricted Boltzmann Machines by Yuhuan Jiang. l 3. Restricted Boltzmann Machine - Short Tutorial by iMonad. l 4. 深 度 学 习 学 习 笔 记 整 理 系 列 by Zouxy. 2016年 最 新 中 文 文 献 :l 陈 亚 楠 ,黄 豫 蕾 ,唐 麟 ,王 士 林 .基 于 Sparse Coding和 DBN的 敏 感 图 像 检 测 J.信 息 安 全 与 通 信 保 密 ,2016,(第 1期 ).l 何 俊 ,蔡 建 峰 ,房 灵 芝 ,何 忠 文 .基 于 LBP/VAR与 DBN模 型 的 人 脸 表 情 识 别 J.计 算 机 应 用 研 究 ,2016,(第 8期 ).l 李 轩 ,李 春 升 .一 种 交 替 变 换 更 新 层 数 的 DBN-DNN快 速 训 练 方 法 J.计 算 机 应 用 研 究 ,2016,(第 3期 ).l 单 外 平 ,曾 雪 琼 .基 于 深 度 信 念 网 络 的 信 号 重 构 与 轴 承 故 障 识 别 J.电 子 设 计 工 程 ,2016,(第 4期 ).l 孙 劲 光 ,孟 凡 宇 .基 于 深 度 神 经 网 络 的 特 征 加 权 融 合 人 脸 识 别 方 法 J.计 算 机 应 用 ,2016,(第 2期 ). 输入文字在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论“ “The End!
展开阅读全文