深度置信网络BDN

上传人:y****3 文档编号:23697122 上传时间:2021-06-10 格式:PPT 页数:62 大小:4.91MB
返回 下载 相关 举报
深度置信网络BDN_第1页
第1页 / 共62页
深度置信网络BDN_第2页
第2页 / 共62页
深度置信网络BDN_第3页
第3页 / 共62页
点击查看更多>>
资源描述
PPT模 板 下 载 : www.1 总结与展望DBN(深度信念网)RBM( 受 限 玻 尔 兹 曼 机 )深 度 学 习 概 述目录 深 度 学 习 概 述 浅 层 学 习 是 机 器 学 习 的 第 一 次 浪 潮 人 工 神 经 网 络 ( BP算 法 ) 虽 被 称 作 多 层 感 知 机 , 但 实 际 是 种 只 含 有 一 层 隐层 节 点 的 浅 层 模 型 SVM、 Boosting、 最 大 熵 方 法 ( 如 LR, Logistic Regression) 带 有 一 层 隐 层 节 点 ( 如 SVM、 Boosting) , 或 没有 隐 层 节 点 ( 如 LR) 的 浅 层 模 型局 限 性 : 有 限 样 本 和 计 算 单 元 情 况 下 对 复 杂 函 数 的表 示 能 力 有 限 , 针 对 复 杂 分 类 问 题 其 泛 化 能 力 受限 。 浅 层 学 习 与 深 度 学 习 l 2006年 , 加 拿 大 多 伦 多 大 学 教 授 、 机 器 学 习 领 域的 泰 斗 Geoffrey Hinton在 科 学 上 发 表 论 文 提出 深 度 学 习 主 要 观 点 :l 1) 多 隐 层 的 人 工 神 经 网 络 具 有 优 异 的 特 征 学 习能 力 , 学 习 得 到 的 特 征 对 数 据 有 更 本 质 的 刻 画 ,从 而 有 利 于 可 视 化 或 分 类 ;l 2) 深 度 神 经 网 络 在 训 练 上 的 难 度 , 可 以 通 过“ 逐 层 初 始 化 ” ( layer-wise pre-training) 来 有 效克 服 , 逐 层 初 始 化 可 通 过 无 监 督 学 习 实 现 的 。 l 深 度 学 习 : 深 度 学 习 通 过 组 合 低 层特 征 形 成 更 加 抽 象 的 高 层 表 示 属 性类 别 或 特 征 , 以 发 现 数 据 的 分 布 式特 征 表 示l 深 度 神 经 网 络 : 含 有 多 个 隐 层 的 神经 网 络 l深 度 学 习 : 一 种 基 于 无 监 督 特 征学 习 和 特 征 层 次 结 构 的 学 习 方 法l可 能 的 的 名 称 :深 度 学 习特 征 学 习无 监 督 特 征 学 习基 本 概 念 l 深 度 学 习 的 优 势 :l 能 以 更 加 紧 凑 简 洁 的 方 式 来 表 达 比 浅 层 网 络 大 得多 的 函 数 集 合l 训 练 深 度 学 习 的 困 难 :l ( 1) 数 据 获 取 问 题l 考 虑 到 深 度 网 络 具 有 强 大 的 表 达 能 力 , 在 不 充 足的 数 据 上 进 行 训 练 将 会 导 致 过 拟 合l ( 2) 局 部 极 值 问 题l 与 梯 度 下 降 法 有 关 l 本 质 : 通 过 构 建 多 隐 层 的 模 型 和 海 量 训 练 数 据 ( 可 为 无 标 签 数据 ) , 来 学 习 更 有 用 的 特 征 , 从 而 最 终 提 升 分 类 或 预 测 的 准 确 性 。 “ 深 度 模 型 ” 是 手 段 , “ 特 征 学 习 ” 是 目 的 。l 与 浅 层 学 习 区 别 :1) 强 调 了 模 型 结 构 的 深 度 , 通 常 有 5-10多 层 的 隐 层 节 点 ;2) 明 确 突 出 了 特 征 学 习 的 重 要 性 , 通 过 逐 层 特 征 变 换 , 将 样 本 在 原空 间 的 特 征 表 示 变 换 到 一 个 新 特 征 空 间 , 从 而 使 分 类 或 预 测 更 加容 易 。 与 人 工 规 则 构 造 特 征 的 方 法 相 比 , 利 用 大 数 据 来 学 习 特 征 ,更 能 够 刻 画 数 据 的 丰 富 内 在 信 息 。 l好 处 : 可 通 过 学 习 一 种 深 层 非 线 性 网 络 结构 , 实 现 复 杂 函 数 逼 近 , 表 征 输 入 数 据 分布 式 表 示 。 相 同 点 : 二 者 均 采 用 分 层 结 构 , 系 统 包 括 输 入 层 、 隐 层 ( 多 层 ) 、输 出 层 组 成 的 多 层 网 络 , 只 有 相 邻 层 节 点 之 间 有 连 接 , 同 一 层以 及 跨 层 节 点 之 间 相 互 无 连 接 , 每 一 层 可 以 看 作 是 一 个logistic 回 归 模 型 。不 同 点 :神 经 网 络 : 采 用 BP算 法 调 整 参 数 , 即 采 用 迭 代 算 法 来 训 练 整 个 网络 。 随 机 设 定 初 值 , 计 算 当 前 网 络 的 输 出 , 然 后 根 据 当 前 输 出和 样 本 真 实 标 签 之 间 的 差 去 改 变 前 面 各 层 的 参 数 , 直 到 收 敛 ;深 度 学 习 : 采 用 逐 层 训 练 机 制 。 采 用 该 机 制 的 原 因 在 于 如 果 采 用BP机 制 , 对 于 一 个 deep network( 7层 以 上 ) , 残 差 传 播 到 最前 面 的 层 将 变 得 很 小 , 出 现 所 谓 的 gradient diffusion( 梯 度扩 散 ) 。 l神 经 网 络 的 局 限 性 :1) 比 较 容 易 过 拟 合 , 参 数 比 较 难 调 整 , 而 且需 要 不 少 技 巧 ;2) 训 练 速 度 比 较 慢 , 在 层 次 比 较 少 ( 小 于 等于 3) 的 情 况 下 效 果 并 不 比 其 它 方 法 更 优 ; l 不 采 用 BP算 法 的 原 因( 1) 反 馈 调 整 时 , 梯 度 越 来 越 稀 疏 , 从 顶 层 越 往下 , 误 差 校 正 信 号 越 来 越 小 ;( 2) 收 敛 易 至 局 部 最 小 , 由 于 是 采 用 随 机 值 初 始化 , 当 初 值 是 远 离 最 优 区 域 时 易 导 致 这 一 情 况 ;( 3) BP算 法 需 要 有 标 签 数 据 来 训 练 , 但 大 部 分 数据 是 无 标 签 的 ; l第 一 步 : 采 用 自 下 而 上 的 无 监 督 学 习1) 逐 层 构 建 单 层 神 经 元 。2) 每 层 采 用 wake-sleep算 法 进 行 调 优 。 每 次仅 调 整 一 层 , 逐 层 调 整 。 这 个 过 程 可 以 看 作 是 一 个 feature learning的 过 程 , 是 和 传 统 神 经 网 络 区 别 最 大 的 部分 。 l wake-sleep算 法 :1) wake阶 段 : 认 知 过 程 , 通 过 下 层 的 输 入 特 征 ( Input) 和 向 上 的 认 知 ( Encoder) 权 重产 生 每 一 层 的 抽 象 表 示 ( Code) , 再 通 过 当 前 的 生 成 ( Decoder) 权 重 产生 一 个 重 建 信 息 ( Reconstruction) , 计 算 输 入 特 征 和 重 建 信 息 残 差 ,使 用 梯 度 下 降 修 改 层 间 的 下 行 生 成 ( Decoder) 权 重 。 也 就 是 “ 如 果 现 实跟 我 想 象 的 不 一 样 , 改 变 我 的 生 成 权 重 使 得 我 想 象 的 东 西 变 得 与 现 实 一样 ” 。2) sleep阶 段 : 生 成 过 程 , 通 过 上 层 概 念 ( Code) 和 向 下 的 生 成 ( Decoder) 权 重 , 生 成下 层 的 状 态 , 再 利 用 认 知 ( Encoder) 权 重 产 生 一 个 抽 象 景 象 。 利 用 初 始上 层 概 念 和 新 建 抽 象 景 象 的 残 差 , 利 用 梯 度 下 降 修 改 层 间 向 上 的 认 知( Encoder) 权 重 。 也 就 是 “ 如 果 梦 中 的 景 象 不 是 我 脑 中 的 相 应 概 念 , 改变 我 的 认 知 权 重 使 得 这 种 景 象 在 我 看 来 就 是 这 个 概 念 ” 。 EncoderDecoder Input ImageClass labele.g.FeaturesEncoderDecoder FeaturesEncoderDecoderAutoEncoder: l 第 二 步 : 自 顶 向 下 的 监 督 学 习 这 一 步 是 在 第 一 步 学 习 获 得 各 层 参 数 进 的 基 础上 , 在 最 顶 的 编 码 层 添 加 一 个 分 类 器 ( 例 如 罗 杰斯 特 回 归 、 SVM等 ) , 而 后 通 过 带 标 签 数 据 的 监督 学 习 , 利 用 梯 度 下 降 法 去 微 调 整 个 网 络 参 数 。 深 度 学 习 的 第 一 步 实 质 上 是 一 个 网 络 参 数 初 始化 过 程 。 区 别 于 传 统 神 经 网 络 初 值 随 机 初 始 化 ,深 度 学 习 模 型 是 通 过 无 监 督 学 习 输 入 数 据 的 结 构得 到 的 , 因 而 这 个 初 值 更 接 近 全 局 最 优 , 从 而 能够 取 得 更 好 的 效 果 。 深度神经网络的演化神经网络 深度神经网络多层感知器 1) 强 调 了 模 型 结 构 的 深 度 , 通 常 有 5-10多 层的 隐 层 节 点 ;2) 明 确 突 出 了 特 征 学 习 的 重 要 性 , 通 过 逐 层特 征 变 换 , 将 样 本 在 原 空 间 的 特 征 表 示 变换 到 一 个 新 特 征 空 间 , 从 而 使 分 类 或 预 测更 加 容 易 。 与 人 工 规 则 构 造 特 征 的 方 法 相比 , 利 用 大 数 据 来 学 习 特 征 , 更 能 够 刻 画数 据 的 丰 富 内 在 信 息 。3) 可 通 过 学 习 一 种 深 层 非 线 性 网 络 结 构 , 实现 复 杂 函 数 逼 近 , 表 征 输 入 数 据 分 布 式 表示 。 神 经 网 络 : 深 度 学 习 : l 1) 自 动 编 码 器 ( AutoEncoder )l 2) 稀 疏 自 编 码 (Sparse AutoEncoder)l 3) 卷 积 神 经 网 络l 4) 限 制 玻 尔 兹 曼 机l 降 噪 自 动 编 码 器 (Denoising AutoEncoders); 深 度 玻 尔 兹 曼 机( Deep Boltzmann Machine) ; 卷 积 波 尔 兹 曼 机 ; RBM( 受 限 玻 尔 兹 曼 机 ) 受 限 玻 尔 兹 曼 机 (Restricted Boltzmann Machine,简 称 RBM)是 由 Hinton和 Sejnowski于 1986年 提 出 的 一 种 生 成 式 随 机 神 经 网 络(generative stochastic neural network), 该 网 络 由 一 些 可 见 单 元(visible unit, 对 应 可 见 变 量 , 亦 即 数 据样 本 )和 一 些 隐 藏 单 元 (hidden unit, 对 应隐 藏 变 量 )构 成 , 可 见 变 量 和 隐 藏 变 量 都 是二 元 变 量 , 亦 即 其 状 态 取 0,1。 整 个 网 络是 一 个 二 部 图 , 只 有 可 见 单 元 和 隐 藏 单 元之 间 才 会 存 在 边 , 可 见 单 元 之 间 以 及 隐 藏单 元 之 间 都 不 会 有 边 连 接 受 限 玻 尔 兹 曼 机 上 图 所 示 的 RBM含 有 9个 可 见 单 元(构 成 一 个 向 量 v)和 3个 隐 藏 单 元 (构 成 一个 向 量 h), W是 一 个 9*3的 矩 阵 , 表 示可 见 单 元 和 隐 藏 单 元 之 间 的 边 的 权 重 。 l RBM是 玻 尔 兹 曼 机 (Boltzmann machine, BM)的 一 种 特 殊 拓 扑 结 构 。 BM的 原 理 起源 于 统 计 物 理 学 , 是 一 种 基 于 能 量 函 数 的 建 模 方 法 , 能 够 描 述 变 量 之 间 的 高 阶 相互 作 用 , BM的 学 习 算 法 较 复 杂 , 但 所 建 模 型 和 学 习 算 法 有 比 较 完 备 的 物 理 解 释和 严 格 的 数 理 统 计 理 论 作 基 础 。l BM是 一 种 对 称 耦 合 的 随 机 反 馈 型 二 值 单 元 神 经 网 络 , 由 可 见 层 和 多 个 隐 层 组 成 ,网 络 节 点 分 为 可 见 单 元 (visible unit)和 隐 单 元 (hidden unit), 用 可 见 单 元 和 隐 单 元来 表 达 随 机 网 络 与 随 机 环 境 的 学 习 模 型 , 通 过 权 值 表 达 单 元 之 间 的 相 关 性 。l BM是 由 Hinton和 Sejnowski提 出 的 一 种 随 机 递 归 神 经 网 络 , 可 以 看 做 是 一 种 随 机生 成 的 Hopfield网 络 , 是 能 够 通 过 学 习 数 据 的 固 有 内 在 表 示 解 决 困 难 学 习 问 题 的最 早 的 人 工 神 经 网 络 之 一 , 因 样 本 分 布 遵 循 玻 尔 兹 曼 分 布 而 命 名 为 BM。 BM由 二值 神 经 元 构 成 , 每 个 神 经 元 只 取 1或 0这 两 种 状 态 , 状 态 1代 表 该 神 经 元 处 于 接 通状 态 , 状 态 0代 表 该 神 经 元 处 于 断 开 状 态 。 l 正 如 名 字 所 提 示 的 那 样 , 受 限 玻 尔 兹 曼 机 是 一 种玻 尔 兹 曼 机 的 变 体 , 但 限 定 模 型 必 须 为 二 分 图 。l 模 型 中 包 含 对 应 输 入 参 数 的 输 入 ( 可 见 ) 单 元 和对 应 训 练 结 果 的 隐 单 元 , 图 中 的 每 条 边 必 须 连 接一 个 可 见 单 元 和 一 个 隐 单 元 。( 与 此 相 对 , “ 无 限 制 ” 玻 尔 兹 曼 机 包 含 隐 单 元 间的 边 , 使 之 成 为 递 归 神 经 网 络 。 )l 这 一 限 定 使 得 相 比 一 般 玻 尔 兹 曼 机 更 高 效 的 训 练算 法 成 为 可 能 , 特 别 是 基 于 梯 度 的 对 比 分 歧( contrastivedivergence) 算 法 。受 限 玻 尔 兹 曼 机 RBM网 络 共 有 2层 , 其 中 第 一 层 称 为 可 视层 , 一 般 来 说 是 输 入 层 , 另 一 层 是 隐 含 层 ,也 就 是 我 们 一 般 指 的 特 征 提 取 层 。 是可 视 层 与 隐 藏 层 之 间 的 权 重 矩 阵 , 是 可视 节 点 的 偏 移 量 , 是 隐 藏 节 点 的 偏 移 量 。隐 含 层可 视 层n mWb c 1( 1| ) ( )mj ji i jiph v wv c 1( 1| ) ( )ni ji j ijpv h wh b RBM的 学 习 目 标 -最 大 化 似 然 (Maximizing likelihood) RBM是 一 种 基 于 能 量 (Energy-based)的 模 型 , 其 可 见 变 量 v和 隐 藏 变 量 h的 联 合 配 置 (joint configuration)的 能 量 为 : 其 中 是 RBM的 参 数 W, a, b, W为 可 见 单 元 和 隐 藏 单 元 之 间 的 边 的 权重 , b和 a分 别 为 可 见 单 元 和 隐 藏 单 元 的 偏 置 (bias)。 有 了 v和 h的 联 合 配置 的 能 量 之 后 , 我 们 就 可 以 得 到 v和 h的 联 合 概 率 : 其 中 Z()是 归 一 化 因 子 , 也 称 为 配 分 函 数 (partition function)。 ( 1)( 2) 根 据 式 子 (1), 可 以 将 (2)式 写 为 : 我 们 希 望 最 大 化 观 测 数 据 的 似 然 函 数 P(v), P(v)可 由 式 (3)求 P(v,h)对 h的边 缘 分 布 得 到 : 通 过 最 大 化 P(v)来 得 到 RBM的 参 数 , 最 大 化 P(v)等 同 于 最 大 化log(P(v)=L(): ( 3)( 4) T T T1(V,H) expVWH+aH+bV( )P Z ( 5) 定义能量函数: ,(, ) i i j j i j iji j i jEvh vb hc vhw 联合概率分布:Z为归一化系数,其定义为: 输入层的边缘概率为: ( , )1(, ) E vhpvh eZ ( , ), E vhvhZ e ( , )1( ) E vhhpv eZ 可 以 通 过 随 机 梯 度 下 降 (stochastic gradient descent)来 最 大 化 L(), 首 先 需要 求 得 L()对 W的 导 数 经 过 简 化 可 以 得 到 : ( 7) 中 后 项 等 于 ( 6)( 7) ( 8) 可 以 通 过 随 机 梯 度 下 降 (stichastic gradient descent)来 最 大 化 L(), 首 先 需要 求 得 L()对 W的 导 数 经 过 简 化 可 以 得 到 : ( 7) 中 后 项 等 于 式 子 ( 7) 中 的 前 者 比 较 好 计 算 , 只 需 要 求 vihj在 全 部 数 据 集 上 的 平 均 值 即可 , 而 后 者 涉 及 到 v, h的 全 部 2|v|+|h|种 组 合 , 计 算 量 非 常 大 (基 本 不 可 解 )。( 6)( 7)( 8) 网络学习的目的是最大可能的拟合输入数据,即最大化 。Hinton提出了一种快速算法,称作contrastive divergence(对比分歧)算法。这种算法只需迭代k次,就可以获得对模型的估计,而通常k等于1. CD算法在开始是用训练数据去初始化可见层,然后用条件分布计算隐层;然后,再根据隐层,同样,用条件分布来计算可见层。这样产生的结果是对输入的一个重构。根据CD算法:其中, 是学习率, 是样本数据的期望, 是重构后可视层数据的期望()pv ij i j i j data reconw vh vh i j datavh i j reconvh RBM的 学 习 方 法 -CD(Contrastive Divergence, 对 比 散 列 ) 网络学习的目的是最大可能的拟合输入数据,即最大化 。 Hinton提出了一种快速算法,称作contrastive divergence(对比分歧,又称对比散列)算法。这种算法只需迭代k次,就可以获得对模型的估计,而通常k等于1. CD算法在开始是用训练数据去初始化可见层,然后用条件分布计算隐层;然后,再根据隐层,同样,用条件分布来计算可见层。这样产生的结果是对输入的一个重构。 根据CD算法:权 值 更 新 ()pv ij i j i jdata reconw vh vh RBM的 学 习 方 法 -CD(Contrastive Divergence, 对 比 散 列 ) 首 先 根 据 数 据 v来 得 到 h的 状 态 , 然 后 通 过 h来 重 构 (Reconstruct)可 见 向 量 v 1, 然后 再 根 据 v1来 生 成 新 的 隐 藏 向 量 h1。 因 为 RBM的 特 殊 结 构 (层 内 无 连 接 , 层 间 有连 接 ), 所 以 在 给 定 v时 , 各 个 隐 藏 单 元 hj的 激 活 状 态 之 间 是 相 互 独 立 的 , 反 之 ,在 给 定 h时 , 各 个 可 见 单 元 的 激 活 状 态 vi也 是 相 互 独 立 的 , 可 得 到 : 抽 样 概 率 重 构 的 可 见 向 量 v 1和 隐 藏 向 量 h1就 是 对 P(v,h)的 一 次 抽 样 , 多 次 抽 样 得到 的 样 本 集 合 可 以 看 做 是 对 P(v,h)的 一 种 近 似 , 使 得 式 子 ( 7) 的 计 算变 得 可 行 。 RBM的 权 重 的 学 习 算 法 :1. 取 一 个 样 本 数 据 , 把 可 见 变 量 的 状 态 设 置 为 这 个 样 本 数 据 。 随 机 初 始 化 W。2. 根 据 式 (9)的 第 一 个 公 式 来 更 新 隐 藏 变 量 的 状 态 , 亦 即 hj以 P(hj=1|v)的 概 率 设 置 为 状态 1, 否 则 为 0。 然 后 对 于 每 个 边 vihj, 计 算 Pdata(vihj)=vi*hj (vi和 hj的 状 态 都 是 取0,1)。3. 根 据 h的 状 态 和 式 (9)的 第 二 个 公 式 来 重 构 v1, 并 且 根 据 v1和 式 (9)的 第 一 个 公 式 来 求得 h1, 计 算 Pmodel(v1ih1j)=v1i*h1j。4. 更 新 边 v ihj的 权 重 Wij为 Wij=Wij+alpha*(Pdata(vihj)-Pmodel(v1ih1j)。 取 下 一 个 数 据 样 本 , 重 复 1-4的 步 骤 。 以 上 过 程 迭 代 K次 。 DBN( 深 度 信 念 网 ) 深度学习的实质,是通过构建具有很多隐层的机器学习模型组合低层特征形成更加抽象的高层来表示属性类别或特征,以发现数据的分布式特征。其动机在于建立模拟人脑进行分析学习的神经网络,模仿人脑的机制来解释数据,例如图像,声音和文本。因此,“深度模型”是手段,“特征学习”是目的。深度学习的核心思路如下:无监督学习用于每一层网络的pre-train;每次用无监督学习只训练一层,将其训练结果作为其高一层的输入;用自顶而下的监督算法去调整所有层。 逐 层 迭 代 推 断 Fine Turning datahidden variableshidden variables hidden variables likelihood WpriorW v1 h1 v0 h0 v2 h2 TWTWTWWW 深 度 信 念 网 络 (Deep Belief Network, DBN) 由 Geoffrey Hinton 在 2006 年 提 出 。 它 是 一 种 生 成 模 型 , 通 过 训 练 其 神 经 元 间 的 权重 , 我 们 可 以 让 整 个 神 经 网 络 按 照 最 大 概 率 来 生 成 训 练 数 据 。 我们 不 仅 可 以 使 用 DBN 识 别 特 征 、 分 类 数 据 , 还 可 以 用 它 来 生 成数 据 。 右 面 的 图 片 展 示 的 是 用 DBN 识 别 手 写 数 字 : 图 1 用 深 度 信 念 网 络 识 别 手 写 数 字 。 图 中 右 下 角 是 待 识 别 数 字 的黑 白 位 图 , 它 的 上 方 有 三 层 隐 性 神 经 元 。 每 一 个 黑 色 矩 形 代 表 一层 神 经 元 , 白 点 代 表 处 于 开 启 状 态 的 神 经 元 , 黑 色 代 表 处 于 关 闭状 态 的 神 经 元 。 注 意 顶 层 神 经 元 的 左 下 方 即 使 别 结 果 , 与 画 面 左上 角 的 对 应 表 比 对 , 得 知 这 个 DBN 正 确 地 识 别 了 该 数 字 。DBNs是 一 个 概 率 生 成 模 型 , 与 传 统 的 判 别 模 型 的 神 经 网 络 相 对 , 生 成 模 型 是 建 立 一 个 观 察 数 据 和 标 签 之 间 的 联 合 分 布 , 对 P(Observation|Label)和 P(Label|Observation)都 做 了 评 估 , 而 判 别 模 型 仅 仅 而 已 评 估了 后 者 , 也 就 是 P(Label|Observation)。 对 于 在 深 度 神 经 网 络 应 用 传 统 的 BP算 法 的 时 候 , DBNs遇 到 了 以下 问 题 :( 1) 需 要 为 训 练 提 供 一 个 有 标 签 的 样 本 集 ;( 2) 学 习 过 程 较 慢 ;( 3) 不 适 当 的 参 数 选 择 会 导 致 学 习 收 敛 于 局 部 最 优 解 。 DBN 是 由 多 层 RBM 组 成 的 一 个 神 经 网 络 , 它 既 可 以 被 看 作 一 个 生 成 模 型 , 也 可 以 当 作 判 别模 型 , 其 训 练 过 程 是 : 使 用 非 监 督 贪 婪 逐 层 方 法 去 预 训 练 获 得 权 值 。 DBN 由 多 层 神 经 元 构 成 , 这 些 神 经 元 又 分 为 显 性 神 经 元 和 隐 性 神 经 元 ( 以 下 简 称 显 元 和 隐元 ) 。 显 元 用 于 接 受 输 入 , 隐 元 用 于 提 取 特 征 。 因 此 隐 元 也 有 个 别 名 , 叫 特 征 检 测 器 (feature detectors)。 最 顶 上 的 两 层 间 的 连 接 是 无 向 的 , 组 成 联 合 内 存 (associative memory)。较 低 的 其 他 层 之 间 有 连 接 上 下 的 有 向 连 接 。 最 底 层 代 表 了 数 据 向 量 (data vectors), 每 一 个神 经 元 代 表 数 据 向 量 的 一 维 。 DBN 的 组 成 元 件 是 受 限 玻 尔 兹 曼 机 (Restricted Boltzmann Machines, RBM)。 训 练 DBN 的过 程 是 一 层 一 层 地 进 行 的 。 在 每 一 层 中 , 用 数 据 向 量 来 推 断 隐 层 , 再 把 这 一 隐 层 当 作 下 一 层 (高 一 层 ) 的 数 据 向 量 。 这 些 网 络 被 “ 限 制 ” 为 一 个 可 视 层 和 一 个 隐 层 , 层 间 存 在 连 接 , 但 层内 的 单 元 间 不 存 在 连 接 。 隐 层 单 元 被 训 练 去 捕 捉 在 可 视 层 表 现 出 来 的 高 阶 数 据 的 相 关 性 。不 考 虑 最 顶 构 成 一 个 联 想 记 忆 ( associative memory) 的 两 层 , 一 个 DBN的 连 接 是 通 过 自 顶 向 下 的 生 成 权 值 来 指 导 确 定 的 , RBMs就 像 一 个 建 筑 块 一 样 , 相 比 传 统 和 深 度 分 层 的 sigmoid信 念 网 络 , 它 能 易 于 连 接 权 值 的 学 习 。 不 同 的 称 呼 :Deep Belief Network, DBN深 度 信 念 网络 ;深 度 置 信 网 ;深 信 度 网 络 ;深 信 网 ;多 层 置 信 网络 ;. DBN神 经 网络 模 型 使 用 BP算 法 单 独 训 练 每 一 层 的 时 候 , 我 们 发 现 , 必 须 丢 掉 网 络 的 第 三 层 , 才 能 级 联自 联 想 神 经 网 络 。 然 而 , 有 一 种 更 好 的 神 经 网 络 模 型 , 这 就 是 受 限 玻 尔 兹 曼 机 。 使 用层 叠 波 尔 兹 曼 机 组 成 深 度 神 经 网 络 的 方 法 , 在 深 度 学 习 里 被 称 作 深 度 信 念 网 络 DBN,这 是 目 前 非 常 流 行 的 方 法 。 经 典 的 DBN网 络 结 构 是 由 若 干 层 RBM 和 一 层 BP 组 成 的一 种 深 层 神 经 网 络 , 结 构 如 下 图 所 示 .: DBN 在 训 练 模 型 的 过 程 中 主 要 分 为 两 步 : 第 1步 : 分 别 单 独 无 监 督 地 训 练 每 一 层 RBM 网 络 ,确 保 特征 向 量 映 射 到 不 同 特 征 空 间 时 ,都 尽 可 能 多 地 保 留 特 征 信 息 ; 第 2步 : 在 DBN 的 最 后 一 层 设 置 BP 网 络 ,接 收 RBM 的 输 出 特 征 向 量 作 为 它 的 输 入 特 征 向 量 ,有 监 督 地 训 练 实 体 关 系分 类 器 .而 且 每 一 层 RBM 网 络 只 能 确 保 自 身 层 内 的 权 值 对该 层 特 征 向 量 映 射 达 到 最 优 ,并 不 是 对 整 个 DBN 的 特 征 向 量映 射 达 到 最 优 ,所 以 反 向 传 播 网 络 还 将 错 误 信 息 自 顶 向 下 传 播至 每 一 层 RBM,微 调 整 个 DBN 网 络 .RBM 网 络 训 练 模 型 的过 程 可 以 看 作 对 一 个 深 层 BP 网 络 权 值 参 数 的 初 始 化 ,使DBN 克 服 了 BP 网 络 因 随 机 初 始 化 权 值 参 数 而 容 易 陷 入 局部 最 优 和 训 练 时 间 长 的 缺 点 . 上 述 训 练 模 型 中 第 一 步 在 深 度 学 习 的 术 语 叫 做 预 训 练 , 第二 步 叫 做 微 调 。 最 上 面 有 监 督 学 习 的 那 一 层 , 根 据 具 体 的应 用 领 域 可 以 换 成 任 何 分 类 器 模 型 , 而 不 必 是 BP网 络 。 首 先 , 你 需要 用 原 始 输入 x(k) 训 练第 一 个 自 编码 器 , 它 能够 学 习 得 到原 始 输 入 的一 阶 特 征 表示 h(1)(k)。 接 着 , 你 需要 把 原 始 数据 输 入 到 上述 训 练 好 的稀 疏 自 编 码器 中 , 对 于每 一 个 输 入 x(k), 都 可以 得 到 它 对应 的 一 阶 特征 表 示 h(1)(k)。然 后 你 再 用这 些 一 阶 特征 作 为 另 一个 稀 疏 自 编 码 器 的 输 入 ,使 用 它 们 来学 习 二 阶 特征 h(2)(k)。 再 把 一 阶 特征 输 入 到 刚训 练 好 的 第二 层 稀 疏 自编 码 器 中 ,得 到 每 个h(1)(k) 对应 的 二 阶 特征 激 活 值 h(2)(k)。接 下 来 , 你可 以 把 这 些二 阶 特 征 作为 softmax分 类 器 的 输入 , 训 练 得 到 一 个 能 将二 阶 特 征 映射 到 数 字 标签 的 模 型 。 最 终 , 你 可以 将 这 三 层结 合 起 来 构建 一 个 包 含两 个 隐 藏 层和 一 个 最 终softmax分类 器 层 的 栈式 自 编 码 网络 , 这 个 网络 能 够 如 你所 愿 地 对MNIST数 字进 行 分 类 。 DBNs由 多个 限 制 玻 尔兹 曼 机(Restricted Boltzmann Machines)层 组 成 , 一个 典 型 的 神经 网 络 类 型如 图 所 示 。 最 终 在 构 筑 好 整 个 网 络 后 , 相 当 于 进行 了 一 次 完 整 的 无 监 督 学 习 。在 确 定 了 网 络 的 权 值 后 , 再 次 根 据 样本 , 以 BP神 经 网 络 的 算 法 , 进 行 一 次有 监 督 的 学 习 过 程 。 这 一 过 程 被 称 为多 层 置 信 网 络 的 微 调 。 总 结 与 展 望 DBNs的 灵 活 性 使 得 它 的 拓 展 比 较 容 易 。一 个 拓 展 就 是 卷 积 DBNs( Convolutional Deep Belief Networks (CDBNs)) 。DBNs并 没 有 考 虑 到 图 像 的 2维 结 构 信 息 ,因 为 输 入 是 简 单 的 从 一 个 图 像 矩 阵 一 维向 量 化 的 。 而 CDBNs就 是 考 虑 到 了 这 个问 题 , 它 利 用 邻 域 像 素 的 空 域 关 系 , 通过 一 个 称 为 卷 积 RBMs的 模 型 区 达 到 生 成模 型 的 变 换 不 变 性 , 而 且 可 以 容 易 得 变换 到 高 维 图 像 。 DBNs并 没 有 明 确 地 处 理对 观 察 变 量 的 时 间 联 系 的 学 习 上 , 虽 然目 前 已 经 有 这 方 面 的 研 究 , 例 如 堆 叠 时间 RBMs, 以 此 为 推 广 , 有 序 列 学 习 的dubbed temporal convolutionmachines,这 种 序 列 学 习 的 应 用 , 给 语 音 信 号 处 理 问 题 带 来 了 一 个 让 人 激 动 的 未 来 研 究 方向 。 pixelsedgesobject parts(combination of edges) object models lNote: Sparsity important for these results. l 对 于 一 个 特 定 的 框 架 , 多 少 维 的 输 入 它 可 以 表 现 得 较 优 ?l 对 捕 捉 短 时 或 者 长 时 间 的 时 间 依 赖 , 哪 种 架 构 才 是 有 效的 ?l 如 何 对 于 一 个 给 定 的 深 度 学 习 架 构 , 融 合 多 种 感 知 的 信息 ?l 如 何 分 辨 和 利 用 学 习 获 得 的 中 、 高 层 特 征 语 义 知 识 ?l 有 什 么 正 确 的 机 理 可 以 去 增 强 一 个 给 定 的 深 度 学 习 架 构 ,以 改 进 其 鲁 棒 性 和 对 变 形 及 数 据 丢 失 的 不 变 性 ?l 模 型 方 面 是 否 有 其 他 更 为 有 效 且 有 理 论 依 据 的 深 度 模 型学 习 算 法 ?l 是 否 存 在 更 有 效 的 可 并 行 训 练 算 法 ? l Deep Learning website http:/ Matlab code for R-ICA unsupervised algorithm http:/ Python-based learning library http:/ C+ code for ConvNets http:/ Lush learning library which includes ConvNets http:/ai.stanford.edu/quocle/rica_release.zipl learning library that supports neural net training http:/www.torch.chl Code used to generate demo for this tutorial Ranzato http:/cs.nyu.edu/fergus/tutorials/deep_learning_cvpr12/ l Arel, I., Rose, D. C. and Karnowski, T. P. Deep machine learning - a new frontier in artificial intelligence research. Computational Intelligence Magazine, IEEE, vol. 5, pp. 13-18, 2010. 深 度 学 习 的 介 绍 性 文 章 , 可 做 入 门 材 料 。l Bengio, Y. Learning deep architecture for AI. Foundations and Trends in Machine Learning, vol. 2, pp: 1-127, 2009. ( 深 度 学 习 的 经 典 论 文 , 集 大 成 者 。 可 以 当 作 深 度 学 习 的 学 习 材 料 )l Hinton, G. E. Learning multiple layers of representation. Trends in Cognitive Sciences, vol. 11, pp. 428-434, 2007. 不 需 要 太 多 数 学 知 识 即 可 掌 握 DBNs 的 关 键 算 法 。 这 篇 论 文 语 言 浅 白 , 篇 幅 短 小 , 适 合 初 学 者 理 解 DBNs。l Hinton, G. E. To recognize shapes, first learn to generate images.Technical Report UTML TR 2006-003, University of Toronto, 2006.( 多 伦 多 大 学 的 内 部 讲 义 。 推 荐 阅 读 )l Hinton, G. E., Osindero, S. and Teh, Y. W. A fast learning algorithm for deep belief nets. Neural Computation, vol 18, pp. 1527-1554, 2006。 ( DBNs 的 开 山 之 作 , 意 义 非 凡 , 一 定 要 好 好 看 几 遍 。 在 这 篇 论文 中 , 作 者 详 细 阐 述 了 DBNs 的 方 方 面 面 , 论 证 了 其 和 一 组 层 叠 的 RBMs 的 等 价 性 , 然 后 引 出 DBNs 的 学 习 算 法 )l Hinton, G. E. and Salakhutdinov, R. R. Reducing the dimensionality of data with neural networks. Science, vol. 313, no. 5786, pp. 504507,2006.( Science 上 的 大 作 。 这 篇 论 文 可 是 算 作 一 个 里 程 碑 , 它 标 志着 深 度 学 习 总 算 有 了 高 效 的 可 行 的 算 法 。 ) l Hinton, G. E. A practical guide to training restricted boltzmannmachines. Technical Report UTML TR 2010-003, University of Toronto, 2010.( 一 份 训 练 RBM 的 最 佳 实 践 ) 英 文 论 文 l 1. Representation Learning: A Review and New Perspectives, Yoshua Bengio, Aaron Courville, Pascal Vincent, Arxiv, 2012. l 2. The monograph or review paper Learning Deep Architectures for AI (Foundations & Trends in Machine Learning, 2009). l 3. Deep Machine Learning A New Frontier in Artificial Intelligence Research a survey paper by Itamar Arel, Derek C. Rose, and Thomas P. Karnowski. l 4. A Fast Learning Algorithm for Deep Belief Nets by Geoffrey E. Hinton and Simon Osindero. 博 文 和 网 络 教 程 l 1. Introduction to Restricted Boltzmann Machines by Edwin Chen. l 2. An Introduction to Restricted Boltzmann Machines by Yuhuan Jiang. l 3. Restricted Boltzmann Machine - Short Tutorial by iMonad. l 4. 深 度 学 习 学 习 笔 记 整 理 系 列 by Zouxy. 2016年 最 新 中 文 文 献 :l 陈 亚 楠 ,黄 豫 蕾 ,唐 麟 ,王 士 林 .基 于 Sparse Coding和 DBN的 敏 感 图 像 检 测 J.信 息 安 全 与 通 信 保 密 ,2016,(第 1期 ).l 何 俊 ,蔡 建 峰 ,房 灵 芝 ,何 忠 文 .基 于 LBP/VAR与 DBN模 型 的 人 脸 表 情 识 别 J.计 算 机 应 用 研 究 ,2016,(第 8期 ).l 李 轩 ,李 春 升 .一 种 交 替 变 换 更 新 层 数 的 DBN-DNN快 速 训 练 方 法 J.计 算 机 应 用 研 究 ,2016,(第 3期 ).l 单 外 平 ,曾 雪 琼 .基 于 深 度 信 念 网 络 的 信 号 重 构 与 轴 承 故 障 识 别 J.电 子 设 计 工 程 ,2016,(第 4期 ).l 孙 劲 光 ,孟 凡 宇 .基 于 深 度 神 经 网 络 的 特 征 加 权 融 合 人 脸 识 别 方 法 J.计 算 机 应 用 ,2016,(第 2期 ). 输入文字在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论“ “The End!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 模板表格


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!