资源描述
深 度 学 习 科 普 和 实 战肖 达 Agenda A two minutes tour of DL fundamentals DL in Action with GPU/Theano/Pylearn2 Deep Learning in a Nutshell深 度 学 习 管 窥 对 黑 盒 子 的 限 定 深 度 : 多 层 非 线 性 信 息 处 理 Input = L1 = L2 = = Ln = Output 学 习 : 内 部 结 构 通 过 学 习 涌 现原 始 数 据 对 数 据 的理 解 ( 表 示 )和 判 断 ( 分 类 ) 机 器 学 习 与 特 征 表 示 每 层 从 上 层 输 出 中 提 取 特 征 从 原 始 数 据 直 到 分 类 器 , 各 层 结 构 基 本 相 同 所 有 层 的 特 征 都 用 数 据 训 练 得 到层 次 特 征 学 习 Layer 1 Layer 2 Layer 3 Simple Classifierdata 人 工 设 计特 征 提 取 可 训 练分 类 器图 像 /视 频 /语 音 目 标分 类 以 监 督 学 习 为 例 , 假 设 我 们 有 训 练 样 本 集 (xi, yi), 神 经 网 络 算 法 能 够 提 供 一 种 非 线性 的 假 设 模 型 hw,b(x), 它 具 有 参 数 W,b , 以 此 拟 合 数 据这 个 “ 神 经 元 ” 是 一 个 以 x1,x2,x3及 截 距 +1为输 入 值 的 运 算 单 元 , 其 输 出 为函 数 被 称 为 “ 激 活 函 数 ”这 里 我 们 选 用 sigmoid函 数 作 为 激 活 函 数 单 个 神 经 元 & 逻 辑 回 归 ( LR) 神 经 网 络 就 是 将 许 多 个 单 一 “ 神 经 元 ” 联 结 在 一 起 下 图 神 经 网 络 的 参 数 为 :神 经 网 络 Rumelhart et al. Nature, 1986 8 反 向 传 播 算 法 ( Back-Prop) xWfa )1( aWh 2softmax 计 算 每 个 样 本 的 损 失 函 数 ( 实 际 输 出 与 预 期 输 出 的 差 别 ) 对 各 参 数 的 梯 度 应 用 链 式 求 导 法 则 hJ loghJ )2()2( WhhJWJ ahhJaJ )1()1( WaahhJWJ 学 习 过 程 1、 前 向 传 播 激 励 响 应 2、 和 目 标 比 较 得 到 损 失 3、 反 向 传 播 修 正 权 重 数 据 获 取 问 题 训 练 依 赖 有 标 签 数 据 , 通 常 是 稀 缺 的 局 部 极 值 问 题 多 层 非 线 性 -求 解 一 个 高 度 非 凸 的 优 化 问 题 , 非 常 容 易 陷 入 很 坏 的 局 部 最 小 梯 度 弥 散 问 题 当 深 度 较 深 时 , 梯 度 传 到 前 面 的 时 候 严 重 衰 减 , 前 几 层 不 能 有 效 训 练 , 训 练速 度 很 慢训 练 深 层 神 经 网 络 的 问 题 Agenda A two minutes tour of DL fundamentals DL in Action with GPU/Theano/Pylearn2 What you need An off-the-shelf PC with 650w+ power supply A GPU (GTX 580/780/Titan) Get familiar with Linux, Python and Numpy Total cost 14.5% A new model in 11 lines of codeclass Hypercolumn(Maxout): def _init_(self, hcol_size, *kwargs): super(Hypercolumn, self)._init_(*kwargs) self.hcol_size = hcol_size def fprop(self, state_below): p = super(Hypercolumn, self).fprop(state_below) w = p.reshape(p.shape0, p.shape1 / self.hcol_size, self.hcol_size) hcol_max = w.max(axis=2).dimshuffle(0, 1, x) * T.ones_like(w) w = w * (w = hcol_max) w = w.reshape(p.shape0, p.shape1) return w Discussion
展开阅读全文