深度置信网络BDNppt课件

资源描述

PPT模板下载：人工神经网络（BP算法）虽被称作多层感知机，但实际是种只含有一层隐层节点的浅层模型 SVM、Boosting、最大熵方法（如LR，Logistic Regression）带有一层隐层节点（如SVM、Boosting），或没有隐层节点（如LR）的浅层模型局限性：有限样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受限。基本概念基本概念浅层学习与深度学习浅层学习与深度学习上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物2006年，加拿大多伦多大学教授、机器学习领域的泰斗Geoffrey Hinton在科学上发表论文提出深度学习主要观点：1）多隐层的人工神经网络具有优异的特征学习能力，学习得到的特征对数据有更本质的刻画，从而有利于可视化或分类；2）深度神经网络在训练上的难度，可以通过“逐层初始化”（layer-wise pre-training）来有效克服，逐层初始化可通过无监督学习实现的。基本概念基本概念上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习：深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征，以发现数据的分布式特征表示深度神经网络：含有多个隐层的神经网络基本概念基本概念上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习：一种基于无监督特征学习和特征层次结构的学习方法可能的的名称：深度学习特征学习无监督特征学习基本概念基本概念上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习的优势：能以更加紧凑简洁的方式来表达比浅层网络大得多的函数集合训练深度学习的困难：（1）数据获取问题考虑到深度网络具有强大的表达能力，在不充足的数据上进行训练将会导致过拟合（2）局部极值问题与梯度下降法有关基本概念基本概念上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习深度学习本质：通过构建多隐层的模型和海量训练数据（可为无标签数据），来学习更有用的特征，从而最终提升分类或预测的准确性。“深度模型”是手段，“特征学习”是目的。与浅层学习区别：1）强调了模型结构的深度，通常有5-10多层的隐层节点；2）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习深度学习好处：可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习深度学习 vs.vs.神经网络神经网络相同点：相同点：二者均采用分层结构，系统包括输入层、隐层（多层）、输出层组成的多层网络，只有相邻层节点之间有连接，同一层以及跨层节点之间相互无连接，每一层可以看作是一个logistic 回归模型。不同点：不同点：神经网络：采用BP算法调整参数，即采用迭代算法来训练整个网络。随机设定初值，计算当前网络的输出，然后根据当前输出和样本真实标签之间的差去改变前面各层的参数，直到收敛；深度学习：采用逐层训练机制。采用该机制的原因在于如果采用BP机制，对于一个deep network（7层以上），残差传播到最前面的层将变得很小，出现所谓的gradient diffusion（梯度扩散）。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物神经网络的局限性：1）比较容易过拟合，参数比较难调整，而且需要不少技巧；2）训练速度比较慢，在层次比较少（小于等于3）的情况下效果并不比其它方法更优；上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习训练过程深度学习训练过程不采用BP算法的原因（1）反馈调整时，梯度越来越稀疏，从顶层越往下，误差校正信号越来越小；（2）收敛易至局部最小，由于是采用随机值初始化，当初值是远离最优区域时易导致这一情况；（3）BP算法需要有标签数据来训练，但大部分数据是无标签的；上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习训练过程深度学习训练过程第一步：采用自下而上的无监督学习1）逐层构建单层神经元。2）每层采用wake-sleep算法进行调优。每次仅调整一层，逐层调整。这个过程可以看作是一个feature learning的过程，是和传统神经网络区别最大的部分。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习训练过程深度学习训练过程wake-sleep算法:1 1）wakewake阶段：阶段：认知过程，通过下层的输入特征（认知过程，通过下层的输入特征（InputInput）和向上的认知（）和向上的认知（EncoderEncoder）权重）权重产生每一层的抽象表示（产生每一层的抽象表示（CodeCode），再通过当前的生成（），再通过当前的生成（DecoderDecoder）权重产）权重产生一个重建信息（生一个重建信息（ReconstructionReconstruction），计算输入特征和重建信息残差，），计算输入特征和重建信息残差，使用梯度下降修改层间的下行生成（使用梯度下降修改层间的下行生成（DecoderDecoder）权重。也就是）权重。也就是“如果现实如果现实跟我想象的不一样，改变我的生成权重使得我想象的东西变得与现实一跟我想象的不一样，改变我的生成权重使得我想象的东西变得与现实一样样”。2 2）sleepsleep阶段：阶段：生成过程，通过上层概念（生成过程，通过上层概念（CodeCode）和向下的生成（）和向下的生成（DecoderDecoder）权重，生成）权重，生成下层的状态，再利用认知（下层的状态，再利用认知（EncoderEncoder）权重产生一个抽象景象。利用初始）权重产生一个抽象景象。利用初始上层概念和新建抽象景象的残差，利用梯度下降修改层间向上的认知（上层概念和新建抽象景象的残差，利用梯度下降修改层间向上的认知（EncoderEncoder）权重。也就是）权重。也就是“如果梦中的景象不是我脑中的相应概念，改变如果梦中的景象不是我脑中的相应概念，改变我的认知权重使得这种景象在我看来就是这个概念我的认知权重使得这种景象在我看来就是这个概念”。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习训练过程深度学习训练过程EncoderDecoderInput ImageClass labele.g.FeaturesEncoderDecoderFeaturesEncoderDecoderAutoEncoder:上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习训练过程深度学习训练过程第二步：自顶向下的监督学习第二步：自顶向下的监督学习这一步是在第一步学习获得各层参数进的基础这一步是在第一步学习获得各层参数进的基础上，在最顶的编码层添加一个分类器（例如罗杰上，在最顶的编码层添加一个分类器（例如罗杰斯特回归、斯特回归、SVMSVM等），而后通过带标签数据的监等），而后通过带标签数据的监督学习，利用梯度下降法去微调整个网络参数。督学习，利用梯度下降法去微调整个网络参数。深度学习的第一步实质上是一个网络参数初始深度学习的第一步实质上是一个网络参数初始化过程。区别于传统神经网络初值随机初始化，化过程。区别于传统神经网络初值随机初始化，深度学习模型是通过无监督学习输入数据的结构深度学习模型是通过无监督学习输入数据的结构得到的，因而这个初值更接近全局最优，从而能得到的，因而这个初值更接近全局最优，从而能够取得更好的效果。够取得更好的效果。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度神经网络的演化神经网络深度神经网络多层感知器上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物在有了多层感知器之后为什么还在有了多层感知器之后为什么还需要提出深度学习？需要提出深度学习？上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物1）强调了模型结构的深度，通常有5-10多层的隐层节点；2）明确突出了特征学习的重要性，通过逐层特征变换，将样本在原空间的特征表示变换到一个新特征空间，从而使分类或预测更加容易。与人工规则构造特征的方法相比，利用大数据来学习特征，更能够刻画数据的丰富内在信息。3）可通过学习一种深层非线性网络结构，实现复杂函数逼近，表征输入数据分布式表示。深度神经网络深度神经网络上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度神经网络深度神经网络神经网络：深度学习：上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物 1）自动编码器（AutoEncoder）2）稀疏自编码(Sparse AutoEncoder)3）卷积神经网络 4）限制玻尔兹曼机降噪自动编码器(Denoising AutoEncoders)；深度玻尔兹曼机（Deep Boltzmann Machine）；卷积波尔兹曼机；深度学习的具体模型与方法深度学习的具体模型与方法上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物RBM（受限玻尔兹曼机）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物受限玻尔兹曼机(Restricted Boltzmann Machine,简称RBM)是由Hinton和Sejnowski于1986年提出的一种生成式随机神经网络(generative stochastic neural network)，该网络由一些可见单元(visible unit，对应可见变量，亦即数据样本)和一些隐藏单元(hidden unit，对应隐藏变量)构成，可见变量和隐藏变量都是二元变量，亦即其状态取0,1。整个网络是一个二部图，只有可见单元和隐藏单元之间才会存在边，可见单元之间以及隐藏单元之间都不会有边连接基本概念基本概念受限玻尔兹曼机上图所示的上图所示的RBM含有含有9个可见单元个可见单元(构成一个向量构成一个向量v)和和3个隐藏单元个隐藏单元(构成一构成一个向量个向量h)，W是一个是一个9*3的矩阵，表示的矩阵，表示可见单元和隐藏单元之间的边的权重。可见单元和隐藏单元之间的边的权重。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物RBM是玻尔兹曼机(Boltzmann machine，BM)的一种特殊拓扑结构。BM的原理起源于统计物理学，是一种基于能量函数基于能量函数的建模方法，能够描述变量之间的高阶相互作用，BM的学习算法较复杂，但所建模型和学习算法有比较完备的物理解释和严格的数理统计理论作基础。BM是一种对称耦合的随机反馈型二值单元神经网络对称耦合的随机反馈型二值单元神经网络，由可见层和多个隐层组成，网络节点分为可见单元(visible unit)和隐单元(hidden unit)，用可见单元和隐单元来表达随机网络与随机环境的学习模型，通过权值表达单元之间的相关性。BM是由Hinton和Sejnowski提出的一种随机递归神经网络，可以看做是一种随机生成的Hopfield网络，是能够通过学习数据的固有内在表示解决困难学习问题的最早的人工神经网络之一，因样本分布遵循玻尔兹曼分布而命名为BM。BM由二值神经元构成，每个神经元只取1或0这两种状态，状态1代表该神经元处于接通状态，状态0代表该神经元处于断开状态。基本概念基本概念上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物正如名字所提示的那样，受限玻尔兹曼机是一种玻尔兹曼机的变体，但限定模型必须为二分图。模型中包含对应输入参数的输入（可见）单元和对应训练结果的隐单元，图中的每条边必须连接一个可见单元和一个隐单元。（与此相对，“无限制”玻尔兹曼机包含隐单元间的边，使之成为递归神经网络。）这一限定使得相比一般玻尔兹曼机更高效的训练算法成为可能，特别是基于梯度的对比分歧（contrastivedivergence）算法。基本概念基本概念受限玻尔兹曼机上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物“预训练预训练”方法方法限制玻尔兹曼机（限制玻尔兹曼机（RBM）RBMRBM网络共有网络共有2 2层，其中第一层称为可视层，一般来说是输入层，另一层层，其中第一层称为可视层，一般来说是输入层，另一层是隐含层，也就是我们一般指的特征提取层。是隐含层，也就是我们一般指的特征提取层。是可视层与隐藏层之间是可视层与隐藏层之间的权重矩阵，的权重矩阵，是可视节点的偏移量，是可视节点的偏移量，是隐藏节点的偏移量。是隐藏节点的偏移量。隐含层隐含层可视层可视层n mWbc上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物“预训练预训练”方法方法限制玻尔兹曼机（限制玻尔兹曼机（RBM）1(1|)()mjjiijip hvw vc1(1|)()nijijijp vhw hb上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物RBM的学习目标的学习目标-最大化似然最大化似然(Maximizinglikelihood)RBM是一种基于能量(Energy-based)的模型，其可见变量v和隐藏变量h的联合配置(joint configuration)的能量为：其中是RBM的参数W,a,b,W为可见单元和隐藏单元之间的边的权重，b和a分别为可见单元和隐藏单元的偏置(bias)。有了v和h的联合配置的能量之后，我们就可以得到v和h的联合概率：其中Z()是归一化因子，也称为配分函数(partition function)。RBM的学习目标的学习目标-最大化似然（类似于可能性）最大化似然（类似于可能性）（1）（2）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物根据式子(1)，可以将(2)式写为：我们希望最大化观测数据的似然函数P(v)，P(v)可由式(3)求P(v,h)对h的边缘分布得到:通过最大化P(v)来得到RBM的参数，最大化P(v)等同于最大化log(P(v)=L()：（3）（4）TTT1(V,H)exp V WH+a H+b V()PZ（5）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物定义能量函数：,(,)iijjijijiji jE v hvbh cv h w 联合概率分布：Z为归一化系数，其定义为：输入层的边缘概率为：(,)1(,)E v hp v heZ(,),E v hv hZe(,)1()E v hhp veZ限制玻尔兹曼机（限制玻尔兹曼机（RBM）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物可以通过随机梯度下降(stochastic gradient descent)来最大化L()，首先需要求得L()对W的导数经过简化可以得到：（7）中后项等于（6）（7）（8）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物可以通过随机梯度下降(stichastic gradient descent)来最大化L()，首先需要求得L()对W的导数经过简化可以得到：（7）中后项等于式子（7）中的前者比较好计算，只需要求vihj在全部数据集上的平均值即可，而后者涉及到v，h的全部2|v|+|h|种组合，计算量非常大(基本不可解)。（6）（7）（8）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物计算方法计算方法上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物网络学习的目的是最大可能的拟合输入数据，即最大化。Hinton提出了一种快速算法，称作contrastive divergence（对比分歧）算法。这种算法只需迭代k次，就可以获得对模型的估计，而通常k等于1.CD算法在开始是用训练数据去初始化可见层，然后用条件分布计算隐层；然后，再根据隐层，同样，用条件分布来计算可见层。这样产生的结果是对输入的一个重构。根据CD算法：其中，是学习率，是样本数据的期望，是重构后可视层数据的期望()p vijijijdatareconwv hv hijdatav hijreconv h上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物RBM的学习方法的学习方法-CD(ContrastiveDivergence，对比散列，对比散列)网络学习的目的是最大可能的拟合输入数据，即最大化。Hinton提出了一种快速算法，称作contrastive divergence（对比分歧，又称对比散列）算法。这种算法只需迭代k次，就可以获得对模型的估计，而通常k等于1.CD算法在开始是用训练数据去初始化可见层，然后用条件分布计算隐层；然后，再根据隐层，同样，用条件分布来计算可见层。这样产生的结果是对输入的一个重构。根据CD算法：权值更新()p vijijijdatareconwv hv h上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物RBM的学习方法的学习方法-CD(ContrastiveDivergence，对比散列，对比散列)首先根据数据v来得到h的状态，然后通过h来重构(Reconstruct)可见向量v1，然后再根据v1来生成新的隐藏向量h1。因为RBM的特殊结构(层内无连接，层间有连接)，所以在给定v时，各个隐藏单元hj的激活状态之间是相互独立的，反之，在给定h时，各个可见单元的激活状态vi也是相互独立的，可得到：上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物抽样概率抽样概率重构的可见向量v1和隐藏向量h1就是对P(v,h)的一次抽样，多次抽样得到的样本集合可以看做是对P(v,h)的一种近似，使得式子（7）的计算变得可行。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物 RBM的权重的学习算法：取一个样本数据，把可见变量的状态设置为这个样本数据。随机初始化W。根据式(9)的第一个公式来更新隐藏变量的状态，亦即hj以P(hj=1|v)的概率设置为状态1，否则为0。然后对于每个边 vihj，计算 Pdata(vihj)=vi*hj(vi和hj的状态都是取0,1)。根据h的状态和式(9)的第二个公式来重构v1，并且根据v1和式(9)的第一个公式来求得h1，计算Pmodel(v1ih1j)=v1i*h1j。更新边vihj的权重Wij为Wij=Wij+alpha*(Pdata(vihj)-Pmodel(v1ih1j)。取下一个数据样本，重复1-4的步骤。以上过程迭代K次。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物DBN（深度信念网）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度学习深度学习深度学习的实质，是通过构建具有很多隐层的机器学习模型组合低层特征形成更加抽象的高层来表示属性类别或特征，以发现数据的分布式特征。其动机在于建立模拟人脑进行分析学习的神经网络，模仿人脑的机制来解释数据，例如图像，声音和文本。因此，“深度模型”是手段，“特征学习”是目的。深度学习的核心思路如下：无监督学习用于每一层网络的pre-train；每次用无监督学习只训练一层，将其训练结果作为其高一层的输入；用自顶而下的监督算法去调整所有层。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物逐层迭代推断逐层迭代推断Fine Turning Fine Turning DeepBeliefNetworks datahidden variableshidden variableshidden variables likelihoodWpriorW v1 h1 v0 h0 v2 h2TWTWTWWW上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物深度信念网络(Deep Belief Network,DBN)由 Geoffrey Hinton 在 2006 年提出。它是一种生成模型，通过训练其神经元间的权重，我们可以让整个神经网络按照最大概率来生成训练数据。我们不仅可以使用 DBN 识别特征、分类数据，还可以用它来生成数据。右面的图片展示的是用 DBN 识别手写数字：图 1 用深度信念网络识别手写数字。图中右下角是待识别数字的黑白位图，它的上方有三层隐性神经元。每一个黑色矩形代表一层神经元，白点代表处于开启状态的神经元，黑色代表处于关闭状态的神经元。注意顶层神经元的左下方即使别结果，与画面左上角的对应表比对，得知这个 DBN 正确地识别了该数字。DBNs是一个概率生成模型，与传统的判别模型的神经网络相对，生成模型是建立一个观察数据和标签之间的联合分布，对P(Observation|Label)和 P(Label|Observation)都做了评估，而判别模型仅仅而已评估了后者，也就是P(Label|Observation)。对于在深度神经网络应用传统的BP算法的时候，DBNs遇到了以下问题：（1）需要为训练提供一个有标签的样本集；（2）学习过程较慢；（3）不适当的参数选择会导致学习收敛于局部最优解。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物DBN 是由多层 RBM 组成的一个神经网络，它既可以被看作一个生成模型，也可以当作判别模型，其训练过程是：使用非监督贪婪逐层方法去预训练获得权值。DBN 由多层神经元构成，这些神经元又分为显性神经元和隐性神经元（以下简称显元和隐元）。显元用于接受输入，隐元用于提取特征。因此隐元也有个别名，叫特征检测器(feature detectors)。最顶上的两层间的连接是无向的，组成联合内存(associative memory)。较低的其他层之间有连接上下的有向连接。最底层代表了数据向量(data vectors)，每一个神经元代表数据向量的一维。DBN 的组成元件是受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)。训练 DBN 的过程是一层一层地进行的。在每一层中，用数据向量来推断隐层，再把这一隐层当作下一层(高一层)的数据向量。这些网络被“限制”为一个可视层和一个隐层，层间存在连接，但层内的单元间不存在连接。隐层单元被训练去捕捉在可视层表现出来的高阶数据的相关性。不考虑最顶构成一个联想记忆（associative memory）的两层，一个DBN的连接是通过自顶向下的生成权值来指导确定的，RBMs就像一个建筑块一样，相比传统和深度分层的sigmoid信念网络，它能易于连接权值的学习。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物不同的称呼：Deep Belief Network,DBN深度信念网络；深度置信网；深信度网络；深信网；多层置信网络；.上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物 DBN神经网络模型使用BP算法单独训练每一层的时候，我们发现，必须丢掉网络的第三层，才能级联自联想神经网络。然而，有一种更好的神经网络模型，这就是受限玻尔兹曼机。使用层叠波尔兹曼机组成深度神经网络的方法，在深度学习里被称作深度信念网络DBN，这是目前非常流行的方法。经典的DBN网络结构是由若干层 RBM 和一层 BP 组成的一种深层神经网络,结构如下图所示.：DBN 在训练模型的过程中主要分为两步:第第 1步步：分别单独无监督地训练每一层 RBM 网络,确保特征向量映射到不同特征空间时,都尽可能多地保留特征信息;第第 2步步：在 DBN 的最后一层设置 BP 网络,接收 RBM 的输出特征向量作为它的输入特征向量,有监督地训练实体关系分类器.而且每一层 RBM 网络只能确保自身层内的权值对该层特征向量映射达到最优,并不是对整个 DBN 的特征向量映射达到最优,所以反向传播网络还将错误信息自顶向下传播至每一层 RBM,微调整个 DBN 网络.RBM 网络训练模型的过程可以看作对一个深层 BP 网络权值参数的初始化,使DBN 克服了 BP 网络因随机初始化权值参数而容易陷入局部最优和训练时间长的缺点.上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物上述训练模型中第一步在深度学习的术语叫做预训练，第二步叫做微调。最上面有监督学习的那一层，根据具体的应用领域可以换成任何分类器模型，而不必是BP网络。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网络结构多层置信网络结构首先，你需要用原始输入 x(k)训练第一个自编码器，它能够学习得到原始输入的一阶特征表示 h(1)(k)。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网络结构多层置信网络结构接着，你需要把原始数据输入到上述训练好的稀疏自编码器中，对于每一个输入 x(k)，都可以得到它对应的一阶特征表示 h(1)(k)。然后你再用这些一阶特征作为另一个稀疏自编码器的输入，使用它们来学习二阶特征 h(2)(k)。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网络结构多层置信网络结构再把一阶特征输入到刚训练好的第二层稀疏自编码器中，得到每个h(1)(k)对应的二阶特征激活值 h(2)(k)。接下来，你可以把这些二阶特征作为softmax分类器的输入，训练得到一个能将二阶特征映射到数字标签的模型。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网络结构多层置信网络结构最终，你可以将这三层结合起来构建一个包含两个隐藏层和一个最终softmax分类器层的栈式自编码网络，这个网络能够如你所愿地对MNIST数字进行分类。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网络结构多层置信网络结构 DBNs由多个限制玻尔兹曼机（Restricted Boltzmann Machines）层组成，一个典型的神经网络类型如图所示。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网络结构多层置信网络结构最终在构筑好整个网络后，相当于进行了一次完整的无监督学习。在确定了网络的权值后，再次根据样本，以BP神经网络的算法，进行一次有监督的学习过程。这一过程被称为多层置信网络的微调。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物总结与展望上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物多层置信网多层置信网的应用的应用DBNs的灵活性使得它的拓展比较容易。一个拓展就是卷积DBNs（Convolutional Deep Belief Networks(CDBNs)）。DBNs并没有考虑到图像的2维结构信息，因为输入是简单的从一个图像矩阵一维向量化的。而CDBNs就是考虑到了这个问题，它利用邻域像素的空域关系，通过一个称为卷积RBMs的模型区达到生成模型的变换不变性，而且可以容易得变换到高维图像。DBNs并没有明确地处理对观察变量的时间联系的学习上，虽然目前已经有这方面的研究，例如堆叠时间RBMs，以此为推广，有序列学习的dubbed temporal convolutionmachines，这种序列学习的应用，给语音信号处理问题带来了一个让人激动的未来研究方向。上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物ConvolutionalDBNonfaceimagespixelsedgesobject parts(combination of edges)object modelsNote:Sparsity important for these results.上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物对于一个特定的框架，多少维的输入它可以表现得较优？对捕捉短时或者长时间的时间依赖，哪种架构才是有效的？如何对于一个给定的深度学习架构，融合多种感知的信息？如何分辨和利用学习获得的中、高层特征语义知识？有什么正确的机理可以去增强一个给定的深度学习架构，以改进其鲁棒性和对变形及数据丢失的不变性？模型方面是否有其他更为有效且有理论依据的深度模型学习算法？是否存在更有效的可并行训练算法？未来需解决的问题未来需解决的问题：上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物相关程序软件及链接相关程序软件及链接Deep Learning website http:/ code for R-ICA unsupervised algorithm http:/ learning library http:/ for ConvNets http:/ learning library which includes ConvNets http:/ai.stanford.edu/quocle/rica_release.ziplearning library that supports neural net training http:/www.torch.chCode used to generate demo for this tutorial Ranzato http:/cs.nyu.edu/fergus/tutorials/deep_learning_cvpr12/上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物相关文献推荐相关文献推荐Arel,I.,Rose,D.C.and Karnowski,T.P.Deep machine learning-a new frontier in artificial intelligence research.Computational Intelligence Magazine,IEEE,vol.5,pp.13-18,2010.深度学习的介绍性文章，可做入门材料。Bengio,Y.Learning deep architecture for AI.Foundations and Trends in Machine Learning,vol.2,pp:1-127,2009.（深度学习的经典论文，集大成者。可以当作深度学习的学习材料）Hinton,G.E.Learning multiple layers of representation.Trends in Cognitive Sciences,vol.11,pp.428-434,2007.不需要太多数学知识即可掌握 DBNs 的关键算法。这篇论文语言浅白，篇幅短小，适合初学者理解 DBNs。Hinton,G.E.To recognize shapes,first learn to generate images.Technical Report UTML TR 2006-003,University of Toronto,2006.（多伦多大学的内部讲义。推荐阅读）Hinton,G.E.,Osindero,S.and Teh,Y.W.A fast learning algorithm for deep belief nets.Neural Computation,vol 18,pp.1527-1554,2006。（DBNs 的开山之作，意义非凡，一定要好好看几遍。在这篇论文中，作者详细阐述了 DBNs 的方方面面，论证了其和一组层叠的 RBMs 的等价性，然后引出 DBNs 的学习算法）Hinton,G.E.and Salakhutdinov,R.R.Reducing the dimensionality of data with neural networks.Science,vol.313,no.5786,pp.504507,2006.（Science 上的大作。这篇论文可是算作一个里程碑，它标志着深度学习总算有了高效的可行的算法。）Hinton,G.E.A practical guide to training restricted boltzmannmachines.Technical Report UTML TR 2010-003,University of Toronto,2010.（一份训练 RBM 的最佳实践）上海海洋大学信息学院上海海洋大学信息学院我吓了一跳，蝎子是多么丑恶和恐怖的东西，为什么把它放在这样一个美丽的世界里呢？但是我也感到愉快，证实我的猜测没有错：表里边有一个活的生物相关文献推荐相关文献推荐英文论文 1.Representation Learning:A Review and New Perspectives,Yoshua Bengio,Aaron Courville,Pascal Vincent,Arxiv,2012.2.The monograph or review paper Learning Deep Architectures for AI(Foundations&Trends in Machine Learning,2009).3.Deep Machine Learning A New Frontier in Artificial Intelligence Research a survey paper by Itamar Arel,Derek C.Rose,and Thomas P.Karnowski.4.A Fast Learning Algorithm for Deep Belief Nets by Geoffrey E.Hinton and Simon Osindero.博文和网络教程 1.Introduction to Restricted Boltzmann Machines by Edwin Chen.2.An Introduction to Restricted Boltzmann Machines by Yuhuan Jiang.3.Restricted Boltzmann Machine-Short Tutorial by iMonad.4.深度学习学习笔记整理系列 by Zouxy.2016年最新中文文献：陈亚楠,黄豫蕾,唐麟,王士林.基于Sparse Coding和DBN的敏感图像检测J.信息安全与通信保密,2016,(第1期).何俊,蔡建峰,房灵芝,何忠文.基于LBP/VAR与DBN模型的人脸表情识别J.计算机应用研究,2016,(第8期).李轩,李春升.一种交替变换更新层数的DBN-DNN快速训练方法J.计算机应用研究,2016,(第3期).单外平,曾雪琼.基于深度信念网络的信号重构与轴承故障识别J.电子设计工程,2016,(第4期).孙劲光,孟凡宇.基于深度神经网络的特征加权融合人脸识别方法J.计算机应用,2016,(第2期).在此输入标题在此输入标题输入文字在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论在此录入上述图表的综合分析结论“The End！

展开阅读全文

深度置信网络BDNppt课件

最新文档