《随机型神经网络》ppt.ppt

上传人:天**** 文档编号:9726719 上传时间:2020-04-07 格式:PPT 页数:55 大小:2.12MB
返回 下载 相关 举报
《随机型神经网络》ppt.ppt_第1页
第1页 / 共55页
《随机型神经网络》ppt.ppt_第2页
第2页 / 共55页
《随机型神经网络》ppt.ppt_第3页
第3页 / 共55页
点击查看更多>>
资源描述
随机型神经网络 5 1随机型神经网络的基本思想5 2模拟退火算法5 3Boltzmann机与Boltzmann机工作规则5 4Boltzmann机学习规则5 5网络小结 5 1随机型神经网络的基本思想 误差反向传播算法的基本思想 通过对网络参数 连接权 输出阈值 的逐步调整实现网络学习的 它是在提供给网络的学习模式集合的全局误差按梯度下降的条件下达到网络记忆目的 当学习过程进行到全局误差开始有上升的趋势时就停止了 这往往导致网络误差陷入局部极小值 而达不到全局最小点 这种算法被形象地称为 贪心 算法 即急于找到最小解 结果则是欲速则不达 对于Hopfield网络 其工作规则也是使网络的能量函数朝梯度下降的力向变化 即随着网络状态的不断更新 网络能能量函数单调下降 其结果也往往是是使网络陷入局部极小值 最终得不到网络的最优解 分析以上两种网络结构与算法的特点 导致网络学习过程陷入局部极小点的原因主要有 结构上 存在着输入与输出之间的非线性函数关系 从而使网络误差或能量函数所构成的空间是一个含有多极点的非线性空间 算法上 网络的误差或能量函数只能按单方向减小而不能有丝毫的上升趋势 对于第一点 是为保证 网络具有非线性映衬能力而必不可少的 解决网络收敛问题的途径就只能从第二点入手 即不但让网络的误差或能量函数向减小的方向变化 而且 还可按某种方式向增大的方向变化 目的是使网络有可能跳出局部极小值而向全局最小点收敛 这就是随机型神经网络算法的基本思想 4 2模拟退火算法 模拟退火算法 SimulatedAnnealingAlgorithm 就是模拟金属构件退火过程的一种算法 金属或某类固体物质退火处理过程是 先用高温将其加热熔化 使其中的粒子可以自由运动 逐渐降低温度 粒子的自由运动趋势也逐渐减弱 并逐渐形成低能态晶格 若在凝结点附近温度下降的速度足够慢 则金属或固体物质一定会形成最低能量的基态 即最稳定结构状态 实际上 在整个降温的过程中 各个粒子都可能经历了由高能态向低能态 有时又暂时由低能态向高能态最终趋向低能态的变化过程 启发 如果把神经网络的状态看作金属内部的 粒子 把网络在各个状态下的能量函数E看作是粒子所处的能态 在算法中设置一种控制参数T 当T较大时 网络能量由低向高变化的可能性也较大 随着T的减小 这种可能性也减小 如果把这个参数看作温度 让其由高慢慢地下降 则整个网络状态变化过程就完全模拟了金属的退火过程 当参数了下降到一定程度时 网络将收敛于能量的最小值 在模拟退火算法中 有两点是算法的关键 控制参数T 能量由低向高变化的可能性 这两点必须结合起来考虑 当T大时 可能性也大 T小时 可能性也小 把 可能性 当作参数T的函数 可能性 用数学模型来表示就是概率 由此可以得到模拟退火算法如下 上式表明 在模拟退火算法中 某神经元的输出不象Hopfield算法中那样 是由以内部状态Hi为输入的非线性函数的输出 阶跃函数 所决定的 而是由Hi为变量的概率PHi 1 或PHi 0 所决定的 不同的Hi 对应不同的概率 PHi 1 或PHi 0 以上各式体现了模拟退火算法的两个关键点 将Hopfield网络能量函数的变化式重写 这在Hopfield算法中是不允许的 而这里却允许比较小的概率 负横轴所对应的概率 接受这种变化 从图还可以看出 当温度T较高时 PHi 1 相对于Hi的变化反应迟钝 曲线趋于平坦 特别是当时 曲线变为一条恒为0 5的直线 此时ui取1和0的概率相等 这意味着在T较高的期间 网络各神经元有更多的机会进行状态选择 相当于金属内部的粒子作激烈的自由运动 当温度降低时 PHi 1 曲线变陡 PHi 1 相对于Hi的变化相当敏感 当时 曲线退化为一阶跃函数 则算法也从模拟退火算法过渡到Hopfield算法 可以说 Hopfield算法是模拟退火算法在时的特例 反复进行网络的状态更新 且更新次数N足够大以后 网络某状态出现的概率将服从分布 式中 Ei为状态 ui 所对应的网络能量 这一概率分布就是由统计力学家LudwigBoltzmann 1844 1906年 提出的Boltzmann分布 式中的Z是为使分布规一化而设置的常数 网络所有状态的能量之和为常数 由这一分布可以看出 状态的能量越小 这一状态出现的概率就越大 这是Boltzmann分布的一大特点 即 最小能量状态以最大的概率出现 5 3Boltzmann机与Boltzmann机工作规则 按模拟退火算法实现网络状态的更新时 网络各状态出现的概率将服从Boltzmann分布 实际上 模拟退火算法的提出并不是针对神经网络的 它最早是由Metrpolis于1953年针对模拟统计物理中液体结晶问题而提出的一种算法思想 1985年 Hinton等人把模拟退火算法引入神经网络中 提出了Boltzman机模型 简称BM网络 BoltzmannMachine Boltzmann机网络结构基本上与离散型Hopfield网络结构相似 由N个神经元构成 每个神经元取0 1二值输出 且神经元之间以对称连接权相互连接 与Hopfield网络所不同的是 Boltzmann机网络一般把整个神经元分为可视层与隐含层两大部分 可视层又可分为输入部分和输出部分 但它与一般的阶层网络结构不同之处是网络没有明显的层次界限 且神经元之间不是单向连接而是双向连接的 如图所示 Bo1tzmann机网络的算法根据其两大用途分为 工作规则 也就是网络的状态更新规则 主要用于优化组合问题 学习规则 也就是网络连接权和输出阈值的修正规则 主要用于以网络作为一种外界概率分布的模拟机 这也是Boltzmann机网络的一个独特的用途 Boltzmann机网络工作规则与Hopfield网络工作规则十分相似 只是以概率方式取代阶跃函数方式来决定网络根据其神经元的内部状态而进行的状态更新 并且网络的温度参数随着网络状态更新的进行而逐渐减小 实际上 可以说Boltzmann机网络工作规则就是模拟退火算法的具体体现 现将其步骤归纳如下 4 关于降温策略 由于在Boltzmann机工作规则中引入了概率 所以网络不是收敛于1个状态而是收敛于平衡状态 即在N次网络状态更新过程中 网络各个状态出现的概率分布保持不变 符合Boltzmann分布 由这一分布可知 温度参数T对收敛概率分布有很大影响 当温度参数时 最小能量的状态实现概率为1 这也正是我们所期望的 但是如果开始就以T 0进行状态更新 则网络状态很可能陷入局部极小点 因此需采用逐渐降温法实现状态更新 而且只有降温速度合适才能保证网络状态收敛于全局最小点 现己证明 按所示降温方案 能够保证网络收敛于全局最小值 但用此方法也存在着一个很大缺陷 即网络的收敛时间太长 为此 也可用下式所示方法实施降温这种降温方法称为快速降温方案 同Hopfield网络在优化组合中的应用一样 当把问题的约束条件及目标函数转化为网络的目标函数之后 按Boltzmann工作规则进行网络的状态转移 最终能得到问题的最优解 由于Boltzmann机网络的工作规则可使网络的状态转移 无论从任何初始状态出发 都可以收敛到网络能量函数的最小值 能量函数的各个局部极小值无法被利用来作为记忆模式的存贮点 所以Boltzmann机网络不能充当一般意义上的多记忆模式的联想记忆器使用 5 4Boltzmann机学习规则 Boltzmann机网络除了可以解决优化组合问题外 还可以通过网络训练模拟外界给出的概率分布 Boltzmann网络训练模拟外界给出的概率分布 实现概率意义上的联想记忆 什么是概率意义上的联想记忆呢 简单地讲 就是网络所记忆的并不是记忆模式本身 而是记忆模式出现的概率 提供给网络训练的也不仅仅是学习模式 而且还有学习模式出现的概率 在上节中曾经指出 Boltzmann机网络可划分为可视层与隐含层两大部分 可视层 主要作为网络记忆的外部表现 即学习模式及用于回想的输入棋式都是通过可视层提供给网络的 隐含层 主要用于网络记忆的内部运算 当把一组记忆模式及这组记忆模式中每一个模式应出现的概率 即这组记模式的概率分布函数 提供给网络的可视层之后 让网络按将介绍的学习规则进行学习 学习结束之后 当网络按上节介绍的工作规则进行不断地状态转移时 网络的各个状态将按记亿的学习模式的概率分布出现 即概率大的状态出现的频率高 概率小的状态出现的频率低 这时的网络相当于一个按既定概率分布输出的 概率发生器 这种概率意义上的联想记忆称为自联想记忆 进一步分析互联记忆方式 把网络的可视层分为输入部分和输出部分 且按下述方式提供给网络学习模式 把某个记忆模式加到网络的输入部分 同时 在网络的输出部分按一给定概率分布给出一组希望输出模式 此时所给出的概率分布函数实际上是输出模式相对于输入模式的条件概率分布 网络正是通过记忆这种条件概率分布函数来完成互联想记忆 例如 一个由Boltzmann机网络组成的柴油机故障诊断系统 当给网络提供一个表示排气筒有黑烟的故障输入模式后 在网络的输出部分 即故障诊断系统的诊断输出端 按产生这种故障现象的原因的概率的大小提供一系列输出模式 如汽缸点火位置不准 油料中含有杂质等等 从此构成网络的学习模式对 无论是自联想记亿还是互联想记忆 其实质就是 网络通过学习目标概率分布函数 将其记忆并在以后的回想过程中将这一概率分布再现出来 应该注意的是 Boltzmann机网络与一般的阶层网络不同 它没有明显的层次界限 一般是根据问题的需要 在全互连接的各个神经元中选择一些作为可视层 另一些作为隐含层 可视层 神经元的个数可以根据记忆模式的形式确定 隐含层 神经元的个数目前则需凭经验确定 Boltzmann机网络是怎样记忆目标分布函数的呢 按Boltzmann机工作规则进行网络的状态转移 当转移的次数足够大时 网络的状态出现将服从于Boltzmann分布 Boltzmann分布函数是由网络状态的能量函数决定的 而状态的能量函数又是由网络的连接权和输出阈值所决定的 因此 通过适当地调整网络的连接权和输出阀值 就可实现所希望的Boltzmann概率分布 连接权和阈值的调整过程也就是网络的学习过程 式中表示网络的可视层各神经元的输出按所希望的概率分布固定在某一状态下 仅让隐含层的各神经元按Boltzmann工作规则进行状态更新 当更新次数足够大并认为网络已达到平衡状态之后神经元i和j同时输出为1的概率 也称ui与uj之间的对称概率 式中表示当整个神经元按Boltzmann工作规则进行状态更新 并达到平衡状态之后 神经元i与j同时输出为l的概率 学习结束后的网络在进行回想时 可使网络从任何初始状态出发 技工作规则进行若干次状态转移 则网络可视层各个状态的出现概率分布将符合网络学习时所希望的概率分布 下面介绍Boltzmann机网络的互联想记忆学习规则 这一规则与自联想记忆学习规则十分相似 在对每一组学习模式进行训练时 输入部分的状念总是固定在某个输入模式的状态 学习结束后的网络在进行回想时 当给网络的输入部分提供一输入模式后 对网络除输入部分按网络工作规则进行状态更新 在网络的输出部分各状态出现的概率分布将符合学习过的希望概率分布 5 5网络小结 介绍模拟退火算法及Boltzmann机网络的工作和学习规则时曾多次指出 这一算法可使网络的能量函数收敛于全局最小值 从而可以得到应用问题的最优解 但是实际情况有时并不是这样 所得到的解是近似的最优解 这是什么原因呢 只不过前两种出现的概率较小而已 由于算法的这一特点 使网络在陷入局部最小时有机会跳出来 但也正是由于这一点 使得当前状态所对应的网络能量有可能比前一个状态所对应的网络能量大 尤其是当网络的初始温度不够大 降温过程太快且结束温度不够小的情况下 这种可能性会更大 甚至会产生当前解比中间所经历的最好解差得多的现象 这就是为什么有时模拟退火算法的结果反不如其它算法结果好的原因 针对模拟退火算法存在的这种缺点 人们又提出了一种改进的算法 Improved 尽管模拟退火算法仍然存在着一些不足 但它比快速下降的 贪心 算法 得到最优解的概率高得多 算法具有很强的通用性 除了适用于神经网络之外 还可以应用于图像识别 大规模集成电路设计等众多的组合优化问题 特别是当待解决的问题复杂性较高 规模较大 对问题所处的领域的有关知识了解甚少的情况下 这一算法具有明显的优越性 因为它不象其它算法那样 需要过多的依赖于问题所处领域的知识来提高算法的性能 但是也应当看到 当已知了大量有关待解问题的背景知识之后 这一算法却无法充分利用它们 算法的优点变成了缺点 另外 在Boltzmann学习规则中 包含着其工作规则 学习与反学习交替进行 因此 网络计算量猛增 特别是当温度下降速度较慢时 网络收敛过程十分缓慢 这也是制约这种网络应用的主要障碍
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!