理解玻尔兹曼机和深度学习课件

资源描述

理解玻尔兹曼机和深度学习理解玻尔兹曼机和深度学习1、纪律是管理关系的形式。阿法纳西耶夫2、改革如果不讲纪律，就难以成功。3、道德行为训练，不是通过语言影响，而是让儿童练习良好道德行为，克服懒惰、轻率、不守纪律、颓废等不良行为。4、学校没有纪律便如磨房里没有水。夸美纽斯5、教导儿童服从真理、服从集体，养成儿童自觉的纪律性，这是儿童道德教育最重要的部分。陈鹤琴维数约简、信息抽象和去噪的“第一原则”第一原则：维数约简、信息抽象和去噪应该尽可能地保留数据中的主要信息，同时滤除噪声或次要信息“第一原则”能否被一般地实现？存在的方法常用维数约简、信息抽象和去噪算法实现了“第一原则”吗？例子：PCA例子：低通滤波反思基于特征空间的模型似乎都建议在特定先验假设之上为了更一般地实现维数约简、信息抽象和去噪目的，有必要考虑替换的数据表示空间我们的基本思路考虑数据的参数空间！一般地定义生成模型的参数的相对重要性根据参数的相对重要性，在参数空间中实现维数约简、信息抽象和去噪例子：log-linear分布族与高斯分布满足参数约减！参数约减！关键技术问题如何一般地定义参数的相对重要性？解决方案：1定义概率分布或密度之间的距离度量距离度量2由参数相对于距离度量的重要性给出参数之间的相对重要性度量概率分布（或密度）之间距离的“公理”1满足基本的度量三公理2似然一致性：可有效反映统计推断的似然性度量概率分布（或密度）之间距离的“公理”（续1）3重参数化不变性对于概率分布（或密度）和的任两种参数化和，均有这里是距离度量度量概率分布（或密度）之间距离的“公理”（续2）4相对于变量集上的随机映像的单调性：(1)如果随机映像对应于充分统计量，则距离度量不变(2)否则，距离度量减小是否存在同时满足上述所有公理的距离度量？存在且唯一！里程碑：1 Fisher(Early 1930)2 Rao(1945)3 Cencov(1982)Fisher-Rao度量单参数定义多参数定义Fisher-Rao距离（信息距离）局域定义：全局定义：Cramer-Rao下界与Fisher-Rao度量的似然一致性Fisher信息决定了参数无偏估计的方差下界单参数情形多参数情形由参数估计的渐进正态性及渐进有效性，可直接说明Fisher-Rao度量对应于参数被“误估计”的可能性（似然一致性）参数约简基本思路（Refined）1特征空间-参数空间2利用参数的Fisher信息，定义参数的相对重要性3根据参数的相对重要性，在参数空间中实现维数约简、信息抽象和去噪可信信息优先原则（ConfidentInformationFirst）！实例：n布尔变量分布个布尔型随机变量个布尔型随机变量的参数化中的任意项，这里表示，其余类似如何对上述分布应用CIF原则？实例：n布尔变量分布（续1）技术困难：各个p参数具有相等的Fisher信息解决办法：寻找替换的参数表示（利用信息几何）实例：n布尔变量分布（续2）布尔变量分布的坐标表示（即参数化）坐标：-1个归一化的正数坐标：坐标：实例：n布尔变量分布（续3）混合坐标：（l-分割混合坐标）在混合坐标系下，参数谱系的信息含量（Fisher信息）可建立显著的层次结构，且低Fisher信息含量的参数可自然地确定中立值！玻尔兹曼机与n布尔变量分布随机神经网络，网络的整体能量函数：玻尔兹曼-吉布斯分布：BM模型参数玻尔兹曼机与CIF原则（1）结论1(Amariet.al.,1992)：给定目标概率分布：单层波尔兹曼机（SBM）实现了2-分割混合坐标上的参数剪切，即：l-分割混合坐标25玻尔兹曼机与CIF原则（2）结论2(Zhao,Houandet.al.,2013)：SBM实现的参数剪切符合CIF原则：保留具有大Fisher信息的参数，同时对小Fisher信息的参数采用中立估计。可信参数非可信参数玻尔兹曼机与CIF原则（3）结论3(Zhao,Houandet.al.,2013)：在所有同维度子流行M中，SBM所实现的映像在期望意义上最大程度地保持概率分布间的Fisher信息距离为以为中心的KL等距球面和分别为在上的投影玻尔兹曼机与CIF原则（4）结论4(Zhao,Houandet.al.,2013)：给定联合概率分布的分数分数2-分割混合坐分割混合坐标：RBM实现了分数2-分割混合坐标下参数剪切玻尔兹曼机与CIF原则（5）结论5(Zhao,Houandet.al.,2013)：RBM实现的参数剪切符合CIF原则：保留具有大Fisher信息的参数，同时对小Fisher信息的参数采用中立估计可信参数非可信参数玻尔兹曼机与CIF原则（6）结论6（贝叶斯分析）：假设背景分布中的绝大多数p项趋近于0，则可证明：由任意被BM剪切掉的参数所导致的信息距离损失典型地趋近于0；而任意被BM保留的参数所对应的信息距离典型地大于0。，为小常数，为任意小常数，为的阶数深度结构多层CIF原则的应用逐层保持可信信息、并实现信息抽象在最高层同时达到“最可信”和“最抽象”的目标训练波尔兹曼机:-MaximumLikelihoodandContrastiveDivergenceML目标：最大化log似然函数随机梯度方法分别表示在样本分布稳态分布和迭代次的近似稳态分布上的期望值正Gibbs采样：负Gibbs采样：CD-m：使用近似梯度受限波尔兹曼机（RBM）-迭代映像算法（IP）为所有RBM稳态分布的集合为正Gibbs采样的样本分布的集合最小化KL距离：背景分布边际稳态分布任务任务：5个显式变量概率密度估计受限波尔兹曼机-迭代映像算法（IP）基于CIF的模型选择最小化模型误差最大保持Fisher信息距离如何区分可信参数及非可信参数？对Fisher信息距离的贡献程度大小结论：对于布尔分布，BM为同等参数规模下的最优模型。对BM的模型选择-无隐含节点参数过多模型复杂过度拟合样本权衡：模型复杂度vs保留的样本信息保留可信参数，约减非可信参数abcdabcdBM模型选择-无隐含节点评价：10变量的概率密度估计；对比模型：随机选边横轴：参数保留比率纵轴：与样本分布（第一行）和真实分布（第二行）的KL距离BM模型选择-有隐含节点权衡：模型复杂度vs保留的样本信息RBM+可视结点边BM模型选择-有隐含节点评价：10变量的概率密度估计(隐变量10个)；对比模型：随机选边横轴：参数保留比率；纵轴：与样本分布（第一行）和真实分布（第二行）的KL距离问题和回答X.Zhao,Y.Hou et al:Understanding Deep Learning by Revisiting Boltzmann Machines:An Information Geometry Approach.CoRR abs/1302.3931(2013).Xiaozhao Zhao,Yuexian Hou et al:Extending the Extreme Physical Information to Universal Cognitive Models via a Confident Information First Principle.Entropy 16(7):3670-3688(2014).谢谢！61、奢侈是舒适的，否则就不是奢侈。CocoChanel62、少而好学，如日出之阳；壮而好学，如日中之光；志而好学，如炳烛之光。刘向63、三军可夺帅也，匹夫不可夺志也。孔丘64、人生就是学校。在那里，与其说好的教师是幸福，不如说好的教师是不幸。海贝尔65、接受挑战，就可以享受胜利的喜悦。杰纳勒尔乔治S巴顿

展开阅读全文

理解玻尔兹曼机和深度学习课件

最新文档