自然语言处理中的最大熵方法课件

上传人:风*** 文档编号:240937882 上传时间:2024-05-19 格式:PPT 页数:38 大小:408.01KB
返回 下载 相关 举报
自然语言处理中的最大熵方法课件_第1页
第1页 / 共38页
自然语言处理中的最大熵方法课件_第2页
第2页 / 共38页
自然语言处理中的最大熵方法课件_第3页
第3页 / 共38页
点击查看更多>>
资源描述
自然语言处理中的自然语言处理中的最大熵方法最大熵方法马金山信息检索研究室 http:/自然语言处理中的最大熵方法马金山1纲纲 要要熵理论的发展熵理论的发展信息熵信息熵最大熵理论最大熵理论最大熵理论的应用最大熵理论的应用纲 要熵理论的发展2什么是熵什么是熵什么是熵?什么是熵?没有什么问题在科学史的没有什么问题在科学史的进程中曾被更为频繁地讨论过进程中曾被更为频繁地讨论过 普里高津普里高津熵定律是自然界一切定律中的最高定律熵定律是自然界一切定律中的最高定律 里夫金里夫金&霍华德霍华德什么是熵什么是熵?没有什么问题在科学史的进程中曾被更为频繁3熵的提出熵的提出德国物理学家克劳修斯(德国物理学家克劳修斯(Rudolph J.E clausius)于于1865提出熵的概念提出熵的概念 其经典意义定义为:其经典意义定义为:R表表示示可可逆逆过过程程,即即体体系系的的熵熵变变等等于于可可逆逆过过程程吸吸收收或或耗散的热量除以它的绝对温度。耗散的热量除以它的绝对温度。熵的提出德国物理学家克劳修斯(Rudolph J.E cla4熵原理的形象比喻一一滴滴墨墨水水滴滴入入一一杯杯清清水水中中,墨墨水水扩扩散散后后均匀地分布在清水中均匀地分布在清水中比比喻喻热热力力体体系系的的自自发发过过程程总总是是趋趋于于温温度度均匀分布,均匀分布,反之不行反之不行。熵原理的形象比喻一滴墨水滴入一杯清水中,墨水扩散后均匀地分布5微观世界中熵的含义微观世界中熵的含义热力学定律都是对物质宏观性质进行考察得到热力学定律都是对物质宏观性质进行考察得到热力学定律都是对物质宏观性质进行考察得到热力学定律都是对物质宏观性质进行考察得到的经验定律的经验定律的经验定律的经验定律宏观物体是大量微观粒子构成的宏观物体是大量微观粒子构成的宏观物体是大量微观粒子构成的宏观物体是大量微观粒子构成的18721872年,波尔兹曼(年,波尔兹曼(年,波尔兹曼(年,波尔兹曼(L LBoltzmannBoltzmann)指出熵指出熵指出熵指出熵是大量微观粒子的位置和速度的分布概率的函是大量微观粒子的位置和速度的分布概率的函是大量微观粒子的位置和速度的分布概率的函是大量微观粒子的位置和速度的分布概率的函数,是描述系统中大量微观粒子的无序性的宏数,是描述系统中大量微观粒子的无序性的宏数,是描述系统中大量微观粒子的无序性的宏数,是描述系统中大量微观粒子的无序性的宏观参数观参数观参数观参数熵值高意味着无序性强熵值高意味着无序性强!微观世界中熵的含义热力学定律都是对物质宏观性质进行考察得到的6熵增原理熵增原理一个孤立系统的熵,自发性地趋于极大,随一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有序状着熵的增加,有序状态逐步变为混沌状态,逐步变为混沌状态,不可能自发地产生新的有序结构。不可能自发地产生新的有序结构。当熵处于最小值当熵处于最小值当熵处于最小值当熵处于最小值,即能量集中程度最高、有即能量集中程度最高、有即能量集中程度最高、有即能量集中程度最高、有效能量处于最大值时效能量处于最大值时效能量处于最大值时效能量处于最大值时,那么整个系统也处于那么整个系统也处于那么整个系统也处于那么整个系统也处于最有序的状态最有序的状态最有序的状态最有序的状态,相反为最无序状态。相反为最无序状态。相反为最无序状态。相反为最无序状态。熵增原理预示着自然界越变越无序熵增原理预示着自然界越变越无序熵增原理预示着自然界越变越无序熵增原理预示着自然界越变越无序熵增原理一个孤立系统的熵,自发性地趋于极大,随着熵的增加,有7熵的普遍性熵概念的泛化熵概念的泛化 熵理论是存在问题的,熵理论是存在问题的,需要发展和完善需要发展和完善熵的普遍性熵概念的泛化 8熵与信息熵与信息1948年电气工程师香农年电气工程师香农(Shannon)创立了信创立了信息论,将信息量与熵联系起来息论,将信息量与熵联系起来。他用非常简洁的数学公式定义了信息时代的他用非常简洁的数学公式定义了信息时代的基本概念:熵基本概念:熵 H(p)=-p(x)logp(x)单位:单位:bits熵与信息1948年电气工程师香农(Shannon)创立了信9通信中的熵通信中的熵表示表示“是是”和和 “否否”1=是是 0=否否表示表示“是是”、“否否”和和“可能是可能是”11=是是 00=否否 10(01)=可能是可能是一条消息的熵就是编码这条消息所需二一条消息的熵就是编码这条消息所需二进制位即比特的个数。进制位即比特的个数。通信中的熵表示“是”和 “否”10随机事件的熵随机事件的熵熵定量的描述熵定量的描述事件事件的不确定性的不确定性设随机变量设随机变量 ,它有,它有A1,A2,An共共n n个个可能的结局,每个结局出现的机率分别为可能的结局,每个结局出现的机率分别为p1,p2,.,pn,则则 的不确定程度,即信息的不确定程度,即信息熵为熵为:熵越大,越不确定熵越大,越不确定熵等于熵等于0,事件事件是确定的是确定的随机事件的熵熵定量的描述事件的不确定性11例子例子抛硬币抛硬币掷色子(掷色子(32个面)个面)不公平的硬币不公平的硬币例子抛硬币12熵的图形熵的图形13信息熵的意义信息熵的意义信息熵概念为测试信息的多少找到了一信息熵概念为测试信息的多少找到了一个统一的科学定量计量方法,是信息论个统一的科学定量计量方法,是信息论的基础。的基础。信息熵将数学方法和语言学相结合信息熵将数学方法和语言学相结合信息熵的意义信息熵概念为测试信息的多少找到了一个统一的科学定14最大熵理论最大熵理论熵增原理熵增原理在无外力作用下,事物总是朝着最混乱在无外力作用下,事物总是朝着最混乱的方向发展的方向发展事物是约束和自由的统一体事物是约束和自由的统一体事物总是在约束下争取最大的自由权,事物总是在约束下争取最大的自由权,这其实也是自然界的根本原则这其实也是自然界的根本原则。在已知条件下,熵最大的事物,最可能在已知条件下,熵最大的事物,最可能接近它的真实状态接近它的真实状态最大熵理论熵增原理15最大熵原则下点的分布对一随机过程,如果没有任何观测量,对一随机过程,如果没有任何观测量,既没有任何约束,则解为均匀分布既没有任何约束,则解为均匀分布最大熵原则下点的分布对一随机过程,如果没有任何观测量,16最大熵原则下点的分布最大熵原则下点的分布17最大熵原则下点的分布最大熵原则下点的分布18最大熵原则下点的分布最大熵原则下点的分布19选择最好的模型选择最好的模型研究某个随机事件,根据已知信息,预研究某个随机事件,根据已知信息,预测其未来行为。测其未来行为。当无法获得随机事件的真实分布时,构当无法获得随机事件的真实分布时,构造统计模型对随机事件进行模拟。造统计模型对随机事件进行模拟。满足已知信息要求的模型可能有多个。满足已知信息要求的模型可能有多个。选择最好的模型研究某个随机事件,根据已知信息,预测其未来行为20基于最大熵原理选择模型基于最大熵原理选择模型选择熵最大的模型选择熵最大的模型Jaynes证明:对随机事件的所有相容证明:对随机事件的所有相容的预测中,熵最大的预测出现的概率占的预测中,熵最大的预测出现的概率占绝对优势绝对优势Tribus证明,正态分布、伽玛分布、指证明,正态分布、伽玛分布、指数分布等,都是最大熵原理的特殊情况数分布等,都是最大熵原理的特殊情况基于最大熵原理选择模型选择熵最大的模型21基于最大熵的统计建模基于最大熵的统计建模特征空间的确定特征空间的确定特征选择特征选择 建立统计模型建立统计模型 基于最大熵的统计建模即发现满足已知条基于最大熵的统计建模即发现满足已知条件的熵最大的模型件的熵最大的模型基于最大熵的统计建模特征空间的确定22基于最大熵的统计建模基于最大熵的统计建模已有特征已有特征 f1(x,y),f2(x,y),fn(x,y)特征的经验概率:特征的经验概率:特征的期望概率特征的期望概率:如果样本足够多,可信度高的特征的经验概率与真实如果样本足够多,可信度高的特征的经验概率与真实概率一致的概率一致的由训练样本习得的模型由训练样本习得的模型,对可信度高的特征的估计应对可信度高的特征的估计应满足约束等式满足约束等式:基于最大熵的统计建模已有特征 f1(x,y),f2(x,y23基于最大熵的统计建模基于最大熵的统计建模事件的熵计算模型的最大熵得其中基于最大熵的统计建模事件的熵24最大熵模型求解 参数估计GIS算法(Generalized Iterative scaling)Darroch and Ratcliff,1972 IIS算法(Improved Iterative Scaling)Della Pietra 1995Input:特征函数 特征分布Output:最优参数值 最优模型 最大熵模型求解 参数估计25IIS算法1 Start with for all 2 Do for each a Let be the solution tob Update the value of 3 Go to step 2 if not all have converged IIS算法1 Start with for a26词义消歧的例子词义消歧确定多义词在一个句子中所表达的词义“打”的语义:S1,S2,S3,S4S1打人S2打酱油S3打球S4打电话他打完篮球后给我打了个电话?词义消歧的例子词义消歧27确定“打”的语义没有任何先验知识概率分布:P(S1)=0.25 P(S2)=0.25 P(S3)=0.25 P(S4)=0.25 H(p)=-4 X(0.25 log20.25)=2熵值最大,最合理确定“打”的语义没有任何先验知识28确定“打”的语义先验知识先验知识:取S1或S3的概率:0.6取S2或S4的概率:0.4概率分布:概率分布:P(S1)=0.3 P(S2)=0.2 P(S3)=0.3 P(S4)=0.2 H(p)=-2 X(0.2 log20.2)-2 X(0.3 log20.3)符合约束的分布中,该分布熵值最大,最合理确定“打”的语义先验知识:29不存在没有约束的自由他了那个坏人 打=S1他打了二两酒 打=S2他喜欢打篮球 打=S3他喜欢打电话 打=S4他用手机打我 打=S1他酒后打人 打=S1一些人在打球 打=S3不存在没有约束的自由他了那个坏人 打=S130知识的获取统计这些先验知识(约束)(人,S1)(狗,S1)(酱油,S2)(酒,S2)(篮球,S3)(冰球,S3)(电话,S4)(手机,S4)(手机,S1)(酒,S1)(人,S3)知识的获取统计这些先验知识(约束)31知识的形式化表示在这些约束下,计算P(打=Si),并满足模型的熵最大引入特征函数 1 if y=S3 and x=篮球 0 otherwise知识的形式化表示在这些约束下,计算P(打=Si),并满足模32模型的建立特征选择特征选择在所有的特征中,选择最有代表性的特征,在所有的特征中,选择最有代表性的特征,构造约束集合构造约束集合参数估计参数估计应用应用IIS算法,计算出每个特征对应的参数算法,计算出每个特征对应的参数值值模型的建立特征选择33特征选择(1)最简单的方法:选择出现次数大于n的特征For example:(Adwait Ratnaparkhi 1999)Discard features that occur less than 5 times 代价最小特征选择(1)最简单的方法:34特征选择特征选择(2)原子特征算法原子特征算法(Basic Feature Selection)1 特征集合特征集合S=02 任取一特征任取一特征 加入集合中加入集合中3 调用调用IIS,确定确定4 在该约束集合下,计算熵的增量在该约束集合下,计算熵的增量5 选择使熵值增加最大的特征加到选择使熵值增加最大的特征加到S中中6 调用调用IIS,计算在此特征集下的计算在此特征集下的7 执行执行2特征选择(2)原子特征算法(Basic Feature Se35特征选择(特征选择(3)近似增益算法近似增益算法(Approximate Gains)已有特征已有特征对应参数对应参数增加特征增加特征 对应的参数对应的参数则增加的特征只影响当前参数则增加的特征只影响当前参数 ,不变不变模型的形式模型的形式:特征选择(3)近似增益算法(Approximate Gain36ReferenceA.Berger S.D.Pietra V.D.Pietra A maximum entropy approach to natural language processing Computational linguistics 1996,V22(1):39-71S.D.Pietra,V.D.Pietra and J.Lafferty Inducing features of random fields IEEE Transactions on Pattern Analysis and Machine Intelligence 1997,V19(4):380-393 R.Rosenfeld Adaptive statistical language modeling:A Maximum Entropy Approach Phd thesis CMU-CS-94,1994ReferenceA.Berger S.D.Pietra V37ThanksThanks自然语言处理中的最大熵方法课件38
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!