《信息量和熵》PPT课件

上传人:ren****ao 文档编号:245151033 上传时间:2024-10-07 格式:PPT 页数:66 大小:286.50KB
返回 下载 相关 举报
《信息量和熵》PPT课件_第1页
第1页 / 共66页
《信息量和熵》PPT课件_第2页
第2页 / 共66页
《信息量和熵》PPT课件_第3页
第3页 / 共66页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 信息量和熵,信息量和熵,2.1,离散变量的非平均信息量,2.2,离散集的平均自信息量熵,2.3,离散集的平均互信息量,2.4,连续随机变量的互信息和熵,2.5,凸函数和互信息的凸性,2.1,离散变量的非平均信息量,输入,输出空间定义,输入空间,X=,x,k,k=,1,2,K,概率记为,q,(,x,k,),输出空间,Y=,y,j,j,=1,2,J,概率记为,(y,j,),联合空间,XY=,x,k,y,j,;,k=,1,2,K,;,j,=1,2,J,概率为,p(,x,k,y,j,),p(,x,k,y,j,)= p(x,k,|y,j,),(y,j,)=,p(y,j,|x,k,),q,(,x,k,),非平均互信息量,例,2.1.1,输入消息,码字,p(x,k,),收到,0,收到,01,收到,011,X1,X2,X3,X4,X5,X6,X7,x8,000,001,010,011,100,101,110,111,1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/8,1/4,1/4,1/4,1/4,0,0,0,0,0,0,1/2,1/2,0,0,0,0,0,0,0,1,0,0,0,0,非平均互信息量,输入消息,码字,p(x,k,),收到,0,收到,01,收到,011,X1,X2,X3,X4,X5,X6,X7,x8,000,001,010,011,100,101,110,111,1/8,1/4,1/8,1/4,1/16,1/16,1/16,1/16,1/6,1/3,1/6,1/3,0,0,0,0,0,0,1/3,2/3,0,0,0,0,0,0,0,1,0,0,0,0,非平均互信息量,例,2.1.2,输入消息,码字,p(x,k,),收到,0,收到,01,收到,011,X1,X2,000,111,1/2,1/2,1-p,p,1/2,1/2,1-p,p,1-p,1-p,0,0,1,1,p,p,非平均互信息量,非平均互信息量,定义,2.1.1,(,非平均互信息量,),给定一个二维离散型随机变量,(,X,Y,), (,x,k,y,j,),r,kj,k,=1,K,;,j,=1,J,(因此就给定了两个离散型随机变量,X,x,k,q,k,k,=1,K,和,Y,y,j,w,j,j,=1,J,)。事件,x,k,X,与事件,y,j,Y,的互信息量定义为,非平均互信息量,其中底数,a,是大于,1,的常数。常用,a,=2,或,a,=,e,,当,a,=2,时互信息量的单位为“比特”。,几点说明:,(,1,),I,(,x,k,;,y,j,)=log,a,(,r,kj,/(,q,k,w,j,),。因此有对称性:,I,(,x,k,;,y,j,)=,I,(,y,j,;,x,k,),。,(,2,)当,r,kj,=,q,k,w,j,时,I,(,x,k,;,y,j,)=0,。(当两个事件相互独立时,互信息量为,0,)。,(,3,)当,r,kj,q,k,w,j,时,I,(,x,k,;,y,j,)0,,当,r,kj,q,k,w,j,时,I,(,x,k,;,y,j,)0,。(当两个事件正相关时,互信息量为正值,当两个事件负相关时,互信息量为负值)。,条件互信息和联合事件互信息,三个事件集的条件互信息定义为,可以推广到任意有限多个空间情况,互信息的可加性,系统,u,1,u,2,u,3,系统,u,1,u,2,u,3,互信息量特性:,对称性,可加性,互信息量的值域:,-infinite +infinite,即全体实数,离散变量的非平均自信息量,定义:给定集合,X,q,(x,k,),事件,x,k,X,的自信息量定义为:,非平均自信息的性质,非负性,体现先验不确定性大小,条件自信息和联合自信息,自信息、条件自信息和互信息,I(x,k,),I(y,j,),I(x,k,;,y,j,),2.2,离散集的平均自信息量熵,熵,集,X,中事件出现的平均不确定性,(,平均自信息量,熵,),离散型随机变量,X,x,k,q,k,k,=1,K,的平均自信息量(又称为熵)定义为如下的,H,(,X,),,其中底数,a,是大于,1,的常数。,熵,注意:,(,1,)事件,x,k,的自信息量值为,I,(,x,k,)=,log,a,(1/,q,k,),,因此,H,(,X,),是随机变量,X,的各事件自信息量值的“数学期望”。,(,2,)定义,H,(,X,),时,允许某个,q,k,=0,。(此时将,q,k,log,a,(1/,q,k,),通盘考虑)此时补充定义,q,k,log,a,(1/,q,k,),=0,。这个定义是合理的,因为,熵,例,2.2.1,离散型随机变量,X,有两个事件,x,1,和,x,2,,,P,(,X,=,x,1,)=,p,,,P,(,X,=,x,2,)=1-,p,。,则,X,的平均自信息量(熵)为,H,(,X,)=,p,log,a,(1/,p,)+(1-,p,)log,a,(1/(1-,p,),。,观察,H,(,X,),(它是,p,的函数,图,2.2.1,给出了函数图象,该图象具有某种对称性),有,当,p,=0,或,p,=1,时,,H,(,X,)=0,。(随机变量,X,退化为常数时,熵为,0,),当,0,p,0,。,p,越靠近,1/2,,,H,(,X,),越大。 (,X,是真正的随机变量时,总有正的熵。随机性越大,熵越大),当,p,=1/2,时,,H,(,X,),达到最大。(随机变量,X,的随机性最大时,熵最大。特别如果底数,a,=2,,则,H,(,X,)=1,比特),条件熵(定义,2.2.2,),XY,独立时有,H(X|Y)=H(X),联合熵,熵的性质,对称性,非负性,确定性,扩展性,可加性,极值性,是,H,(,P,),上凸函数,熵是概率矢量的函数,P,(,p,1,p,2, ,p,k,),可以看作是,K,维矢量,当,常称作是,概率矢量,;,故,H,K,(,P,)=H,K,(,p,1,p,2, ,p,k,),是概率矢量,P,的函数,熵的性质对称性,矢量的各分量,p,1,p,2,p,k,的次序任意改变时,熵值不变,熵函数的值只与概率分布或将,1,分割成的,K,个实数的取值有关,而与这,K,个实数和,K,个事件采取何种一一对应方式无关,熵的性质非负性,H,K,(,P,) =,H,K,(,p,1,p,2, ,p,K,) 0,可由单个事件自信息量的非负性得到,熵的性质确定性,若事件集,X,中有一个事件为必然事件,其余事件为不可能事件,则此集合的熵值为,0,熵的性质扩展性,熵的性质可加性,H(,p,1,q,11,p,1,q,12,p,4,q,44,)=H(,p,1,p,4,)+,p,1,H(,q,11,q,14,)+,p,4,H(,q,41,q,44,),p,1,p,2,p,3,p,4,q,11,q,12,q,13,q,14,熵的性质极值性,引理,1: lnx,x-1,引理,2,:,H(X|Y) H(X),H(U,1,U,N,) H(U,1,)+H(U,N,),熵的性质凸性,H(P),是,P,的上凸函数,2.3,离散集的平均互信息量,平均互信息量,定义,2.4.1,(,平均互信息量,),给定一个二维离散型随机变量,(,X,Y,), (,x,k,y,j,),r,kj,k,=1,K,;,j,=1,J,(因此就给定了两个离散型随机变量,X,x,k,q,k,k,=1,K,和,Y,y,j,w,j,j,=1,J,)。,X,与,Y,的平均互信息量定义为如下的,I,(,X,;,Y,),:,平均互信息量,注意:事件对,(,x,k,y,j,),的互信息量值为,I,(,x,k,;,y,j,),。此外,可以定义半平均互信息量,I,(,x,k,;,Y,),和,I,(,X,;,y,j,),。,平均互信息量的性质,非负性,I(X;Y) 0,对称性,I(X;Y)=I(Y;X),平均互信息用熵与条件熵表示,平均互信息与熵的关系,:,I(X;Y) H(X) or H(Y),若,X,是,Y,的确定的函数,X=g(Y),,则,I(X;Y)=H(X)H(Y);,若,Y,是,X,的确定的函数,Y=g(X),,则,I(X; Y)=H(Y)H(X),。,平均互信息量,一般印象,(平均互信息量,I,(,X,;,Y,),的各种性质与我们对“互信息量”这个名词的直观理解非常吻合)。,一般情形:总有,0,I,(,X,;,Y,)min,H,(,X,),H,(,Y,),。,一种极端情形:若,X,与,Y,相互独立,则,I,(,X,;,Y,)=0,。,另一种极端情形:若,X,、,Y,中有一个完全是另一个的确定的函数,则,I,(,X,;,Y,)=min,H,(,X,),H,(,Y,),。,平均互信息量,H(X),H(Y),I(X;Y),H(Y|X),H(X|Y),平均条件互信息与联合互信息,信息处理定理,Z,出现情况下,,X,和,Y,独立,系统,1,系统,2,X,Z,Y,信息处理定理,2.4,连续随机变量的互信息和相对熵,连续随机变量的互信息,定义,2.5.1,给定二维连续型随机变量,(,X,Y,),f,(,X,Y,),(,x,y,),(因此就给定了两个连续型随机变量,X,f,X,(,x,),和,Y,f,Y,(,y,),)。事件,x,X,与事件,y,Y,的互信息量定义为,连续随机变量的平均互信息,I,(,X,;,Y,|,Z,),I,(,XY,;,Z,),定义,2.5.2,给定二维连续型随机变量,(,X,Y,),f,(,X,Y,),(,x,y,),(因此就给定了两个连续型随机变量,X,f,X,(,x,),和,Y,f,Y,(,y,),)。,X,与,Y,的平均互信息量定义为,性质,非负性,对称性,数据处理定理,关系,连续随机变量的相对熵,(连续型随机变量为什么不能类似地定义平均自信息量,熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“相对熵”,而“相对熵”的直观合理性大打折扣),相对熵的定义,给定连续型随机变量,X,f,X,(,x,),。,X,的,相对熵,定义为,连续随机变量的相对熵,H,C,(,XY,),H,C,(,Y,|,X,),,,H,C,(,Y,|,X,) ,H,C,(,Y,),互信息与相对熵,I,(,X,;,Y,),H,C,(,X,),H,C,(,X,|,Y,),H,C,(,Y,),H,C,(,Y,|,X,),H,C,(,X,)+,H,C,(,Y,),H,C,(,X,Y,),H,C,(,X,Y,),H,C,(,X,)+,H,C,(,Y,),I,(,X,;,Y,),均匀随机变量的相对熵,例,2.5.2,设,X,U,(,a,b,),,求,X,的,相对熵(我们将发现,,X,的,相对熵未必非负)。,正态随机变量的相对熵,例,2.5.3,设,X,N,(,m,2,),,求,X,的,相对熵(我们将发现,,X,的,相对熵未必非负)。,正态随机变量的相对熵,熵功率,相对熵不具有非负性,例,2.5.3,练习:,试求指数分布连续信源的熵,相对熵的极大化,1.,峰值功率受限,均匀分布相对熵最大:,H,C,(,X,) log 2,M,2.,平均功率受限,高斯分布相对熵最大,3.,平均功率大于等于熵功率,2.5,凸函数与互信息的凸性,凸函数,凸集,R,:,a,,,b,属于,R,,,q,a,+(1-,q,),b,也属于,R,,其中,0,q,1,概率矢量:,矢量,a,的所有分量非负,且和为,1,概率矢量全体所构成的区域,R,是凸的,上凸函数,下凸函数,凸函数的性质,f,(,a,),是上凸的,,f,(,a,),是下凸的,f,1,(,a,),f,L,(,a,),是,R,上的上凸函数,,c,1,c,L,是正数,,c,1,f,1,(,a,)+,c,L,f,L,(,a,),也是上凸函数,Jensen,不等式:,f,(,a,),是上凸函数,,E,f,(,a,),f,E(,a,),E,为求数学期望,记离散型随机变量,X,的事件为,1,,,2,,,,,K,。,记,X,的概率分布为,P,(,X,=,k,)=,q,k,,,k,=1,K,。,记离散型随机变量,Y,的事件为,1,,,2,,,,,J,。,记条件概率,P,(,Y,=,j,|,X,=,k,)=,p,(,j,|,k,),。则,r,kj,=,P,(,X,Y,)=(,k,j,)=,q,k,p,(,j,|,k,),,(概率论中的乘法公式),w,j,=,P,(,Y,=,j,)=,k,q,k,p,(,j,|,k,),,(概率论中的全概率公式),互信息的凸性,互信息的凸性,设条件概率,p,(,j,|,k,),,,k,=1,K,,,j,=1,J,被确定。此时,I,(,X;,Y,),是概率向量,q,=(,q,1,q,2, ,q,K,),的函数。我们希望找到这样的概率向量,使得对应的,I,(,X; Y,),达到最大。这就是说,记,我们希望找到这样的,K,维概率向量,a,=(,a,1,a,2, ,a,K,),,使得,K-T,条件,f,(,a,),是定义域,R,上的上凸函数,,a,是概率矢量。偏导数 存在且连续,,f,(,a,),在,R,上为极大的,充分必要条件,其中,l,为一常数。,互信息的凸性,p,(,y,|,x,),给定,,I,(,X,;,Y,),是,q,(,x,),的上凸函数,q,(,x,),给定,,I,(,X,;,Y,),是,p,(,y,|,x,),的下凸函数,互信息的凸性,定理,2.6.2,的含义,K,维概率向量,a,=(,a,1,a,2, ,a,K,),使得,当且仅当:以,a,为,X,的概率向量的时候,,I,(,X,=,k,;,Y,),对所有,a,k,0,的,k,都取一个相同的值,C,;,I,(,X,=,k,;,Y,),对所有满足,a,k,=0,的,k,都取值不超过上述的相同值,C,。,互信息的凸性,I,(,X,=,k,;,Y,),表示什么?表示事件,X,=,k,与随机变量,Y,之间的“半平均互信息量”。,互信息的凸性,例,设,X,的事件有,0,、,1,;,Y,的事件有,0,、,1,; 已知,p,(0|0)=1-,u,;,p,(1|0)=,u,;,p,(0|1)=,u,;,p,(1|1)=1-,u,。,当,X,服从等概分布(,a,0,=,P,(,X,=0)=1/2,;,a,1,=,P,(,X,=1)=1/2,)时,,I,(,X,;,Y,),达到最大。因为此时,互信息的凸性,小结,信息的度量,熵,信息量,熵的极大性,熵,平均互信息的关系,条件熵,联合熵,条件互信息,联合互信息,互信息的凸性,信息处理定理,讨论,10,个硬币中有一个重量偏轻,其他,9,个为标准重量。在不用砝码的天平上至多称多少次,就能发现这个轻的硬币?怎样称?用天平称的信息论含义是什么?,世界杯冠军预测方法。,信息论与大数据。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!