信息论信息的统计度量

上传人:痛*** 文档编号:247323564 上传时间:2024-10-17 格式:PPT 页数:71 大小:583.50KB
返回 下载 相关 举报
信息论信息的统计度量_第1页
第1页 / 共71页
信息论信息的统计度量_第2页
第2页 / 共71页
信息论信息的统计度量_第3页
第3页 / 共71页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第二章 信息的统计度量,信息的可度量性是,信息论建立的基础;香农的信息论用事件发生概率的对数来描述事物的不确定性,得到消息的信息量,建立熵的概念;,熵,是香农信息论最基本最重要的概念。,2.1 自信息量和条件自信息量,2.1.1自信息量,定义2.1.1 任意随机事件的,自信息量定义,为该事件发生概率的对数的负值。,小概率事件所包含的不确定性大,自信息量大。,大概率事件所包含的不确定性小,自信息量小。,概率为1的确定性事件,自信息量为零。,自信息量I(x,i,)的性质,I(x,i,)是非负值;,当,P(x,i,),=1,时,,I(x,i,)=0;,当,P(x,i,),=0,时,,I(x,i,)=;,I(x,i,)是,P(x,i,)的单调递减函数,例:袋内红、白球各50个,随意从袋中摸出一球。,例:袋内红球1个、白球7个,随意从袋中摸出一球。,联合自信息量,信源模型(涉及两个随机事件),定义2.1.2 二维联合集XY上的元素(,x,i,y,j,)的,联合自信息量定义,为,其中,p,(,x,i,y,j,)为元素,x,i,y,j,的二维联合概率密度。,x,i,y,j,x,i,y,j,设在一正方形棋盘上共有64个方格,将方格分别按行和列编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让乙猜测旗子所在位置;,由于甲是将一粒旗子随意地放在棋盘中某一方格内,因此,棋子在棋盘中所处位置为二维等概率分布。二维概率分布函数为,p,(,x,i,y,j,)=1/64,故,在二维联合集XY上的元素,x,i,y,j,的联合自信息量为,2.1.2条件自信息量,定义2.1.3 联合集XY中,对事件x,i,和y,j,,事件x,i,在事件y,j,给定的条件下的,条件自信息量定义,为,条件概率对数的负值,在特定条件下,(,y,j,已定,)随机事件x,i,发生所带来的信息量,联合自信息量和条件自信息量也满足非负和单调递减性。,x,i,y,j,x,i,y,j,设在一正方形棋盘上共有64个方格,将方格分别按行和列编号。如果甲将一粒棋子随意地放在棋盘中的某方格且让乙猜测旗子所在位置;,在二维联合集XY上,元素,x,i,相对,y,j,的条件自信息量为,甲将棋子所在方格的行告诉乙之后,再令乙猜测棋子所在列的位置。,预备知识复习,对数知识,Log(xy)=logx+logy,Log(x/y)=logx-logy,概率知识(以猜测棋子位置为例),只考虑第几行(或第几列)的情况,涉及一个随机事件,可用离散随机变量来表示。,其中,,X代表随机变量,指的是信源整体;,代表随机事件的某一结果或信源的某个元素。,既考虑第几行,又考虑第几列的情况,涉及两个随机事件,可用两个离散随机变量来表示。随机变量X,Y分别取值于集合,其中,,思考题:1.1,1.2,1.3,作业题:2.1,2.2,2.3,2.2互信息量和条件互信息量,2.2.1 互信息量,定义2.2.1 对两个离散随机事件集X和Y,事件,y,j,的出现给出关于事件,x,i,的信息量,定义为,互信息量,其定义式为,X,Y,当信宿收到集合Y中的一个消息符号y,j,后,接收者重新估计关于信源各个消息x,i,发生的概率就变成条件(后验)概率,p,(,x,i,|y,j,),例如p(1/1)。,已知X先验概率,互信息量等于自信息量减去条件自信息量。是获得的信息量,或消除的不确定性的度量,等于先验的不确定性减去尚存在的不确定性。,例:某地二月份天气构成的信源为,现有人告诉你:“今天不是晴天。”,把这句话作为收到的消息 。当收到消息 后,各种天气发生的概率变成后验概率了。其中,计算 与各种天气之间的互信息量,由y1分别得到x,2,、x,3,、x,4,各1比特的信息量,也可以理解为y,1,使x,2,、x,3,、x,4,不确定度各减少1比特,2.2.2 互信息的性质,互信息量的互易性,(证明),由事件yj提供的有关事件xi的信息量等于由事件xi提供的有关事件yj的信息量。,当事件xi,yj统计独立时,互信息量为零。,(证明),不能从观测yj获得关于另一个事件xi的任何信息。,X,Y,X,Y,互信息量可正可负,在给定观测数据yj的条件下,事件xi出现的概率p(xi|yj)称为后验概率,p(xi)称为先验概率;,当后验概率p(xi|yj)大于先验概率p(xi)时,互信息量I(xi;yj)大于零,为正值;,当后验概率p(xi|yj)小于先验概率p(xi)时,互信息量I(xi;yj)小于零,为负值;,互信息量为正,意味着事件yj的出现有助于肯定事件xi的出现;反之,则是不利的。造成不利的原因是存在信道干扰。,Y=危险,X=,危险;Y=安全,X=安全,若信道无干扰,Y=,安全X=,危险;,信道干扰(设备故障,人员问题),X,任何两个事件之间的互信息量不可能大于其中任一事件的自信息量。,(证明),自信息量I(xi)是为了确定事件xi的出现所必须提供的信息量,也是任何其他事件所能提供的最大信息量。,X,Y,在接到上午的电话后,A获得关于B的互信息量为,在接到两次电话后,A获得关于B的互信息量为,事件E,F的出现有助于肯定事件B的出现。,例:A某已知其三位朋友B,C,D中必定会有一人晚上到他家,并且这三人来的可能性均相同,其先验概率p(B)=p(C)=p(D)=1/3。但这天上午A接到D的电话,说因故不能来了。下午,A又接到C的电话,说他因晚上要出席一个重要会议不能来A家。,若把上午这次电话作为事件E,则p(D/E)=0,p(B/E)=p(C/E)=1/2,若把下午这次电话作为事件F,则p(C/EF)=p(D/EF)=0,p(B/EF)=1,2.2.3 条件互信息量,给定条件 下,与 之间的互信息量,其定义式,X,Z,Y,一对事件yjzk出现后所提供的有关xi的信息量I(xi;yizk),等于事件zk出现后所提供的有关xi的信息量I(xi;zk),加上给定事件zk的条件下再出现事件yj所提供的有关xi的信息量。,X,Z,Y,2.3 离散集的平均自信息量,平均自信息量(熵),一个离散随机变量X,以不同的取值概率有N个可能取值,是一个随机变量,不能用来作为整个信源的信息测度。,定义2.3.1 集X上,随机变量I(xi)的数学期望定义为平均自信息量,又称作集X的信源熵,简称熵。,熵函数的自变量是X,表示信源整体。集X的平均自信息量表示集X中事件出现的平均不确定性。即为了在观测之前,确定集X中出现一个事件平均所需的信息量;或在观测之后,集X中每出现一个事件平均给出的信息量。,熵,这个名词是,香,农从物理学中的统计热力学借用过来的,在物理学中,热熵,是表示分子混乱程度的一个物理量,这里,香农引用它来描述信源的平均不确定性,含义是类似的。,但是在热力学中已知任何孤立系统的演化,热熵只能增加不能减少;而在信息论中,信息熵正相反,只会减少,不会增加。所以有人称信息熵为,负热熵,。,熵的单位,信息熵,的单位与公式中的对数取,底,有关。,通信与信息中最常用的是以,2,为底,这时单位为,比特,(,bit,),H(X),;,理论推导中用以,e,为底较方便,这时单位为,奈特,(,nat,),H,e,(X,),;,工程上用以,10,为底较方便,这时单位为,哈特,(,hat,),H,10,(X),。,它们之间可以引用对数换底公式进行互换。,1 bit=0.693,nat,=0.301 hat,例:一个布袋内放100个球,其中80个是红的,20个白的,若随机模取一个,猜测其颜色,求平均模取一次所能获得的自信息量。,概率空间,随机模取n次后总共所获得的信息量为,平均模取1次所获得的信息量为,熵是从平均意义上来表征信源的总体特征平均不确定性,模1次获得的信息量为,电视屏上约有500600310,5,个点,按每点有10个不同的灰度等级考虑,则共能组成10,310,5,个不同的画面。按等概计算,平均每个画面可提供的信息量为,另有一篇千字文,每字从万字表中选择,共有不同的千字文N10 000,1 000,篇10,4 000,篇,仍按等概计算,平均每篇千字文可提供的信息量为,500*600的一个画面比1000个字的文章提供的信息量大。,作业题:2.4,2.3.2 熵函数的数学特性,熵函数H(X)只是其概率分布的函数,对称性:当概率矢量P=(p1,p2,pq)中的各分量的次序任意变更时,熵值不变。,信源的熵仅与信源总体的统计特性有关。不能描述事件本身的具体含义和主观价值。,A地天气情况,晴 阴 雨,B地天气情况,晴 阴 雨,A地人口,60,非负性,确知信源具有最小熵零。,扩展性,集中一个事件的概率相对于其他事件的概率很小时,对集合的熵值的贡献可忽略不计。,A地,晴 阴 雪 雨,B地,晴 阴 雪 雨 雹,对于离散随机变量,当其可能的取值等概分布时,其熵达到最大值。即:,极值性,结论:等概率分布时熵最大,不确定性最大。故这一定理又被称为离散信源最大熵定理。,证明:,p=0.5,时等概,:,随机变量具有最大的不确定性,,p=0,1时:,随机变量的不确定性消失。,例:二元熵函数,X,P(x),x1 x2,p 1-p,H(X)=-plogp-(1-p)log(1-p)=H(p),1.0,1.0,0.5,0,p,H(p)/bit,二元熵函数曲线,确定性(不确定性完全消失),集合X中只要有一个事件为必然事件,则其余事件为不可能事件。此时,集合中每个事件对熵的贡献都为0,因而熵为0。,上凸性,是概率分布,的严格上凸函数,对任何 和任何两个概率矢量,P,Q,有,1.0,1.0,0.5,0,p,H(p)/bit,二元熵函数曲线,可加性,如果有两个随机变量X和Y,它们不是相互独立的,则二维随机变量X和Y的联合熵,等于X的无条件熵加上当X已给定时Y的条件概率定义的熵。,X,Y,条件熵,在已知随机变量,Y,的条件下,随机变量,X,的熵称为集,X,对集,Y,的条件熵。是,联合集,XY,上条件自信息量的数学期望。,是已知一随机变量,对另一个随机变量的不确定性的量度,当X表示信源的输出,Y表示信宿的输入时,条件熵H(X/Y)可表示信宿在收到Y后,信源X仍然存在的不确定度。这是传输失真所造成的。,求条件熵为什么要用联合概率?,例:已知X,Y,p(00)=p(11)=1/8,p(01)=p(10)=3/8,计算条件熵H(X/Y)。,XY构成的联合概率为:,解:根据条件熵公式:,联合熵(共熵),联合离散符号集合XY上的每个元素对 的联合自信息量的数学期望。是二元随机变量不确定性的度量。,2.3.5 各种熵的关系,联合熵等于无条件熵加上条件熵。,X,Y,证明:,X,Y,条件熵小于等于无条件熵,等式成立的条件是集X集Y相互独立。,证明:,联合熵等于无条件熵加上条件熵。,X,Y,条件熵小于等于无条件熵,等式成立的条件是集X集Y相互独立。,联合熵小于等于各自熵的和,等式成立的条件是集X集Y相互独立。,X,Y,2.3.6 加权熵,设有随机变量X,引入事件的重量后,其概率空间为,其中,,离散无记忆信源的加权熵定义为,互信息量 是定量地研究信息流通问题的重要基础。,只能定量地描述输入随机变量发出某个具体消息 ,输出变量出现某一个具体消息 时,流经信道的信息量;,是随 和 变化的随机变量。,不能从整体上作为信道中信息流通的测度。,平均互信息量从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息量。,2.4平均互信息量,平均条件互信息量,在联合集XY上,由yj提供的关于集X的平均条件互信息量,等于由yj所提供的互信息量在整个X中以后验概率加权的平均值。,了解Y后,X的不确定度的减少量,2.4.,2平均互信息量,平均条件互信息量I(X;yj)在整个集Y上的概率加权平均值,也就是互信息量I(xi;yj)在集XY上的概率加权平均值称为集合Y与集合X间的平均互信息量。,将已知信源,接到下图所示的信道上,求在该信道上传输的平均互信息量I(X;Y)、条件熵H(X/Y)
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!