(信息论)第2章信息的统计度量.ppt

上传人:max****ui 文档编号:6353030 上传时间:2020-02-23 格式:PPT 页数:46 大小:1.82MB
返回 下载 相关 举报
(信息论)第2章信息的统计度量.ppt_第1页
第1页 / 共46页
(信息论)第2章信息的统计度量.ppt_第2页
第2页 / 共46页
(信息论)第2章信息的统计度量.ppt_第3页
第3页 / 共46页
点击查看更多>>
资源描述
1 第2章信息的统计度量 2 1自信息量和条件自信息量 2 1 1自信息量 从信息源获得信息的过程就是其不确定性缩减的过程 可见信息源包含的信息与其不确定性是紧密相关的 在统计分析中 使用概率作为衡量不确定性的一种指标 可以推论 随机事件包含信息的度量应是其概率的函数 2 定义2 1 1任意随机事件的自信息量定义为该事件发生概率的对数的负值 设该事件的概率为 那么 它的自信息定义式为 自信息的单位与所用对数底有关 对数的底2e10比特 bit 奈特 nat 哈脱来 haitely 小概率事件所包含的不确定性大 其自信息量大 出现概率大的随机事件所包含的不确定性小 其自信息量小 2 1 3 定义2 1 2二维联合集XY上的元素的联合自信息量定义为 式中 为积事件 为元素的二维联合概率 例 2 2 4 2 1 2条件自信息量 定义2 1 3联合集XY中 对事件和 事件在事件给定的条件下的条件自信息量定义为 2 3 例 5 2 2互信息量和条件互信息量 2 2 1互信息量 信源集合X的概率空间为 其中为集合X中各个消息的取值 概率称为先验概率 6 信宿收到的符号消息集合Y的概率空间为 其中是集合Y中各个消息符号的取值 概率为消息符号出现的概率 当信宿收到集合Y中的一个消息后 接收者重新估计关于信源各个消息发生的概率就变成条件概率 这种条件概率又称为后验概率 7 定义2 2 1对两个离散随机事件集X和Y 事件的出现给出关于事件的信息量定义为互信息量 其定义式为 互信息量的单位与自信息量的单位一样取决于对数的底 当对数底为2时 互信息量的单位为比特 由式 2 4 又可得到 上式意味着互信息量等于自信息量减去条件自信息量 或者说互信息量是一种消除的不确定性的度量 亦即互信息量等于先验的不确定性减去尚存在的不确定性 2 4 8 2 2 2互信息量的性质 互信息量的互易性 互信息量可为零 当事件统计独立时 互信息量为零 即 互信息量可正可负 这意味着不能从观测获得关于另一个事件的任何信息 任何两个事件之间的互信息量不可能大于其中任何一事件的自信息量 2 5 2 6 9 2 2 3条件互信息量 2 7 定义2 2 2联合集XYZ中 在给定的条件下 与的互信息定义为条件互信息量 其定义式为 联合集XYZ上还存在与之间的互信息量 其定义式为 或进一步表示为 2 8 10 式 2 9 表明 一对事件出现后所提供的有关的信息量等于事件出现后所提供的有关的信息量加上在给定事件的条件下再出现事件所提供的有关的信息量 2 9 11 2 3离散集的平均自信息量 2 3 1平均自信息量 熵 自信息量 是一个随机变量 它不能用来作为整个信源的信息测度 这样 我们引入平均自信息量 即信息熵 定义2 3 1集X上 随机变量的数学期望定义为平均自信息量 集X的平均自信息量又称作是集X的信息熵 简称作熵 平均自信息量的表示式和统计物理学中热熵的表示式相似 2 10 12 信息熵的单位取决于对数选取的底 与自信息量的单位相一致 在现代数字通信系统中 一般选用二进制计数方式 在信息熵的计算中也多以2为对数底 这里当以2为对数底时 信息熵写成形式 其单位为bit 其他对数底的信息熵可以利用对数换底公式进行转换 由对数换底公式 可得 2 11 13 2 3 2熵函数的数学特性 定义2 3 2设为一多元函数 若对于任意一个小于1的正数及函数定义域内的任意两个矢量有 则称为定义域上的凸函数 Cap型函数 若 则称为定义域上的严格上凸函数 反之 若 或 则称为定义域上的下凸函数 Cup型函数 或严格下凸函数 2 14 2 15 2 13 2 16 14 引理2 3 1若是定义在区间上的实值连续上凸函数 则对于任意一组和任意一组非负实数满足 有 上面的不等式通常称为Jenson不等式 当取为一个离散无记忆信源的信源符号 取为相应的概率时 显然满足引理的条件 若取为对数函数 不等式 2 18 可写为 或对于一般的凸函数 写成 2 18 2 20 2 19 15 熵函数的数学性质 对称性 说明熵仅与随机变量的总体结构有关 或者说熵仅与信源总体的统计特性有关 如果总体统计特性相同 但内部结构不同 导致具有相同的熵值 这说明反映不出不同内部结构的信源间的差异 可见该定义的熵具有一定的局限性 非负性 2 21 其中 等号成立的充要条件是当且仅当对某其余的 这表明 确定场的熵最小 16 扩展性 这说明一个事件的概率和集中其他事件相比很小时 它对于集合的熵值的贡献就可以忽略不计 可加性 如果有两个随机变量X Y 它们不是相互独立的 则二维随机变量 X Y 的熵等于X的无条件熵加上当X已给定时Y的条件概率定义的熵的统计平均值 即 其中 对于一切i 2 22 17 上式中为集合X中的概率为已知的条件下 集合Y中的条件概率所以为和的联合概率 式 2 22 的物理意义是 先知道获得的平均信息量为 在这个条件下 再知道所获得的平均信息量 两者相加等于同时知道X和Y所获得的平均信息量 18 推论当二维随机变量X Y相互统计独立 则有 这是因为随机变量X和Y相互统计独立 故有 于是 2 23 极值性 式中 n是集合X的元素数目 上式表明 在离散情况下 集合X中的各事件依等概率发生时 熵达到极大值 由于对数函数的单调上升性 集合中元素的数目n越多 其熵值越大 2 24 19 引理2 3 2对任意实数有 引理2 3 3 式 2 26 表明 对于任一集合X 对任一概率分布 它对其他概率分布的自信息取数学期望时必不小于由概率本身定义的熵 其中等号成立当且仅当 这表明等概场的平均不确定性为最大 具有最大熵 这是一个很重要的结论 称为最大熵定理 2 25 式中 2 26 20 确定性 在概率矢量中 当其中某一分量而其他分量故上式成立 集合X中只要有一个事件为必然事件 则其余事件为不可能事件 此时 集合X中每个事件对熵的贡献都为零 因而熵必为零 上凸性 是概率分布的严格上凸函数 21 2 3 3条件熵 定义2 3 3联合集XY上 条件自信息的概率加权平均值定义为条件熵 其定义式为 上式称为联合集XY中 集Y相对于集X的条件熵 条件熵又可写成 式中取和的范围包括XY二维空间中的所有点 要注意条件熵是用联合概率 而不是用条件概率进行加权平均 2 27 2 28 当X表示信道的输入 Y表示信道的输出时 条件熵表示在得到输出Y的条件下 输入X中剩余的不确定性 即信道损失 22 2 3 4联合熵 定义2 3 4联合集XY上 每对元素的自信息量的概率加权平均值定义为联合熵 其定义式为 根据式 2 2 联合熵又可定义为 联合熵又可称为共熵 2 30 2 29 23 2 3 5各种熵的性质 联合熵与信息熵 条件熵的关系 2 32 2 31 式 2 31 表明 共熵等于前一个集合X出现的熵加上前一个集合X出现的条件下 后一个集合Y出现的条件熵 如果集X和集Y相互统计独立 则有 此时 式 2 33 则表示熵的可加性 而式 2 31 称为熵的强可加性 2 33 24 性质1还可推广到多个随机变量构成的概率空间之间的关系 设有N个概率空间 其联合熵可表示为 如果N个随机变量相互独立 则有 2 35 2 36 25 共熵与信息熵的关系 等式成立的条件是集X和Y统计独立 2 37 当集合X和Y取自同一符号集合Z时 则有 且 性质2可推广到N个概率空间的情况 同理 等号成立的充要条件是概率空间相互统计独立 26 条件熵与通信熵的关系 2 38 等式成立的条件是当且仅当集X和Y统计独立 意即 例 设一系统的输入符号集 输出符号集 如图所示 输入符号与输出符号的联合分布为 27 输入输出关系 解 28 29 30 2 3 6加权熵 设有随机变量X 引入事件的重量后 其概率空间为 其中 31 定义2 3 5离散无记忆信源的加权熵定义为 这样定义的加权熵保留了Shannon熵的许多有用的性质 但是也失去了某些性质 不过也增加了一些新的性质 2 42 非负性 若权重 则 即若每一事件都被赋予同样的重量 则加权熵退化为Shannon熵 32 确定性 若而则加权熵为零 即 若而为样本空间 并且 则加权熵为零 即 这一性质表明 某些事件有意义 但不发生而另外一些事件虽然发生 但毫无意义 所以从主观效果来看 人们并没有获得任何有意义的信息 33 2 4离散集的平均互信息量 令X表示离散输入事件集 其中对每个事件 相应概率为 简化为 且 以表示输入概率空间 类似地令Y表示离散输出事件集 对每个事件 相应概率为 简记为 且 以表示输出概率空间 34 X和Y的联合空间 与每组事件 积事件 相应的概率为二维联合概率 且 以表示二维联合概率空间 一般地有条件概率 当事件和彼此统计独立时 有 若上式所有的i j成立 则称集X与Y统计独立 否则称为统计相关 35 2 4 1平均条件互信息量 定义2 4 1在联合集XY上 由提供的关于集X的平均条件互信息量等于由所提供的互信息量在整个X中以后验概率加权的平均值 其定义式为 式中 为后验概率 由于互信息是表示观测到后获得的关于事件的信息量 即 故平均条件互信息量又可以表示为 2 43 2 44 36 定理2 4 1联合集XY上的平均条件互信息量 其中等号成立当且仅当X集中的各个都与事件相互独立 2 45 37 也可定义为 其中 当和相互独立时 且 2 4 2平均互信息量 定义2 4 2互信息量在整个集Y上的概率加权平均值 其定义式为 或定义为 2 47 2 46 2 48 2 50 2 49 38 2 4 3平均互信息量的性质 非负性 当且仅当X与Y相互独立时 等号成立 即如果X与Y相互独立 它们之间相互不能提供任何信息 互易性 对称性 平均互信息量的对称性表示从集Y中获得关于X的信息量等于从集X中获得关于Y的信息量 当集X和集Y统计独立时 则有 这一性质意味着不能从一个集获得关于另一个集的任何信息 2 51 39 平均互信息和各类熵的关系 平均互信息和熵 条件熵的关系为 平均互信息和熵 联合熵的关系为 2 53 2 54 2 52 40 和通信熵的关系 图中两个长方形的长度分别代表熵和 其重叠部分的长度代表平均互信息量 不重叠部分的长度分别代表条件熵和 而总长度代表共熵 当集X和Y统计独立时 得到 41 条件熵表示在已知输出Y的条件下输入X的剩余不确定性 即信道损失 由互信息量与条件熵的关系看出 等于输入平均信息量减去信道损失 它反映信道传输信息的能力 最大平均互信息量就是信道容量 极值性 2 55 2 56 凸函数性 平均互信息量是信源概率分布和信道传递概率的凸函数 42 2 5连续随机变量的互信息和相对熵 与研究离散集相似 描述连续随机变量X和Y的统计特征是边沿概率密度和 以及联合概率密度 分别为 其中 为条件概率密度 对于连续随机变量X取值在x值附近的概率随机变量Y取值在y值附近的概率为 二维连续随机变量XY同时取值在x和y附近的概率为 其中为任意小的区间 43 2 5 1连续随机变量的互信息 定义2 5 1连续随机变量集XY 事件和事件之间的互信息定义为 与离散情况下所定义的形式一样 所不同的只是用概率密度代替了离散集情况下的概率函数 2 57 44 定义2 5 2连续随机变量集合X和Y之间的平均互信息定义为 显然 连续随机变量定义的平均互信息和离散集情况是一样的 只要将离散情况下的概率函数换成概率密度 求和化成积分即可 2 58 连续随机变量平均互信息的主要性质如下 非负性 当且仅当连续随机变量X和Y统计独立时等号成立 对称性 45 2 5 2连续随机变量的熵 连续随机变量的相对熵 微分熵 连续随机变量的相对熵仍然具有离散熵的主要特性 即可加性 但不具有非负性 2 61 连续随机变量的熵具有相对性 在取两熵之间的差时 才具有信息的所有特征 例如非负性等 所以相对熵不能像离散熵那样充当集合中事件出现的不确定性的测度 但它还有许多和离散熵一样的性质 特别是相对熵的差值仍能像离散情况那样表征两个集合之间的互信息量 由于信息的非负性 就不能像离散变量的情况那样 代表信源输出的信息了 46 连续集的联合熵和条件熵 联合事件集XY的相对熵 联合熵 联合事件集XY的条件熵 连续随机变量各种熵之间的关系 2 62 2 63 2 64 2 65 2 66 2 67 2 68
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!