信息论与编码第五章.ppt

资源描述

第5章无失真信源编码 5 1编码的定义 5 2定长编码定理 5 3编码器变长码定理 5 4最佳编码将信源信息通过信道传送给信宿怎样才能做到尽可能不失真而又快速呢这就需要解决两个问题第一在不失真或允许一定失真的条件下如何用尽可能少的符号来传送信源信息第二在信道受干扰的情况下如何增加信号的抗干扰能力同时又使得信息传输率最大为了解决这两个问题就要引入信源编码和信道编码信源编码在不失真或允许一定失真条件下如何用尽可能少的符号来传送信源信息以便提高信息传输率在通信中要求精确的复现信源的输出就要保证信源产生的全部信息无损的传送给信宿这时的信源编码就是无失真信源编码 5 1编码的定义 5 1 1信源编码的定义编码实质上是对信源的原始符号按一定的数学规则进行的一种变换说明 1 输出的码符号序列称为码字 2 长度l称为码字长度或简称码长 3 编码就是从信源符号到码符号的一种映射 4 若要实现无失真编码则这种映射必须是一一对应的并且是可逆的二元信道的基本符号集为 0 1 若将信源通过一个二元信道传输就必须把信源符号变换成由0 1符号组成的码符号序列即编码可用不同的码符号序列如表若把N次无记忆扩展信源的概念加以引申便可得到N次扩展码 5 1 2信源变码的分类等长码码中所有码字的长度都相同变长码码中的码字长短不一定义5 1将信源符号集中的每个信源符号映射成一个固定的码字这样的码称为分组码采用分组编码方法需要分组码具有某些属性以保证在接受端能够迅速准确地将码译出下面首先讨论分组码的一些直观属性 1 奇异码和非奇异码若信源符号和码字是一一对应的则该码为非奇异码反之为奇异码 2 唯一可译码若码的任意一串有限长的码符号序列只能唯一地被译成所对应的信源符号序列则此码称为唯一可译码否则就称为非唯一可译码唯一可译码码码即时码无须考虑后续的码符号即可从码符号序列中译出码字这样的唯一可译码称为即时码设为一个码字对于任意的码符号序列的前j个元素为码字Wi的前缀一个唯一可译码成为即时码的充分必要条件是其中任何一个码字都不是其他码字的前缀码树表示各码字的构成 A 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 0 1 1 1 1 1 二进制码树 2 0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 三进制码树树根码字的起点分成r个树枝码的进制数终端节点码字1101 中间节点码字的一部分节数码长满树每个节点上都有r个分枝的树等长码非满树变长码用树的概念可导出唯一可译码存在的充分和必要条件综上所述可将码作如下分类定理5 1对于码符号为X x1 x2 xr 的任意唯一可译码其码字为W1 W2 Wq 所对应的码长为l1 l2 lq 则必定满足克拉夫特不等式注意克拉夫特不等式只是说明唯一可译码是否存在并不能作为唯一可译码的判据例5 1 设二进制码树中X x1 x2 x3 x4 对应的l1 1 l2 2 l3 2 l4 3 由上述定理可得因此不存在满足这种码长的唯一可译码 5 1 3唯一可译码的判断法变长 1 观察码C中最短的码字是否是其它码字的前缀若是将其所有可能的尾随后缀排列出而这些尾随后缀又有可能是某些码字的前缀再将这些尾随后缀产生的新的尾随后缀列出 2 再观察这些新的尾随后缀是否是某些码字的前缀再将产生的尾随后缀列出依此下去直到没有一个尾随后缀是码字的前缀为止 3 这样首先获得了由最短的码字能引起的所有尾随后缀接着按照上述步骤将次短码字等等所有码字可能产生的尾随后缀全部列出由此得到由码C的所有可能的尾随后缀的集合F 当且仅当集合F中没有包含任一码字则可判断此码C为唯一可译码 5 2定长码编码定理编码的目的就是要是信源的信息率最小也就是说要用最少的符号来代表信源在定长编码中对每一个简单信源码字的长度都是定值要实现无失真的信源编码要求信源符号s1s2 sq是一一对应码字W1W2 Wq 能够无失真或无差错地从W恢复也就是能正确地进行反变换或译码传送Y时所需要的信息率最小如果对一个简单信源S进行定长编码那么信源S存在惟一可译码的条件是 q是信源S的符号个数 r是信道基本码符号数 l是定长码的码长如果对信源S的N次扩展信源SN进行定长编码若要编得的定长码是惟一可译码则须满足对上式两边取对数有表示SN中平均每个原始信源符号所需要的码符号个数对于定长唯一可译码平均每个原始信源符号至少用个码符号来变换例如英文电报有32个符号即采用二元编码时则对信源每个符号进行二元编码则也就是说每个英文电报符号至少要用5位二元符号进行编码才能得到唯一可译码定理5 2设离散无记忆信源的熵为H S 其N次扩展信源为次扩展信源熵现在用码符号集X x1 x2 xr 对N次扩展信源SN进行长度为l的定长编码对于只要满足则当N足够大时必可使译码差错小于反之若则当N足够大时译码错误概率趋于1 定义5 2设熵为H S 离散无记忆信源若对信源的长为N的符号序列进行定长编码设码字是从r个码符号集中选取l个码元构成定义R为编码速率单位 bit 符号即此时若则可以实现无失真传输定义5 3 2称为编码效率则有设差错概率为当和均为定值时只要N足够大均为定值时只要N足够大即例5 1 设离散无记忆信源概率空间为信源熵为自信息方差为对信源符号采用定长二元编码要求编码效率无记忆信源有因此可以得到如果要求译码错误概率因此一般说来当N有限时高传输效率的定长码往往要引入一定的失真和译码错误解决的办法是可以采用变长编码 5 3变长码定理 5 3 1码平均长度定义5 4 1设有信源编码后的码字为W1 W2 Wq 其码字相应的码长分别为l1 l2 lq 因是惟一可译码信源符号si和码字Wi一一对应则这个码的平均长度为表示每个信源符号编码对平均需用的码符号个数单位码符号信源符号当信源S给定信源的熵为H S 则每个信道码元所携带的平均信息量可以表示为传输一个码符号平均需要t秒时间则编码后信道每秒传输的信息量单位 bit s 定义5 5对应一给定的信源和一给定的码符号集若有一种惟一可译码其平均码长小于所有其他唯一可译码则称这种码为紧致码或最佳码定理5 3设离散无记忆信源若该离散无记忆离散信源的符号熵为H S 每个信源符号的用具r进制码元进行定长编码一定存在一种无失真编码方法其码字平均码长满足 5 3 2离散平稳无记忆序列变长编码定理香农第一定理定理5 4设离散无记忆信源的熵为H S 其N次扩展信源为现在用码符号集X x1 x2 xr 对N次扩展信源SN进行编码总可以找到一种编码方法构成惟一可译码使信源S中的每个信源符号所需的码字平均长度满足或且当N 时则号si所对应的平均码长定义5 7编码效率定义为表示离散无记忆信源S中的每个信源符定义5 6变长编码的编码速率定义为它表示编码后平均每个信源符号能载荷的最大信息量于是定理5 4又可表述为其中 L为平均码长此处L 故编码效率一定小于或等于1的数定义5 4 3对于变长码定义码的剩余度为例5 4 设离散无记忆信源的概率空间为其信源熵为比特符号若用二元定长编码 0 1 来构造一个即时码这时平均码长二元码符号信源符号编码效率为输出的信息率为比特二元码符号再对长度为2的信源序列进行变长编码其即时码如下表所示这个码得码字平均长度二元码符号信源符号每一单个符号的平均码长二元码符号信源符号其编码效率用同样的方法可进一步将信源序列的长度增加 L 3或L 4 对这些信源序列X进行编码并求出其编码效率为这时信息传输率分别为如果对这一信源采用定长二元码编码要求编码效率达到96 时允许译码错误概率自信息的方差 10 5 2 0 4715 所需要的信源序列长度 4 13 107 5 4最佳编码紧致码香农费诺霍夫曼香农码费诺码霍夫曼码都考虑了信源的统计特性使经常出现的信源符号对应较短的码字使信源的平均码长缩短从而实现了对信源的压缩香农码有系统的惟一的编码方法但在很多情况下编码效率不是很高费诺码和霍夫曼码的编码方法都不惟一费诺码比较适合于对分组概率相等或接近的信源编码费诺码也可以编m进制码但m越大信源的符号数越多可能的编码方案就越多编码过程就越复杂有时短码未必能得到充分利用霍夫曼码对信源的统计特性没有特殊要求编码效率比较高对编码设备的要求也比较简单因此综合性能优于香农码和费诺码 1 香农 Shannon 编码 1 将信源消息符号按其出现的概率大小依次排列 2 确定满足下列不等式的整数码长Ki 3 为了编成唯一可译码计算第i个消息的累加概率 4 将累加概率Pi变换成二进制数 5 取Pi二进数的小数点后Ki位即为该消息符号的二进制码字例5 4设信源共7个符号消息 a1 a2 a3 a4 a5 a6 a7 概率分别为0 20 0 19 0 18 0 17 0 15 0 10 0 01 求香农编码信源熵信源符号的平均码长为编码效率为香农编码方法特点由于ki总是进一取整香农编码方法不一定是最佳的码字集合是惟一的且为即时码先有码字的长度再有码字对于一些信源编码效率不高多余度稍大因此其实用性受到较大限制 2 费诺编码方法费诺编码属于概率匹配编码 1 将信源消息符号按其出现的概率大小依次排列 2 将依次排列的信源符号按概率值分为两大组使两个组的概率之和近于相同并对各组赋予一个二进制码元 0 和 1 3 将每一大组的信源符号进一步再分成两组使划分后的两个组的概率之和近于相同并又赋予两个组一个二进制符号 0 和 1 4 如此重复直至每个组只剩下一个信源符号为止 5 信源符号所对应的码字即为费诺码例5 5设信源共7个符号消息 a1 a2 a3 a4 a5 a6 a7 概率分别为0 20 0 19 0 18 0 17 0 15 0 10 0 01 求费诺编码信源符号的平均码长为编码效率为例5 6有一单符号离散无记忆信源对该信源用费诺编码方法求其二进制代码组及其编码效率该信源熵为平均码长编码效率费诺编码特点概率大则分解的次数小概率小则分解的次数多这符合最佳编码原则码字集合是惟一可译码且为即时码分解完了同时可以得到码字和码长 3 哈夫曼编码方法 1 将信源消息符号按其出现的概率大小依次排列 2 取两个概率最小的字母分别配以0和1两个码元并将这两个概率相加作为一个新字母的概率与未分配的二进符号的字母重新排队 3 对重排后的两个概率最小符号重复步骤 2 的过程 4 不断继续上述过程直到最后两个符号配以0和1为止 5 从最后一级开始向前返回得到各个信源符号所对应的码元序列即相应的码字例5 7设信源共7个符号消息 a1 a2 a3 a4 a5 a6 a7 概率分别为0 20 0 19 0 18 0 17 0 15 0 10 0 01 求哈夫曼编码 5 2无失真信源编码 0 200 190 180 170 150 100 01 0 200 190 180 170 150 11 0 260 200 190 180 17 0 350 260 200 19 0 390 350 26 0 610 39 1 0 信源符号的平均码长为编码效率为哈夫曼编码方法得到的码并非唯一的每次对信源缩减时赋予信源最后两个概率最小的符号用0和1是可以任意的所以可以得到不同的哈夫曼码但不会影响码字的长度对信源进行缩减时两个概率最小的符号合并后的概率与其它信源符号的概率相同时这两者在缩减信源中进行概率排序其位置放置次序是可以任意的故会得到不同的哈夫曼码此时将影响码字的长度例5 8设有离散无记忆信源求哈夫曼编码解法一 1 0 0 40 20 20 2 0 40 40 2 0 60 4 0 40 20 20 10 1 解法二 1 0 0 40 20 20 2 0 40 40 2 0 60 4 0 40 20 20 10 1 信源符号的平均码长为编码效率为在实际应用中选择那种编码方法我们定义码字长度的方差为ki与平均码长之差的平方的数学期望记为 2 即计算上例中两种码的方差分别得 21 1 36 22 0 16可见第二种编码方法的码长方差要小许多这意味着第二种编码方法的码长变化较小比较接近平均码长进行哈夫曼编码时为得到码方差最小的码应使合并的信源符号位于缩减信源序列尽可能高的位置上以减少再次合并的次数充分利用短码哈夫曼码是用概率匹配方法进行信源编码哈夫曼码的编码方法保证了概率大的符号对应于短码概率小的符号对应于长码充分利用了短码缩减信源的最后二个码字总是最后一位不同从而保证了哈夫曼码是即时码把二进制的编码方法推广到m进制哈夫曼码所不同的只是每次把m个概率最小的符号分别用0 1 m 1等码元来表示然后再合并成一个新的信源符号其余步骤与二进制编码相同在编m进制哈夫曼码时为了使平均码长最短必须使最后一步缩减信源有m个信源符号这样第一步给概率最小的符号分配码元时所取的符号数就不一定是m个所谓全树就是码树图中每个中间节点后续的枝数必为m 若有些节点的后续枝数不足m 就称为非全树必须用非全树时第一次分配码元就不能取m个符号对于m进制编码若所有码字构成全树可分离的码字数必为 m k m 1 式中k为非负整数因为从根节点开始必须伸出m个树枝才能构成全树以后每次从一个节点分出m枝码字数就增加m 1个即去掉原来的一个码字加上m个码字所以总码字数必为m k m 1 个才能构成全树若信源所含的符号数n不能构成m进制的全树就必须增加s个不用的码字来形成全树显然s m 1 当有s个码字不用时第一次对最小概率符号分配码元时就只取m s个分别配以0 1 m s 1 把这些符号的概率相加作为一个新的符号概率与其他符号一起重新排列以后每次就可以取m个符号分别配以0 1 m 1 如此下去例5 9设单符号离散无记忆信源如下对信源编三进制哈夫曼码 m 3 n 8令k 3 m k m 1 9则不用的码字数为s 9 n 1 所以第一次取m s 2个符号进行编码概率编码过程 0 22 0 38 0 09 1 0 三进制代码组 ki 消息平均码长相应的信息率编码效率

展开阅读全文

信息论与编码第五章.ppt

最新文档