资源描述
第四章汉字编码技术,延边大学计算机科学与技术系,汉字编码的概念,从广义角度看字典/词典编码方法,用于在字典和词典中的快速定位,常见的方法:部首、笔画、拼音和四角号码等从狭义角度看汉字键盘编码,用计算机键盘上的按键为汉字编码汉字编码的概念计算机通信技术领域对所处理信息的字符集符号序列的排序原则和低吗赋值方式,简称“机内码”,包括存储码、处理码、传输码等计算机键盘输入汉字的代码设计与实现,简称“外码”或“人机界面编码”,用一套字母数字代码输入汉字,汉语词典常用检字方法之一,用最多5个阿拉伯数字来对汉字进行归类。四角号码检字法由王云五发明,他并在1925年5月著号码检字法由商务印书馆出版。四角号码检字法用数字0到9表示一个汉字四角的十种笔形,有时在最后增加一位补码。,四角号码编码方法,横一垂二三点捺叉四插五方框六七角八八九是小点下有横变零头举例:端先取左上角0,其次取右上角2再取左下角1,最后取右下角2,端=0212。,四角号码取角方法,取角方法(1)一笔可以分角取号。例:以左边是一笔,上取为2,下取为7。(2)一笔的上下两段和别笔构成两种笔形的,分两角取号。例:水左边,上取1,下取9。(3)下角笔形偏在一角的,按实际位置取号,缺角作0。例:妒右下角缺,取为0。(4)凡外围是“口、门(门)”的三类字,左右两下角改取里面的笔形。例:田=6040。(5)一个笔形,前角已经用过,后角作0。例:王左上角为一横,取1,右上角因为前面已经用过,所以取0。附号(1)四角号码字较多时,再取靠近右下角(第四角)上方一个笔形作“附号”,如果这一笔形已被右上角用过,则作0。(2)四角和“附号”相同的字,照各字所含横笔数目,顺序排列。取角注意项(1)角形有两单笔或一单笔一复笔的,不论高低,一律取最左或最右的笔形。(2)有两复笔可取的,在上角取较高的的复笔,在下取较低的复笔。(3)当中起笔的撇,下角有他笔的,取他笔作下角,但左边起笔的撇,取撇笔作角。,汉字编码的发展,20世纪70年代起步阶段,拼音编码、五笔字形、自然码等,效率较低20世纪80年代中期轰轰烈烈的“大跃进”式编码活动,但没有什么发展20世纪90年代萧条期进入21世纪后将是又一个发展期,数字编码方案将占主导,汉字编码中的几个概念(1),字符集/字汇和词汇字符集/字汇多/少词汇多/少特指某个编码方案编码词组的集合码元组成输入码的字符集合称为码元。如拼音码的码元是“a”“z”中的任意一个字母;纵横码的码元是“0”“9”中的任意一个数字。,纵横码的使用方法,由香港殷商周忠继先生发明、推广的一套以0-9十个数字进行编码的小键盘输入法,它以片语/词组作为主要输入方式。一横二竖三点捺,叉四插五方块六,七角八八九是小,撇与左钩都是零。单字取码取码次序:左上角、右上角、左下角、右下角取大不取小有重复笔形不取有边取边有角高优先词组取码33规则:对二字词组,取每字的头3码,若不足3码,则有几码取几码,取完按数字键的9上面的“”222规则:对三字词组,取每字的头2码,若不足2码,则有几码取几码,同上。2112规则:对四字词组,词首尾字各取头2码,中间每字各只取头1码,同上。21111规则:对多字词组,第一字取头2码,第二至第五字各取头1码,余下若字不用取码,同上。,汉字编码中的几个概念(2),码长输入码的长度称为码长。如输入码“123”的码长为3等长编码,如区位码等不等长编码,如拼音码、纵横码等单码和重码一个编码可能对应多个汉字和词组,那么这些汉字或词组称为重码。一个编码对应的汉字和词组只有一个时,称该汉字和词组为单码。,汉字编码中的几个概念(3),编码空间和编码效率所有可能的输入码集合,称为编码空间。编码空间的大小依赖于码元集合和码长。如某个编码方案的码元共有K个,编码采用等长码,长度为i,则编码空间大小为:C=Ki,如区位码的编码空间大小为:C=104,即10000个。编码效率简单而言是指编码的字汇/词汇除以编码空间的大小。如区位码,它的字汇大小为6763,则编码效率为6773/1000067.73。,汉字的墒(1)信息量的概念,熵,在信息论里叫信息量。从控制论的角度来看,应叫不确定性。最简单的是只有两种可能性,非此即彼,我们以这种事物的信息量为单位,叫1比特(bit)。如果可能性数目有2的n次方(N=2n),那就是n比特,即信息量等于可能性数目N的“以2为底的对数”:H=2NN/2。信息量应按符号的可能性(数学上叫概率大小)来计算,它是概率的负对数。平均信息量就是它们的加权平均H=pipi(1in)(pi表示第i个字母的概率)文字信号的信息量H是信号个数n的以2为底的对数:H=n/2。英文有26个字母,每个字母的信息量H=26/24.700。,各种语言的字母的信息量,法文3.98比特27个字母意大利文4.00比特21+5个字母西班牙文4.01比特27个字母英文4.03比特27个字母德文4.10比特26+4个字母罗马尼亚文4.12比特俄文4.35比特37个字母中文9.65比特,汉字的墒(2)汉字墒的概率分布,假设给定一个汉字字符集HZ,其中汉字数为n,则该字符集的熵为H=PiPi(1in)其中Pi为单个汉字在汉语文本中出现的概率,(Pi)是第i个汉字出现时的信息量,(Pi)是所有汉字在不考虑前后相关性时所给出的全部信息量。H是该集合中的每个汉字的平均信息量。,汉字的墒(3)汉字墒的意义,平均信息量(信息熵)表示存储或表示该汉字字符集所需要的二进制位数(中文约为9.65bit)。根据每个汉字的平均熵,通过采用不等长编码可以提高汉字存储和传输效率。信息量(信息熵)与字的使用频度成反比。即频度下降一半,其信息量增加1位。对汉字编码而言,采用多于2个码元时,汉字的平均熵也会下降。如:当m=2时,Lmin(3,4)当m=47时Lmin(1.73,2.73)不同领域,字的使用频度不同,因此,对大系统内的汉字信息熵的意义不大。,汉字键盘编码的依据心理依据,从心理学角度来看,根据汉字音信息的汉字编码,人在大脑中无需进行任何的思考,就可以输入汉字,所以说是最为直接的输入方式。根据汉字形信息的汉字编码,用户在输入时,大脑需要把语言转换为字形,然后才能输入,所以说是一种间接的输入方式。汉字心理学和模糊心理学的研究表明,人认字时上半部优于下半部,外围优于中间。从排列心理学角度来看,希望汉字的编码能尽量唯一,并能尽量表达汉字的本身特征。,汉字键盘编码的依据汉语拼音,汉语拼音的语言形式有三个要素:声母、韵母和声调。三者构成一个音节。其中声母有21个,韵母有35个。声调有五种:阴平、阳平、上声、去声和轻声。声韵结合起来有417个基本音节,如果考虑声调,总共有1330个左右的音节。所有的计算机用汉字的发音都在这些音节范围内。这就是汉字同音字/词多的根本所在。如在GBK中,拼音“yi”有个460多个对应的汉字。同样也存在大量的同音词。这就造成重码多和输入不方便。这是以音作为编码要素存在的主要问题。,汉字键盘编码的依据汉字部件,汉字的字形分为三级:笔画、汉字部件(如偏旁部首)和整字。由笔画构成汉字部件,由汉字部件构成整字。绝大多数根据汉字字形的编码方案基本上是基于部件的编码,如“五笔”、“表形码”等。基于部件的汉字编码需要解决的问题是:汉字如何拆分?用汉字部件编码的最大问题是部件的规范问题。,汉字键盘编码的依据笔画/笔顺,笔画/笔顺编码是选取汉字的基本笔画(如五种或八种),把笔画定义到汉字的数字键和字母键上,然后依笔顺或汉字的笔顺来给汉字编码。笔画输入近年来受到了特别的重视,主要是手机迅速普及所致。笔画输入的优势在于简单,无需学习和记忆。笔画输入的困难在于单字输入重码多、词组输入效率低、句子输入则困难。,汉字编码的分类流水码,将汉字按照一定顺序排列后,给每个汉字以一个特定的顺序号,形成的汉字编码称为流水码,也称无理码或顺序码。一个现成的顺序就是汉字内码的排列顺序,区位码和内码就是其中的两个实例。流水码的好处在于编码与汉字一一对应,绝无重码。缺点是编码无规律,记忆难度大,不易掌握。,汉字编码的分类音码,音码是以汉字的发音为基础的一种汉字编码,一般以汉语拼音方案为蓝本进行设计。如智能ABC、全拼、双拼、微软拼音、紫光拼音等。音码的最大好处是简单易学。音码的缺点:汉字同音字太多,检索同音字使汉字输入速度大大减慢。目前音码仍然是使用最广泛的编码,几乎96%以上的用户采用音码。值得一提的是:音码本身也在扬长避短,作了许多有益的改进。,汉字编码的分类形码,形码是依汉字的字形来编码的。如五笔字型、笔形码、大众码等。形码有效地避免了按发音输入的缺陷,重码率也相对较低,为实现汉字的盲打提供了可能,成为专业人员的首选汉字输入码。形码的部件多,分布广,记忆起来较难,同时须经过较长时间的学习训练才能熟练掌握。,汉字编码的分类音形码/形音码,音形码/形音码兼顾汉字的读音、字形两方面的特点进行混合编码。音形码在兼有音码和形码二者之长的同时,也兼有二者的一些弱点。音形码在输入时既考虑汉字的读音又考虑汉字的写法,人需要思考的时间也会增多,造成输入时的瓶颈。,海曼(Hyman)公式与汉字编码时间,海曼公式的一般形式为:Ta十bH(K)其中,T为平均选择反应时间,K是选择信号的个数,H(K)为每一个信号的平均信息量,a和b是系数。汉字编码时间的公式:T=a十blog2K十Ca为大脑发出指令冲动到肌肉动作所需时间,即击键时间;blog2K理解为“选择时间与信息量成正比”的适用条件下,选择等概率键位所需时间的一种可采用的表达方式;C代表一个码元的平均“编码时间”,反应了思维时间和检索时间的长短。,键盘分区图,大键盘编码,如果一种编码的码元集合为“a”“z”这26个字母或它的子集,那么我们称这种码元的键盘映射方式为大键盘编码。如全拼和智能ABC等拼音编码、五笔、郑码等等。各种拼音编码一般都是采用大键盘编码。形码也有采用大键盘的,如五笔就是一个典型的例子。一般采用大键盘的码长在34之间,平均码长一般不能超过4。,小键盘编码,采用键盘右边的数字区的“0”“9”这10个数字进行编码的方法称为小键盘编码。如区位、纵横、字原、五笔数码等均是小键盘编码。采用小键盘编码的以形码居多,音码也有但不多。形码一般都采用笔画编码。音码在计算机小键盘上应用很少,主要是用在数码产品上,如手机、电话、遥控器等。实现时一般把26个英文字母映射到10个数字按键上。,纵横码的键位图,字母数字映射图,大大键盘编码,大大键盘编码是指编码的码元不仅是大键盘上的26个字母,还包括10个数字和部分的其它符号。这种编码方案早期很多,如字元编码、钱码、陆码、绿色拼形等。早期出现这样的编码方法主要是可以增加编码空间,从而降低重码率,实现快速输入。这种编码方案已经很少了,主要是因为这种方案具有不易学和难记等缺陷。,绿色拼形编码的键位分布图,小小键盘编码,小小键盘编码是指只用5个数字来编码,也就是码元数只有5个。小小键盘编码方案主要是应用在手机等数码设备上,几乎所有的手机笔形编码均是采用小小键盘编码。,Nokia笔画输入法小小键盘图,数码键盘方案,所谓的汉字数码是指用“0”到“9”十个数字对汉字的单字和词组进行编码,使得只用小键盘就可以完成汉字的输入,并可移植到手机以及各类PDA产品上使用。,纵横码,在纵横汉字编码方案中,把笔形分为10类,分别用“0”到“9”这10个数字表示。笔形与数字代码的关系可通过下列口诀记忆:“一横二竖三点捺,叉四插五方块六。七角八八九是小,撇与左钩都是零。”取码规则是将汉字看成一个方块字,取汉字四个角的笔形为有关编码。部分汉字的取码实例:人(8)中(5)十(4)重(01)要(14)喜(46)事(50),五笔数码,五笔数码按照笔画进行编码。笔画分为“横”、“竖”、“撇”、“捺”、“折”五种,分别用“1”、“2”、“3”、“4”、“5”作为代码。下表为基本笔画代码表:,6键6码键盘图,9键9码键盘图,统一码,该方案取5种基本笔画:“横(一)”(含“提”)、“竖(丨)”(含“竖勾”)、“撇(丿)”(包括“啄”)、“点(丶)”(含“捺”)和“折(乙)”(包括左折和右折),并且将这五种笔画赋予顺序值“1”“5”。数字统一码将汉字结构归纳概括为四种基本结构。它们是:上下结构,左右结构,包围结构,嵌套结构。同时规定一个汉字可以取一至六码。字445576各359251右689,左右数码,利用数字来表示汉字的笔划、拼音和部件,其特征是将左右(含左中右)结构的汉字定义为“左右字”,再按书写顺序把“左右字”分为“左部”与“右部”。如下表所示:把“左右字”以外的汉字都定义为“整体字”。根据规则进行数字编码。,汉字编码国家标准,国家语委的规范,与汉字编码有关的标准与规范说明,在编码字符集方面在键位设置方面在标点符号方面在部件规范方面在笔顺规范方面,汉字键盘编码和输入系统的性能指标,易学性“学会使用汉字编码输入系统的时间应尽量短,并应符合使用汉语作为母语的使用者的思维习惯”。GB/T18031对数字编码更进一步提出要求:“做到上手能用”。汉字输入平均码长重码字词键选率,
展开阅读全文