资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,University Library System, CUHK,香港中文大學大學圖書館系統,香港中文大學圖書館系統,University Library System,The Chinese University of Hong Kong,香港,Innovative,用户协会重订,单一码与,CCCII/EACC,对应表, 第五届中国,INNOPAC,用户协会年会, 2004年11月9-10日,2004,年11月9日,1,鸣谢,重订工作由,香港,Innovative,用户协会,(,Hong Kong Innovative Users Group),下的,单一码计划工作小组,(,HKIUG Working Group on Unicode Project),负责。,小组成员馆的代表为:,林纪达先生 (香港科技大学),黄秉杰先生 (香港城市大学),陈伟明先生 (香港大学),何以业 (香港中文大学),以下的报告内容取材自黄秉杰先生与我在2003年12月第4届,Hong Kong Innovative Users Group Meeting,中的报告,2,報告梗概,背景,难题,目标与方法,工序,对,Innovatives,的要求,尚未解决的问题,用户注意事项,将来,3,1. 背景 汉字编码字符集,多种字符集支援中日韩字(,CJK),资料来源:,林纪达, “,Overview of Chinese Character Encoding”,字符集名称 (,character sets),流行范围,GB (,国标),中国,BIG5 (,大五码),香港,台湾等地,CCCII,(Chinese Character Code for Information Interchange,中文信息交换码),图书馆,EACC,(East Asian Character Code,东亚字码),美国国会图书馆字码标准 (,MARC 21 standard),Unicode (,单一码),电脑操作系统广泛采用,,e.g.,:,Windows 2000, XP,4,1. 背景 字符集支援范围,5,1. 背景,(,代,),码点,(,code point),同一个字形,在不同字符集会使用不同的码点,6,1. 背景 内存代码 (,internal code),Innopac,以,EACC/CCCII,形式存储,CJK,字符,Innopac,内存代码不是,Unicode,100 1,余秋雨,100 1 276076214f29215f51,7,1. 背景 对应表 (,mapping table),Innopac,用对应表把内存代码在客户端与系统之间往来转换,接口(界面),客户端编码,Innopac,内存代码,Telnet BIG5,WebPAC BIG5,BIG5 (,大五码),EACC/CCCII,Millenium,WebPAC UTF-8,UTF-8 (,单一码),EACC/CCCII,8,2. 难题 (一)复数对应,难题 1,UTF-8,对应表 (,diac.utf8),中, 有多个内存代码对应同一个客户端编码,查询用的代码不一定是所期望的代码,对应次序各馆不同,,Z39.50,查找结果不定,UTF-8,表中 台 的复数变换,EACC -,内存代码,Unicode -,客户端编码,字义,283b7d,53F0,檯的简体,27605d,53F0,颱的简体,213538,53F0,台 本身是正字,27542b,53F0,臺的简体,9,2. 难题 (二),EACC,与,CCCII,重叠,难题 2,EACC,与,CCCII,用码不同, 各馆内存不一,资料交换带来麻烦。,10,2. 难题 (三)错误与缺漏,难题 3,UTF8 (Release 2002 Phrase 3),中有小毛病,错误,27615,F U+53CB ,友 ,该对应,U+53D1 ,发 ,缺漏,缺 213,F30 U+3007 , ,11,2. 难题 (四)选取不一致,难题 4,BIG5,和,UTF-8,产生的复数对应不一致,香港,Innovative,用户协会决定进行此,单一码计划,:,BIG5,客户端,对应表选,前,一个对应码,UTF8,客户端,对应表选,后,头一个对应码,12,2. 难题 (四)选取不一致 (续,), 才 的对应,BIG5,(,WebPAC,或,Telnet),对应表选,前,一个对应码,内存,BIG5,213,f7b,A47E,BIG5,选,前,一个,28736dA47E,UTF-8,(,WebPAC,或,Millennium),对应表选,后,一个对应码,内存,UTF-8,213,f7b624D,28736d,624D, UTF-8,选,后,一个,13,3. 目标与方法,.,香港中文大学于2003年7月举行了讨论会:,.,cuhk,.,edu,.,hk,/seminar/,unicode,/,单一码计划工作小组 (,HKIUG Working Group on Unicode Project),亦于同年7月成立,目标,解决,BIG5,和,UTF-8,选取不一致的难题,决定对应表中的那些应是 一对一 或是 多对一,决定对应表 应否只用 纯粹,EACC,或是 ,EACC+CCCII,清除错误与缺漏,为将来以单一码为内存的资料库做好准备,14,3. 目标与方法 (续),单一码计划工作小组研究后提出如下方案:,不再修订,BIG5,对应表 (因为: 字符集字量少; 只支援繁体字; 复数对应太多. 等等),建议重订一张新的,UTF-8,对应表 (,diac,.utf8),EACCUnicode,以美国国会图书馆,MARC 21,为标准,尾4码相同者,容许复数对应;尾4码不同者,需决定,优先选取,者;例: 台 (见 2. 难题1),EACC,与,CCCII,重叠时,删除,CCCII,将馆内以该,CCCII,为内码,的资料转换为,对应的,EACC,对应表需包括 纯粹,CCCII,以照顾不常用字,15,4. 工序 建成,diac.utf8.hkiug,以下部分直接摘用黄秉杰先生在2003年12月第4届,Hong Kong Innovative Users Group Meeting,报告内的,Procedures,部分,参见:,16,Procedures,diac.utf8.hkiug,created diac.utf8.hkiug,diac.utf8,LC EACC,22717,EACC/CCCII,Subtracted,66,Substitutes for Missing (U+3013),15673,EACC,7044,pure,CCCII,+,Remapped 287 PUA,Selected preferences in multi-mapping linked and unlinked cases,Corrected LC mappings,prepared list for CCCII to EACC data conversion,Subtracted,955,with EACC equivalent,15739,EACC merged,7999,CCCII extracted,17,Procedures,source from LC,Merged tables from LCs EACC to UCS/Unicode Mappings,18,Procedures,Included pure CCCII from UTF-8 table (Rel 2002 Phase 3),CCCII with no EACC equivalents (pure CCCII),e.g.,217455,坓,22483,E,洣,7,044,Added to new table,CCCII with EACC equivalents,e.g.,213131 (CCCII),余,276076 (,EACC),余,955,Excluded from new table.,Sent to III for data conversion,source from diac.utf8,19,Procedures,re-mapped PUA,Re-mapped 297 Private User Area (PUA) to suggested alternates,20,Procedures,Selected preference in multiple mapping EACC,Multiple mapping,Example,# of cases,Enhanced indexing?,Labeled as,Preference,Linked,same lower order bytes,4B,3178,倩,21,3178,倩,160,(320 char),Yes,multi-mapping linked,not matter,Unlinked,different lower order bytes,28,3B7D,台,27,605,D,台,21,3538,台,27,542,B,台,49,(108 char),No,multi-mapping unlinked,selected case by case (based on HKUST study on word frequency & meaning),selected preference,21,Procedures,Linked cases:,HKIUG preference,indicated,selected preference (cont),Selected preference in EACC multiple mapping linked,22,Procedures,Unlinked cases:,HKIUG preference,indicated,selected preference (cont),Selected preference in EACC multiple mapping unlinked,23,Procedures,Updated LC mappings,Referenced from other sources,Unihan,OCLC,USMARC Character Set for Chinese, Japanese, Korean (printed),Examples:,273C67,LC mapped to U+E9D8,Remapped to U+5E72,(,干,),4B3C2b,LC mapped to U+E9C7,Remapped to U+67C3 (,柃,),updated LC mapping,24,Procedures,CCCII with EACC Equivalents,- for data conversion,CCCII,EACC,list for conversion,Prepared list for data conversion,25,5.,对,Innovatives,的要求 .,交给,Innovatives,的 付项,diac,.utf8.,hkiug,是,HKIUG,设定的,EACC/CCCIIUTF-8,对应表,EACC 15,673,纯粹,CCCII 7,044,合共22,717,hasEACC,.txt CCCII,重叠,EACC,表 (955),单一码计划工作小组的报告,Innovatives,可做的工作,(,IUG CN,可参照实行),为各馆的,Innopac,安装,diac,.utf8.,hkiug,依照,hasEACC,.txt,所示, 把图书馆资料库内的,CCCII,转换成对应的,EACC (,各馆可自行转换),26,6.,尚未解决的问题,LC,的错误,美国国会图书馆 (,LC) MARC 21,标准中有一个错误 : 23355,C,LC MARC21,标准,23355C U+8,6C,3,蛃,USMARC character set for Chinese, Japanese, Korean.,Washington, D.C. : Library of Congress, 1986.,23355C,豣,U+8,C6,3,27,7.,用户注意事项,复数对应选字,复数对应 : 历 ,U+5386,请参考香港科技大学的复数对应选择表:,lc-multi-eacc.xls,28,7.,用户注意事项,复数对应选字(续1),数据正确性,书名: 历法,内存代码,备考,数据正确 ?,以字符输入:,历,27,462A,与 歷 21,462,A,连结索引,错误,若以代码输入:,274349,27,4349,与 曆 21,4349,连结索引,正確,*,可用附加追寻项,以字符输入:,历,27,462A,与 歷 21,462,A,连结索引,29,7.,用户注意事项,复数对应选字(续2),Millenium editor,暂依,UTF-8,对应表在储存目录时修改内码。这会使数据不正确。,此为,Millennium,的软件缺点,由于目录从,server,交到,client,,在,client,重存时,内存代码会依对应表的,优先对应,的规定来改码。,如果只是修改,item, checkin, order, global update,等,由于不会在,client,重存,bib,目录,内存代码,不会,改变。,30,7.,用户注意事项,复数对应选字(续3),Innovatives,打算在,Sliver version,中修正软件缺点。非优先对应的内存代码,会在,Millenium editor,以字符显示,而且不会在重存目录时修改内码。,31,7.,用户注意事项,复数对应选字(续4),暂时可用,Anzio-Win,作,Telnet client,设定可参考香港中文大学图书馆网页:,.,cuhk,.,edu,.,hk,/,cataw,/Internet/System_DIY.,pdf,上述网页提到的,CCCII.UNI ,香港中文大学愿意提供。,但,ANZIO-Win,有缺点:,CCCII.UNI,为,1,EACC 1 Unicode.,非优先对应者,一概不用,32,7.,用户注意事项,复数对应选字(续5),EACC,diac.utf8.hkiug,资料,Webopac / Millennium,显示,Anzio-Win,显示,备考,214857,非,优先对应,漢,汉,由于214857 为,非,优先对应,故在,CCCII.UNI,中无效,,Anzio-Win,会找近似值274857 汉 为显示字符,4b4857,优先对应,漢,漢,漢,33,8.,将来,(一,),提升混合索引能力,CJK,字符中,繁简体和异体字甚多,不能光靠尾4码相同来连结索引。,Innovatives,将以,Tool-database,形式达到混合索引的功能。,香港科技大学的林纪达先生已准备向,Innovatives,提供资料,供,Tool-database,作混合索引之用:,213538,台|21542,B,臺|27542,B,台|21605,D,颱|27605,D,台|223,B7D,檯|283,B7D,台|3,A3B7D,枱|#,U+53F0,输入以上任何一个字符,均可把载有以上代码的目录全部找出来。,34,8.,将来,(二,),跟,EACC/CCCII,为内存的资料库进行交换,往后数年,图书馆界 (北美和,OCLC,等) 仍然以,EACC/CCCII,为内存代码及作为交换码。,Innopac,用户馆与此等以,EACC/CCCII,为内存的资料库进行交换时,不会出问题。,将来如果,Innopac,改为纯以,Unicode,为内存代码,与此等,EACC/CCCII,为内存代码的资料库进行交换时,会输出错码:,Innopac,纯,Unicode,内存代码,输出,EACC/CCCII,历,U+5386,(,例如 :历法),以 27462,A,输出,(,歷,的简体,),不以 274349 输出,(,曆,的简体,),35,谢谢聆听!敬希指正!,何以业,36,
展开阅读全文