汉字编码课件

上传人:痛*** 文档编号:241572161 上传时间:2024-07-05 格式:PPT 页数:36 大小:222.03KB
返回 下载 相关 举报
汉字编码课件_第1页
第1页 / 共36页
汉字编码课件_第2页
第2页 / 共36页
汉字编码课件_第3页
第3页 / 共36页
点击查看更多>>
资源描述
汉字编码汉字编码汉字编码1汉字编码汉字编码1汉字编码现状及其根源n多种编码方案共存,不利于交流和共享n新旧标准同台使用,需相互转换n统一标准正在形成n中、日、韩、新等多国同时使用汉字n简繁体汉字并存n地区、国家间的文化、政治差异增加了汉字统一编码的难度汉字编码2汉字编码现状及其根源多种编码方案共存,不利于交流和共享汉字编主要汉字(文字)编码标准与规范nASCII(英文)nGB2312nGBKnGB13000nGB18030nBIG5nShift_JISnISO/IEC 10646nUnicode汉字编码3主要汉字(文字)编码标准与规范ASCII(英文)汉字编码3汉字的几种通行名称nHanzi,Hantsu,汉字nIdeographic character,表意字符,中文字符nKanji-日文中的叫法nHanja-朝鲜文中的叫法nCJK-中日韩通用字符集nUnihan汉字编码4汉字的几种通行名称Hanzi,Hantsu,汉字汉字编码4ASCII码n美国信息交换标准编码(“美标”)n用从0到127的128个数字来代表信息的规范编码n包括33个控制码,一个空格码,和94个形象码n形象码中包括了英文大小写字母,阿拉伯数字,标点符号等n国际上大部分电脑的通用编码汉字编码5ASCII码美国信息交换标准编码(“美标”)汉字编码5文本文件与二进制文件n字符大都是用一个八位二进制数字表示,美标只规定了128个编码,剩下的另外128个数码没有规范,美标中的33个控制码,各厂家用法也不尽一致n文本文件(ASCII Text Files):美标形象码或空格码组成,通常可在不同电脑系统间直接交换n二进制文件(Binary Files):含有控制码或非美标码的文件,通常不能在不同电脑系统间直接交换汉字编码6文本文件与二进制文件字符大都是用一个八位二进制数字表示,美标国标、区位、“准国标”、机内码n国标:中华人民共和国国家标准信息交换用汉字编码n国标(GB2312-80)表(基本表)把七千余汉字、以及标点符号、外文字母等,排成一个94行、94列的方阵n每一横行叫一个“区”,每个区有九十四个“位”n一个汉字在方阵中的坐标,称为该字的“区位码”n例如“中”字在方阵中处于第区第位,它的区位码就是5448汉字编码7国标、区位、“准国标”、机内码国标:中华人民共和国国家标准区位码表n区位码来源于信息交换用汉字编码字符集(基本集)国家标准(GB2312-80),该标准收汉字6763个,第一级3755个,位于16至55区,55区的最后5个字符没有定义;第二级3008个,位于56至87区n第一级汉字按照汉语拼音字母顺序排列,同音字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。n第二级汉字按部首排序,本标准采用的部首与一般字典用的部首基本相同,略有改变。部首次序及同部首字按笔划数排列,同笔划数的字以笔形顺序横(一)、直(丨)、撇(丿)、点(丶)、折(乙)为序。起笔相同按第二笔,依次类推。n查表时先查区号,再查行、列,例如:“、”是0102,“蔼”是1610。汉字编码8区位码表区位码来源于信息交换用汉字编码字符集(基本集)国家标例汉字编码9例汉字编码9例汉字编码10例汉字编码10例汉字编码11例汉字编码11例汉字编码12例汉字编码12例汉字编码13例汉字编码13例汉字编码14例汉字编码14国标、区位、“准国标”、机内码n94:美标中形象码的总数,33-126 n汉字区、位码各加上32,就会与美标形象码的范围重合,称为该字的“国标码”,与其相对应的两个美标符号,为该字的“国标符”n如何区分国标符与美标符:国标码的两个数字各加上128,称“准国标”或“机内码”n机内码=(区位码)H+8080H+2020H汉字编码15国标、区位、“准国标”、机内码94:美标中形象码的总数,33BIG5码n针对繁体汉字的编码,在台湾、香港的电脑系统中得到普遍应用汉字编码16BIG5码针对繁体汉字的编码,在台湾、香港的电脑系统中得到普ISO/IEC 10646n一个国际标准编号,国际标准化组织(ISO)1993年正式颁布 n英文全称:Information technology-Universal Multiple-Octet Coded Character Set,简称UCS n中文全称:信息技术-通用多八位编码字符集,亦称大字符集n宗旨:全球所有文种统一编码汉字编码17ISO/IEC 10646一个国际标准编号,国际标准化组织(Unicoden英文Universal Code的缩略语n统一编码n是对国际标准ISO/IEC 10646编码的一种称谓n是一个企业联盟集团的名称,由美国的HP、Microsoft、IBM、Apple等几家知名的大型计算机企业所组成,成立该集团的宗旨就是要推进多文种的统一编码n就内容而言,Unicode和ISO/IEC 10646是一致的,并行的汉字编码18Unicode英文Universal Code的缩略语汉字编CJK-中日韩统一汉字n把中国、日本与韩国的英文称谓的首字母用于ISO/IEC 10646中的中、日、韩统一编码汉字的简称nUnihannCJKV或许更准确,V代表越南 汉字编码19CJK-中日韩统一汉字把中国、日本与韩国的英文称谓的首字母用ISO/IEC 10646 的体系结构 n四维的编码空间n总体上分为128个三维组(group),group的值范围是从00到7F n每一组包含256个平面(plane),每一个平面包含256行(row),每一行包含256个字位(cell),又称为“列”,plane、row、cell的值范围都是从00到FF全编码n整个编码字符集的每个字符都是由4个八位序列表示,(按照组八位、面八位、行八位、列八位的顺序)n可编码空间为:128X256X256X256=32KX64K 汉字编码20ISO/IEC 10646 的体系结构 四维的编码空间汉字编ISO/IEC 10646体系结构图汉字编码21ISO/IEC 10646体系结构图汉字编码21基本多文种平面n第一个平面(00组中的00平面)称作Basic Multilingual Plane(基本多文种平面),简称BMP,并在其上规定了双八位形式,它可以作为双八位编码字符集使用,即在此平面上仅用行、列两个八位就可以表示一个编码字符汉字编码22基本多文种平面第一个平面(00组中的00平面)称作BasicBMP的最新概貌nA-Zone(00至4D行):拼音文字编码区,拉丁文、阿拉伯文、日文的平假名及片假名、数学符号等都在此区域编码nCJK Unified Ideographs,Extension A(3400-4DB5)(6000多码位)nCJK Unified Ideographs(4E00-9FA5)(20902个编码汉字)n韩文(AC至D7这44行(44X256=11264))nS-ZONE(D8至DF行)for UTF-16nR-Zone(E0至FF行):限制使用区,一些兼容字符、字符的变形显现形式、特殊字符等均放在此区 汉字编码23BMP的最新概貌A-Zone(00至4D行):拼音文字编码ISO/IEC 10646空间分配现状 n00平面:BMP,被用于全球现已规范语种的基本文字编码,编码空间已基本饱和n01平面:作为拼音文字辅助平面n02平面:作为汉字辅助平面,CJK Extension B即将放入该平面nE0至FF平面:作为该标准的专用平面来使用 n其它空间尚未分配汉字编码24ISO/IEC 10646空间分配现状 00平面:BMP,被ISO/IEC 10646中CJK汉字组成nCJK统一编码汉字(20902)nCJK扩充集A(6585)nCJK扩充集B(4万-)汉字编码25ISO/IEC 10646中CJK汉字组成CJK统一编码汉字什么是UTF?nUnicode transformation formatnUCS transformation formatn从Unicode码点到唯一字节序列的映射算法,一一映射,保证无损转换汉字编码26什么是UTF?Unicode transformation UTF-16nUnicode标准的16位编码形式n为每个字符指定一个16位的值n编码形式与ISO/IEC 10646中的定义形式相同n以一个16位的值来编码映射到不大于65535数值的字符,映射到大于65535的数值的字符则被编码成一组16位的值(代用对)汉字编码27UTF-16Unicode标准的16位编码形式汉字编码27UTF-8n为满足面向字节、基于ASCII码系统的需要而制定(主要用于数据传输、互联网)n用最多达4个字节的序列来表示每个字符,为有效分析字符串,用第一个字节指明某个多字节序列中的字节数n通常用于数据交换汉字编码28UTF-8为满足面向字节、基于ASCII码系统的需要而制定(UTF-32n每个字符都表示成一个32位的整数n码长相等,便于某些特殊情况的处理nUnix系统使用汉字编码29UTF-32每个字符都表示成一个32位的整数汉字编码29字节顺序标记(BOM)n指示处理器怎样把连续的文本放到一个字节序列中n权值最低的字节位于开头叫做“little-endian”,权值最高的字节位于开头叫做“big-endian”n可用作识别文本文件编码形式的依据汉字编码30字节顺序标记(BOM)指示处理器怎样把连续的文本放到一个字节Windows对Unicode的支持nWindows 3.1,Windows NT 4,Windows 2000,Windows XP支持Unicode.如果在这些操作系统上运行非Unicode编码程序,在处理之前,操作系统在其内部将应用程序的文本转化为Unicode编码的文本,在把信息传回应用程序之前,操作系统把Unicode编码的文本转化回所希望的代码页编码形式。nWindows 95,Windows 98,Windows Me不是基于Unicode的,它们只提供了基于Windows NT的Windows版本所提供的Unicode支持的一个子集汉字编码31Windows对Unicode的支持Windows 3.1,GBKn汉字内码扩展规范,Rules/Specifications defining the extensions of internal codes for Chinese ideogramsn为了推进Unicode的实施,同时也是为了向下兼容,由电子部与国家技术监督局联合颁布 n在保持GB2312原貌的基础上,将其字汇扩充与ISO 10646中的CJK等量,同时也包容了台湾的工业标准Big5码汉字,此外还为用户留了1894个码位的自定义区汉字编码32GBK汉字内码扩展规范,Rules/SpecificatioGB18030-2000n信息技术-信息交换用汉字编码字符集-基本集的扩充,Information technology-Chinese ideograms coded character set for information interchange-Extension for the basic setnGBK的替代、超集汉字编码33GB18030-2000信息技术-信息交换用汉字编码字符集-GB18030-2000n完全包含CJK(Unihan)Extension An与GBK完全兼容(code-and character-compatible)的同时,为所有其它Unicode码点提供了空间n定义了4字节编码机制汉字编码34GB18030-2000完全包含CJK(Unihan)ExGB18030-2000码位范围分配表n2字节编码共23940个码位n4字节编码共超过150万个码位汉字编码35GB18030-2000码位范围分配表2字节编码共23940ISO 10646/Unicode的实现及其重要意义 n在全球范围内建立起实时、无障碍的信息交换模式n推动了汉字典籍的数字化n为数字化图书馆的建立铺平了道路n为弘扬汉字文化提供了舞台nSingle Binary技术的诞生:同一套基本程序用于多个语言环境的技术n使汉字关联活起来:正-异关联、中-日关联、繁-简关联,正-讹关联以及古今、新旧字形关联汉字编码36ISO 10646/Unicode的实现及其重要意义 在全球
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!