汉字点阵字库的建立.ppt

上传人:sh****n 文档编号:7481425 上传时间:2020-03-21 格式:PPT 页数:28 大小:215.50KB
返回 下载 相关 举报
汉字点阵字库的建立.ppt_第1页
第1页 / 共28页
汉字点阵字库的建立.ppt_第2页
第2页 / 共28页
汉字点阵字库的建立.ppt_第3页
第3页 / 共28页
点击查看更多>>
资源描述
汉字点阵字库的建立与提取 汉字点阵的重要性 汉字点阵的使用优点 汉字输出码 汉字无论字形如何变化 笔划多少都可以写在方块中一个方块可以看作m行n列的矩阵 称为点阵 汉字的点阵字形在计算机中称为字模汉字经过点阵的数字化转换成数字 称为汉字的输出码一个字节有8bit m n点阵的阵列可以用m n 8个字节表示存储空间根据选择点阵的不同而不同 点阵的行列数越多汉字越精细 但存储空间越多 汉字点阵阵列 点阵的分辨率点阵的放大 汉字编码的种类 汉字编码中现在主要用到的有三类 Big5 GBK和GB2312Unicode编码GB18030 GB2312编码 1 GB2312是一个简体中文字符集的中国国家标准 由中国国家标准总局发布 1981年5月1日实施 GB2312通行于大陆 新加坡等地 几乎所有的中文系统和国际化的软件都支持GB2312 它是一个简化字的编码规范 当然也包括其他的符号 字母 日文假名等 共7445个图形字符 其中汉字占6763个 我们平时说6768个汉字 实际上里边有5个编码为空白 所以总共有6763个汉字 GB2312汉字编码规则 GB2312规定 对任意一个图形字符都采用两个字节表示 每个字节均采用七位编码表示 习惯上称第一个字节为 高字节 第二个字节为 低字节 GB2312将代码表分为94个区 对应第一字节 每个区94个位 对应第二字节 GB2312字符集构成一个94行 94列的二维表 行号称为区号 列号称为位号 每一个汉字或符号在码表中的位置用它所在的区号和位号来表示 区位码 为了处理与存储的方便 每个汉字的区号和位号在计算机内部分别用一个字节来表示 例如 学 字的区号为49 位号为07 它的区位码即为4907 用2个字节的二进制数表示为 0011000100000111用十六进制数表示即为3107H 汉字交换码 区位码无法用于汉字通信 因为它可能与通信使用的控制码 00H 1FH 即0 31 发生冲突 ISO2022规定每个汉字的区号和位号必须分别加上32 即二进制数00100000 经过这样的处理而得的代码称为国标交换码 简称交换码 因此 学 字的国标交换码计算为 0011000100000111 00100000 00100000 0101000100100111用十六进制数表示即为5127H 汉字内码 由于文本中通常混合使用汉字和西文字符 汉字信息如果不予以特别标识 就会与单字节的ASCII码混淆 此问题的解决方法之一是将一个汉字看成是两个扩展ASCII码 使表示GB2312汉字的两个字节的最高位都为1 这种高位为1的双字节汉字编码即为GB2312汉字的机内码 简称为内码 因此 学 字的机内码为 1101000110100111用16进制表示即为D1A7H GB2312编码表 区号字数字符类别0194一般符号0272顺序号码0394拉丁字母0483日文假名0586Katakana0648希腊字母0766俄文字母0863汉语拼音符号0976图形符号10 15备用区16 553755一级汉字 以拼音为序56 873008二级汉字 以部首笔划为序88 94备用区 Big5编码 Big5又称大五码 主要为香港与台湾使用 即是一个繁体字编码 每个汉字由两个字节构成 第一个字节的范围从0X81 0XFE 即129 255 共126种 第二个字节的范围不连续 分别为0X40 0X7E 即64 126 0XA1 0XFE 即161 254 共157种 GBK编码 GBK是GB2312的扩展 是向上兼容的 因此GBK中的汉字的编码与GB2312中汉字的相同 另外 GBK中还包含繁体字的编码 GBK中每个汉字仍然包含两个字节 第一个字节的范围是0 x81 0 xFE 即129 254 第二个字节的范围是0 x40 0 xFE 即64 254 GBK中有码位23940个 包含汉字21003个 Unicode编码 随着互联网的迅速发展 进行数据交换的需求越来越大 不同的编码体系越来越成为信息交换的障碍 而且多种语言共存的文档不断增多 单靠ANSI代码页已很难解决这些问题 于是Unicode应运而生 前面提到从ASCII GB2312 GBK的编码方法是向下兼容的 而Unicode只与ASCII兼容 更准确地说 是与ISO 8859 1兼容 与GB码不兼容 例如 汉 字的Unicode编码是6C49 而GB码是BABA Unicode采用两个字节编码体系 因此它允许表示65536个字符 这已能满足目前大多数场合的需要 前128个Unicode字符是标准的ASCII字符 接下来的128个扩展的ASCII字符 其余的字符供不同语言的文字和符号使用 其版本V3 0于2000年公布 内容包括字母和符号10236个 汉字27786个 韩文拼音11172个 造字区6400个 保留20249个 控制符65个 GB18030标准 标准采用单字节 双字节和四字节三种方式对字符编码 单字节部分采用GB T11383的编码结构与规则 使用0 00至0 7F码位 对应于ASCII码的相应码位 双字节部分 首字节码位从0 81至0 FE 尾字节码位分别是0 40至0 7E和0 80至0 FE 四字节部分采用GB T11383未采用的0 30到0 39作为对双字节编码扩充的后缀 这样扩充的四字节编码 其范围为0 81308130到0 FE39FE39 其中第一 三个字节编码码位均为0 81至0 FE 第二 四个字节编码码位均为0 30至0 39 如果判断字符是西文字符还是中文字符 根据字节的最高位进行判断 如何确定一个汉字在字库编码表中位置 C1 0 xa1 94 C2 0 xa1 课程设计内容要求 要求编写一个应用程序 设计一种汉字的点阵存储方式 从WINDOWS的汉字矢量字模中提取出汉字点阵字模 并演示提取出的汉字点阵字模效果 程序具体要求为 采用文本菜单界面 鼓励采用图形菜单界面 程序可以实现选择不同的WINDOWS字体 宋体 楷体 黑体等 程序可以实现选择生成存取点阵字库的文件 BIN 程序可以实现选择生成不同的点阵大小 16 20 24 32 48 程序可以实现输入生成字库的DEMO字数 1 3000 程序可以显示版本内容 包括论文作者 学号及编译日期 字库的文件根据设计的编码规则进行存储 在点阵提取过程中 在程序窗口两侧可以同时显示矢量字模与点阵字模 以便进行比较 鼓励自行增加新功能 比如增加文本输入 可以只对输入的汉字文本内容提取点阵字模 点阵字模的两维放大与优化算法探讨 课程设计内容要求 源程序要有适当的注释 使程序容易阅读 课程设计报告要求独立完成软件建议使用C语言 参考资料 C语言程序设计 谭浩强等编 清华大学出版社 C程序设计上机指导 谭浩强主编 清华大学出版社 C语言贯通教程 史斌星 清华大学出版社 软件课程设计 指导书 自编实验手册 TurboC使用大全 第一册 第二册徐金梧等编译 考核方式 平时考勤及项目日志 中期检查项目进度 后期检查实验结果或演示效果 最终考核项目完成质量 课程设计报告书规范完整性 书写是否认真 工整 独立分析解决问题的能力和创新精神 是否有抄袭现象 成绩评定 优 具有独立分析解决问题的能力和创新精神或对某一方面有深入探讨 良 在完成基础部分的基础上涉及提高部分 中 较好的完成设计任务中的基础部分 及格 基本完成设计任务中的基础部分 不及格 未完成设计任务 或者有抄袭现象 课程设计报告基本格式 具体设计任务 基本思路及应用程序功能的详细说明 方案设计 主要算法说明 程序框架设计 程序的源代码清单 程序流程图调试过程中出现的问题及相应解决办法 个人体会及建议 参考资料 联系方式 罗白云027 13307152018lbyun5188 办公 西一楼310 311室 谢谢
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!