文本与文本处理

上传人:痛*** 文档编号:253195497 上传时间:2024-11-30 格式:PPT 页数:47 大小:1.57MB
返回 下载 相关 举报
文本与文本处理_第1页
第1页 / 共47页
文本与文本处理_第2页
第2页 / 共47页
文本与文本处理_第3页
第3页 / 共47页
点击查看更多>>
资源描述
按一下以編輯母片標題樣式,按一下以編輯母片,第二層,第三層,第四層,第五層,*,5.1,文本与文本处理,第,5,章 数字媒体及应用,5.,1,文本与文本处理,5.,2,图像与图形,5.,3,数字声音及应用,5.4,数字视频及应用,5.1,文本与文本处理,5.1.1,字符的编码,5.1.2,文本准备,5.1.4,文本编辑、排版与处理,5.1.3,文本的分类,5.1.5,文本的展现,文字处理是计算机应用的基础,计算机应用使用计算机进行信息处理,其中,,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。,文字,数值,语言,音乐,图像,信息的形态有多种,写作,编辑,排版,印刷,发行,写作,传统的文字处理过程,计算机文字处理过程,文字信息在计算机中称为“文本”(,text,),文本是计算机中最常用的一种数字媒体,文本由一系列“字符”(,character,)组成,每个字符均使用二进制编码表示,文本在计算机中的处理过程是:,(,文本编辑器,),文本编辑与排版,格式化的电子文本,(,2,),文本展现,(,文本阅读器,),(,5,),文本处理,(,文本处理,),(,3,),文本准备,电子文本,(,1,),(,文字与图表,的输入,),文本存储,与传输,(,4,),(,存档,/,通信软件,),5.1.1.,字符在计算机中的表示,字符、字符集及其编码表,文字的基本元素是字母和符号,统称为“字符”,(character),,它包括:字母、数字、标点、符号等,字符集:一组特定字符的集合,不同的字符集包含的字符数目与内容不同,如:,中文字符集、西文字符集、日文字符集等,字符的编码:,字符集中每个字符的二进位表示,称为该字符的编码或代码,(code),不同的字符其编码各不相同,复习:,西文字符的编码,ASCII,码,西文是表音文字,(,拼音文字,),,它由拉丁字母、数字、标点符号以及一些特殊符号所组成,美国标准信息交换码,(ASCII,码,),:,ASCII,字符集包含,96,个可打印字符和,32,个控制字符,采用,7,个二进位进行编码,计算机中使用,1,个字节存储,1,个,ASCII,字符,存在问题:,字符集太小(只有,128,个字符),不同国家和地区使用不同的字符集及其编码,互不兼容,0,X X X X X X X,汉字如何编码?,汉字是记录汉语(国语,华语)的文字,属于表意文字,它用符号直接表达词或词素,有多个国家和地区使用(中、日、韩、新、马,),汉字的特点,数量大;字形复杂,同音字多,异体字多,如何编码?,确定收入多少字、哪些字?,在字符集中如何排列?,使用多少个二进位进行编码?,常用的汉字编码字符集,国家标准,GB2312-1980,汉字扩充规范,GBK,(,已被,GB 18030,取代,),国家标准,GB18030-2005,港澳台使用的汉字编码字符集,CNS 11643(BIG 5,,俗称“大五码”,),UCS/Unicode,多文种大字符集,Unicode,的,UTF-8,Unicode,的,UTF-16,一级汉字,(,3755,个),二级汉字,(,3008,个),(扩充使用),字母、数字和各种符号,1,94,2,3,位号,1,9,16,55,56,87,94,区 号,(,按汉语拼音排列,),(,按偏旁部首排列,),GB2312,汉字编码字符集,1980,年颁布,信息交换用汉字编码字符集,基本集,GB2312-1980,GB2312,字符集由三个部分构成:,拉丁字母、俄文、日文平假名与片假名、希腊字母、汉语拼音等共,682,个,共,6763,个汉字和,682,个符号,,每个汉字和符号都有一个确定位置,GB2312,汉字的编码,每一个,GB2312,汉字使用,16,位,(2,个字节,),表示,为了与,ASCII,字符相区别,每个字节的最高位均为“,1”,例如:,“南”字的代码是,11000100 11001111,(用十六进制表示为,C4CF,),1,1,第,1,字节,第,2,字节,X X X X X X X,X X X X X X X,GB,K,汉字,内码扩充规范,GB2312,的不足:,汉字字数太少,缺少繁体字,无法满足,人名、地名、古籍整理、古典文献研究,等应用的需要;与,ASCII,码不兼容,GB,K,汉字,内码扩充规范(,1995,):,在,GB2312,基础上,增加了,1,万多汉字,(,包括繁体字,),和符号,共有,21003,个汉字和,883,个图形符号,如“,計,算,機,”、,冃,、,冄,、,円,、,冇,等繁体字和生僻字,与,GB8312,保持向下兼容,也使用双字节表示,第,1,字节最高位必须为“,1”,:,1,X,第,1,字节,第,2,字节,X X X X X X X,X X X X X X X,UCS/Unicode,多文种大字符集,背景:为了实现全球数以千计的不同语言文字的统一编码,方案:,ISO,将全球所有文字字母和符号集中在一个字符集中进行统一编码,(,目前共收集了,17x2,16,1,114,112,个,),,称为,UCS/Unicode,UCS/Unicode,的编码方案:,先实现部分字符的编码(近,11,万个字符),尽量与已有编码标准兼容,包含有中、日、韩统一整理出来的约,7,万汉字(称,CJK,汉字),允许有若干不同的编码方案,常用的两种是:,单字节:,ASCII,字符,双字节:拉丁、希腊、阿拉伯,,三字节:,CJK,汉字,四字节:其他,Unicode:UTF-8,单字节可变长编码,应用:,Linux,,,Web,网页,电子邮件,双字节:,ASCII,字符、拉丁、希腊、阿,拉伯,常用,CJK,汉字,,四字节:非常用,CJK,汉字,Unicode:UTF-16,双字节可变长编码,应用:,Windows,,,Mac,,,Java,,,GB18030,汉字编码标准,背景:无论是,Unicode,的,UTF-8,还是,UTF-16,,其,CJK,汉字字符集虽然覆盖了我国已使用多年的,GB2312,和,GBK,标准中的汉字,但它们的,编码并不相同,为了既能与,UCS/Unicode,编码标准接轨,又能保护我国已有的大量汉字信息资源,我国在,2000,年和,2005,年两次发布,GB18030,汉字编码国家标准,。,GB18030,实质上是,UCS/Unicode,字符集的另一种编码方案:,单字节编码(,128,个)表示,ASCII,字符,双字节编码(,23940,个)表示汉字,与,GBK,(以及,GB2312,)保持向下兼容,,GBK,不再使用,四字节编码(约,158,万个)用于表示,UCS/Unicode,中的其他字符,GB18030,目前已在我国信息处理产品中强制贯彻执行。,标准名称,GB2312,GBK,GB,18030,UCS-2,(Unicode),字符集,6763,个汉字,(,简体字,),21003,个汉字(包括,GB2312,汉字在内),近,3,万汉字,(,包括,GBK,汉字和,CJK,及其扩充中的汉字,),包含近,11,万字符,其中的汉字与,GB18030,相同,编码方法,双字节存储和表示,每个字节的最高位均为“,1”,双字节存储和表示,第,1,个字节的最高位必为“,1”,部分双字节、部分,4,字节表示,双字节表示方案与,GBK,相同,UTF-8,采用单字节可变长编码,UTF-16,采用双字节可变长编码,兼容性,编码,不兼容!,小结:几种汉字编码的对比,编码保持向下兼容,小结:不同标准,不同的表示!,与字符的编码一样,图像、声音、视频等也分别有许多编码标准:国际标准,(ISO),、国家标准,(GB),、工业标准、企业标准等,这也是信息处理复杂性的原因之一。,由于经济利益和政治体制等多种原因,相同的信息在计算机中可以有不同的表示,即采用不同的编码进行表示,例如:“南京大学,1234ABCD”,的,3,种表示:,C4,CF,BE,A9,B4,F3,D1,A7,31,32,33,34,41,42,43,44,E5,8D,97,E4,BA,AC,E5,A4,A7,E5,AD,A6,31,32,33,34,41,42,43,44,57,53,AC,4E,27,59,66,5B,31,00,32,00,33,00,34,00,41,00,42,00,43,00,44,00,GB,UTF-8,UTF-16,5.1.2.,文本准备,文稿如何输入计算机,文字符号输入计算机的方法,键盘输入,自动识别输入,字符信息的输入,人工输入,(1),数字编码,如电报码、区位码等,(2),字音编码,如智能,ABC,等,(3),字形编码,如五笔字形和表形码等,(4),形音编码,发展趋势:基于统计和学习功能的以词语,(,短语,),或句子作为输入单位的输入方法,文字符号输入计算机的方法,键盘输入,联机手写输入,自动识别输入,字符信息的输入,人工输入,优点:,自然,流畅,小型化,适合移动计算,不足:,识别速度和正确性还需提高,书写要求还要降低,文字符号输入计算机的方法,键盘输入,联机手写输入,语音输入,自动识别输入,字符信息的输入,人工输入,优点:,自然,方便,适合移动计算,不足:,对说话人、说话方式、说话内容的,适应能力要大大增强,识别速度和正确性还需大大提高,文字符号输入计算机的方法,印刷体识别,键盘输入,联机手写输入,语音输入,自动识别输入,字符信息的输入,人工输入,扫描仪,OCR,数字文本,纸介质文本,文本的映象,(image),识别率已达到,98%,功能,:,简、繁体字,混合识别,中文、西文混合识别,文字、表格混合识别,智能校对功能,文字符号输入计算机的方法,印刷体识别,手写体识别,键盘输入,联机手写输入,语音输入,自动识别输入,字符信息的输入,人工输入,技术上非常困难,还无法实用,目前准备先突破工整的楷书手写体的识别,!,汉字的键盘输入,汉字与键盘上的键无法一一对应,因此必须使用几个键来表示一个汉字,这就称为汉字的“键盘输入编码”,优秀的汉字键盘输入编码应具有的特点:,易学习、易记忆,效率高,(,平均击键次数较少,),重码少,容量大,(,可输入的汉字字数多,),汉字键盘输入方法的比较,类型,原理,举例,优点,缺点,数字,编码,使用一串数字来表示汉字,电报码,区位码,仅使用,10,个数字键,难记忆,字音,编码,把汉语的拼音作为汉字的输入编码,智能,ABC,紫光华宇,微软拼音输入,简单易学,适合于非专业人员,重码多,需增加选择操作,不会汉语拼音或不知道读音时无法使用,字形,编码,把汉字的部件或笔画作为码元,按照汉字结构及其切分规则作为编码依据,确定每个汉字的输入代码,五笔字形,表形码,郑码,重码少、输入速度较快,适合于专业录入员、打字员使用,缺乏统一的规范,编码规则不易掌握,音形,编码,(,或形音编码,),采用字音及字形两种属性作为码元的汉字编码输入方法,粤音输入法,同上,同时要掌握音、形两种取码方法或规则,对普通用户比较困难,5.1.4,文本的编辑与排版,复习:使用,Word,的操作流程,创建新文档或打开老文档,文稿输入,编辑,排版,文档存盘、打印或发送,输入中西文字、符号和图、表,进行增、删、改操作,保证文本的正确性,满足清晰、美观、便于使用等要求,目的:确保文本内容正确无误,操作:对字、词、句和段落进行添加、删除、修改等操作,MS Word,的功能:,在文本的任何位置都可以,插入,新的文字,从文本的任何位置都可以,删除,不需要的文字,将一段文字从一处,移动,到另一处,将一段文字从一处,复制,到另一处,在文本中自动,查找,指定的词语,用一个词语自动,替换,文本中指定的词语,文本编辑,(text editing),目的:使文本清晰、美观、便于阅读,操作内容:对文本中的字符、段落乃至整篇文章的格式进行设计和调整,分成,3,个层次:,对字符格式进行设置,对段落格式进行设置,对文档页面进行格式设置,文本排版,(Typesetting),设置字符的格式,字号,(,八号 初号,5,磅,72,磅以上,),1
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!