资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019-8-29,谢谢欣赏,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2019-8-29,谢谢欣赏,*,第六章 中文信息处理,概 述,1,谢谢欣赏,2019-8-29,第六章 中文信息处理概 述1谢谢欣赏2019-8-29,一、中文信息处理,计算机科学技术百科全书,(,清华大学出版社,,1998),中文信息处理,是用计算机对汉语的,音、形,、,义,等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。,中文信息处理分为,汉字信息处理,与,汉语信息处理,两部分,中文信息处理是自然语言信息处理的一个分支,是一门与,计算机科学,、,语言学,、,数学,、,信息学,、,声学,等多种学科相关联的综合性学科。,2,谢谢欣赏,2019-8-29,一、中文信息处理计算机科学技术百科全书(清华大学出版社,,参考文献,中文信息处理技术,原理与应用,,李宝安等,清华大学出版社,,2005,年,7,月第,1,版,中文信息处理技术教程,,朱巧明,清华大学出版社,,2005,年版,计算语言学概论,,俞士汶主编,商务印书馆,,2003,年,9,月第,1,版,计算语言学,,刘颖,清华大学出版社,,2002,年版,中国语言文字网,3,谢谢欣赏,2019-8-29,参考文献中文信息处理技术原理与应用,李宝安等,清华大,4,谢谢欣赏,2019-8-29,4谢谢欣赏2019-8-29,中文信息处理,中文信息处理分为汉字信息处理与汉语信息处理两部分,信息的两个层次:符号层,中文,/,汉语,/,汉字内容层,符号所承载的意义,中文信息处理的两个层次:,字符处理,(输入、存储、输出等),内容处理,(词语切分,词性标注,结构分析,意义理解,推理,翻译,等等),5,谢谢欣赏,2019-8-29,中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分,符号层的信息处理,拼音文字:小字符集,比较容易,非拼音文字:大字符集,难度很大,汉字是一个大字符集,说文解字,(东汉):,9353,字,玉篇,(南朝)收录,16,917,字,广韵,(宋代)收字,26,194,字,字汇,(明朝)收录,33,197,字,康熙字典,(清朝)收录,47,043,字,汉语大字典,(,1992,年),5.6,万,中华字海,(,1994,年,),8.6,万,拉丁字母只有,26,个符号,斯拉夫字母只有,33,个符号,阿尔明尼亚字母只有,38,个符号,泰米尔字母只有,36,个符号,缅甸字母只有,52,个符号,泰文字母只有,44,个符号,老挝字母只有,27,个符号,藏文字母只有,35,个符号,韩文字母只有,24,个符号,日文假名只有,48,个符号,6,谢谢欣赏,2019-8-29,符号层的信息处理拼音文字:小字符集 比较容易汉字是一个,符号层的信息处理,汉字输入,自动输入,键盘输入,字形识别,声音识别,手写体识别,印刷体识别,在线手写,脱机手写,整字键盘,通用键盘,主辅式,感应式,形码,音码,形音结合码,1,2,3,4,5,6,7,8,9,7,谢谢欣赏,2019-8-29,符号层的信息处理汉字输入自动输入键盘输入字形识别声音识别手写,内容层的信息处理,原文,原文输入,译前编辑,词法分析,句法分析,语义分析,语境分析,内部表示转换,译词选择,译后编辑,译文输出,词形变化,句子生成,译文,1,2,3,4,5,6,7,8,9,10,11,12,机器翻译全过程,需要语言知识!,8,谢谢欣赏,2019-8-29,内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析,中文信息处理的现状和发展趋势,现状符号层的处理成果已经得到广泛应用;中文输入,/,字库,/,字处理软件,/,排版,/,内容层的处理目前在词语识别和词性标注方面已经取得重要进展,句子结构分析和语义分析方面仍有待探索,9,谢谢欣赏,2019-8-29,中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广,二、文字信息处理的,基本问题,文字信息的计算机处理过程,要用计算机来处理文字,必须解决如何把文字输入计算机并在计算机中存储起来,进行适当处理之后再输出文字等问题。,文字信息的输入,文字信息的处理,文字信息的输出,10,谢谢欣赏,2019-8-29,二、文字信息处理的基本问题文字信息的计算机处理过程文字信息的,二、文字信息处理的,基本问题,文字信息处理的,实质,,是先把文字信息数字化,即用一个固定的,数码,代表一个字母或文字。,在英文信息中,以,26,个字母作为文字信息处理的单位,因此要对,26,个字母逐个地确定代替它的,数码,。,汉字一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的,数码,。,这一数码统称为,代码,(code),在计算机内部处理文字信息时,就像处理数据一样对待。处理完毕后,再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。,11,谢谢欣赏,2019-8-29,二、文字信息处理的基本问题文字信息处理的实质,是先把文字信息,二、文字信息处理的,基本问题,英文字符的编码标准是,ASCII,码,即,美国信息交换标准代码,。这是七位的二进制代码,它是美国国家标准学会(,ANSI,)为计算机的信息交换提出的标准,后来由国际标准组织(,ISO,)确定为国际标准字符编码。,为了和国际标准兼容,我国根据它制定了英文字符编码国家标准,即,GB1988,。其中除了将货币符号置换为人民币符号外,其他都与,ASCII,码相同。,12,谢谢欣赏,2019-8-29,二、文字信息处理的基本问题英文字符的编码标准是ASCII码,,计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可以输入英文。键盘的译码电路按照所击的键产生英文字符的,ASCII,码,输入到计算机的内存中。,经过编辑的文本仍然以,ASCII,码,表示。输出时,这些代码必须转换成字符字形的点阵,以便显示或打印。因此,计算机必须存储每个英文字符、数码以及标点符号的,点阵信息,。这些点阵信息构成了所谓,“,字模库,”,。字模库的点阵以有点或无点来表示文字和符号。,汉字信息的计算机处理过程与英文信息处理过程是类似的。不过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼容等问题,处理的难度更大。我国经过多年的研究,汉字处理的基本问题已经解决。,汉字信息处理的基本问题,13,谢谢欣赏,2019-8-29,计算机的键盘原本就是为英文输入设计的,只要按照字母击键,就可,三、中文信息处理主要研究对象,基础研究:汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等,输入技术:中文输入法、中文手写输入、中文语音输入、光学字符识别等。,输出技术:汉字字模技术(字体库)、汉字激光照排、汉语语音合成、动态组字等。,外字处理:动态组字、造字、电子书等。,存储技术:汉字库标准中文、字符编码等。,转换技术:繁简转换等,14,谢谢欣赏,2019-8-29,三、中文信息处理主要研究对象基础研究:汉字字频统计、词频统计,三、中文信息处理主要研究对象,信息处理:中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等,中文化:软件的国际化(,internationalization,)和本土化(,localization,)。,中文编程:目前有两种发展,一种是英文,coding,直接翻译,以降低开发人员的语言学习成本;一种是根据中文特点,发展出融合中国人思维模式的新的计算机语言。,15,谢谢欣赏,2019-8-29,三、中文信息处理主要研究对象信息处理:中文情报检索、中文文本,为了用,0,、,1,代码串表示汉字,在汉字系统或通信系统之间交换信息,必须给每个汉字规定一个统一的代码。这就是汉字的,交换码,。,1981,年,5,月,我国国家标准总局颁布,信息交换用汉字编码字符集,(GB 2312-80),,作为汉字交换码编码的国家标准,简称国家标准汉字编码,或,国标码,。,收进该标准的字符共有,7 445,个。其中一级汉字,3 755,个,二级汉字,3 008,个,共计,6 763,个。一、二级汉字约占近代文献汉字累计使用频度的,99.99%,。,为便于查找,一级汉字按汉语拼音顺序排列;二级汉字一般不易熟记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号、,GB 1988,图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。,四、汉字编码标准,16,谢谢欣赏,2019-8-29,为了用0、1代码串表示汉字,在汉字系统或通信系统之间交换信息,累计使用频度不足,0.001%,的汉字数量接近,1,万个。为了满足计算机实际应用的需要,我国在,GB 2312-80,的基础上扩大收字的范围,制定了,“,汉字内码规范,”,GBK,,包含了,20 902,个汉字,又称为扩展的国标码。在,Windows 95/98,和其后的,Windows 2000,中,装入了,GBK,的全部汉字和符合,GBK,和,GB 2312-80,的输入法。,由于汉字的字符多,一个字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的,ASCII,码混淆,在微型机汉字系统中,国标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为机内码或其他汉字处理代码的依据。,汉字编码标准,17,谢谢欣赏,2019-8-29,累计使用频度不足0.001%的汉字数量接近1万个。为了满足计,汉字国标码就是,GB 2312-80,为汉字规定的代码,也称为交换码。,国标码是汉字编码的国家标准。在,GB 2312-80,代码表中,纵向分为,093,,共,94,行;横向也是,093,,共,94,列。行与列分别用七位二进制码表示,第一字节表示行,第二字节表示列。其值都从,0100001,到,1111110,。这正是,ASCII,码的可打印字符的编码。其范围为十六进制的,217E,。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长,通常用十六进制表示。,例如:,汉字 第一字节 第二字节 十六进制 区位码,啊,0110000,0100001 3021 1601,保,0110001 0100011 3123 1703,播,0110010 0100101 3225 1805,国标码,18,谢谢欣赏,2019-8-29,汉字国标码就是GB 2312-80为汉字规定的代码,也称为交,国标码还可以表示成区位码的形式。在,GB2312-80,代码表中,将行号称为区号,列号称为位号,分别有,94,个区和,94,个位。将汉字置于其中,由区号与位号标识出汉字在代码表中的位置。,区号与位号都用两位十进制数表示,不足两位的前面补零。每个汉字或符号的区号和位号连起来就组成这个汉字或符号的区位码。,这样,每个汉字或其他符号都可以用位十进制数表示。因此,区位码可以用来作为汉字输入的编码。,区位码,19,谢谢欣赏,2019-8-29,国标码还可以表示成区位码的形式。在GB2312-80代码表中,区位码,在区位码表中,,19,区为字母、数字、特殊图形符号等;,1015,区是未定义的空区;,1655,区为一级汉字区;,5687,区为二级汉字区。例如,,“,啊,”,字的区位码是,1601,,,“,保,”,字的区位码是,1703,,,“,播,”,字的区位码是,1805,,等等。,区位码与国标码之间有一定的对应关系:,将区位码的区号和位号分别由十进制转换成对应的十六进制数,然后加上十六进制数,2020H,(,H,表示,2020,为十六进制数码),就得到对应的国标码。例如,,“,啊,”,字的区位码是,1601,,分别将区号和位号转换成对应的十六进
展开阅读全文