中文信息处理ChineseInationProcessing课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,中文信息处理-绪论,*,中文信息处理Chinese Information Processing,张宇,哈尔滨工业大学计算机科学与技术学院,zhangyuir.hit.edu,10/3/2024,1,中文信息处理-绪论,主要教材,朱巧明，李培峰，吴娴，朱晓旭等编著。,中文信息处理技术教程,，清华大学出版社。2019年9月第一版,Christopher D.Manning，Hinrich Schutze。,统计自然语言处理基础,，电子工业出版社。2019年1月第一次印刷,10/3/2024,2,中文信息处理-绪论,10/3/2024,3,中文信息处理-绪论,主要内容,信息处理,中文信息处理,计算机中文信息处理主要研究对象,现代汉语的特点,中文信息处理的发展,中文信息处理技术发展问题的探讨,10/3/2024,4,中文信息处理-绪论,信息,控制论创始人（维纳 Norbert Wiener）,信息既不是物质也不是能量，是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。,信息论奠基者（香农 Clause Shannon）,信息就是能够用来消除不确定性的东西，是一个事件发生概率的对数的负值,Robert M.Losee,信息可以被定义为一个处理过程的特征，这些特征就是输入和处理过程中产生的信息,10/3/2024,5,中文信息处理-绪论,信息的分类,按照计算机处理的信息形式,文本信息,多媒体信息,超媒体信息,按照信息的结构化程度,结构化信息,半结构化信息,非结构化信息,按照信息的保密程度,公开信息,一般保密信息,绝密信息,10/3/2024,6,中文信息处理-绪论,信息处理,信息处理,就是对信息的接收、存储、转化、传送和发布,信息的接收：包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等；,信息的存储：把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理；,信息的转化：把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处理；,信息的传送：把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地；,信息的发布：把信息通过各种表示形式展示出来。,10/3/2024,7,中文信息处理-绪论,中文信息处理,中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作，包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。,计算机科学技术百科全书,清华大学出版社，2019,10/3/2024,8,中文信息处理-绪论,计算机中文信息处理主要研究对象,汉字键盘输入技术,汉字输出技术,软件汉化技术,汉字字形识别技术,汉语语音识别技术,激光照排技术,中文平台,文本分类,信息检索,10/3/2024,9,中文信息处理-绪论,汉字键盘输入技术,汉字键盘输入技术是一种通过键盘使汉字进入计算机的技术,汉字编码,采用四位十进制数把常用的汉字用“0”9”十个数字按照次序进行编码,四角码（字形码）,用“0”9”十个数字键对汉字的四个角的形状进行编码,机内码,用2字节、3字节、4字节来表示一个汉字的机器内部码,国际标准化组织（ISO）、Unicode联盟以及IEEE下属的专门委员会研究制订的字符编码标准,10/3/2024,10,中文信息处理-绪论,汉字输出技术,汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式，并送输出设备输出,汉字字库,点阵字库,GB5199.1-2019和GB5007-2019是典型的16点阵和24点阵字库,矢量字库,采用矢量的方法，对每个汉字信息用一组矢量进行描述,10/3/2024,11,中文信息处理-绪论,软件汉化技术,软件汉化是把西文软件直接改造成中文软件的一种技术,西文操作系统汉化成中文操作系统,内核汉化,外挂汉化,西文应用软件经过汉化后能够具备处理中文的能力,界面的汉化,应用程序中中文的通行,10/3/2024,12,中文信息处理-绪论,汉字字形识别技术,汉字识别技术是利用计算机技术对汉字静态图形和动态汉字信息进行特征提取，与预先存储在计算机内的标准汉字特征信息进行匹配，并选择符合特征的汉字作为所需识别的汉字内码,联机识别,脱机识别,汉字字形识别过程,汉字识别前处理,汉字分类和判别,汉字识别后处理,10/3/2024,13,中文信息处理-绪论,汉语语音识别技术,汉语语音识别技术是自然语言处理的一个重要组成部分，包括语音的识别、处理、合成等,语音识别的过程,语音识别单元的选取,特征参数提取技术,模式匹配及模型训练技术,10/3/2024,14,中文信息处理-绪论,激光照排技术,激光照排，即电子排版系统,1946年，美国人发明了手动光学照相排版机,20世纪60年代，德国人制造了阴极射线管式照排,1975年，英国人开始了激光照排的研究,1974年8月，国家设立了748工程,10/3/2024,15,中文信息处理-绪论,中文平台,中文平台是指处理中文信息的软件系统的集合，包括支持中文的系统软件、支撑软件和应用软件,汉化平台：西文系统上外挂一层软件，使系统可以接收和输出汉字,API平台：操作系统提供有关中文信息处理所需要的一套API接口,中文平台：在API平台上再增加一些典型的与中文信息处理有关的应用软件工具或产品,10/3/2024,16,中文信息处理-绪论,文本分类,文本分类是一种确定文章所属类别的情报分析方法,基于词的归类技术,基于知识的归类技术,基于信息的归类技术,10/3/2024,17,中文信息处理-绪论,信息检索,文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面,索引的建立,自动分类,自动聚类,文摘（单文档文摘、多文档文摘）,检索结果的排序（ranking）,分布式信息检索,10/3/2024,18,中文信息处理-绪论,现代汉语的特点,语音,字形,词汇,句子,字频,词频,10/3/2024,19,中文信息处理-绪论,语音,汉字读音的标记方法,直音法,用一个汉字给另一个汉字进行注音,“厶”,“司”，“翯”“贺”,反切法,用两个汉字给另外一个汉字注音,“鲁”,“郎古切”，第一个汉字为声母，第二个汉字是韵母和声调,注音字符,汉语拼音,21个声母，35个韵母，4声调,10/3/2024,20,中文信息处理-绪论,字形,汉字结构,笔画,汉字字形最小连笔单位,五种基本笔画：横、竖、撇、点、折,部首,字形归类的部件，是字典根据汉字形体偏旁所分的门类,繁体字和简体字,“進”,“进”，“,裏,”“里”,繁体字和简体字并不是一一对应的关系,字序,义序、音序、形序,10/3/2024,21,中文信息处理-绪论,词汇1,词汇是语言中所有的词和短语的总和,汉语的词根和词缀,词根：意义实在、在合成内位置不固定的粘着语素（不能单独构成词的语素，如伟、丰、型）和自由语素（能独立成词的语素，如金、木、水、火、土）,词缀：意义不实在、在合成内位置固定在前或后的粘着语素,“筷子”,“筷”是词根语素，“子”是词缀语素,10/3/2024,22,中文信息处理-绪论,词汇2,词的种类,单纯词,由一个语素构成的词，如人、走、天,双音节连绵词，如鸳鸯、垃圾、琳琅、葡萄,音译词，如沙发（sofa），咖啡（coffee）,译自少数民族的地名，如哈尔滨、呼和浩特,合成词,重叠词：两个相同的词根相叠构成的词，如哥哥、姐姐、星星,附加词：由词根和词缀构成，如老虎、石头、刀子、桌子,复合词：内部结构基本上是和句法结构一致的，有主谓、偏正、联合等，如质量、体制、开关,10/3/2024,23,中文信息处理-绪论,句子,句子：能够表达一个相对完整意思的并且有一个特定语调的语言单位,汉语句子是“以意为本”的，生成的第一要素是语义,无论是否是主谓结构的，只要完成表意功能，就是一个句子,10/3/2024,24,中文信息处理-绪论,字频,字频：就是一个汉字的相对使用频率，也就是一个汉字使用次数与所统计的材料的总字数的比例,如果在一篇2000字的文章中，“的”使用了78次，则“的”的频率就是78/2000*100%=3.9%,在信息检索中有着重要的应用,文本分类,信息检索中索引表的建立,10/3/2024,25,中文信息处理-绪论,词频,词频：就是一个词的相对使用频率,对于词典的编撰、中文信息处理有着重要的作用,新词的出现：非典、超女、网友,信息检索,10/3/2024,26,中文信息处理-绪论,中文信息处理的发展,学习和理论探索的萌芽阶段,这一阶段以介绍国外计算语言学领域的理论方法为主,对国外相关领域的介绍，理论内容相对较少，主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告，是这方面的代表,早期将国外的理论方法进行全面系统汉化的主要刊物有：86年底创刊的中文信息学报、语言学界的国外语言学和语言文字应用,学者们在介绍国外先进的理论和方法同时，也有不少人结合汉语自身的特点，对这些理论和方法做了深入一步的探索，极少数人对自然语言理解做了深层次的带有哲学色彩的思考,80年代中期宁春岩发表的自然语言理解中的几个根本问题，以及他译介的美国哲学家休伯特.德雷福斯(Hubert L.Dreyfus)的专著计算机不能做什么-人工智能的极限,语言学界袁毓林1993年发表了自然语言理解的语言学假设,这些早期的的研究和探索对确立中文信息处理的宏观格局起到了决定性的作用，奠定了中文信息处理后期的理论基础,10/3/2024,27,中文信息处理-绪论,中文信息处理的发展,汉字信息处理为主的早期阶段,1974年周恩来总理亲自批准了“七四八”工程它标志着计算机,中文信息处理,技术受到了国家高度重视并且进入了他的第一个发展阶段汉字信息处理时代,10/3/2024,28,中文信息处理-绪论,中文信息处理的发展,字、词等表层处理为特征的初级阶段,北京大学开发的华光排版系统被评为1985年中国十大科技成就之一，并荣获中国发明协会发明奖,“六五”期间(1981-1985)，北京航空学院主持，中国人民大学等十几个院校，研究机构参加的“现代汉语词频统计”工程是这一阶段代表性的重大科研成果，这是国内首次使用计算机进行大规模语料(2000万字)的词频统计研究的大型语言工程,第一个汉语自动分词系统CDWS,建立了一个有13万余词条的计算机词典，研制了一个有52个属性的汉字信息库,1988年初，北京航空航天大学在承担国家“七五”科技攻关项目信息处理用规范现代汉语词库的同时，制定了信息处理用规范现代汉语分词规范,10/3/2024,29,中文信息处理-绪论,中文信息处理的发展,句法和语义等深层处理为代表的中期阶段,“八五”期间，,中文信息处理,技术的研究开发重点逐步由字，词的表层处理转向了以句法，语义分析为核心的深层处理,10/3/2024,30,中文信息处理-绪论,中文信息处理的发展,语料库统计方法兴起的近期阶段,1979年，武汉大学建设的汉语现代文学作品语料库，共计527万字，是我国最早的机器可读语料库,人民日报收集了48年的全部文字和图像内容，公开发行,北京大学计算语言学研究所与富士通公司(Fujitsu)合作，加工2700万字的人民日报语料库,2019年，清华大学建立了1亿汉字的语料库,着重研究歧义切分问题，现在生语料库已达7-8亿字,香港城市理工大学语言资讯科学研究中心建立了LIVAC(Linguistic variety in Chinese communities)语料库，其宗旨在于研究使用中文的各个地区使用语言的异同。总字数为15,234,551字，经过自动切词和人工校对之后总词数约为8,869,900词,用来翻译和研究各种不同语言对比的语料库,北大、哈工大、东北大学建立的英汉双语语料库,北京外国语大学的北京日本学研究中心建立了2000万字的汉语和日语并行语料库,10/3/202

展开阅读全文

中文信息处理ChineseInationProcessing课件

最新文档