中文信息处理课件

上传人:vosvybf****vycfil... 文档编号:240979159 上传时间:2024-05-22 格式:PPT 页数:32 大小:175.78KB
返回 下载 相关 举报
中文信息处理课件_第1页
第1页 / 共32页
中文信息处理课件_第2页
第2页 / 共32页
中文信息处理课件_第3页
第3页 / 共32页
点击查看更多>>
资源描述
中文信息处理Chinese Information Processingxxx哈尔滨工业大学计算机科学与技术学院哈尔滨工业大学计算机科学与技术学院1 1感谢你的观看感谢你的观看20192019年年8 8月月2828中文信息处理Chinese Information Pro20192019年年8 8月月2828感谢你的观看感谢你的观看2 2主要内容l l信息处理l l中文信息处理l l计算机中文信息处理主要研究对象l l现代汉语的特点l l中文信息处理的发展l l中文信息处理技术发展问题的探讨2019年8月28感谢你的观看2主要内容信息处理20192019年年8 8月月2828感谢你的观看感谢你的观看3 3信息l l控控制制论论创创始始人人(维维纳纳 N No or rb be er rt t WWi ie en ne er r)l l信信息息既既不不是是物物质质也也不不是是能能量量,是是人人类类在在适适应应外外部部世世界界时时以以及及在在感感知知外外部部世世界界时时而而作作出出协协调调时时与与外外部部环环境境交交换换内内容容的的总总和和。l l信信息息论论奠奠基基者者(香香农农 C Cl la au us se e S Sh ha an nn no on n)l l信信息息就就是是能能够够用用来来消消除除不不确确定定性性的的东东西西,是是一一个个事事件件发发生生概概率率的的对对数数的的负负值值l lR Ro ob be er rt t MM.L Lo os se ee el l信信息息可可以以被被定定义义为为一一个个处处理理过过程程的的特特征征,这这些些特特征征就就是是输输入入和和处处理理过过程程中中产产生生的的信信息息2019年8月28感谢你的观看3信息控制论创始人(维纳 No20192019年年8 8月月2828感谢你的观看感谢你的观看4 4信息的分类l l按按照照计计算算机机处处理理的的信信息息形形式式l l文文本本信信息息l l多多媒媒体体信信息息l l超超媒媒体体信信息息l l按按照照信信息息的的结结构构化化程程度度l l结结构构化化信信息息l l半半结结构构化化信信息息l l非非结结构构化化信信息息l l按按照照信信息息的的保保密密程程度度l l公公开开信信息息l l一一般般保保密密信信息息l l绝绝密密信信息息2019年8月28感谢你的观看4信息的分类按照计算机处理的信20192019年年8 8月月2828感谢你的观看感谢你的观看5 5信息处理l l信信息息处处理理就就是是对对信信息息的的接接收收、存存储储、转转化化、传传送送和和发发布布l l信信息息的的接接收收:包包括括信信息息的的感感知知、信信息息的的测测量量、信信息息的的识识别别、信信息息的的获获取取以以及及信信息息的的输输入入等等;l l信信息息的的存存储储:把把接接收收到到的的信信息息或或转转换换、传传送送或或发发布布中中间间的的信信息息通通过过存存储储设设备备进进行行缓缓冲冲、保保存存、备备份份等等处处理理;l l信信息息的的转转化化:把把信信息息根根据据人人们们的的特特定定需需要要进进行行分分类类、计计算算、分分析析、检检索索、管管理理和和综综合合等等处处理理;l l信信息息的的传传送送:把把信信息息通通过过计计算算机机内内部部的的指指令令或或者者计计算算机机之之间间构构成成的的网网络络从从一一地地传传送送到到另另外外一一地地;l l信信息息的的发发布布:把把信信息息通通过过各各种种表表示示形形式式展展示示出出来来。2019年8月28感谢你的观看5信息处理信息处理就是对信息的20192019年年8 8月月2828感谢你的观看感谢你的观看6 6中文信息处理中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。计算机科学技术百科全书清华大学出版社,19982019年8月28感谢你的观看6中文信息处理中文信息处理是用20192019年年8 8月月2828感谢你的观看感谢你的观看7 7计算机中文信息处理主要研究对象l l汉汉字字键键盘盘输输入入技技术术l l汉汉字字输输出出技技术术l l软软件件汉汉化化技技术术l l汉汉字字字字形形识识别别技技术术l l汉汉语语语语音音识识别别技技术术l l激激光光照照排排技技术术l l中中文文平平台台l l文文本本分分类类l l信信息息检检索索2019年8月28感谢你的观看7计算机中文信息处理主要研究对20192019年年8 8月月2828感谢你的观看感谢你的观看8 8汉字键盘输入技术l l汉汉字字键键盘盘输输入入技技术术是是一一种种通通过过键键盘盘使使汉汉字字进进入入计计算算机机的的技技术术l l汉汉字字编编码码l l采采用用四四位位十十进进制制数数把把常常用用的的汉汉字字用用“0 0”9 9”十十个个数数字字按按照照次次序序进进行行编编码码l l四四角角码码(字字形形码码)l l用用“0 0”9 9”十十个个数数字字键键对对汉汉字字的的四四个个角角的的形形状状进进行行编编码码l l机机内内码码l l用用2 2字字节节、3 3字字节节、4 4字字节节来来表表示示一一个个汉汉字字的的机机器器内内部部码码l l国国际际标标准准化化组组织织(I IS SOO)、U Un ni ic co od de e联联盟盟以以及及I IE EE EE E下下属属的的专专门门委委员员会会研研究究制制订订的的字字符符编编码码标标准准2019年8月28感谢你的观看8汉字键盘输入技术汉字键盘输入20192019年年8 8月月2828感谢你的观看感谢你的观看9 9汉字输出技术l l汉字输出是指把存储在计算机内的汉字字形信息转换成符合显示或打印需要的形式,并送输出设备输出l l汉字字库l l点点阵阵字字库库l lGGB B5 51 19 99 9.1 1-2 20 00 01 1和和GGB B5 50 00 07 7-2 20 00 01 1是是典典型型的的1 16 6点点阵阵和和2 24 4点点阵阵字字库库l l矢矢量量字字库库l l采采用用矢矢量量的的方方法法,对对每每个个汉汉字字信信息息用用一一组组矢矢量量进进行行描描述述2019年8月28感谢你的观看9汉字输出技术汉字输出是指把存20192019年年8 8月月2828感谢你的观看感谢你的观看1010软件汉化技术l l软件汉化是把西文软件直接改造成中文软件的一种技术l l西西文文操操作作系系统统汉汉化化成成中中文文操操作作系系统统l l内内核核汉汉化化l l外外挂挂汉汉化化l l西西文文应应用用软软件件经经过过汉汉化化后后能能够够具具备备处处理理中中文文的的能能力力l l界界面面的的汉汉化化l l应应用用程程序序中中中中文文的的通通行行2019年8月28感谢你的观看10软件汉化技术软件汉化是把西20192019年年8 8月月2828感谢你的观看感谢你的观看1111汉字字形识别技术l l汉汉字字识识别别技技术术是是利利用用计计算算机机技技术术对对汉汉字字静静态态图图形形和和动动态态汉汉字字信信息息进进行行特特征征提提取取,与与预预先先存存储储在在计计算算机机内内的的标标准准汉汉字字特特征征信信息息进进行行匹匹配配,并并选选择择符符合合特特征征的的汉汉字字作作为为所所需需识识别别的的汉汉字字内内码码l l联联机机识识别别l l脱脱机机识识别别l l汉汉字字字字形形识识别别过过程程l l汉汉字字识识别别前前处处理理l l汉汉字字分分类类和和判判别别l l汉汉字字识识别别后后处处理理2019年8月28感谢你的观看11汉字字形识别技术汉字识别技20192019年年8 8月月2828感谢你的观看感谢你的观看1212汉语语音识别技术l l汉语语音识别技术是自然语言处理的一个重要组成部分,包括语音的识别、处理、合成等l l语音识别的过程l l语语音音识识别别单单元元的的选选取取l l特特征征参参数数提提取取技技术术l l模模式式匹匹配配及及模模型型训训练练技技术术2019年8月28感谢你的观看12汉语语音识别技术汉语语音识20192019年年8 8月月2828感谢你的观看感谢你的观看1313激光照排技术l l激光照排,即电子排版系统l l1 19 94 46 6年年,美美国国人人发发明明了了手手动动光光学学照照相相排排版版机机l l2 20 0世世纪纪6 60 0年年代代,德德国国人人制制造造了了阴阴极极射射线线管管式式照照排排l l1 19 97 75 5年年,英英国国人人开开始始了了激激光光照照排排的的研研究究l l1 19 97 74 4年年8 8月月,国国家家设设立立了了7 74 48 8工工程程2019年8月28感谢你的观看13激光照排技术激光照排,即电20192019年年8 8月月2828感谢你的观看感谢你的观看1414中文平台l l中文平台是指处理中文信息的软件系统的集合,包括支持中文的系统软件、支撑软件和应用软件l l汉汉化化平平台台:西西文文系系统统上上外外挂挂一一层层软软件件,使使系系统统可可以以接接收收和和输输出出汉汉字字l lA AP PI I平平台台:操操作作系系统统提提供供有有关关中中文文信信息息处处理理所所需需要要的的一一套套A AP PI I接接口口l l中中文文平平台台:在在A AP PI I平平台台上上再再增增加加一一些些典典型型的的与与中中文文信信息息处处理理有有关关的的应应用用软软件件工工具具或或产产品品2019年8月28感谢你的观看14中文平台中文平台是指处理中20192019年年8 8月月2828感谢你的观看感谢你的观看1515文本分类l l文本分类是一种确定文章所属类别的情报分析方法l l基基于于词词的的归归类类技技术术l l基基于于知知识识的的归归类类技技术术l l基基于于信信息息的的归归类类技技术术2019年8月28感谢你的观看15文本分类文本分类是一种确定20192019年年8 8月月2828感谢你的观看感谢你的观看1616信息检索l l文本检索包括了文本信息的存储、组织、表现、查询及存取等各个方面l l索索引引的的建建立立l l自自动动分分类类l l自自动动聚聚类类l l文文摘摘(单单文文档档文文摘摘、多多文文档档文文摘摘)l l检检索索结结果果的的排排序序(r ra an nk ki in ng g)l l分分布布式式信信息息检检索索l l2019年8月28感谢你的观看16信息检索文本检索包括了文本20192019年年8 8月月2828感谢你的观看感谢你的观看1717现代汉语的特点l l语音l l字形l l词汇l l句子l l字频l l词频2019年8月28感谢你的观看17现代汉语的特点语音20192019年年8 8月月2828感谢你的观看感谢你的观看1818语音l l汉汉字字读读音音的的标标记记方方法法l l直直音音法法l l用用一一个个汉汉字字给给另另一一个个汉汉字字进进行行注注音音l l“厶厶”“司司”,“翯翯”“贺贺”l l反反切切法法l l用用两两个个汉汉字字给给另另外外一一个个汉汉字字注注音音l l“鲁鲁”“郎郎古古切切”,第第一一个个汉汉字字为为声声母母,第第二二个个汉汉字字是是韵韵母母和和声声调调l l注注音音字字符符l l汉汉语语拼拼音音l l2 21 1个个声声母母,3 35 5个个韵韵母母,4 4声声调调2019年8月28感谢你的观看18语音汉字读音的标记方法20192019年年8 8月月2828感谢你的观看感谢你的观看1919字形l l汉汉字字结结构构l l笔笔画画l l汉汉字字字字形形最最小小连连笔笔单单位位l l五五种种基基本本笔笔画画:横横、竖竖、撇撇、点点、折折l l部部首首l l字字形形归归类类的的部部件件,是是字字典典根根据据汉汉字字形形体体偏偏旁旁所所分分的的门门类类l l繁繁体体字字和和简简体体字字l l“進進”“进进”,“裏裏”“里里”l l繁繁体体字字和和简简体体字字并并不不是是一一一一对对应应的的关关系系l l字字序序l l义义序序、音音序序、形形序序2019年8月28感谢你的观看19字形汉字结构20192019年年8 8月月2828感谢你的观看感谢你的观看2020词汇1l l词汇是语言中所有的词和短语的总和l l汉语的词根和词缀l l词词根根:意意义义实实在在、在在合合成成内内位位置置不不固固定定的的粘粘着着语语素素(不不能能单单独独构构成成词词的的语语素素,如如伟伟、丰丰、型型)和和自自由由语语素素(能能独独立立成成词词的的语语素素,如如金金、木木、水水、火火、土土)l l词词缀缀:意意义义不不实实在在、在在合合成成内内位位置置固固定定在在前前或或后后的的粘粘着着语语素素l l“筷筷子子”“筷筷”是是词词根根语语素素,“子子”是是词词缀缀语语素素2019年8月28感谢你的观看20词汇1词汇是语言中所有的词20192019年年8 8月月2828感谢你的观看感谢你的观看2121词汇2l l词词的的种种类类l l单单纯纯词词l l由由一一个个语语素素构构成成的的词词,如如人人、走走、天天l l双双音音节节连连绵绵词词,如如鸳鸳鸯鸯、垃垃圾圾、琳琳琅琅、葡葡萄萄l l音音译译词词,如如沙沙发发(s so of fa a),咖咖啡啡(c co of ff fe ee e)l l译译自自少少数数民民族族的的地地名名,如如哈哈尔尔滨滨、呼呼和和浩浩特特l l合合成成词词l l重重叠叠词词:两两个个相相同同的的词词根根相相叠叠构构成成的的词词,如如哥哥哥哥、姐姐姐姐、星星星星l l附附加加词词:由由词词根根和和词词缀缀构构成成,如如老老虎虎、石石头头、刀刀子子、桌桌子子l l复复合合词词:内内部部结结构构基基本本上上是是和和句句法法结结构构一一致致的的,有有主主谓谓、偏偏正正、联联合合等等,如如质质量量、体体制制、开开关关2019年8月28感谢你的观看21词汇2词的种类20192019年年8 8月月2828感谢你的观看感谢你的观看2222句子l l句子:能够表达一个相对完整意思的并且有一个特定语调的语言单位l l汉语句子是“以意为本”的,生成的第一要素是语义l l无无论论是是否否是是主主谓谓结结构构的的,只只要要完完成成表表意意功功能能,就就是是一一个个句句子子2019年8月28感谢你的观看22句子句子:能够表达一个相对20192019年年8 8月月2828感谢你的观看感谢你的观看2323字频l l字频:就是一个汉字的相对使用频率,也就是一个汉字使用次数与所统计的材料的总字数的比例l l如如果果在在一一篇篇2 20 00 00 0字字的的文文章章中中,“的的”使使用用了了7 78 8次次,则则“的的”的的频频率率就就是是7 78 8/2 20 00 00 0*1 10 00 0%=3 3.9 9%l l在信息检索中有着重要的应用l l文文本本分分类类l l信信息息检检索索中中索索引引表表的的建建立立l l2019年8月28感谢你的观看23字频字频:就是一个汉字的相20192019年年8 8月月2828感谢你的观看感谢你的观看2424词频l l词频:就是一个词的相对使用频率l l对于词典的编撰、中文信息处理有着重要的作用l l新新词词的的出出现现:非非典典、超超女女、网网友友l l信信息息检检索索2019年8月28感谢你的观看24词频词频:就是一个词的相对20192019年年8 8月月2828感谢你的观看感谢你的观看2525中文信息处理的发展l l学学习习和和理理论论探探索索的的萌萌芽芽阶阶段段l l这这一一阶阶段段以以介介绍绍国国外外计计算算语语言言学学领领域域的的理理论论方方法法为为主主l l对对国国外外相相关关领领域域的的介介绍绍,理理论论内内容容相相对对较较少少,主主要要偏偏重重在在各各种种上上机机实实现现的的系系统统方方面面。范范继继淹淹、徐徐志志敏敏、李李家家治治、陈陈永永明明、冯冯志志伟伟等等人人的的介介绍绍及及其其所所研研制制的的实实验验系系统统报报告告,是是这这方方面面的的代代表表l l早早期期将将国国外外的的理理论论方方法法进进行行全全面面系系统统汉汉化化的的主主要要刊刊物物有有:8 86 6年年底底创创刊刊的的中中文文信信息息学学报报、语语言言学学界界的的国国外外语语言言学学和和语语言言文文字字应应用用l l学学者者们们在在介介绍绍国国外外先先进进的的理理论论和和方方法法同同时时,也也有有不不少少人人结结合合汉汉语语自自身身的的特特点点,对对这这些些理理论论和和方方法法做做了了深深入入一一步步的的探探索索,极极少少数数人人对对自自然然语语言言理理解解做做了了深深层层次次的的带带有有哲哲学学色色彩彩的的思思考考l l8 80 0年年代代中中期期宁宁春春岩岩发发表表的的自自然然语语言言理理解解中中的的几几个个根根本本问问题题,以以及及他他译译介介的的美美国国哲哲学学家家休休伯伯特特.德德雷雷福福斯斯(H Hu ub be er rt t L L.D Dr re ey yf fu us s)的的专专著著计计算算机机不不能能做做什什么么-人人工工智智能能的的极极限限l l语语言言学学界界袁袁毓毓林林1 19 99 93 3年年发发表表了了自自然然语语言言理理解解的的语语言言学学假假设设l l这这些些早早期期的的的的研研究究和和探探索索对对确确立立中中文文信信息息处处理理的的宏宏观观格格局局起起到到了了决决定定性性的的作作用用,奠奠定定了了中中文文信信息息处处理理后后期期的的理理论论基基础础 2019年8月28感谢你的观看25中文信息处理的发展学习和理20192019年年8 8月月2828感谢你的观看感谢你的观看2626中文信息处理的发展l l汉字信息处理为主的早期阶段l l1 19 97 74 4年年周周恩恩来来总总理理亲亲自自批批准准了了“七七四四八八”工工程程它它标标志志着着计计算算机机中中中中文文文文信信信信息息息息处处处处理理理理技技术术受受到到了了国国家家高高度度重重视视并并且且进进入入了了他他的的第第一一个个发发展展阶阶段段汉汉字字信信息息处处理理时时代代2019年8月28感谢你的观看26中文信息处理的发展汉字信息20192019年年8 8月月2828感谢你的观看感谢你的观看2727中文信息处理的发展l l字字、词词等等表表层层处处理理为为特特征征的的初初级级阶阶段段l l北北京京大大学学开开发发的的华华光光排排版版系系统统被被评评为为1 19 98 85 5年年中中国国十十大大科科技技成成就就之之一一,并并荣荣获获中中国国发发明明协协会会发发明明奖奖l l“六六五五”期期间间(1 19 98 81 1-1 19 98 85 5),北北京京航航空空学学院院主主持持,中中国国人人民民大大学学等等十十几几个个院院校校,研研究究机机构构参参加加的的“现现代代汉汉语语词词频频统统计计”工工程程是是这这一一阶阶段段代代表表性性的的重重大大科科研研成成果果,这这是是国国内内首首次次使使用用计计算算机机进进行行大大规规模模语语料料(2 20 00 00 0万万字字)的的词词频频统统计计研研究究的的大大型型语语言言工工程程l l第第一一个个汉汉语语自自动动分分词词系系统统C CD DWWS S,建建立立了了一一个个有有1 13 3万万余余词词条条的的计计算算机机词词典典,研研制制了了一一个个有有5 52 2个个属属性性的的汉汉字字信信息息库库l l1 19 98 88 8年年初初,北北京京航航空空航航天天大大学学在在承承担担国国家家“七七五五”科科技技攻攻关关项项目目信信息息处处理理用用规规范范现现代代汉汉语语词词库库的的同同时时,制制定定了了信信息息处处理理用用规规范范现现代代汉汉语语分分词词规规范范2019年8月28感谢你的观看27中文信息处理的发展字、词等20192019年年8 8月月2828感谢你的观看感谢你的观看2828中文信息处理的发展l l句法和语义等深层处理为代表的中期阶段l l“八八五五”期期间间,中中中中文文文文信信信信息息息息处处处处理理理理技技术术的的研研究究开开发发重重点点逐逐步步由由字字,词词的的表表层层处处理理转转向向了了以以句句法法,语语义义分分析析为为核核心心的的深深层层处处理理2019年8月28感谢你的观看28中文信息处理的发展句法和语20192019年年8 8月月2828感谢你的观看感谢你的观看2929中文信息处理的发展l l语语料料库库统统计计方方法法兴兴起起的的近近期期阶阶段段l l1 19 97 79 9年年,武武汉汉大大学学建建设设的的汉汉语语现现代代文文学学作作品品语语料料库库,共共计计5 52 27 7万万字字,是是我我国国最最早早的的机机器器可可读读语语料料库库l l人人民民日日报报收收集集了了4 48 8年年的的全全部部文文字字和和图图像像内内容容,公公开开发发行行l l北北京京大大学学计计算算语语言言学学研研究究所所与与富富士士通通公公司司(F Fu uj ji it ts su u)合合作作,加加工工2 27 70 00 0万万字字的的人人民民日日报报 语语料料库库l l1 19 99 98 8年年,清清华华大大学学建建立立了了1 1亿亿汉汉字字的的语语料料库库,着着重重研研究究歧歧义义切切分分问问题题,现现在在生生语语料料库库已已达达7 7-8 8亿亿字字l l香香港港城城市市理理工工大大学学语语言言资资讯讯科科学学研研究究中中心心建建立立了了L LI IV VA AC C(L Li in ng gu ui is st ti ic c v va ar ri ie et ty y i in n C Ch hi in ne es se e c co ommmmu un ni it ti ie es s)语语料料库库,其其宗宗旨旨在在于于研研究究使使用用中中文文的的各各个个地地区区使使用用语语言言的的异异同同。总总字字数数为为1 15 5,2 23 34 4,5 55 51 1字字,经经过过自自动动切切词词和和人人工工校校对对之之后后总总词词数数约约为为8 8,8 86 69 9,9 90 00 0词词l l用用来来翻翻译译和和研研究究各各种种不不同同语语言言对对比比的的语语料料库库l l北北大大、哈哈工工大大、东东北北大大学学建建立立的的英英汉汉双双语语语语料料库库l l北北京京外外国国语语大大学学的的北北京京日日本本学学研研究究中中心心建建立立了了2 20 00 00 0万万字字的的汉汉语语和和日日语语并并行行语语料料库库2019年8月28感谢你的观看29中文信息处理的发展语料库统20192019年年8 8月月2828感谢你的观看感谢你的观看3030中文信息处理的发展l l以Internet为主要应用对象,大规模真实文本,智能信息访问的现阶段 l lI In nt te er rn ne et t迅迅猛猛发发展展,根根据据中中国国互互联联网网络络信信息息中中心心发发布布的的报报告告,截截止止到到2 20 00 02 2年年6 6月月3 30 0日日,中中国国上上网网计计算算机机总总数数1 16 61 13 3万万,上上网网用用户户总总数数4 45 58 80 0万万l l主主要要需需求求有有信信息息分分类类,信信息息提提取取,自自动动问问答答,基基于于内内容容的的快快速速信信息息检检索索,基基于于个个性性的的信信息息推推送送,数数字字化化图图书书馆馆和和信信息息网网格格等等2019年8月28感谢你的观看30中文信息处理的发展以Int20192019年年8 8月月2828感谢你的观看感谢你的观看3131中文信息处理技术发展问题的探讨l l汉语言学家没有为中中文文信信息息处处理理作好语言分析的准备,长期以来,对汉语的研究方法基本上是例举性的,而非穷尽的;材料和对象基本上是书面的,而非口语的l l中中文文信信息息处处理理研究力量分散而且存在着低层次重复,缺乏统一规范和标准的问题l l现代汉语研究领域和计算机领域的隔绝状态没有出现根本性的改变2019年8月28感谢你的观看31中文信息处理技术发展问题的20192019年年8 8月月2828感谢你的观看感谢你的观看32322019年8月28感谢你的观看32
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!