中文信息处理概述-课件

上传人:9** 文档编号:252443864 上传时间:2024-11-15 格式:PPT 页数:45 大小:230.79KB
返回 下载 相关 举报
中文信息处理概述-课件_第1页
第1页 / 共45页
中文信息处理概述-课件_第2页
第2页 / 共45页
中文信息处理概述-课件_第3页
第3页 / 共45页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,对外经贸大学中文学院.对外汉语,*,中文信息处理概述,For,对外汉语方向本科生,中文信息处理概述For 对外汉语方向本科生,1,本章内容,释名,汉语的特点-中文信息处理的难点,中文信息处理的研究内容,汉语信息处理的主攻方向,中文信息处理的发展阶段,中文信息处理的现状,对当前中文信息处理现状的哲学反思,目前国内中文信息处理的主要力量和代表人物,对外经贸大学中文学院.对外汉语,本章内容释名对外经贸大学中文学院.对外汉语,2,释名,中文信息处理,(Chinese Information Processing),中文信息处理分为汉字信息处理与汉语信息处理两部分,是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。,中文信息处理是一门与语言学、计算机科学、心理学、数学、控制论、信息论、声学、自动化技术等多种学科相联系的边缘交叉性学科,是自然语言信息处理的一个分支。,汉字信息处理,(Chinese Character Information Processing),用计算机对汉字所表示的信息进行的操作和加工。,汉语信息处理既立足于汉字信息处理,,又区别于汉字信息处理。,处理对象不再是单个的汉字或字符串,,而是语言学的单位:词、短语、句子乃至篇章、文档集合。,两者之间也有联系,:,拼音汉字转换、简繁转换、,OCR,后处理、文献检索、语音识别与合成等等。,对外经贸大学中文学院.对外汉语,释名中文信息处理(Chinese Information P,3,释名,Chinese Information Processing,(,CIP,)中文信息处理,Chinese character Information Processing,汉字信息处理,CIP Chinese character(IT)=Chinese ideograph(Sinology),Chinese language Information Processing,汉语信息处理,L,anguage Information Processing,语言信息处理,(1),NLP/CIP,(2),Chinese-centered Multi-lingual Information Processing,以汉语为核心的多语言信息处理,对外经贸大学中文学院.对外汉语,释名Chinese Information Processi,4,汉语的特点-中文信息处理的难点,汉语文字文本的语言单位边界糢糊。,词间无间隔,人名、地名不大写,句子之间界限不清晰,汉字,完全使用由象形文字演化而来的方块汉字;,字是汉语表义的基本单位。一个汉字既可以只能作为构词成分,也可以独立成词,甚至可以独立成句,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点 汉语文字文本的语言单位,5,汉语的特点-中文信息处理的难点,词语,“词”无严格的形式定义,词本身也没有明显的形态标志,词没有形态变化;词性兼类现象严重,虚词常常省略,与实词形式上无区别,词性与句子成分之间无一一对应关系,中心谓语动词难以确定,多动词连用现象突出,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点词语对外经贸大学中文学院,6,汉语的特点-中文信息处理的难点,句子,结构松散,我上街买菜,看见一个人,穿着一件军大衣,打了卖菜的一巴掌,脸都肿了。,语法灵活,即缺乏狭义的形态,汉语句子中各个成分之间的关系一靠词序,二靠“意合”,三靠虚词,句子语序灵活,语句格式丰富,语义灵活,一方面语法的灵活主要来源于语义的灵活;另一方面同一结构可以表达不同的意思,同一意思可以用不同结构表达。,对外经贸大学中文学院.对外汉语,汉语的特点-中文信息处理的难点句子对外经贸大学中文学院,7,现代汉语研究现状,-之于中文信息处理,现代汉语研究和计算机使用的脱节,现代汉语研究已经大大滞后于中文信息处理的现实需求,一是过去的语言学知识主要是为人与人之间的交际服务的,不能完全适应人与机器的交流。,二是过去对现代汉语的研究,基本上都是在研究印欧语的理论和方法的框架内进行,汉语有很多现象是这些理论和方法解决不了的。,汉语的计算机理解比西方语言的理解困难得多?,对外经贸大学中文学院.对外汉语,现代汉语研究现状-之于中文信息处理现代汉语研究和计算,8,中文信息处理的研究内容,研究对象:文字和语音,语言单位和层面:字-词-句-篇,基础研究,基础理论:语言学,基础方法,人工智能:知识工程,机器学习,模式识别,神经计算,数学:模型理论,形式化理论,数理统计,基础技术,基础资源,基础系统/平台,应用研究,应用技术,应用资源,应用系统/平台,对外经贸大学中文学院.对外汉语,中文信息处理的研究内容 研究对象:文字和语音 对外经贸大学中,9,研究对象,文字,汉字键盘输入技术,汉字输入技术,软件汉化技术,汉字字形识别技术,激光照排技术,文本分类,信息检索,语音,汉语语音识别技术,汉语语音合成技术,对外经贸大学中文学院.对外汉语,研究对象文字语音对外经贸大学中文学院.对外汉语,10,语言单位和层面,字,汉字编码技术,汉字输入技术,汉字字形和字形库管理技术,汉字输出技术,词,汉语分词,句篇,中文信息检索,中文信息抽取,中文文本分类技术,对外经贸大学中文学院.对外汉语,语言单位和层面字对外经贸大学中文学院.对外汉语,11,汉语信息处理的主攻方向,两个实例,两个实例,实例一,关于自动升降晾衣架的对话,妻子:“嘿,过了一年才坏。”,丈夫:“什么呀,才一年就坏了。”,丈夫理解了妻子的意思吗?,虚词词义:才(数量词前后,意义不同),背景知识:保修期,知识激活机制?,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向两个实例 两个实例虚词词义:才(,12,汉语信息处理的主攻方向,两个实例,实例二,关于,“,沙漠化,”,的文章,“,几年前由于种植籽瓜有利可图,使大批的种植者就到过渡带来开垦,,。在这样的绿洲和沙漠过渡带开垦,极易造成风蚀。,”,2019,年,9,月号,就,/,到,/,就到,/,到,/,到过,/,过,/,过渡,/,带,/,来,/,带来,/,未登录词的识别,知识背景,认知机制,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向两个实例 实例二未登录词的识别对,13,汉语信息处理的主攻方向,歧义消解,词的切分,白天鹅,计算机程序可以按某种算法实现这种切分,给出一种或多种结果。对否?,白天鹅飞过来了白/天鹅/飞/过来/了,白天鹅可以看家白天/鹅/可以/看/家/,白天鹅在湖里游泳白/天鹅/?白天/鹅/?,白天鹅/-白/天鹅/-白天/鹅/-白/天/鹅/,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向歧义消解词的切分白天鹅/-白/天,14,汉语信息处理的主攻方向,同形词辨析,只,这只会测水温的鸭子,这/r 只/q 会/v 测/v 水温/n 的/u 鸭子/n,挺有用的,这/r 只/d 会/v 测/v 水温/n 的/u 鸭子/n,没什么用,这/只/会/测/水温/的/鸭子/(切分无歧义),量词,q zhi1,?副词,d zhi3,?,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向同形词辨析这/r 只/q 会/v,15,汉语信息处理的主攻方向,词性歧义,读音相同的,“,连,”,也有不同的词性(意义),:,一个连有三个排“连”是名词,n,我们兄弟心连心“连”是动词,v,苹果可以连皮吃“连”是介词,p,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向词性歧义对外经贸大学中文学院.对外汉语,16,汉语信息处理的主攻方向,词义辨析,讲真话,讲卫生,中国队大胜/败美国队。,对外经贸大学两个灯只亮一个,不过就是亮两个也不亮。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向词义辨析讲真话对外经贸大学中文学院.对,17,汉语信息处理的主攻方向,短语结构歧义,m+q+n+“,的,”+n,三个大学的老师三,/m,个,/q,大学,/n,的,/u,老师,/n,三,/m,个,/q,大学,/n,的,/u,老师,/n,三,/m,个,/q,大学,/n,的,/u,老师,/n ,三所大学的老师,三,/m,所,/q,大学,/n,的,/u,老师,/n,三位大学的老师,三,/m,位,/q,大学,/n,的,/u,老师,/n ,小王和小李的妹妹,李娜和郑洁的老公都是教练。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向短语结构歧义 三/m 个/q,18,汉语信息处理的主攻方向,句法结构歧义,例1 会员选举他当主席,例2 学生认为他是校长,n+v+r+v+n,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向句法结构歧义对外经贸大学中文学院.对外,19,汉语信息处理的主攻方向,语义歧义以及依赖语境的歧义消解,汉语语义分析(切分、标注、句法分析都无歧义),熊猫/n 吃/v 竹笋/n,学生/n 吃/v 食堂/n,民工/n 吃/v 大碗/n,老师/n 写/v 毛笔/n,汉语语义指向分析,写/v 好/a 了/u(文章),写/v 累/a 了/u(老师),写/v 秃/a 了/u(毛笔),汉语语境分析,小张/n 打针/v 去/v 了/u,北京的春天来了,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向语义歧义以及依赖语境的歧义消解对外经贸,20,汉语信息处理的主攻方向,长句与句号、逗号,中文中常有长句子,一逗到底。例:,“,新一届测绘学名词审定委员会的主要特点是年青化,吸收了一些工作在教学、科研前沿的青年专家学者,充分发挥他们接触新知识多,对工作热情高、活力大的特长,同中老年专家共同做好新一届委员会的名词审定工作。,”,形式上的一句话包含100多个汉字。除第一个分句外,后面的分句都没有主语。,1.,你得藏在一个你看得见他,可是他看不见你的地方。,2.,车臣武装分子和世界其他地区的恐怖分子是一丘之貉,应该合力打击他们。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向长句与句号、逗号 对外经贸大学中文学院,21,汉语信息处理的主攻方向,指代与省略,小明要求他爸爸给他弟弟买一件他喜欢的衣服,他同意了。,重庆队得88分,客场负于台湾队2分。,时态、语态、语气,我在家里。(be),我在家里看书。(in),我在看书。(-ing),你在干什么?看书。,你喜欢干什么?看书。,如果我是你,我就去了。,如果我有时间,我就去。,对外经贸大学中文学院.对外汉语,汉语信息处理的主攻方向指代与省略对外经贸大学中文学院.对外汉,22,中文信息处理的发展阶段,字处理,词处理,句处理,篇章处理,汉字编码,汉字输入,汉字显示,字频统计,句模研究,句型研究,句义理解,语境萃取,舆情监控,热点分析,分词规范,词的切分,词频统计,词性标注,词义标注,短语捆绑,专名识别,新词发现,对外经贸大学中文学院.对外汉语,中文信息处理的发展阶段字处理词处理句处理篇章处理汉字编码汉字,23,中文信息处理的发展阶段,学习和理论探索的萌芽阶段,汉字信息处理为主的早期阶段,字、词等表层处理为特征的初级阶段,句法和语义等深层处理为代表的中期阶段,语料库统计方法兴起的近期阶段,以,Internet,为主要应用对象,大规模真实文本,智能信息访问的现阶段,对外经贸大学中文学院.对外汉语,中文信息处理的发展阶段学习和理论探索的萌芽阶段对外经贸大学中,24,学习和理论探索的萌芽阶段,这一阶段以介绍国外计算语言学领域的理论方法为主。,对国外相关领域的介绍,理论内容相对较少,主要偏重在各种上机实现的系统方面。范继淹、徐志敏、李家治、陈永明、冯志伟等人的介绍及其所研制的实验系统报告,是这方面的代表。早期将国外的理论方法进行全面系统汉化的主要刊物有:86年底创刊的中文信息学报,语言学界的国外语言学和语言文字应用。,学者们在介绍国外先进的理论和方法同时,也有不少人结合汉语自身的特点
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!