张孝飞自然语言处理.ppt

上传人:tian****1990 文档编号:11532888 上传时间:2020-04-27 格式:PPT 页数:70 大小:243.51KB
返回 下载 相关 举报
张孝飞自然语言处理.ppt_第1页
第1页 / 共70页
张孝飞自然语言处理.ppt_第2页
第2页 / 共70页
张孝飞自然语言处理.ppt_第3页
第3页 / 共70页
点击查看更多>>
资源描述
第三章中文信息处理,第一节中文信息处理概述第二节汉字信息处理第三节中文自动分词和词性标注第四节中文句处理,第一节中文信息处理概述,一、中文信息处理及其研究内容二、国内中文信息处理的发展三、中文信息处理面临的挑战,一、中文信息处理及研究内容,一、什么是中文信息处理语言的最重要的社会功能是人与人之间交流的工具,但随着计算机技术的发展以及计算机在各个领域中运用范围的扩大,语言的使用范围也逐渐扩展到用于人与计算机之间的信息交流,因此如何让计算机像人一样理解自然语言的问题日益受到人们的重视,并逐步形成了一门跨语言学、计算机科学等的综合性学科自然语言处理(简称NLP)。所谓自然语言处理就是运用计算机技术来研究和处理自然语言的交叉性学科。其主要目标是要让计算机懂得和理解人类的自然语言,也就是要使计算机能模拟人的语言机制。目前,它已成为一门重要的新兴边缘学科。它的出现“使得语言学在现代科学体系中的地位有了明显的变化,使语言学由一门基础科学变成了领先科学,获得了与数学、哲学同等的地位,语言学将成为人文科学发展的突破点和生长点,它的重要意义已为越来越多的人所认识。,中文特指汉民族的语言文字,也就是汉语的书面形式和口头形式,是众多自然语言中的一种。作为自然语言处理研究的一个部分,中文信息处理指的是用计算机对中文(包括汉语的书面语和口语)进行存贮、转换、分析、传输等加工以形成各种信息处理系统的科学。二、中文信息处理研究的范围中文信息处理是一个多层次的结构,主要包括中文“字”处理“、词”处理和“句”处理几个方面。其应用领域主要涉及:情报(信息)自动检索、语音识别与合成、索引、词表和词典的编纂、语料库建设、方言研究、人机对话、机器翻译、语言测试以及计算机辅助语言教学等。国家语委语料库http:/202.114.40.175:8080/cqs/query/search_words?query=%E5%A5%A5%E8%BF%90%E4%BC%9A&year_start=1900&year_end=2000&category=&subcategory=&sort_type=0&show_type=1北京大学语料库,二、国内中文信息处理的发展,第一台电子计算机问世后,学者们将之运用于语言翻译,机器翻译成为20世纪50-60年代自然语言处理的中心课题。中文信息处理的研究在我国已有近50年的历史。早在1956年,我国学者就提出了研制中文电动打字机以及用汉字编码方法把汉字转换成信息代码进行传输等问题,引起了国内外学者的关注。1958年,新华社、邮电部、中央机要局合作设计了鼓轮式中文电传机。1959年中国科学院计算技术研究所和语言研究所合作,在我国试制的第一台电子计算机上进行了俄汉机器翻译试验,这是中文信息和计算机的最早结合。1969年邮电科学研究院试制成功我国第一台电子式中文电报快速收报机,揭开了用计算机技术处理汉字信息的序幕。1978年在青岛成立了全国汉字编码研究会,这是我国中文信息处理方面的第一个学术团体。1981年在天津成立了中国中文信息研究会,后来改称中国中文信息学会,,欧美和日本也有不少学者研究中文信息处理,美国有中文计算机学会,日本有信息处理学会,都进行中文信息处理的研究。20世纪80年代以后国内学者不断将国外有关自然语言处理的理论和方法引进、介绍到国内,结合汉语的特点,探讨中文信息处理的有关理论问题。这些语法理论大致可以分为两类:一类侧重从语言事实中发现范畴,建立规则。像美国的描写语言学理论(结构主义语法)、法国特尼埃尔的依存语法(配价语法)、菲尔摩的格语法、以韩礼德为代表的系统功能语法、倡导的认知语法等都属于这一类。另一类侧重如何将已发现的语言知识用一定的形式化方式加以描述。从乔姆斯基转换生成语法理论到后来与之相关的一系列语法理论,如扩充转移网络、支配约束理论、功能合一语法、范畴语法等。80年代后期,出台了“信息处理用现代汉语分词规范(”中国国家标准,开发了基本达到实用要求的中文自动分词以及自动词性标注系统。,之后陆续编辑开发了供计算机汉语信息词典:鲁川、张普、林杏光等的动词大词典,提出了一个由两大类、七小类共个格组成的汉语格关系系统,根据与动词所表明的动作或状态相关的主体、客体间的语义关系,将动词分为他动词(如“吃、重视”)、自动词(如“走、毕业”)、外动词(如“知道、懂”)、内动词(如“病、死”)、领属动词(如“有、具有”)和系属动词(如“是、等于”)等个次类。在此基础上对多个现代汉语常用动词按义项进行了动词语义格关系的描写,并对每个动词的各种格框架给出相应的例句来说明,对汉语动词跟名词性成分的语义搭配进行了概括描写。朱德熙、陆俭明、俞士汶等以朱德熙提出的词组本位语法体系作为设置各项语法范畴的理论基础,研制开发了现代汉语语法信息词典马希文、冯志伟、白硕、罗振声等基于计算机识别的汉语的短语组合规则。陆俭明、马真、孙宏林、詹卫东等发现多个词项在组合时的相互制约条件,或者是根据语符串的上下文环境来判断一个语符串的内部层次和关系。随着中文信息处理的复兴,在国内还出现了基于不同理论背景的信息处理系统和方法,如董振东提出的“知网”和黄曾阳提出的以语义表达为基础来对汉语进行理解的概念层次网络理论。大规模语料库的建设及语料库方法的实际运用也是本世纪一个亮点,相继建成了一定数量的大规模语料库,开发了语料库自动检索、查询、标注等自动加工的工具。,三、中文信息处理面临的挑战,困难主要来自三个方面:一、来自计算机处理语言信息程序的困难:计算机对自然语言的处理,一般要经过如下几个阶段:第一从语言学的角度提出自然语言处理的问题和理论;第二把需要研究的语言学问题加以形式化,使之能以一定的数学形式或者接近于数学的形式,严格而规整地表示出来;第三把这种严格而规整的数学形式表示为算法,使之在计算上形式化;第四根据算法编写计算机程序,使之在计算机上加以实现。计算机处理自然语言主要有简单模式匹配法、基于规则的处理法以及基于大规模语料库的统计方法等。自然语言处理最根本、最关键的问题,是要指出各种语言形式出现和变换的条件。只有指出了条件,计算机才可能根据有关条件,执行相应的动作。要使自然语言的语法规则成为可供计算机执行的形式,就必须指出各种语法现象出现的条件。如“咬死了农民的狗”出现歧义的条件(现代汉语下P54),二、来自中西方语言的差异对中文信息处理的影响,中文和西方语言文字上的差异给中文信息处理带来了诸多障碍。1.西方语言采用拼音文字,字符数量较少。汉字是语素文字,字符数量大,通用汉字有3500多个,文字类型的差异使得汉字的键盘输入、汉字的存贮、显示与输出以及汉字的自动识别都有着不同于西方的困难等。2.记录西方语言的文字实行分词连写,书面语的词与词之间有自然间隔,词界清楚。汉字记录汉语时不实行分词连写,因此词与非词的界定、中文的自动分词等问题是中文信息处理过程中面临的又一大难题。3.从语言类型上看,西方语言有比较丰富的形态变化,外显的形态可以作为自然语言信息处理的客观依据。而汉语是典型的分析性语言,缺乏严格意义的形态变化,计算机对汉语的处理无法利用形态这一显性形式,只能通过隐性的语法、语义寻找出路。,三、汉语研究传统与中文信息处理,传统的汉语研究主要是服务于人与人的交际,而现在必须考虑人与计算机的对话。人理解语言可以凭借相关的背景知识,可以凭语感判断语言现象,而计算机只能根据规则,对语言进行理性的分析,一步一步地推演和计算。因此,面向信息处理的语言研究不是罗列无穷的语言现象,而是要提供给计算机一系列可操作、可计算的条件(形式化的语言规则。如“把”字句的认识,传统上认为“把”字句的是把及物动词的宾语提前“,关上门”可以说“把门关上”,但将这一规则输入计算机,结果形成通篇的“把”字句。研究者发现“,把”字句还有其他一些条件限制,如动词为非光杆形式“,把”引进的对象是动词的受事且指称上是定指的等。再进一步概括:凡是受事主语句的主语前,都可以加上“把”形成“把”字句。规则更有效,更适合于在计算机上实现。句法形式有限,而语义内容无限,以有限的形式表达无限的内容,必然产生一对多的歧义现象。从计算机处理自然语言的角度看,自然语言中充满了歧义。如同音字和同音词问题,词处理中的歧义切分和兼类词问题,句处理中的短语边界的确定以及多义短语的消解问题等,对汉语研究提出了严峻的挑战。如汉语的主谓结构中主语与动词之间的关系可以是施事一动作(朋友回国了)、受事一动作(书看完了)、结果一动作(坑挖好了)、处所一动作(北京去过了),动词所带的宾语可以是受事(踢球)、施事(来了一个人)、结果(写文章)、工具(乘飞机)、方式(跳街舞)、处所(去北京)等,甚至还有一些宾语,其语义角色难以认定,如“吃食堂”等。,第二节汉字信息处理,汉字信息处理简单地说就是让计算机能接受并处理汉字,它是中文信息处理的关键和需要突破的核心技术,主要包括:汉字输入、汉字存储和汉字输出。(1)汉字存储和汉字输出信息在计算机内是以代码形式存在的,对信息的处理就体现为对代码的处理。目前在计算机中最普遍采用的西文字符代码是码,计算机处理汉字时,也必须先将汉字代码化,然后对汉字代码进行处理。为了能在计算机中进行汉字处理,首先得对汉字进行编码。世界上第一台计算机年诞生于美国宾夕法尼亚大学,其软件和硬件都是针对处理英语而设计的,记录英语的拉丁字母(包括大小写)总共才26个,存储英文字符以及常用符号,只需位二进制数就可以了。而记录汉语的汉字数量大,存储汉字用两个字节表示一个汉字,比起英文只用一个字节来表示一个英文字母要困难得多。汉字输入计算机以后,要先转换成由相应的计算机系统所确定的机内码,然后再还原成汉字进行输出。汉字的计算机输出有两种形式,一种是屏幕显示输出,一种是打印输出。汉字外码即汉字输入码,是为了把汉字输入计算机而编制的代码。汉字输入技术是向计算机传输汉字的交通工具,为了便于用户熟悉和掌握,常常要求输入码编码规则简单、易于记忆、操作方便、编码容量大、码长短和重码率低。,(2)汉字输入,汉字输入方法可以分键盘输入、语音输入和字形识别输入三大类。汉字键盘输入是利用键盘上数字键和字母键向计算机输入汉字的方法,汉字键盘输入法已有数百种,可以分为字形编码类、字音编码类和音形结合编码类等。字形编码类是以拆析的汉字字形为依据编成汉字的输入码,这种输入码叫“形码”。如朱邦复的仓颉码、王永民的五笔字型汉字输入法等。字音编码类是以汉字的读音为依据的一种汉字编码方法,这种输入码叫“音码”。如智能、微软拼音输入法等都属于这一类。音形结合编码类是综合考虑汉字的形和音来编成汉字的输入码。,不同的汉字输入法各有优劣“,形码”速度很快,但因为要记住许多符号,所以适合于专业录入人员使用,不适合老年人。音码”可以边想边打,但要熟练掌握汉语拼音,在使用上有局限性。因此,理想的汉字输入方法应该是“语音输入”或“汉字书写输入”。如IBM公司开发的Viavoice输入系统(非特定人连续中文语音识别系统)。输入正确率可达92%,。但也有实验表明该系统对同音词或近音词的识别正确率仍有待提高,如将“硕士”错成“设施、摄氏、特使”等。再如“能占(冷战)以来,有一次,一个北大女生去清华的五会(舞会)跳舞,并以(已)举行两次会议,这女生惊呆了,以致一为(以为)他有什么机芯(居心),表情更苏木(肃穆)”汉字字形识别输入是通过图形扫描仪器对汉字文本进行扫描,以使汉字输入计算机,实现扫描仪跟计算机对接的一种方法,包括印刷体汉字自动识别和手写体汉字自动识别两种。目前中文信息处理中的第一道难关“字处理”已得到解决,进入成熟的实际应用阶段,特别是在汉字键盘输入方面,输入速度甚至已经超过了英文字母的键盘输入,是英文输入的1.3到1.9倍。正进入词和句处理阶段。,汉字信息处理主要包括汉字的编码、输入、输出、汉字的自动识别、汉字的统计特性研究等,是中文信息处理的基础性工作和关键环节。汉语信息处理是汉字信息处理的进一步发展,它要在汉字输入的基础上,研究汉语的词汇、句法、语义、语境的自动处理问题,是中文信息处理的高级阶段。这一阶段要研究:汉语词的自动切分和处理,短语的自动处理,句子的自动分析和生成,语义的自动分析和加工,以至于汉语篇章的自动处理等。中文信息处理需要以大量的语言知识、百科知识为支撑,让计算机对中文信息的人脑处理过程进行模拟。对于口头形式的汉语,中文信息处理还要研究语音的自动合成与识别、自动文语转换等问题。,第三节中文自动分词和词性标注,一、中文自动分词概述1.自动分词和自动词性标注自动分词和自动词性标注是中文“词”处理阶段的两大主要任务,也是中文信息处理需要大力突破的关键技术之一。所谓“自动分词”就是让计算机确定中文文本中词与词之间的界限记录汉语的汉字不实行分词连写,词与词之间没有空格,什么是词争议很大。汉语没有形态变化,加之汉语里词类与句法成分之间存在一对多的关系,如何确定汉语词的词性是“词”处理中的又一难题。所谓“自动词性标注”就是要让计算机来给切分出来的词自动地赋上相应的词类标记,为进行更高层次的中文信息处理提供语言知识做准备。所谓的“词处理”其实就是指让计算机面对真实的汉语文本自动地进行“分词”和“词性标注”的工作。,二、中文自动分词的必要性和可能性,1.中文自动分词的必要性词是最小的、能独立运用的语言单位。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库。中文信息处理系统只要涉及句法、语义,就需要以词作为基本单位。分词以后在词的层面上进行处理,会大大提高处理的确定性。在更高层次的文本处理上,如句法分析、语句理解、自动文摘、自动校对、自动分类和机器翻译等领域,更是少不了有关词的详细信息。自动分词是任何中文信息处理系统都难以回避的第一道“工序”,其作用是怎么估计都不为过的。只有解决了这个难题,中文信息处理才称得上初步打上了“智能”的印记。如果不分词,当检索“华人”一词时,就会把“中华人民共和国”也检索出来,这样就会出现大量的检索垃圾,严重影响信息的采集。2.1.中文自动分词的可能性有关汉语“词”这一级语法单位的大小问题、异同问题上存在着分歧,对于中文自动分词的可能性问题也有分歧,但经过十几年的探索,中文自动分词已初具轮廓。毕竟“词”平面上的研究与句法平面和语义平面的研究相比较,难度要小得多,并且研究成果也更成熟和丰富,目前虽未能完全解决分词的问题,但已有一些汉语自动分词系统投入使用,并且可以达到比较高的正确率。,三、中文自动分词所面临的困难,1.分词标准汉语的语素和词、合成词与短语之间没有明确的界限,要解决自动分词问题,首先要给计算机确立“词”的概念,这方面的知识得由人来提供,这套知识实际上就是一个供计算机识别“词”的词表(词类等级表)。分词标准的问题实际上是汉语词与语素、词与词组的界定问题。此外还有词的变形结构问题,如相对于“打牌”“、开心”“、看见”“、相信”而言的“打打牌”“、开开心”“、看没看见“相不相信”等的处理,缺少可操作而又合理的规范。词缀问题也是个难题。,汉语“词”的认定,乌云、白云、彩云、阵云、黑云校景、校道、校服、校警、校花校舍、校区、校规喷漆、喷气、喷油、喷饭、喷汤喷粪,2.切分歧义,汉语的歧义字段分为交集型歧义字段和组合型歧义字段。如“真正在”可以有“真正在”或“真正在”两种不同的切分可能性,“学生会”既可能是一个词,指一种学生组织,也可能是两个词“学生”和“会”。“才能”在“没有出众的才能就无法在竞争中站稳脚跟”是一个名词,而在“掌握新技术才能立于不败之地”是两个词“,才”是副词“,能”是动词。此类现象必须要借助于上下文、相关的句法语义信息以及频率统计等方法才有解决的可能。3.未登录词的识别所谓未登录词指未收录在词表中、但必须切分出来的词。按照设想,只要在计算机里建立一个庞大的词库,给每一个词都标注上一定的句法、语义信息,计算机才能识别。但词库再大,也不可能把实际语言里所有的词都尽收无遗。计算机在自动分词时碰到词时就会束手无策。另外语言中的新词在不断地出现,计算机在自动分词碰到这些新词时也会感到无奈。这类词主要包括人名、地名、企业名、商标名等以及某些术语、缩略词、新词、外族和外国名的汉译名等等。如“于大海发明爱尔肤护肤液”需要切分成“于大海护肤液”发明爱尔肤并需要计算机识别出“于大海”是人名“,爱尔肤”是商标名“,护肤液”是术语名词。,4.中文自动分词的方法,目前国内的自动分词方法大体上可以分为基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法几类:(1)基于字符串匹配的分词方法这种方法是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,识别出一个词。按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照扫描方向的不同,可以分为正向匹配和逆向匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。还可以把几种方法结合使用,如双向扫描法,这种方法分别用最大匹配法进行正向和逆向的扫描和初步的切分,并将用两种方法初步切分的结果进行比较,如果两种结果一致,则判定切分正确,如果两种不一致,则判定为疑点。这时,或者结合上下文有关信息,或者进行人工干预,选取一种正确切分。,(2)基于理解的分词方法,其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。,(3)基于统计的分词方法,词是稳定的字的组合,在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词,因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。局限性:会经常抽出一些共现频度高、但并不是词的常用字组,如“这一、之一、有的、我的、许多的”等,并且对常用词的识别精度较差。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行字符串匹配分词,同时使用统计方法识别一些新的词,也就是将频率统计和字符串匹配两种方法结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。,二、歧义字段与自动分词,1.交集型歧义字段交集型歧义字段简称交集字段。假设A,B和C分别表示一字或多字组成的字串,如果在A,AB,BC,C字串中,都是词表中的词,则称ABC为交集型歧义字段。如“太平淡”中“太平”和“平淡”分别成词,“太平淡”是交集型歧义切分字段“,平”为交段。再如“应用于”“、可以为”等都属于这一类。交集字段中相互交叉的词叫做交集因子。如“应用于”中“应用”和“用于”都是它的交集因子。一个交集字段中交集因子的数量称为这个交集字段的链长。如“应用于”的链长为2.针对交集型歧义字段,山西大学郑家恒、刘开瑛通过一个180万字次的新闻语料库中交集型歧义字段的普查,共取得9500条交集型字段,并据此建立了一个交集字段库,发现在所有的实例中以2字为一切分单位的字段占88%,而链长为2和3的交集型歧义字段占总数的,它们的出现次数则占总次数的96%。因此解决好链长为2和3的交集字段的切分问题是提高整个歧义字段切分正确率的关键。,链长为2的交集字段切分结果有如下4种情况:切分结果为,如“出自己”;切分结果为,如“出现在”;切分结果为,如“传染病”;切分结果不定。统计结果显示,切分为前两种的交集字段占总数的89%,其中ABC型在正向最大匹配法的切分过程中可以得到正确的切分。因此对链长为2的交集字段,切分难点集中在ABC型交集字段的辨识上。链长为3的交集字段ABCD切分结果有:ABCD,ABCD,ABCD,ABCD,ABCD,ABCD,以及切分结果不定这7种情况。统计表明,ABCD型交集字段无论在交集字段的个例数还是在出现次数上都占总数的约98%,如“已经过去”。因此对链长为3的交集字段,一般来说切分结果应为ABCD,清华大学孙茂松在一个规模约1亿字次的新闻语料库上,发现交集型歧义字段分为2种:一种是伪歧义,即虽然有歧义的可能性,但在真实文本中通常只有一种切分结果;一种是真歧义,经常存在两种以上的切分结果;但通常也只有一种切分结果。也就是说,其他形式的切分结果出现的机会很少,基本上可以当成伪歧义处理。他们对其中4619例高频歧义字段进统计分析,发现伪歧义占92.6%,真歧义占1.9%。交集型歧义字段是由词与词之间的交叉组合产生的。如:用树形图形式加以描述(图形式,图形式);研究生命的本质(研究生命,研究生命);白天鹅游过来了(白天鹅,白天鹅);让位移等于厘米(让位移,让位移);独立自主和平等互利的原则(和平等,和平等);这本小说的情节太平淡了(太平淡,太平淡);对这种现象的确切描述(的确切,的确切);社会需求和生产水平有矛盾(需求和,需求和);他们看中和日本人做生意的机会(看中和,看中和)。,2.组合型歧义字段,如果字串AB中,AB和A都是词表中的词,则称为组合型歧义字段。如“阵风”中“阵”“、风”和“阵风”都是词表中的词“,烤白薯”中“烤”、“白薯”和“烤白薯”都是词表中的词,则它们都是组合型歧义字段。组合型歧义字段比较复杂,这种歧义字段是由词与词之间的串联组合产生的。如:这条马路可以并排行驶四辆大卡车。(副词)教务科指定了专任讲师并排好了课程时间表。(连词动词)我一看他的穿着打扮就知道他不是等闲之辈。(名词)她今天是穿着一身礼服出去的。(动词助词)你们可以对比一下这些布料的选色和构图。(动词)他只对比他强的选手有兴趣。(介词介词)您过奖了,我做的只是我应该做的事情。(动词)他参加过奥林匹克数学竞赛,还得过奖呢。(助词名词)你们后天再来吧。(名词)到家后天就黑了。(方位词名词)每个人手上都拿着火把,照得黑夜比白天还亮。(名词)这场火把他全部的希望都化为了灰烬。(名词介词)他马上就来。(副词)他从马上摔下来了。(名词方位词),为了正确地切分组合型歧义字段,可以利用有关的句法信息、语义信息和语用信息。句法信息:有些组合型歧义字段与其前后的字串之间具有密切的搭配关系,这时就可以利用有关的句法信息得到正确的切分。如“阵风”由量词“阵”和名词“风”组合产生,按非歧义切分时的词间搭配关系,量词之前应该有数词,因此,可以先在词法知识库中对歧义词“阵风”加上歧义标志并建立如下规则“:如果歧义字段的前字串是数词,则歧义字段的首段单切,否则该歧义字段成词。”语义信息:词与词之间的组合存在语义的相容性选择关系,即一个词对与之组合的其他词具有一定的语义要求,在自动切词过程中,可以有效地利用此类信息。如:学生会兴奋得手舞足蹈。学生会兴奋得手舞足蹈。,语用信息:如“乒乓球拍卖完了”仅根据词法、句法和语义信息都不足以判断卖完的东西究竟是“乒乓球”还是“乒乓球拍”,这时就得根据语言交际的具体环境的语用方面的知识,才能决定究竟什么才是正确的切分。,3.歧义字段的消除,歧义字段的消解经历了一个由浅及深、由简单到复杂的语言知识利用的演变过程。早期的系统,主要利用词频以及语素、切分歧义表层结构等简单信息来消除歧义,有人揭示了音节信息在自动分词中的作用,有人断言,95%左右的切分歧义可以借助句法以下的知识解决,只有5%必须诉诸语义和语用知识。为克服人工句法规则集的弊端,也有研究人员尝试通过句法统计来消除歧义,提高分词精度。孙茂松、左正平等发现,高频交集型切分的分布相对不同的领域是比较稳定的。由于伪歧义的消解与上下文无关,于是他们提出了一个简单却很有效的策略:对伪歧义型高频交集型歧义切分,可以把它们的正确(惟一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。,三、自动词性标注,1.自动词性标注所谓自动词性标注就是利用计算机来自动地给文本中的词标注词类信息。中文信息处理作为一项庞大的系统工程,需要在计算机中建立若干种有关语言的知识信息,自动分词使计算机初步具备了有关汉语“词”的知识,虽然仍未达到完全成熟的程度。在用于自然语言处理的多种语法理论中,词类往往是作为元代码存在的,如转换生成语法中包含等词类标记,用上下文无关方法分析句子所得到的句法树节点,也都是词类代码。因此词性标注是中文信息处理中的一项关键技术。,2.词类,词类指的是词的语法分类,自汉语语法学建立以来,词类一直是困扰汉语语法学界的老大难问题,诸如汉语的词类划分标准问题,词类与句法成分之间的关系问题,都曾引起过极大的争议。经过多年研究,人们认识到,词类的划分不是人强加给语言的,而是语言自身存在的特征,面向人的语法研究需要给词进行语法分类,面向计算机的语法研究同样不能回避这一问题。,3.划分汉语词类的困难,(1)词类与句法成分的关系以句法功能为标准对汉语的词进行语法分类,汉语的词类划分仍要处理好词类与句法成分之间的关系问题。如:他来了他在调查情况来可以了解情况调查很及时他愿意来这件事需要调查来的时间不好调查的结果很难说同一个词可以出现于不同句法位置上,如何归类?也许有人认为,根据不同的句法位置标注不同的词性有助于消解歧义,减少自动分析的困难。其实不然。按照当前的处理技术,计算机进行自动分析的前提是要知道语句中词的词性,然后才能确定词在句法树中的位置及功能。如果词典中存在大量的多类词,在分析句子时就会遭遇非常严重的自动词性标注多选一的问题。事实上出现于不同句法位置上的同一个词仍具有大致相同的功能。汉语的词类具有多功能性,词类与句法成分之间不存在一一对应的关系。,(2)兼类问题,兼类现象的界定和处理是汉语语法研究中的难点,当然也是自动词性标注的棘手问题。所谓兼类通常指同一个词在不同的语言环境中具有几类词的语法功能“,同一个词”的含义是同字、同音、意义相关。如共同完成共同愿望、自动控制自动步枪、定期检查定期存折”(区别词和副词)兼类问题是汉语词性自动标注中的一个难点,有点类似于自动分词中的歧义字段的状况。兼类是客观存在,但无论是对人还是对计算机,兼类不能太多,否则会落入“词无定类”的陷阱。,(3)同形词,同形词指的是词形相同而意义没有联系的一组词,在面向人的语法研究中,它们与兼类之间的界限比较容易确定。但中文自动词性标注是以书面汉语文本为对象的,计算机除了具备“词”的知识以外,没有过多的语言知识,如词的读音信息、词的意义信息等。如“两封信”与“别信他”中的“信”“花钱、花朵”等。由于计算机处理文本通常不考虑语音,同形词和兼类词的识别处理没有本质的区别,这导致了词类标注中遇到的词类歧义现象比语言学意义上的兼类现象范围更广。包括:字同音不同的同形异音词,如“好”,第声是形容词,第声是动词。字同音同义不同,如“编辑”,指人是名词,指动作行为,是动词。字同音同的兼类词,如“丰富”,作动词时,可带宾语,作形容词,多类混合体:如“了”可以有动词、助词、语气词等多种性质。,兼类与同形这两种不同性质的现象在中文信息处理的自动词性标注策上有许多共同性,因而有人将这些词形相同而功能不同的词统称为“多类词”。从广义上讲,多类词是存在于自动词性标注过程中的歧义问题。如:着:助词、名词、动词、量词过:动词、副词、助词就:副词、动词、介词下:量词、动词、方位词两:量词、数词好:动词、形容词、副词多类词的数量不多,但使用频度较高;越是常用的词,多类现象越严重,4.多类词的排歧,自动词性标注中多类词的排歧可以分为基于规则和基于统计两种方法。基于规则的处理方法是利用上下文框架规则描述在特定的语言环境下,一个多类词的词类标记,语境信息包括词语信息、词类信息、词语特征信息等。针对使用频率高的多类词可以设置特定的规则,检查它所出现的上下文环境,惟一地确定该词的词类标记。如针对多类词“了”可以设置如下规则:“了”句尾标记:语气词,如“下雨了”。动词“得不”“了”:动词,如“吃得了、吃不了”。动词形容词“了”:助词,如“去了上海脸红了”。,调查语料中经常出现的词类组合,分析它们在不同语境下选取某个词类的可能性,通过不同词类的语法功能特征,构造相应的上下文规则来选择正确的词类标记。如“方便”类可以有动词和形容词两种词类标记,根据以下词类组合可以排除其多义性:“很太最非常”动形:形容词,如“很方便丰富繁荣”。量词动形名:形容词,如“(一)种方便食品”。动动形名助语气:形容词,如“购买方便食品”。其他情况:动词,“大大方便了群众”。,基于规则的方法要考虑两个问题:一是规则对语言现象的覆盖率,二是规则处理的正确率。一般而言,对于一条规则这两种性能往往呈反比关系,即如果一条规则覆盖的语言现象越多,则它处理的正确率越低;反之,规则覆盖的语言现象越少,则它处理的正确率越高。针对个别词的规则可以对有关信息描写得非常深入,因而正确率较高,但能处理的语言现象有限。,基于统计的多类词排歧方法得先选取一定量的语料库作为训练集,对该训练集中的语料逐词进行人工标注,然后利用计算机对该集中的任意两个相邻标记的同现概率进行统计,形成一个相邻标记的同现概率矩阵,依据同现概率的高低确定多类词的词类标记。基于规则的多类词性标注不必事先建立训练集,只要语言学家能提供足够的可以形式化的语言规则,就可以达到理想的排歧效果。但目前的语言规则还很难满足自动词性标注的需要,难以处理复杂的、不规则的信息。基于统计的方法所有的知识来自事先选定的训练集,计算机从中自动获取相关知识,具有较强的一致性和较高的覆盖率,可以将一些不确定的知识量化。但是这种方法获取的知识很难与现有的语言学成果结合,也很难用现有的成果来改进统计所获取的知识。目前用得比较多的是将两种方法结合起来。,80年代以来,计算机学界和汉语言学界正在联手攻克中文“词”处理中的自动分词和自动词性标注这一难关。一方面通过进一步改进和完善分词规范,建立分词标准。另一方面组织科研力量,专门研究人名、地名的识别问题,专门研究计算机自动记忆新词、自动定称新词等问题。目前中文“词”处理方面都已经取得了可喜的成果,也研制出了一些相应的软件。自动词性标注系统已投入实际使用,计算机自动分词的正确率也已达到95%。自动分词和自动词性标注从某种意义上说是个关键性的技术关卡。词解决好了,既可以进一步反过来推动字处理技术的发展,而且也有助于“句处理”技术难关的攻克。,第三节中文句处理,一、中文句处理概述,1.中文句处理的含义中文信息处理在成功地越过汉字的输入、存储和输出的第一道难关,自动分词和自动词性标注基本能满足实际运用需要以后,便进入了更高层次的阶段,即句处理阶段。所谓中文信息的“句处理”指的是,怎样使计算机处理、理解自然语言中的各个句子的意思,又怎样使计算机生成符合自然语言规则的各种句子。,句处理是中文信息处理的更高阶段,这一阶段面临着更多、更复杂的问题,句子是由词、短语或小句构成的、具有交际功能的表述性单位,真正理解一个句子包括理解句子的结构、句子的意义以及句子的内容等方面,而要达到这一目标,涉及到以词语串形式出现的句子内部构成成分(短语)的结构定界、结构关系和外部功能的识别,涉及到相同功能类排列模式多义短语的排歧,涉及到不同层面的语义问题,如实词的自身义、实词之间的关系义、实词之间的组合义、特定的范畴义等,还涉及话题、焦点等语用因素对句子意义的影响。句处理已成为当前中文信息处理中最急迫而又富挑战的问题。,2.中文句处理的策略,现在“句处理”有多种策略和途径:有基于句法规则的,有基于概念网络的,有基于语料库统计的,有基于语义计算的,等等,无论哪种方法,其实都包含着两方面:一是关于汉语本身的知识,一是表述汉语知识的机制两者都离不开汉语研究成果的支撑,最终都需要依赖可靠的汉语知识来指导计算机正确地处理自然语言。句处理所需要的汉语知识是涉及语音、语义、词汇、语法、语用等诸方面的综合性知识,目前有关汉语的知识还远远不能满足中文句处理的需要。许多在人看来还是比较容易解决的问题,但计算机可能解决不了。例如:北京的公路建设得很快。北京的公路建设很有成绩。人理解不会产生问题,但是计算机可能会产生上述错误。再如:a中国日本瑞士b中国山东湖北c中国山东济南这几个短语之间的结构关系是不一样的。,再如:打算回去分析研究研究结束看懂请他研究生产管理讽刺说介绍写我们至今尚不清楚VP+VP构成句法关系的规则是什么,构成合法的句法关系的条件是什么。,中文字处理特别是词处理的初步成功表明,作为一项系统工程,中文信息处理要取得比较理想的成果,必须坚持把基于统计的方法与基于规则的方法、句法知识与语义知识有机地结合起来。既需要建立基于语料库的统计分析,也需要有按汉语本体研究已获得的规则支持;既要注重句法分析,也要注重语义处理;充分借鉴和吸收汉语研究理论与国外有关理论、现代语言学理论与中国传统语言学理论的精华,把基础研究理论与应用系统的研制开发结合起来。,基于规则的处理方法其特征是充分利用语言学的已有研究成果,建立计算机进行“句处理”所需要的词库,在词库中对每一个具体的词或短语进行尽可能详细的属性赋值。然后,确立能正确地描述范畴之间关系的规则,在计算机内建立相关的规则库。基于统计的处理方法是随着大规模语料库的陆续建成而出现的一种自然语言处理方法,其主要特征是基于计算机对大规模语料库真实文本的统计分析,由计算机来抽取语言知识。基于规则的和基于统计的句处理策略各有优势,也都存在着不足。基于规则的方法依赖语言学家对语言的研究成果,由人来对语言知识进行抽象;基于统计的方法依赖计算机对大规模语料库的统计分析,由计算机来抽象语言知识。目前越来越多的学者提倡将两种方法结合起来。,实现中文句处理的策略,(1)规则尽可能少,少到最低限度;词库中每一个语言成分的信息尽可能详细充分。这与当代语言学界所倡导的“大词库,小语法”(2)基于统计的方法和基于规则的方法相结合,既需要基于语料库的统计数据,也需要通过汉语本体研究获得的规则。(3)为计算机建设两种类型的数据库,一是具备一定规模、经过深加工的现代汉语平衡语料库,二是有关现代汉语的各种知识的数据库。(4)努力探求好的分析方法,既要注重句法方面,也要注重语义、语用、认知方面。,中文句处理需要的解决语言知识,(1)汉语动词的题元结构系统。(2)汉语词的语义分类层级系统。包括建立适用于汉语的语义特征分析的理论框架以及建立能与动词题元结构系统配套的现代汉语词汇语义层级系统。(3)词语之间的组合类型与组合规则(4)句法、语义的多功能性研究。(5)各种排歧研究。包括各种排歧类型和针对不同歧义类型所采取的种种不同的排歧策略。(6)建设汉语知识库,特别是明确标有词的语义特征和词的句法特征的词库(可分别建库),同时开展跟句处理相关的实验和应用系统的研制开发。,二、歧义短语及其排歧策略,1.歧义类型自然语言中充满了歧义,如同音字问题、歧义字段与自动分词问题、多类词的词性确定问题等。随着中文信息处理向更深层次的推进,自然语言中的歧义现象及相关的排歧策略越来越制约着中文信息处理的进程。句处理中的歧义问题表现得更为复杂,处理的难度也更大,如短语边界的确定、词语串合语法性的判定、歧义短语的分化、与实词有关的语义问题、成分间的语义关系问题等等。歧义是自然语言的计算机理解中所面临的一个最严重的问题。人依靠背景知识和经验,可以消除日常语言交际中的大部分歧义。但是计算机不行。,(1)词汇歧义和结构歧义,歧义分为词汇歧义和结构歧义两类。(语言单位层级)词汇歧义主要体现在多义词和兼类词上,它对文本的自动切分以及自动词性标注有很大的影响。结构歧义发生在词与词的组合中,如:V+NV的是NPN的N学习文件反对的是校长关于鲁迅的书参考资料关心的是母亲对校长的意见歧义格式的发现只是说明某种格式有歧义的可能性。,(2)潜在歧义,冯志伟在研究计算机处理歧义问题时,提出了“潜在歧义”的理论,认为“歧义格式”所反映的类别的歧义在具体的语言中有时存在,有时不存在。抽象的歧义格式所包含的歧义实际上只是一种潜在的歧义用潜在歧义理论来分析汉语的歧义结构时,可以得到比较满意的结果。如:V的是N反对的是少数人关心的是分数,(3)含终结符的歧义格式不含终结符的歧义格式,根据歧义格式中是否包含特征词(终结符),可以把歧义格式分为包含终结符的歧义格式和不包含终结符的歧义格式。如:歧义格式中不包含特征词的属于不含终结符的歧义格式。如:NP+NP+NPNP+VP+NP公司项目经理老师辅导学生羊皮领子大衣电器修理教材,MP+NP+的+NPVP+的+NP+和+NP一张电影院的海报捐赠的时间和地点一家电影院的经理倒塌的房屋和难民,(4)外显型歧义格式和内含型歧义格式,根据一个格式所代表的不同结构对外部环境的影响或受外部环境的制约情况,可以将歧义格式分为外显型歧义格式和内含型歧义格式。,外显型歧义格式具有不同的功能类型,对外部环境的影响或受外部环境的制约较大如:VP+NP+的+NP修理自行车的后胎(动宾)修理自行车的老王(定中),内含型歧义格式所代表的实例整体功能类型没有明显差别。如:VP+NP+NP大钢铁公司大眼睛姑娘,(5)真歧义格式、准歧义格式和伪歧义格式,根据歧义格式形成事实歧义的可能性,可以将歧义格式分为真歧义格式、准歧义格式和伪歧义格式三类。真歧义格式很容易在自然语言中找到对应的实例,无论是对人还是对计算机都需要采取相关的排歧策略踢破球准歧义格式对人来讲可能不造成理解上的困难,但对计算机而言,却涉及到排歧问题。被警察抓住罚了款被政府邀请参加庆典伪歧义格式虽然可以有不同的组合方式,但无论对人还是对计算机,不同的组合方式并不造成理解上的困难。如认真学习汉语认真学习汉语,2.歧义的消除,(1)“制约”和“优选”的排歧法“制约”和“优选”法是自然语言的计算机处理中普遍采用的两种排歧方法。所谓“制约”,就是利用句法、语义条件,排除不能满足制约条件的结构,从而达到消除歧义的目的。如:3个学校的校长,这种歧义是由量词“个”造成的。可以通过量词与名词之间的选择限制关系来分化歧义。如将造成歧义的量词“个”换为“所”和“位”则歧义消除。,“优选”,就是在若干个存在歧义的候补结构中,选出一个最优的结构,从而达到消除歧义的目的。如“小王说故事很有趣”可以有不同的理解,但根据述宾结构的优先度大于主谓短语作主语的结构的原则,排除以主谓短语作主语的结构,消除歧义。但是这种方法所依据的语感往往带有强烈的主观色彩,因此缺乏客观性,这种方法通常要和其他方法一起运用。,(2)“受限汉语”方法,“优选”法有一定的局限性,语言学家在自然语言理解中采用的消歧方法大都是“制约”。北京大学俞士汶提出了“受限语言理论”,认为“实用的自然语言处理系统对自然语言总是自觉不自觉地进行了某些限制,降低自然语言的复杂度,在语言系统的精确度和表达意义的自由度之间找到一个合适的平衡点。在对汉语的短语结构进行受限研究时,就要考虑上述因素,可以选择无歧义或歧义程度低的结构作为汉语句法结构系统最基本的核心部分,然后在此基础上,考虑表达需要作适当的增补,就能得到比较合理的受限汉语的短语结构系统。,三、句处理中的语义问题,1.“语义”内容的复杂性语义问题是自然语言信息处理特别是句处理阶段的重要环节。在自然语言的语义分析或语义知识表达方法方面的理论有语义场理论、义素分析理论、配价理论、格语法、语义网络、蒙太格语法,等等。中文信息处理方面则有“信息处理用现代汉语语义分类体系”、“现代汉语述语动词机器词典”、“董氏语义知识词典”等比较有代表性的研究工作。语义知识在自然语言处理中的作用:(1)帮助句法分析得到正确的结果;(2)为发现句子中各个语言成分所对应的概念之间的意义关系提供支持,句处理中的语义内容,句处理中所要考虑的语义是多方面的,且分为不同的层次:如句子的情态义和命题义,句子本身的命题义与句子在使用环境下可能具有的语用义,句子本身的命题义中,还包括由实词和虚词的意义,还有句子中某个单元(包括词或短语)本身的意义以及单元与单元组合所产生的组合义,所有这些意义要分层处理。句子中存在着成分的移位、增添与省略等现象,句处理还要解决好句中缺省部分的添补与理解的问题。,2.实词的自身义,从实词来说,句处理涉及到实词的概念义、指称义和语义特征3种。(1)概念义词的概念义分为外延义与内涵义两种。从概念外延的角度所理解的概念义,就是概念的外延义;从内涵角度所理解的概念义,就是概念的内涵义。如:这两位农民是从四川来的。王教授在农村劳动了一年,像个农民了。,(2)指称义,指称义包括有指与无指、通指与专指、定指与不定指。有指即某个名词所指确有具体的人或物。无指即名词所指没有具体的人或物。如:他考过研究生通指即句中名词表示的事物是一个类名,专指即句中名词表示的是事物的个体。如:他不吃鱼。(通指,不能受数量词修饰)我吃过2条鱼了。(专指,可以受数量词的修饰)定指即说话人认为听话人知道名词所指称的对象,不定指即说话人认为听话人不知道名词所指称的对象。如:客人来了。来客人了。,(3)语义特征,实词的语义特征对句法结构同样有制约作用,如与动词“给”相关的句式中动词的语义特征的不同会给句法结构带来影响。(P108)如动词的“自主”与“非自主”:(看看见)看!去看去!别看!别看了!忘!去忘去!别忘!别忘了!醒!去醒去!别醒!别醒了!,动词的持续与非持续等语义特征也会给句法结构以及语义表达带来影响。如:看了3天了(表动作行为持续)挂了3天了(既可表示动作行为持续的时间,也可以表示某种状态持续)死了3天了(表示某种状态完成后经历的时),3.实词之间的关系义,实词之间的关系义指实词与实词相互关系中所呈现的意义,词与词的组合一方面可以形成一定的句法结构关系,另一方面彼此间还存在着语义关系。实词之间的关系义包括名词的格范畴、论元、论旨角色、配价,词与词之间语义上的制约关系,语义指向等(1)配价语法、格语法配价理论的创始人是法国语言学家吕西安特思尼耶尔,它反映的是语言结构中名词性成分和动词性成分之间的一种最基本的依存关系。该理论认为动词时句子的核心,动词所关联的行动元的多少决定了动词的配价数目,即动词的“价”或称为“向”,据此可以将动词分为:零价动词(V无须支配必有名词性成分的动词,如英语中的“rain”1价动词(V1支配一个必有名词性成分的动词,如“游泳”、“走”2价动词(V2支配两个必有名词性成分的动词,如“看”、“知道”)3价动词(V3支配个必有名词性成分的动词,如“给”、“告诉”),配价语法的主要目的在于揭示动词对名词性成分的支配能力,其基本观点是动词中心论,认为动词是句子的结构核心,在配价语法中,动词具有特殊的重要性,通过对动词配价能力的描写,可以简化对句子中名词性成分与动词性成分之间依存关系的说明,也可以有效地预测句子可能具有的依存结构,对句子的结构类型作出较为合理的划分。(放了一只鸽子飞了一只鸽子),这种理论在20世纪70年代引入我国,并被广泛运用于与动词相关的语法研究和语言信息处理领域,总结出了含动词的“的”字短语表义的可能性,即歧义指数,(P=N-MP代表歧义指数,N代表V的价数,M代表VP中的V所带的配价成分。吃的、喝的、参观博物馆的)并将这种方法进一步扩展到形容词、名词的研究,提出了形容词的配价和名词配价的概念,增强了语言研究结构的可计算性,在研究成果的形式化方面表现出了较大的优势。配价理论旨在揭示动词对名词性成分的支配能力,主要从语义的决定性与句法的强制性的角度研究与名词、动词、形容词的意义有关的语义成分。,格语法,格语法是20世纪60年代由美国语言学家菲尔墨提出的,在其初期理论中,将句子的基础结构分为情态和命题两部分,命题由动词和一个或几个名词短语组成,每个名词性成分与动词都具有一定的语义关系,即格关系,如施事、受事、与事、工具、结果、处所、时间等。“格”是指某些屈折语法中用于表示词间语法关系的名词和代词的形态变化,这种格必定有显性的形态标记,即以表层的词形变化为依据。如德语的四格。在汉语中,名词和代词没有形态变化,所以没有格。,(2)语义指向分析,所谓语义指向,指的是句中某个句法成分与另一成分之间存在的语义联系。如:他圆圆地画了一个圈。他愉快地画了一个圈。他慢慢地画了一个圈。砍光了砍完了砍断了砍累了砍快了,4.句处理中涉及的其他语义问题,句处理中的语义问题涉及到特定的范畴义(某种特定的范畴所赋予的意义)、实词之间的组合义(句法结构关系所赋予的意义以及语义结构关系所赋予的意义)、句式义(特定的句式所赋予的意义)、语用义(语用因素所赋予的意义)以及认知义(认知因素所赋予的意义)等问题。范畴义包括数量范畴、领属范畴等,会对句法结构产生影响。现代汉语中,数量范畴是由数量短语来表示的,包括:数词十量词、代词数词量词等。数量范畴对汉语句法结构的制约作用表现在:有些句法组合强制性地要求有数量成分。如:急了他一身汗急了他汗买了小店一只球买了小店球大大一个西瓜大大西瓜,有些句法组合如果没有数量成分,则只能是粘着型结构。如:吃了一个苹果。?吃了苹果。他送我一个手机。?他送我手机。有些句法组合排斥数量短语。如:什么衣服?什么两件衣服?什么书?什么三本书?,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!