《自然语言理解》PPT课件.ppt

上传人:sh****n 文档编号:12758399 上传时间:2020-05-22 格式:PPT 页数:92 大小:507.50KB
返回 下载 相关 举报
《自然语言理解》PPT课件.ppt_第1页
第1页 / 共92页
《自然语言理解》PPT课件.ppt_第2页
第2页 / 共92页
《自然语言理解》PPT课件.ppt_第3页
第3页 / 共92页
点击查看更多>>
资源描述
第十章自然语言理解,人工智能及其应用(第三版)研究生用书蔡自兴,湖南科技大学计算机学院戴祖雄,2,第十章自然语言理解,自然语言理解和处理是人工智能的早期的和活跃的研究领域之一。用自然语言进行高级通信,是人类固有的本领。现在还不知道动物界是否也能用“口语”进行通信,例如鸟类之间是否有这种能力。至于书面语言,那肯定只有人类才具有。本章将首先讨论自然语言理解的概念、发展简史以及系统组成与模型等;然后,逐一研究语言的自动分析、句子的自动理解、语言的自动生成和机器翻译等重要问题;最后举例介绍自然语言理解系统。,湖南科技大学计算机学院戴祖雄,3,10.1语言及其理解的一般问题,什么是语言和语言理解?自然语言理解与人类的哪些智能是否有关?自然语言理解研究是如何发展的?理解自然语言的计算机系统是如何组成的以及它们的模型为何?等等。这些是研究自然语言理解时感兴趣的问题。,湖南科技大学计算机学院戴祖雄,4,10.1.1语言与语言理解,语言是人类进行通信的自然媒介,它包括口语、书面语以及动作语(如哑语和旗语)等。一种比较正规的提法是:语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;在组成语句和语言时,应遵循一定的语法与语义规则。如果没有各种口语和书面语,如英语、汉语、法语和德语等,人类之间的充分而有效的交流就难以想象。语言是随着人类社会和人类自身的发展而不断进化的。现代语言允许任何一个具有正常语言能力的人与他人交流思想感情和技术等。要研究自然语言理解,首先必须对自然语言的构成有一个基本认识。,湖南科技大学计算机学院戴祖雄,5,语言是音义结合的词汇和语法体系,是实现思维活动的物质形式。语言是一个符号体系,但与其他符号体系又有所区别。语言是以词为基本单位的,词汇又受到语法的支配才可构成有意义的、可理解的句子,句子按一定的形式再构成篇章等。词汇又可分为词和熟语。熟语就是一些词的固定组合,如汉语中的成语。词又由词素构成,如“教师”是由“教”和“师”这两个词素构成。同样在英语中“teacher也是由teach和-er这两个词素所构成。词素是构成词的最小的、有意义的单位。“教”这个词素本身有教育和指导的意义,而“师”则包含了“人”的意义。同样,英语中的“-er”也是一个表示“人”的后缀。,湖南科技大学计算机学院戴祖雄,6,语法是语言的组织规律。语法规则制约着如何把词素构成词、词构成词组和句子。语言正是在这种严密的制约关系中构成的。用词素构成词的规则叫做构词规则,如教+师教师,teach+erteacher。一个词又有不同的词形、单数、复数、阴性、阳性和中性等。这种构造词形的规则称为构形法,如教师+们教师们,teacher+steachers。这里只是在原来的词后面加上一个复数意义的词素,所构成的并不是一个新的词,而是同一词的复数形式。构形法和构词法称为词法。词法中的另一部分就是句法。句法也可分成两部分:词组构造法和造句法。词组构造法是词搭配成词组的规则,如红+铅笔红铅笔,red+pencilredpencil.这里“红”是一个修饰铅笔的形容词,它与名词“铅笔”组合成了一个新的名词。造句法则是用词或词组造句的规则,“我是计算机科学系的学生”,这是按照汉语造句法构造的句子,“Iamastudentinthedepartmentofcomputerscience是英语造句法产生的同等句子。虽然汉语和英语的造句法不同,但它们都是正确和有意义的句子。图10.1就是上述构造的一个完整的图解。,湖南科技大学计算机学院戴祖雄,7,图10.1语言的构成,湖南科技大学计算机学院戴祖雄,8,另一方面,语言是音义结合的,每个词汇有其语音形式。一个词的发音由一个或多个音节组合而成,音节又由音素构成,音素分为元音音素和辅音音素。自然语言中所涉及的音素并不多,一种语言一般只有几十个音素。由一个发音动作所构成的最小的语音单位就是音素。迄今为止,对语言理解尚无统一和权威的定义。按照考虑问题角度的不同而有不同的解释。从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。,湖南科技大学计算机学院戴祖雄,9,然而,对自然语言的理解却是一个十分艰难的任务。即使建立一个只能理解片言断语的计算机系统,也是很不容易的。这中间存在着大量的极为复杂的编码和解码问题。一个能够理解自然语言的计算机系统就像一个人那样需要上下文知识以及根据这些知识和信息进行推理的过程。自然语言不仅存在着语义、语法和语音问题,而且还存在模糊性等间题。具体地说,自然语言理解的困难是由下列三个因素引起的:目标表示的复杂性;映射类型的多样性;源表达中各元素间交互程度的差异性。,湖南科技大学计算机学院戴祖雄,10,自然语言理解是语言学、逻辑学、生理学、心理学、计算机科学和数学等相关学科发展和结合而形成的一门交叉学科:它能够理解口头语言或书面语言。语言交流是一种基于知识的通信。怎样才算理解了语言呢?归纳起来主要包括下列几个方面:(1)既能够理解句子的正确词序规则和概念,又能理解不含规则的句子。(2)知道词的确切含义、形式、词类及构词法。(3)了解词的语义分类以及词的多义性和歧义性。(4)指定和不定特性及所有(隶属)特性。(5)问题领域的结构知识和时间概念。(6)语言的语气信息和韵律表现。(7)有关语言表达形式的文学知识。(8)论域的背景知识。,湖南科技大学计算机学院戴祖雄,11,10.1.2自然语言理解研究的进展,随着计算机技术和人工智能总体技术的发展,对自然语言的理解不断取得进展。由于电子计算机的出现才使得自然语言理解和处理成为可能。由于计算机能够进行符号处理,所以有可能应用计算机来处理和理解语言。机器翻译是自然语言理解最早的研究领域。20世纪40年代末期,人们期望能够用计算机翻译剧增的科技资料。美苏两国在1949年开始俄-英和英-俄的机器翻译研究。由于早期研究中理论和技术存在一定的局限性,所开发的机译系统的技术水平较低,不能满足实际应用的要求。1966年在美国科学院发表的一份报告中,认为全自动机译在较长时期内不会取得成功。此后,机器翻译研究工作进入低潮。,湖南科技大学计算机学院戴祖雄,12,到了20世纪70年代初期,对语言理解对话系统的研究取得进展。伍兹(Woods)的LUNAR系统、威诺甘德(Winogand)的SHRDLU系统和香克(Schank)的MARGIE系统等是语言理解对话系统的典型实例。其中,SHRDLU系统是一个限定性的人机对话系统,它把句法、语义、推理、上下文和背景知识灵活地结合于一体,成功地实现了人机对话,并被用于指挥机器人的积木分类和堆叠试验。机器人系统能够接受人的自然语言指令,进行积木的堆叠操作,并能回答或者提出比较简单的问题。进入20世纪80年代之后,自然语言理解的应用研究广泛开展,机器学习研究又活跃起来,并出现了许多具有较高水平的实用化系统。其中比较著名的有美国的METAL和LOGOS,日本的PIVOT和HICAT,法国的ARIANE以及德国的SUSY等,这些系统是自然语言理解研究的重要成果,表明自然语言理解在理论和应用上取得了,湖南科技大学计算机学院戴祖雄,13,突破性进展。20世纪80年代以来提出和进行的智能计算机研究,也对自然语言理解提出了新的要求。近年来又提出了对多媒体计算机的研究。新型的智能计算机和多媒体计算机均要求设计出更为友好的人机界面,使自然语言、文字、图像和声音等信号都能直接输入计算机。要求计算机能以自然语言与人进行对话交流,就需要计算机具有自然语言能力,尤其是口语理解和生成能力。口语理解研究促进人机对话系统走向实用化。自然语言是表示知识最为直接的方法。因此,自然语言理解的研究也为专家系统的知识获取提供了新的途径。此外,自然语言理解的研究已促进计算机辅助语言教学(CALI)和计算机语言设计(CLD)等的发展。可以预料,21世纪自然语言理解的研究有可能取得新的突破,并获得广泛应用。,湖南科技大学计算机学院戴祖雄,14,10.1.3自然语言理解过程的层次,语言虽然表示成一连串的文字符号或者一串声音流,但其内部实际上是一个层次化的结构,从语言的构成中就可以清楚地看到这种层次性。一个文字表达的句子是由词素词或词形词组或句子构成,而用声音表达的句子则是由音素音节音词音句构成,其中每个层次都受到语法规则的制约。因此,语言的分析和理解过程也应当是一个层次化的过程。许多现代语言学家把这一过程分为三个层次:词法分析、句法分析和语义分析。如果接收到的是语音流,那么在上述三个层次之前还应当加入一个语音分析层。虽然这种层次之间并非是完全隔离的,但是这种层次化的划分的确有助于更好地体现语言本身的构成。,湖南科技大学计算机学院戴祖雄,15,1.语音分析在有声语言中,最小的、可独立的声音单元是音素,音素是一个或一组音,它可与其他音素相区别。如pin和bin中分别有/p/和/b/这两个不同的音素,但pin,spin和tip中的音素/p/是同一个音素,它对应了一组略有差异的音。语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。2.词法分析词法分析的主要目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。在英语等语言中,找出句子中的一个个词汇是一件很容易的事情,因为词与词之间是由空格来分隔的。但是要找出各个词素就复杂得多,如importable,它可以是im-port-able或import-able。这是因为im,port和import都是词素。而在汉语中要找出一个个词素则是再容易不过的事情,因为汉语中的每个字就是一个词素。但是要切分出各个词就远不是那么容易。如“我们研究所有东西”,可以是“我们研究所有东西”也可以是“我们研究所有东西”。,湖南科技大学计算机学院戴祖雄,16,通过词法分析可以从词素中获得许多语言学信息。英语中词尾中的词素“s通常表示名词复数,或动词第三人称单数,“ly是副词的后缀,而“ed通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。另一方面,一个词可有许多的派生、变形,如work,可变化出works,worked,working,worker,workings,workable,workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。3.句法分析句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结构来加以表达。这种层次结构可以是从属关系、直接成分关系,也可以是语法功能关系。,湖南科技大学计算机学院戴祖雄,17,4.语义分析对于语言中的实词而言,每个词都用来称呼事物,表达概念。句子是由词组成的,句子的意义与词义是直接相关的,但也不是词义的简单相加。“我打他”和“他打我”的词是完全相同的,但表达的意义是完全相反的。因此,还应当考虑句子的结构意义。英语中aredtable(一张红色的桌子),它的结构意义是形容词在名词之前修饰名词,但在法语中却不同,onetablerouge(一张桌子红色的),形容词在被修饰的名词之后。语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。,湖南科技大学计算机学院戴祖雄,18,10.2句法和语义的自动分析,10.2.1句法模式匹配和转移网络句法分析最为简单、直观的方法也许就是模式匹配。英语句子bearslovehoney可以用句法模式noun+verb+noun来匹配。但是自然语言是非常多样化的:bearslovehoneywoolybearslovehoneyfericiouswoolybearslovehoneyhungryfericiouswoolybearslovestickyhoney这里,单是主语部分就有很多模式:noun,adj.+noun,adj.+adj.+noun,adj.+adj.+adj.+noun,对此可采用形式化的表达方式(adj.*noun),其中二表示可有可无且可重复出现。,湖南科技大学计算机学院戴祖雄,19,一个句子则可以表示成:(pronounV(adj.*noun)verb(pronounV(adj.*noun)也可以用状态转移图来表示,称为转移网络(transitionnetwork,TN)。如图10.2所示,图中,q0,q1,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。该网络可用于分析句子,也可用于生成句子。用TN来识别句子Thelittleorangeducksswallowflies的过程见表10.1(这里忽略了词法分析,网络如图10.3所示)。,湖南科技大学计算机学院戴祖雄,20,识别过程到达f状态(终态),所以该句子被成功地识别了。分析结果如图10.4所示。从上述过程中可以看出,这个句子还可以在网络中走其他弧,如词ducks也可以走弧cd,但接下来的swallow就找不到合适的弧了。此时对应于这个路径,该句子就被拒识了。由此可以看出,网络识别的过程中应找出各种可能的路径,因此算法要采用并行或回溯机制。表10.1句子识别过程,湖南科技大学计算机学院戴祖雄,21,(1)并行算法。并行算法的关键是在任何一个状态都要选择所有可以到达下一个状态的弧,同时进行试验。(2)回溯算法。回溯算法则是在所有可以通过的弧中选出一条往下走,并保留其他可能性,以便必要时可以回过来选择之。这种方式需要一个堆栈结构。,湖南科技大学计算机学院戴祖雄,22,10.2.2扩充转移网络,扩充转移网络ATN是由伍兹(Woods)在1970年提出来的,1975年卡普兰(Kaplan)对其作了一些改进。ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。这种条件和操作采用寄存器的方法来实现,在分析树的各个成分结构上都放上寄存器,用来存放句法功能和句法特征,条件和操作将对它们不断地进行访问和设置。ATN弧上的标记也可以是其他网络的标记名,因此ATN是一种递归网络。在ATN中还有一种空弧jump,它不对应任意句法成分也不对应任意输入词汇。,湖南科技大学计算机学院戴祖雄,23,ATN的每个寄存器由两部分构成:句法特征寄存器和句法功能寄存器。在特征寄存器中,每一维特征都由一个特征名和一组特征值以及一个缺省值来表示。如“数”的特征维可有两个特征值“单数”和“复数”,缺省值可以是空值。英语中动词的形式可以用一维特征来表示:Form:present,past,present-participle,past-participle.Default:present.功能寄存器则反映了句法成分之间的关系和功能。分析树的每个节点都有一个寄存器,寄存器的上半部分是特征寄存器,下半部分是功能寄存器。,湖南科技大学计算机学院戴祖雄,24,图10.5所示是一个简单的名词短语(NP)的扩充转移网络,网络中弧上的条件和操作如下所示:,湖南科技大学计算机学院戴祖雄,25,该网络主要是用来检查NP中的数的一致值问题。其中用到的特征是Number(数),它有两个值singular(单数)和plural(复数),缺省值是(空)。C是弧上的条件,A是弧上的操作,*是当前词,proper是专用名词,det是限定词,PP是介词短语,*.Number是当前词的“数”。该扩充转移网络有一个网络名NP。网络NP可以是其他网络的一个子网络,也可以包含其他网络,如其中的PP就是一个子网络,这就是网络的递归性。弧NP-1将当前词的Number放入当前NP的Number中,而弧NP-4则要求当前noun的Number与NP的Number是相同时,或者NP的Number为空时,将noun作为NP的Number,这就要求det的数和noun的数是一致的。因此,thisbook,thebook,thebooks,thesebooks都可顺利通过这一网络,但是thisbooks,或thesebook就无法通过。如果当前NP是一个代词(pron.)或者专用名词(proper),那么网络就从NP-5或NP-6通过,这时NP的数就是代词或专用名词的数。PP是一个修饰前面名词的介词短语,一旦到达PP弧就马上转入子网络PP.,湖南科技大学计算机学院戴祖雄,26,图10.6是一个句子的ATN,主要用来识别主、被动态的句子,从中可以看到功能寄存器的应用。S网络中所涉及的功能名和特征维包括:功能名:Subject(主语),Direct-Obj(直接宾语),Main-Verb(谓语动词),Auxs.(助动词),Modifiers(修饰语)。特征维:Voice(语态):Active(主动态),Passive(被动态),缺省值是Active。Type(动词类型):Be,Do,Have,Modal,Non-Aux,缺省值是Non-AuxaForm(动词式):Inf不定式),Present(现在式),Past(过去式),Pres-part(现在分词),Past-part(过去分词),缺省值是Present。,湖南科技大学计算机学院戴祖雄,27,湖南科技大学计算机学院戴祖雄,28,其中S-8:dNoConditions,actionsorinitializations.是赋值操作,Subject即把当前成分放入名为Subject的功能寄存器(当前成分作主语)。是一种添加操作,Auxs.Main-Verb就是将当前的谓语动词添加到Auxs功能寄存器中(原来Auxs中可能已有内容)。在S网络中,当弧S-2遇到第一个动词时,就把它置入Main-Verb,但是在接下来的弧S-3中发现Main-Verb中刚才被置入的是助动词,网络操作就把Main-Verb中的内容添加到Auxs寄存器的尾部。若Auxs为空,添加操作与赋值是相同的,但是当Auxs非空时(有几个助动词),这即是一个添加操作。另外,网络中有一种dummy节点,这是一种空节点,用来表示一种形式上的或者预示的成分,如形式上的主语等。弧S-4和S-7就是对于被动态句子的分析和处理。弧S-4主要是识别被动态的谓语动词,一旦确认是被动态,则将当前的主语作为直接宾语,弧S-7用来处理被动态句子中by所引导的介词短语,该介词的宾语就是实际上的主语。当然,作为一个完整的ATN是相当复杂的,在实现过程中还必须解决许多问题,如非确定性分析、弧的顺序、非直接支配关系的处理等。ATN方法在自然语言理解的研究中得到了广泛应用。,湖南科技大学计算机学院戴祖雄,29,10.2.3词汇功能语法(LFG),词汇功能语法是由卡普兰和布鲁斯南(Bresnan)在1982年提出来的,它是一种功能语法,但更强调词汇的作用。LFG用一种结构来表达特征、功能、词汇和成分的顺序。ATN语法和转换语法都是有方向性的,ATN语法的条件和操作要求语法的使用是有方向的,因为寄存器只有在被设置过之后才可被访问。LFG的一个重要工作就是通过互不矛盾的多层描述来消除这种有序性限制。,湖南科技大学计算机学院戴祖雄,30,LFG对句子的描述分为两部分:直接成分结构(constituentstructure,C-Structure)和功能结构(functionalstructure,F-structure),C-Structure是由上下文无关语法产生的表层分析结果。在此基础上,经一系列代数变换产生F-Structure。LFG采用两种规则:加入下标的上下文无关语法规则和词汇规则。表10.2给出了一些词汇功能语法的规则和词条,其中表示当前成分的上一层次的直接成分,如规则中NP的就是S,VP的也是S;则表示当前成分。因此,(Subject)=就表示S的主语是当前NP。“”中表达的是句法模式,Hand=(Subject),(Object),(Object-2),表示谓语动词hand要有一个主语、一个直接宾语和一个间接宾语。用LFG语法对句子进行分析的过程如下:(1)用上下文无关语法分析获得C-Structure,不考虑语法中的下标;该C-Structure就是一棵直接成分树;(2)将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);(3)对方程式做代数变换,求出各个变量,获得功能结构F-Structure.,湖南科技大学计算机学院戴祖雄,31,上述过程如果能够得到一组以上的解,则句子就是可识别的,并获得一个以上的分析结果。分析获得多个解则说明原句子中存在着歧义现象,无解则说明无法识别。图10.7就是句子“Agirlhandedherbabythetoys”的分析过程。方程的建立只要将用父节点变量来替代,令当前节点来代替即可。规定SNPVP的下标有两组:一是(Subject)=,替换得到(x1,Subject)=x2;另一个是=即x1=x3。方程式(x1Subject)=x2的意义就是“x1的主语是x2”,因此,上面两个方程式直接可用方程变换得到x1=x3=Subject=x2。在词汇规则中,词a对应了两条规则(Definiteness)=Indefinite,(Number)=Singular,词a的父节点就是NP,即x2,所以得到方程式(x2Definiteness)=Indefinite,(x2Number)=Singular.上述方程式通过解的合并和替代最终可以获得如图10.7所示的F-Structure。,湖南科技大学计算机学院戴祖雄,32,表10.2LFG语法与词典,湖南科技大学计算机学院戴祖雄,33,LFG同样也可以用于句子的生成。分析和生成的区别仅在于第一步,分析是由句子到C-Structure,而生成则是由上下文无关语法直接产生C-Structure和句子。同样,如果通过求解最终可有一个以上的解,则该句子就是正确的。,湖南科技大学计算机学院戴祖雄,34,10.2.4语义的解析,建立句法结构只是语言理解模型中的一个步骤,进一步则要求获得语言所表达的意义。第一步是要确定每个词在句子中所表达的词义,这涉及词义和句法结构上的歧义问题,如英语词go可有50种以上的意义。但即使一个词的词义很多,在一定的上下文条件下,在词组中,其意义通常也是惟一的。这是由于受到了约束的原因。这种约束关系可以用一个逻辑形式来表示,通过这种逻辑形式来获得词义和句子的意义。第二步则更为复杂,即要根据已有的背景知识来确定语义,这就需要进一步的推理以得出正确的结果。如已知“张经理开车去了商店”,要回答“张经理是否坐进汽车?”这样的问题,就首先要从“开车”这个词义中得出“开车”与“坐进汽车”这两个概念之间的关系,只有这样才能正确地回答这个问题。,湖南科技大学计算机学院戴祖雄,35,逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“JackkissedJill可以用如下逻辑形式来表达:(PASTS1KISS-ACTIONAGENT(NAMEj1PERSON“Jack”)THEMENAME(NAMEj2PERSON“Jill”)它表达了一个过去的事例S1。PAST是一个操作符,表示结构的类型是过去的,S1是事例的名,KISS-ACTION是事例形式,AGENT和THEME是对象的描述,有施事和主位。逻辑形式表达对应的句法结构可以是不同的,但表达意义应当是不变的。thearrivalofGeorgeatthestation和Georgearrivedatthestation在句法上一个是名词短语,另一个是句子,但它们的逻辑形式是相同的。,湖南科技大学计算机学院戴祖雄,36,(DEF/SINGa1ARRIVE-EVENT(AGENTa1(NAMEg1PERSON“George”)(TO-LOCa1(DEFS4STATION)(PASTa2ARRIVE-EVENTAGENTa1(NAMEg1PERSON“George)TO-LOCa1(NAMES4STATION)在句法结构和逻辑形式定义的基础上,就可以运用语义解析规则,从而使最终的逻辑形式能够有效地约束歧义。解析规则也是一种模式的映射变换。(SSUBJanimateMAIN-Vaction-verb)这一模式可以匹配任何有一个动作和一个有生命的主语体的句子。映射规则的形式为:(SSUBJanimateMAIN-Vaction-verb)(?T(MAIN-V)AGENTV(SUBJ),湖南科技大学计算机学院戴祖雄,37,其中?表示尚无事件的时态信息,*代表一个新的事例。如果有下面这样一个句法结构:(SMAIN-VranSUBJ(NPTDEtheHEADman)TENSEpast)运用上述映射(这里假设NP的映射是用其他规则)得到:(?r1RUN1AGENT(DEF/SINGm1MAN)时态信息可采用另一个映射规则:(STENSEpast)(PAST?)合并上述的映射就可最终获得逻辑形式表示:(PASTr1RUN1AGENT(DEF/SINGm1MAN)这里只是一个简单的例子。在规则的应用中,还需要有很多的解析策略。,湖南科技大学计算机学院戴祖雄,38,10.3句子的自动理解,句子一般有简单句和复合句之分。简单句的理解比复合句要容易,也是理解复合句的基础。因此,下面首先讨论简单句的理解,然后讨论复合句的理解。,湖南科技大学计算机学院戴祖雄,39,10.3.1简单句的理解方法,由于简单句是可以独立存在的,因而为了理解一个简单句,即建立起一个和该简单句相对应的机内表达,需要做以下两方面的工作:(1)理解语句中的每一个词。(2)以这些词为基础组成一个可以表达整个语句意义的结构。,湖南科技大学计算机学院戴祖雄,40,第一项工作看起来很容易,似乎只是查一下字典就可以解决。而实际上,由于许多单词有不只一种含义,因而只由单词本身往往不能确定其在句中的确切含义,需要通过语法分析和上下文关系等才能最终确定。例如,单词:“diamond有“菱形”、“棒球场”和“钻石”三种意思,在语句JohnsawSusansdiamondshimmeringfromacrosstheroom.”中,由于“shimmering的出现,显然可以确定diamond是“钻石”的含义,因为“菱形”和“棒球场”都不会闪光。再如在语句“Illmeetyouatthediamond.”中,由于“at”后面需要一个时间或地点名词作为它的宾语,因而显然这里的“diamond是“棒球场”的含义,而不可能是其他含义。,湖南科技大学计算机学院戴祖雄,41,第二项也是一个比较困难的工作。因为要联合单词来构成表示一个句子意义的结构,需要依赖各种信息源,其中包括所用语言的知识、语句所涉及领域的知识以及有关该语言使用者应共同遵守的习惯用法的知识。由于这个解释过程涉及许多事情,因而常常将这项工作分成以下三个部分来进行:(1)句法分析将单词之间的线性次序变换成一个显示单词如何与其他单词相关联的结构。(2)语义分析各种意义被赋予由句法分析程序所建立的结构,即在句法结构和任务领域内的对象之间进行映射变换。(3)语用分析用于确定真正含义,对表达的结构重新加以解释。实际上,这三个阶段之间是相互关联的,总是以各种方法相互影响着。尽管在某种程度上把它们分开是有效的,但绝对分开是不可能的。,湖南科技大学计算机学院戴祖雄,42,1.关键字匹配法最简单的自然语言理解方法,也许要算是关键字匹配法了,它在一些特定场合下是有效的。其方法简单归纳起来是这样的:在程序中规定匹配和动作两种类型的样本,然后建立一种由匹配样本到动作样本的映射。当输入语句与匹配样本相匹配时,就去执行相应样本所规定的动作,这样从外表看来似乎机器真正实现了能理解用户问话的目的。例如,在一个列车运行数据库系统中,规定了以下几个匹配样本:(1)从处所到处所有车种吗?(2)从处所到处所有?数量车种?(3)从处所到处所有?指数量车种?(4)车次在处所停吗?,湖南科技大学计算机学院戴祖雄,43,(5)车次经过处所吗?(6)车次有车组吗?(7)到处所的车种都有车组吗?(8)车次?原因没有车组?(9)车次?原因有车组?(10)车次?时刻从处所开出?(11)车次?时刻到达处所?(12)从处所到处所?指数量车次最快?,湖南科技大学计算机学院戴祖雄,44,其中,可与任何具有规定特性的单词匹配,如处所可以和“北京”、“上海”等表示地点的单词匹配;车种可以和“特快”、“直快”等匹配;?数量可与“几趟”等匹配;?指数量可与“哪几趟”等匹配;车组可与“餐车”、“卧铺”等匹配,?原因可与“为什么”、“怎么”等匹配;?时刻可与“什么时候”、“几点”等匹配。如果你输入:“从北京到上海有特快吗?”该语句刚好与第一个匹配样本相匹配,从而系统也就“理解”了你的问话,并去检索数据库,查看从北京到上海是否有特快,然后给出回答。这种关键字匹配的方法,在类似的数据库咨询系统中作为自然语言接口,显得特别有效,虽然它不具有任何意义下的理解。,湖南科技大学计算机学院戴祖雄,45,2.句法分析树法关键字匹配法虽然简单,但却忽略了语句中的大量信息。为确保语句含义的细节不被忽略,必须确定其语句结构上的细节,即要进行文法分析。为此,必须首先给出说明该特定语言中符号串结构的文法,以便为每个符合文法规则的语句产生一个称为文法分析树的结构。关于文法的形式,在许多自然语言处理程序中提出过很多各不相同的定义,作为一个例子,下面给出一种文法的形式化定义。文法G在其形式上为如下的四元组:G(V,P,S)其中,V为有穷非空集,称为总词汇表,为V的一个非空子集,称为终结字母表,而N=V-,称为非终结字母表;P为如下形式的有穷产生式集:式中V*NV*,V*,表示它前面的字符可以重复出现任意次;S为非终结字母表的一个元素,称为起始符。,湖南科技大学计算机学院戴祖雄,46,下面给出的是一个英语子集的简单文法:SNPVPNPtheNP1NPNP1ADJS|ADJADJSVPVVPVNPNJoe|boy|ballADJlittle|digVhit|ran其中,大写的是非终结符,小写的是终结符,C-表示空字符串。图10.8是使用该文法对语句“Joehittheball.”进行句法分析而建立的文法分析树。,湖南科技大学计算机学院戴祖雄,47,使用给定文法,对输入语句进行分析找到一个文法分析树的过程,可以看成是一个搜索过程。为实现该过程,可以使用自顶向下的处理方法,这和正向推理有些相像。它首先从起始符开始,然后应用P中的规则,一层一层地向下产生树的各个分支,直到一个完整的句子结构被生成出来为止。如果该结构与输入语句相匹配,则成功结束;否则,便从顶层重新开始,生成其他句子结构,直到结束为止。也可以使用自底向上的处理方法,这和逆向推理有些相像。它以输入语句的词为基础,首先从P中查找规则,试图把这些词归并成较大的结构成分,如短语或子句等,然后再对这些成分进行进一步的组合,反向生成文法分析树,直到树的根节点是起始符为止。无论使用哪种处理方法,都要遇到像词性选择这类问题。比如can这个词,既可以是助动词,又可以是名词,对于这样从多重选择中作出判断的问题,可以使用与搜索过程相似的控制策略。假如使用回溯策略,可首先假定can是一个助动词,当在以后的分析出现矛盾时,再进行回溯,重新选择can的词性为名词。,湖南科技大学计算机学院戴祖雄,48,3.语义分析只是根据词性信息来分析一个语句文法结构,是不能保证其正确性的,这是因为有些句子的文法结构需要借助于词义信息来确定,也就是要进行语义分析。进行语义分析的一种简单方法是使用语义文法。所谓语义文法是在传统的短语结构文法的基础上,将N(名词),V(动词)等语法类别的概念,用所讨论领域的专门类别来代替。下面给出的是为舰船管理数据库系统提供自然语言接口的示例系统中的语义文法片断:SwhatisSHIP-PROPERTYofSHIP?SHIP-PROPERTYtheSHIP-PROP|SHIP-PROPSHIP-PROPspeed|length|draft|beam|typeSHIPSHIP-NAME|thefastestSHIP2|thebiggestSHIP2|SHIP2SHIP-NAMEHuanghe|Changjiang|Jinshajiang|,湖南科技大学计算机学院戴祖雄,49,SHIP2COUNTRYSSHIP3|SHIP3SHIP3SHIPTYPELOC|SHIPTYPESHIPTYPEcarrier|submarine|rowboatCOUNTRYSAmerican|French|British|RussianLOCinthepacific|intheMediterranean|从上例可以看出,该文法使用的语义类别为SHIP和LOC,而不包括文法的非终结类别,如NP和VP等。对于语义文法的分析方法,可以使用与分析纯的文法结构相类似的方法。以上介绍的只是处理简单句理解问题的一些较简单的方法,使用这些方法,能够解决一些实际问题,但也存在很多的不足,如关键字匹配法会遗失语句中的很多信息;语义文法由于要用语义类别来代替文法类别,从而失去了许多文法上的高度概括,使得规则数量庞大,导致文法分析过程变得“昂贵”起来。,湖南科技大学计算机学院戴祖雄,50,10.3.2复合句的理解方法,如上所述,简单句的理解不涉及句与句之间的关系,它的理解过程首先是赋单词以意义,然后再给整个语句赋以一种结构。而一组语句的理解,无论它是一个文章选段还是一段对话节录,均要求发现句子之间的相互关系。在特定的文章中,这些关系的发现,对于理解起着十分重要的作用。这种关系包括以下几种:(1)相同的事物,例如,“珊珊有只红气球。莎莎想要它。”单词“它”和“红气球”指的是同一物体。,湖南科技大学计算机学院戴祖雄,51,(2)事物的一部分,例如,“小琴翻开她刚买的书。扉页已被撕坏了。”“扉页”指的是“刚买的书”的一部分。(3)行动的一部分,例如,“王刚出差去上海。他乘早班飞机动身”。乘飞机应看成是出差的一部分。(4)与行动有关的事物,例如,“李明决定骑车去商店。他走到车棚,可是发现他的自行车没气了。”李明的自行车应理解为是与他骑车去商店这一行动有关的事物。(5)因果关系,例如,“昨天有一场暴风雪。所以学校今天停课”。下雪应理解为是停课的原因。,湖南科技大学计算机学院戴祖雄,52,(6)计划次序,例如,“小丽想买辆新车。她决定找一份工作干。”小丽突然对工作感兴趣,应理解为是由她想买一辆新车,买新车需要钱而引起的。要能做到理解这些复杂的关系,必须具有相当广泛的领域知识才行,也就是要依赖于大型的知识库,而且知识库的组织形式对能否正确理解这些关系,起着很重要的作用。如果知识库的容量较大,则有一点比较重要,即如何将问题的焦点集中于知识库的相关部分。例如,我们来看如下的文章片段:“接着,把水泵固定到工作台上。螺栓就放在小塑料袋中。”第二句中的螺栓,应该理解为是用来固定水泵的螺栓。因此,如果在理解全句时,把需用的螺栓置于“焦点”之中,则全句的理解就不成问题了。为此,我们需要表示出和“固定”有关的知识,以便当见到“固定”时,能方便地提取出来。,湖南科技大学计算机学院戴祖雄,53,图10.9给出的是一个与固定水泵有关的分区语义网络。所谓分区语义网络,就是将语义网络中的有关弧和节点集中起来,组成一个分区。图10.9所示的分区语义网络具有4个分区:S0分区含有一些一般的概念,如美元、兑换和螺栓等;S1分区含有与购买螺栓有关的特殊实体;S2分区含有与把水泵固定在工作台上这一操作有关的特殊实体;S3分区含有与同一固定操作有关的特殊实体等。运用分区语义网络,利用其分区在某些层次上的关联,可以较好地处理集中焦点的问题。当某一分区为焦点时,则某高层分区内的元素即变为可观察的了。对于上例,当第二句被理解时,因其讲的是“将水泵固定在工作台上”这一事件,因而图10.9中分区语义网络示例焦点处于S2分区。由于S0分区的层次高于S2分区,所以S0分区是可以观察的。当理解第二句时,显然“螺栓”不能与S2分区的任何元素匹配,因而焦点区由S2变成更低一级的S3分区,并且使得“螺栓”与B1匹配,匹配的结果使得第二句中的“螺栓”必定是第一句中用来进行固定的螺栓,从而使得前后两个句子成为一个前后连贯的文章片断。,湖南科技大学计算机学院戴祖雄,54,湖南科技大学计算机学院戴祖雄,55,当输入的文章片断描述的是有关人或物的行为等情节时,可以使用目标结构的方法来帮助理解。例如,“王强很想喝汽水。他向行人打听最近的冷饮店在哪里。”对于这样的情节,弄清楚人物的目标及其如何达到目标是理解的重点。在上例中,目标是要得到汽水喝,为此,王强必须去冷饮店,而要去冷饮店则必须知道冷饮店的位置,为了达到这一新的子目标,王强应该去询问别人。从而得出达到目标的行为规则:询问某人得知冷饮店去冷饮店买汽水喝汽水为了便于理解,对于这些常常出现的各种目标,可以编写好相应的规划,一旦需要时就去调用它们。这样,当情节中某些信息省略时,也可以通过这些规划推导出来。,湖南科技大学计算机学院戴祖雄,56,10.4语言的自动生成,语言生成就是把在计算机内部以某种形式存放的需要交流的信息,以自然语言的形式表达出来,因而从某种意义上来说,语言生成是自然语言理解的一个逆过程。一般包括以下两部分:(1)建立一种结构,以表达出需要交流的信息。也就是进行“构思”,确定要“说”的内容。(2)以适当的词汇和一定的句法规则,把需要交流的信息以句子形式表达出来。与自然语言理解一样,语言生成的处理方法有很多种,这不仅由于它们所采用的内部表达结构不同(如采用语义网络或者概念从属等),而且由于语言生成的目的也有所不同(如有的是为了对输入文章做摘要,有的是为了作为问题回答系统的人机界面等)。,湖南科技大学计算机学院戴祖雄,57,语言生成也有许多难点,特别是第一部分,显得更加困难一些。有时,要交流的信息由问题回答系统在回答问题时加以估计。在这些系统中,信息的生成过程要受到回答问题的约束。在语言生成系统中遇到的许多问题与在自然语言理解系统中所遇到的问题是一样的。例如,在自然语言理解系统中必须消除头语(字词或短语)的重复引用问题,为生成好的文章,也必须解决好这个问题。请看下面的短文:“李强看到商店橱窗里的一辆自行车。李强想要那辆自行车。”这篇短文显得不太自然,其原因就是没有使用代词。若用代词替代已出现过的事物,则生成的短文就自然一些:“李强看到商店橱窗里的一辆自行车,他想要它。”但是,也不是对任何句子都可以这样简单地处理,其必要条件是所得到的句子不至于因代词的出现而产生多义性。例如,假定原文为:,湖南科技大学计算机学院戴祖雄,58,“王飞看到闪光的推车里的一个蓝气球。王飞想要这个蓝气球。”若简单地使用代词,则会产生:“王飞看到闪光的推车里的一个蓝气球,他想要它。”这里的“它”就有二义性,它有可能是指气球,也可能是指小推车。为了使得短文不至于产生二义性,这里应该生成以下这样的短文:“王飞看到闪光的推车里的一个蓝气球,他想要这个气球。”这样得到的文章就显得既自然,又没有二义性了。总之,语言生成需要解决几乎所有的在自然语言理解中遇到的问题,其处理方法也可以使用在自然语言理解中所使用的各种方法。,湖南科技大学计算机学院戴祖雄,59,10.5文本的自动翻译-机器翻译,电子计算机出现之后不久,人们就想使用它来进行机器翻译。只有在理解的基础上才能进行正确的翻译,否则,将遇到一些难以解决的困难:(1)词的多义性。源语言可能一词多义,而目的语言要表达这些不同的含义需要使用不同的词汇。为选择正确的词,必须了解所表达的含义是什么。(2)文法多义性。对源语言中合乎文法规则但具有多义的句子,其每一可能的意思均可在目的语言中使用不同的文法结构来表达。(3)头语重复使用。源语言中的一个代词可以指多个事物,但在目的语言中要有不同的代词,正确地选用代词需要了解其确切的指代对象。(4)成语。必须识别源语言中的成语,它们不能直接按字面意思翻译成目的语言。,湖南科技大学计算机学院戴祖雄,60,机器翻译,就是让机器模拟人的翻译过程。人在进行翻译之前,必须掌握两种语言的词汇和语法。机器也是这样,它在进行翻译之前,在它的存储器中已经存储了语言学工作者编好并由数学工作者加工过的机器词典和机器语法。人进行翻译时所经历的过程,机器也同样遵照执行:先查词典得到词的意义和一些基本的语法特征(如词类等),如果查到的词不止一个意义,那么就要根据上下文选取所需要的意义。在弄清词汇意义和基本语法特征之后,就要进一步明确各个词之间的关系。此后,根据译语的要求组成译文(包括改变词序、翻译原文词的一些形态特征及修辞)。机器翻译的过程一般包括4个阶段:原文输入、原文分析(查词典和语法分析)、译文综合(调整词序、修辞和从译文词典中取词)和译文输出。下面以英汉机器翻译为例,简要地说明一下机器翻译的整个过程。,湖南科技大学计算机学院戴祖雄,61,1.原文输入由于计算机只能接受二进制数字,所以字母和符号必须按照一定的编码法转换成二进制数字。例如Whatarecomputers这三个词就要变为下面这样三大串二进制代码:What110110100111100000110011are100000110001110100computers1000101011101011001011111101001100111001001100011100102.原文分析原文分析包括两个阶段:查词典和语法分析。(1)查词典。通过查词典,给出词或词组的译文代码和语法信息,为以后的语法分析及译文的输出提供条件。机器翻译中的词典按其任务不同分成以下几种:综合词典:它是机器所能翻译的文献的词汇大全,一般包括原文词及其语法特征(如词类)、语义特征和译文代码,以及对其中某些词进一步加工的指示信息(如同形词特征、多义词特征等)。成语词典:为了提高翻译速度和质量,可以把成语词典放到综合词典前面。例如,atthesametime,不必经过综合词典得到每个词的信息后再到成语词典去找,可直接得到“副词状语”特征和“同时”的译文。,湖南科技大学计算机学院戴祖雄,62,同形词典:专门用来区分英语中有语法同形现象的词。例如close一词,经过综合词典加工未得到任何具体的词类,而只得到该词是形动同形词的指示信息。该词转到这里后,按照同形词典所提供的检验方法,来确定它在句中到底是用作形容词还是动词。同形词典是根据语言中各类词的形态特征和分布规律构成的。例如,动词、形容词同形的图示中,就有这样的规则:close后有er,est为形容词,处于“冠词+close+名词”和“形容词+close+名词”等环境时也为形容词,。(分离)结构词典:某些词在语言中与其他词可构成一种可嵌套的固定格式,我们称这类词为分离结构词。根据这种固定搭配关系,可以简便而又切实地给出一些词的词义和语法特征(尤其是介词),从而减轻了语法分析部分的负担。例如:effectof.on.,湖南科技大学计算机学院戴祖雄,63,多义词典:语言中一词多义现象很普遍,为了解决多义词问题,必须把源语的各个词划分为一定的类属组。例如,名词就要细分为专有名词、物体类名词、不可数物质名词、抽象名词、方式方法类名词、时间类名词、地点类名词等。利用这样的语义类别来区分多义现象,是一种比较普遍的方法。例如effect一词,当它前面是专有名词(例如人名)时,要选择“效应”为其词义,如Barreteffect巴勒特效应”;当它处在表示“过程”意义的动名词之后时就要译为“作用”,如Deoxidizingeffect“脱氧作用”。这种利用语义搭配的办法并非万能,但能解决相当一部分问题。通过查词典,原文句中的词在语法类别上即可成为单功能的词,在词义上成为单义词(某些介词和连词除外)。这样就给下一步语法分析创造了有利条件。,湖南科技大学计算机学院戴祖雄,64,(2)语法分析。在词典加工之后,输入句就进入语法分析阶段。语法分析的任务是:进一步明确某些词的形态特征;切分句子;找出词与词之间句法上的联系,同时得出英汉语的中介成分。一句话,为下一步译文综合做好充分准备。根据英汉语对比研究发现,翻译英语句子除了翻译各个词的意义之外,主要是调整词序和翻译一些形态成分。为了调整词序,首先必须弄清需要调整什么,即找出调整的对象。根据分析,英语句子一般可以分为这样一些词组:动词词组,名词词组,介词词组,形容词词组,分词词组,不定式词组,副词词组。正是这些词组承担着各种句法功能:谓语,主语,宾语,定语,状语,其中除谓语外,都可以作为调整的对象。,湖南科技大学计算机学院戴祖雄,65,如何把这些词组正确地分析出来,是语法分析部分的一个主要任务。上述几种词组中需要专门处理的,实际上只是动词词组和名词词组。不定式词组和分词词组可以说是动词词组的一部分,可以与动词同时加工:动词前有to,且又不属于动词词组,一般为不定式词组;-ed词如不属于动词词组,又不是用作形容词,便是分词词组;-ing词比较复杂,如不属于动词词组,还可能是某种动名词,如既不属于动词词组,又不为动名词,则是分词词组。形容词词组确定起来很方便,因为可以构成形容词词组的形容词在词典中已得到“后置形容词”特征。只要这类形容词出现在“名词+后置形容词+介词+名词”这样的结构中,形容词词组便可确定。介词词组更为简单,只要同其后的名词词组连结起来也就构成了。比较麻烦的是名词词组的构成,因为要解决由连词and和逗号引起的一系列问题。,湖南科技大学计算机学院戴祖雄,66,3.译文综合译文综合比较简单,事实上,它的一部分工作(如该调整哪些成分和调整到什么地方)在上一阶段已经完成。这一阶段的任务主要是把应该移位的成分调动一下。如何调动,即采取什么样的加工方法,是一个不平常的问题。根据层次结构原则,下述方法被认为是一种合理的加工方法:首先加工间接成分,从后向前依次取词加工,也就是从句子的最外层向内层加工;其次是加工直接成分,依成分取词加工;如果是复句,还要分别情况进行加工:对一般复句,在调整各分句内部各种成分之后,各分句都作为一个相对独立的语段处理,采用从句末(即从句点)向前依次选取语段的方法加工;对包孕式复句,采用先加工插入句,再加工主句的方法。因为若不提前加工插入句,主句中跟它有联系的那个成分一旦移位,它就失去了自己的联系词,整个关系就要混乱。,湖南科技大学计算机学院戴祖雄,67,译文综合的第二个任务是修辞加工,即根据修辞的要求增补或删掉一些词,比如可以根据英语不定冠词、数词与某类名词搭配增补汉语量词“个”、“种”、“本”、“条”、“根”等;再如若有even(甚至)这样的词出现,谓语前可加上“也”字;又如若主语中有every(每个)、each(每个)、all(所有)、everybody(每个人)等词,谓语前可加上“都”字,等等。译文综合的第三个任务是查汉文词典,根据译文代码(实际是汉文词典中汉文词的顺序号)找出汉字的代码。,湖南科技大学计算机学院戴祖雄,68,4.译文输出通过汉字输出装置将汉字代码转换成文字,打印出译文来。目前世界上已有十多个面向应用的机器翻译规则系统。其中一些是机助翻译系统,有的甚至
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!