《自然语言理解LP》PPT课件.ppt

上传人:za****8 文档编号:12723741 上传时间:2020-05-19 格式:PPT 页数:78 大小:604.56KB
返回 下载 相关 举报
《自然语言理解LP》PPT课件.ppt_第1页
第1页 / 共78页
《自然语言理解LP》PPT课件.ppt_第2页
第2页 / 共78页
《自然语言理解LP》PPT课件.ppt_第3页
第3页 / 共78页
点击查看更多>>
资源描述
自然语言理解,李鹏,内容大纲,一、概述二、形式语法三、概率语法,一、概述,自然语言指人类使用的语言,如汉语、英语等。自然语言处理(naturallanguageprocessing,NLP)或称自然语言理解(naturallanguageunderstanding,NLU),就是以计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。,一、概述,“自然语言处理可以定义为研究在人与人交际中,以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力(linguisticcompetence)和语言应用(linguisticperformance)的模型,建立计算框架来实现这样的语言模型,提出相应的方法来不断地完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”B.Manaris,Naturallanguageprocessingintheviewofman-machineinterchange,inAdvancesinComputer,Volume47,1999.,NLPvsNLU,NLP:对自然语言所进行的任何有意义的操作。NLU:为了理解自然语言而进行的各种操作。NLP是实现NLU的手段,NLU是进行NLP的目的。,1.1自然语言理解研究的内容,机器翻译(Machinetranslation,MT)信息检索(Informationretrieval,IR)自动文摘(Automaticabstracting)文档分类(Documentcategorization)问答系统(Question-answeringsystem)信息过滤(Informationfiltering)语言教学(Languageteaching)等,1.1自然语言理解研究的内容,建立一种语言结构到另一种结构的映射字符串到隐状态序列名字实体抽取,词性标签等问题一种字符串到另一种字符串机器翻译字符串到解析树语言解析字符串到关系型数据库信息抽取,1.2自然语言的发展历史,早在计算机出现以前,英国数学家A.M.Turing(图灵)就预见到未来的计算机将会对自然语言研究提出新的问题。他在1950年发表的机器能思维吗一文中指出:“我们可以期待,总有一天机器会同人在一切的智能领域里竞争起来。但是,以哪一点作为竞争的出发点呢?这是一个很难决定的问题。许多人以为可以把下棋之类的极为抽象的活动作为最好的出发点,不过,我更倾向于支持另一种主张,这种主张认为,最好的出发点是制造出一种具有智能的、可用钱买到的机器,然后,教这种机器理解英语并且说英语。这个过程可以仿效小孩子说话的那种办法来进行。”Turing提出,检验计算机智能高低的最好办法是让计算机来讲英语和理解英语。他天才地预见到计算机和自然语言将会结下不解之缘。,1.2自然语言的发展历史,从20世纪40年代到50年代末,这个时期是自然语言处理的萌芽期。A.M.Turing算法计算模型的研究N.Chomsky关于形式语言理论的研究C.E.Shannon概率和信息论模型的研究自然语言处理萌芽期的这些出色的基础性研究,为自然语言处理的理论和技术奠定了坚实的基础。,1.2自然语言的发展历史,20世纪60年代中期到80年代末期是自然语言处理的发展期。主要表现在:机器翻译的发展统计方法在语音识别算法的研制中取得成功逻辑方法在自然语言处理中取得了很好的成绩,1.2自然语言的发展历史,从20世纪90年代开始,自然语言处理进入了繁荣期。这个新纪元的重要标志是在基于规则的技术中引入了语料库方法,其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法。,什么是语料库,语料库,英文为Corpus存储语言材料的仓库现代的语料库是指存放在计算机里的原始语料文本或经过加工后带有语言学信息标注的语料文本,关于语料库的三点基本认识,语料库中存放的是在语言的实际使用中真实出现过的语言材料;语料库是以电子计算机为载体承载语言知识的基础资源;真实语料需要经过加工(分析和处理),才能成为有用的资源;,语料库示例,北京大学计算语言所富士通人民日报标注语料库样例:历史/n将/d铭记/v这个/r坐标/n:/w北纬/b/m度/q、/w东经/b/m度/q;/w人们/n将/d铭记/v这/r一/m时刻/n:/w年/t月/t日/t时/t分/t。/w中国/ns政府/nnt顺利/ad恢复/v对/p香港/ns行使/v主权/n,/w并/c按照/p“/w一国两制/j”/w、/w“/w港人治港/l”/w、/w高度/d自治/v的/u方针/n保持/v香港/ns的/u繁荣/an稳定/an。/w,语料库的分类,生语料库/熟语料库生语料库就是未经加工的,没有任何切分,标注标记的原始语料库熟语料库就是指经过加工,带有切分,标注标记的语料库系统型语料库/专用型语料库系统型语料库就是依据事先确定的选材原则和比例选取语料的语料库专用型语料库就是指专门服务于某个特定目的的语料库单语种语料库/多语种语料库,1.3自然语言理解研究的基本问题,语音(Phonetics)学问题:研究词及其语音的关联。形态学(Morphology)问题:研究词是如何由意义的基本单位“词素”(morphemes)构成的。语法学(Syntax)问题:研究句子结构成分之间的相互关系和组成句子序列的规则。,1.3自然语言理解研究的基本问题,语义学(Semantics)问题:研究如何从一个语句中词的意义,及这些词在该语句的句法结构中的作用来推导出该语句的意义。语用学(Pragmatics)问题:研究在不同上下文中语句的应用,以及上下文对语句理解所产生的影响。,1.4自然语言理解研究的基本方法,理性主义(规则方法)19601980中期基本信念:有限语言规则覆盖无限语言现象。然而:(1)语言现象无限丰富和动态开放,“规则有限性和封闭性”受到质疑(2)随着规则数量增多,可能经常产生规则之间的矛盾冲突(3)人工提取规则费时费事,机器提取规则的质量还难以保证,1.4自然语言理解研究的基本方法,经验主义(统计方法)1920-1950,1980中期-基本信念:多者为真。然而,(1)统计特性的假设(符号独立或Markov阶数固定)在实际语言现象中难以成立(2)即使语料库的规模很大,往往也难以保证语料统计结构的遍历性(数据稀疏)(3)统计方法本身的“统计平均性质”,不保证实际结果的正确性,解决办法:理性主义方法与经验主义方法的融合。符号智能计算智能理性主义研究方法符号处理系统经验主义研究方法基于语言数据的计算方法理性主义与经验主义的合谋融合方法,二、形式语法,2.1概述形式语法理论的目的是试图用精确的数学模型(形式语言)来刻画自然语言。与统计语言模型不同的是,对于一个形式语法体系来说,一个句子是否属于一种语言,只存在“是”“否”两种答案,不存在中间状态(概率),形式语法体系的目标准确:能够产生语言中所有的句子,而不产生语言中不存在的句子简洁:尽可能用比较少的规则来描述一种语言高效:分析的计算复杂度越低越好,语法理论的几个里程碑:1950Chomsky提出了4类形式语法1980Chomsky提出管辖与约束理论(GB)随后研究者们提出了词汇功能语法(LFG)树连接语法(TAG)链语法(LinkGrammar)等等,2.2GB理论,语法构成管辖约束理论(GovernmentandBindingtheory,GB)认为语法由两大系统构成:规则系统,原则系统。,2.2.1X理论,以CFG为基本骨架。该理论认为:无论哪种词组,其结构均以中心语加上补语,或者中心语加上标志语方式构成。形式上为:Xn-1Xn-2COMPXnSPECXn-1其中,SPEC为标志语;COMP为补语;Xi(in,n-1,n-2)为中心语。,2.2.2格理论,格理论属于句法结构的范围。它表示句中各成分之间的关系,以及这种关系实现的形式手段。确定在怎样的结构条件下和在句子生成的哪个阶段,一些词(如动词、介词)可以赋格,哪些词必须取得格。这里的格既包括可见格,如俄语中的六个格,也包括隐性格,如汉语和英语中的格。因此,格理论研究的是一种抽象格。格理论对词组位移后留下的语迹是否能取得格也做了相应的规定。,2.2.3管辖理论,从结构上定义哪些成分可以管辖,哪些成分可以把格赋给另外一些成分。可以赋格的成分称之为主管成分,如:动词,介词等;受其管辖的成分称之为受管成分,如:名词,形容词等;这种关系称之为管辖关系。管辖理论研究成为主管、受管成分的条件;研究代词、空语类以及它们与先行词之间的管辖关系等。,2.2.4提元理论,题元理论研究各词项之间的题元关系,即传统语法中用施事、受事、工具等术语表示的概念范畴之间的关系。题元理论以动词为中心,认为每一个题元角色都是由动词分配的。题元准则:每个论元(argument)必须且只许充当一个题元角色(-role);每个题元角色必须且只许由一个论元充当。,kill有“施事”和“受事”两个题元,run只有一个“施事”题元。不同的动词有不同数目的题元,这是动词的词汇特征,由词库规定。TheygoJohn.是不合法的句子,因为John处于“受事”题元角色的位置,而动词go却没有分配“受事”题元角色。汉语动词“开了”的主语位置可以是施事,也可以是受事,而宾语位置只能是受事。而“推”的主语位置只能是施事。,2.2.5约束理论,研究名词词组之间的指称关系,在怎样的结构范围(辖域)内,代词(如:你、我、他、它等)、反身代词(如:自己)、指称语、空语类等,可以受到先行词的约束,与先行词同指。例如:水边草地上,一头牛啃着嫩草,放牛娃背对着它在吹笛子。,2.2.6控制理论,控制理论研究的对象是PRO,研究PRO怎样受先行词的控制。PRO是一个空语类,它有一个先行词,同时又具有代词的性质。如:老王叫儿子PRO去买点酒来。这里PRO和“儿子”同指,而不是和“老王”同指。,管辖理论、格理论讨论管辖范围、管辖对象;格理论、提元理论则在结构和语义两个层次上讨论同一个对象;约束理论和控制理论都是研究名词性词组之间的同指问题。几种理论相互补充、相互交互、相互限制,以解释各种语言现象。,2.3功能合一文法,功能合一文法(FunctionUnificationGrammar,FUG)是1985年MartinKay(StanfordUniversity)提出的。提出起因Chomsky短语结构语法生成能力太强,产生许多不符合语法或有歧义的句子;标记十分简单,分析能力有限,难以反映自然语言的复杂特性。,FUG对短语结构语法的改进,采用复杂特征集来描述词、句法规则、语义信息,以及句子的结构功能。试图以单一形式的结构模式来描述特征组合、功能分配、词条和组成成分的顺序,以达到对句子的完全功能描述。采用合一运算对复杂特征集进行运算。,2.3.1复杂特征集,复杂特征集功能描述的定义设为一个功能描述FD(FunctionalDescription),当且仅当可以表示为:f1=v1f2=v2n1其中,fi表示特征名,fn=vnvi表示特征值,(1)特征名fi为原子,特征值vi为原子或另一个功能描述;(2)(fi)=vi(i=1,n),读作:复杂特征集中,特征fi的值等于vi。,如何用复杂特征集描述词汇,在词典中单词的特征可以包括词类、形态、句法和语义等多方面的信息,如:CatVerbis:per=3num=singularTense=presentLex=be,如何用复杂特征集描述规则,SNP+VerbCat=SSubject=Cat=NPCat=VerbPredicator=Number=Person=,如何用复杂特征集描述句子,句子:Wehelpedher.,复杂特征集的特点,允许利用多个语言特征描述同一个语言单位从结构上看,复杂特征集是一种嵌套结构,可以有效地表示复杂词组或句子结构;特征名的定义及其相互关系具有明显的层次性,而所有自然语言的结构都是层次性的,复杂特征集的这一特点显然对语言的层次分析有益复杂特征集便于运算,两个复杂特征集通过合一运算可以产生另一个复杂特征集,这与句法分析中词组和句子的产生是一致的。,2.3.2合一运算,复杂特征集相容的定义若、均为复杂特征集,则、是相容当且仅当:(1)如果(f)=a、(f)=b,且a、b都是原子,那么、是相容的,当且仅当ab;(2)如果(f)、(f)均为复杂特征集,、是相容的,当且仅当(f)、(f)相容。,合一运算的递归定义,(1)在a、b都是原子的情况下,如果ab,那么aUb=a,否则aUb=;(2)如果、均为复杂特征集,则(a)若(f)=v,但(f)的值未经定义,则f=v属于U;(b)若(f)=v,但(f)的值未经定义,则f=v属于U;(c)若(f)=v1,但(f)=v2,且v1与v2相容(不相抵触),则f=(v1Uv2)属于U,否则U=。,例1:,例2:,合一运算的作用,(1)合并原有的特征信息,构造新的特征结构;(2)检查特征的相容性和规则执行的前提条件是否满足,如果参与合一的特征相冲突,就立即宣布合一失败。,2.4词汇功能语法,词汇功能语法(LexicalFunctionalGrammar,LFG)于上个世纪70年代末期由R.KaplanandJ.Bresnan在美国MIT提出。基本观点句子由两个相对独立的层次来描述:(1)成分结构层次:描述句子成分的结构关系(2)功能结构层次:描述句子主语、谓语、宾语等之间的关系,词汇功能语法的特点,以短语结构语法来构造句法树(成分结构,即c-结构),不使用转换规则和深层结构的概念;以特征结构(功能结构,即f-结构)作为表达语法信息的主要手段;以合一作为运算的基本方式;以词汇中的信息作为语法信息的主要的来源。,词汇功能语法的规则,词汇功能语法的两种结构,词汇功能文法句子的合法性,以动词为中心进行检查:一个论元只允许有一个值(唯一性);每个论元都应该有值(完备性);不该有的论元不应该有值(一致性);不满足这三个条件的句子为不合法的句子例如假设句子的中心动词为loves,其PRED特征的值为:(PRED)=love那么该句子的特征结构中必须有且只有SUBJ和OBJ这两个论元具有特征值,2.5中心词驱动的短语结构语法(HPSG),HPSG是现在西方很流行的一种理论。由PollardandSag(1987)提出的原型,1994年对其进行了改进,形成了一个完整的句法理论。HPSG的理论主张:是基于约束的词汇主义SurfaceOriented(面向表层)Constraint-Based(基于约束)StrictLexicalism(严格的词汇主义)特征结构(FeatureStructure)是描述语法信息的一种手段,HPSG广泛采用复杂特征结构来描述词语或短语信息。复杂特征结构是HPSG实现其“词汇主义”的主要手段,是HPSG理论的重要组成部分,例如,关于动词give的描写:,基本特点强调中心词在短语结构规则中的作用中心语补足语规则(Head-ComplementRule)中心语指示语规则(Head-SpecifierRule)中心语修饰语规则(Head-ModifierRule)产生式规则特征结构合一运算基于中心词的属性特征传递(HeadFeaturePrinciple,)以同样的形式化方式表达句法知识和语义知识,2.6树邻接语法,树连接语法(TreeAdjoiningGrammar,TAG)1975年由美国学者Joshi提出。提出的动机是试图弥补上下无关文法过于简单、不能限制一些不合法语言现象的弱点。TAG是介于上下文无关和上下文有关文法之间的一种语法表示形式。,TAG的形式化定义,G=VN:非终结符集合VT:终结符集合S:起始符T0:初始树集(initialtrees)Ta:附属树集(auxiliarytrees),TAG中的两种操作,替换(substitution)把一个树的根结点与另一个初始树中标为替换的非终结符叶结点合并,生成一棵新的树。根结点和替换结点必须具有相同的标识。,附加(adjunction)把一个附属树嫁接(graft)到一个初始树的任意非终结结点上。,2.7链文法,链接文法是根据单词的连接要求来分析句子和判断句子合法性的文法。链接文法中的句子由一个单词序列构成,每个单词均有连接要求(用连接因子表示)。链语法是一种“词汇主义”的语法体系,不使用规则,所有语法信息都由词语来承载。链语法的表达能力等价于上下文无关语法。,每个单词的连接要求如图表示每个单词的连接要求在句子中被满足,连接因子:描述单词连接要求的字符串。由至少一个大写字母开头,紧跟若干个(或零个)小写字母,最后是后缀“+”“-”。连接因子有方向性,两个连接因子所含字符串相同且方向相反,则匹配。,单词的连接要求有两种表达方式:标准式(如前示)、分离式标准式:分离式:,对于一个合法的句子,要求句子中所有的单词的链接条件都被满足,并且所有的链接符合下面4条元规则(MetaRule)的要求:平面性(Planarity)连通性(Connectivity)顺序性(Ordering)排它性(Exclusion)一个合法的句子中所有的链接称为一个链接集(linkage),链接集就是链语法分析句子的结果。,三、概率语法,大规模语料库的出现为自然语言统计处理方法的实现提供了可能,统计方法的成功使用推动了语料库语言学的发展。语言模型:P(W=w1w2wn)统计语言模型实际上就是一个概率分布,它给出了一种语言中所有可能的句子的出现概率。,基于大规模语料库和统计方法,我们可以发现语言使用的普遍规律进行机器学习、自动获取语言知识对未知语言现象进行推测概率语法通常指n阶马尔柯夫链语言模型(n元文法)隐马尔柯夫模型(HMM)概率上下文无关文法(probabilisticCFG,PCFG)概率链接语法(probabilisticlinkgrammar)等,3.1N-元文法,N元语法(N-gram)假设:单词wi出现的概率只与其前面的N-1个单词有关,举例,N=1时:一元语法,相当于词频表,给出所有词出现的频率N=2时:二元语法,相当于一个转移矩阵,给出每一个词后面出现另一个词的概率N=3时:三元语法,相当于一个三维转移矩阵,给出每一个词对儿后面出现另一个词的概率在自然语言处理中,N元语法可以在汉字层面,也可以在单词层面,还可以在概念层面,二元语法图示,P(t-i-p)=P(X1=t)P(X2=i|X1=t)P(X3=p|X2=i)=1.00.30.6=0.18,应用,代码识别问题音字转换问题汉语分词问题等,N元语法的参数估计,得:对于n-gram,参数可由最大似然估计求得:用实际样本中事件出现的频率来估计该事件的概率,例如,给定训练语料:“JohnreadMobyDick”,“Maryreadadifferentbook”,“ShereadabookbyCher”根据二元文法求句子Johnreadabook.的概率?,Johnreadabook.,数据平滑,数据稀疏问题如果f(w1wn)0,那么出现零概率,导致整个文本的出现概率为零基本思想调整最大似然估计的概率值,使零概率增值,使非零概率下调,“劫富济贫”,消除零概率,改进模型的整体正确率。基本约束:,加一法Good-turing法绝对减值法线性减值法回退法删除插值法,3.2隐马尔柯夫模型,该模型是一个双重随机过程,我们不知道具体的状态序列,只知道状态转移的概率,即模型的状态转换过程是不可观察的(隐蔽的),而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数。,模型定义,(HMM)是一个五元组:(x,o,A,B,)其中:x=q1,.qN:状态的有限集合o=v1,.,vM:观察值的有限集合A=aij,aij=p(Xt+1=qj|Xt=qi):转移概率B=bik,bik=p(Ot=vk|Xt=qi):输出概率=i,i=p(X1=qi):初始状态分布,模型中的三个问题,=A,B,为给定HMM的参数,令=O1,.,OT为观察值序列隐马尔可夫模型(HMM)的三个基本问题:1.评估问题:对于给定模型,求某个观察值序列的概率p(|);2.解码问题:对于给定模型和观察值序列,求可能性最大的状态序列;3.学习问题:对于给定的一个观察值序列,调整参数,使得观察值出现的概率p(|)最大。,谢谢!,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!