中文信息处理的学科理论课件

上传人:春*** 文档编号:243147354 上传时间:2024-09-16 格式:PPT 页数:19 大小:191.50KB
返回 下载 相关 举报
中文信息处理的学科理论课件_第1页
第1页 / 共19页
中文信息处理的学科理论课件_第2页
第2页 / 共19页
中文信息处理的学科理论课件_第3页
第3页 / 共19页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,第五章 中文信息处理的学科理论,授课时间:,2007,年,1,月,9,日,授 课 人:徐艳华,信息处理的句法理论,信息处理的语义理论,中国计算语言学的理论影响,一、短语结构语法,语言知识的形式化表达手段主要有三种:形式语法、状态转移网络以及特征结构与合一运算。以这些表达手段为基础,对具体的一种自然语言(如汉语)的语言知识进行系统的整理,就得到了关于这种语言的形式语法理论体系。目前基于规则的自动句法分析的形式语法理论主要有短语结构语法、转换生成语法、管辖约束理论、广义的短语结构语法、功能合一语法、词汇功能语法、中心词驱动的短语结构语法、范畴语法、依存语法、树连接语法、链语法等。这些理论都是在计算语言学中经常使用的,它们是学习和研究时应该具备的计算语言学的基础知识。其中,短语结构语法是各种理论和方法的基础。,1,、短语结构语法的形式化定义,短语结构语法,PSG,可以定义为一个四元组:,G=,其中,,T,是终结符号(,terminal symbols,)的集合,任何一部现代汉语词典中的词都可以成为这部语法中的终结符号。,N,是非终结符号的集合,包括词类标记(如名词,N,,动词,V,等等)和短语功能标记(如名词性短语,NP,,动词性短语,VP,等等)。,S,是,N,中的一个元素,称作起始符,语言中的每个句子都是从这个起始符开始推导。,P,代表一组式子组成的集合,,P,中的式子具有这样的形式:,。一般把具有上面这种形式的式子称为“产生式规则”(,production rule,)或“重写规则”(,rewriting rule,),式子中的箭头“”表示替换的意思,即将左边的字符串,替换为箭头右边的字符串,。,产生式需要满足下面三个条件:,可以是,T,和,N,上的任意字符串,但不能是空字符;,可以是,T,和,N,上的任意字符串,也可以是空字符;,P,中至少有一个产生式中的,必须由,S,来充当。,一条“产生式”就是一条句法规则。不同类型的语法对规则的形式有不同的限制,句法分析前首先要确定使用什么类型的语法。,2,、短语结构语法的乔姆斯基分类,乔姆斯基对短语结构语法的重写规则,给予不同的限制,得到了,4,种不同的语法,由于它们是一层套一层的,所以被人们成为“乔姆斯基层级”,(,1,)无约束短语结构语法,又叫,0,型语法或无限制语法,对于该语法中的每一条产生式,,没有任何限制,那么它就成为乔姆斯基层级中生成能力最强的一种形式体系,即,0,型语法。被这种无约束短语结构语法所定义的语言叫,0,型语言。,(,2,)上下文有关语法,如果语法中的每一条产生式,都满足,|,|,|,,即规则左部的符号个数少于或等于规则右部的符号个数(如,ABCAbC,或者,ABCADEC,),这种语法就称为上下文有关语法或,1,型语法。由这种语法产生的语言成为,1,型语言。,是抽象的产生式,其中,和,都是变量,我们不妨以具体的产生式为例来理解这种语法。如产生式:,aXcabc,这条产生式的意思是:如果,X,出现在上下文“,a/c”,中,即上文紧挨着符号串,a,,下文紧挨着符号串,c,,则非终结符,X,可以重写为终结符,b,。因为一个符号的重写依赖于其上下文,这就是这种语法被称为上下文有关语法的原因。,(,3,)上下文无关语法,如果一个短语结构语法中的每条规则都采用,A,的形式,其中,,AN,,,(,TN,),即每条产生式的左侧必须是一个单独的非终结符,规则右部是非终结符和终结符的组合或者是终结符。在这种形式体系中,规则被应用时不依赖于符号,A,所处的上下文,因此称为上下文无关语法,又叫,2,型语法。由这种语法产生的语言叫,2,型语言,比如规则集:,S,(,S,),Sx,所生成的语言就是一个上下文无关语言。它可以生成成对的括号表达式:,x,,(,x,),(,x,),(,4,)正则语法,又称,3,型语法,它有两种形式:左线性语法(,left-linear grammars,)和右线性文法(,right-linear grammars,)。在一部左线性语法中,所有规则必须采用如下形式:,AB,或者,A,;而在一部右线性语法中,所有规则必须如下书写:,AB,或者,A,。其中,,A,,,BN,,,T,,即,A,和,B,都是单个非终结符,,是终结符的组合。,以上四种形式语法,无约束短语结构语法由于不受任何约束限制,生成能力太强,因此无法设计一个程序来判别输入的字符串是不是,0,型语言中的一个句子,所以,0,型语法一般很少被使用,也未被用来描写自然语言;上下文有关语法的分析算法过于复杂,尽管,1993,年周明等用这种语法标注了,1300,个汉语简单陈述句,但获取的规则数量太大,不便于实际应用;正则语法通常用于词法分析;上下文无关语法的规则体系便于构造,其生成的语言与自然语言最相近,被广泛应用于程序设计语言和自然语言的描写中。所以,一般意义上的短语结构语法专指上下文无关语法,3,、短语结构语法的分析能力,短语结构语法的设计思想:句子是由短语结构组成的,从整体句子开始,到句子符号序列的产生,可以通过短语结构规则一步步推导出来,所以用短语结构语法来对句子进行句法分析,就意味着是寻找一个从起始符到该句子的推导,这个推导通常表现为一颗句法树。如果句子是歧义的,也就是说它存在几种推导,那么它会给出所有可能的句法树。,假如我们有这样的一部语法:,S NP VP,NPn,NPn,n,VPvt,n,VPvt,VP,VPvt,NP,n,学生,n,学习,n,文件,vt,喜欢,vt,学习,那么句子“学生喜欢学习文件”的推导过程是:,Step0,S,初始,Step1,NP VP,用规则,1,Step2,n VP,用规则,2,Step3,n,vt,VP,用规则,5,n,vt,NP,用规则,6,Step4,n,vt,vt,n,用规则,4,n,vt,n n,用规则,3,Step5,学生,vt,vt,n,用规则,7,学生,vt,n n,Step6,学生 喜欢,vt,n,用规则,10,学生 喜欢,n n,Step7,学生 喜欢 学习,n,用规则,11,学生 喜欢 学习,n,用规则,8,Step8,学生 喜欢 学习 文件,用规则,9,S S,NP VP NP VP,n,vt,VP n,vt,NP,vt,n n n,学生 喜欢 学习 文件 学生 喜欢 学习 文件,二、格语法理论,格语法(,Case Grammar,)是美国语言学家菲尔墨(,C.J.Fillmore,)在,60,代中期提出来的着重探讨句法结构与语义之间关系的一种语法理论和语义学理论。它有三部分组成:基本规则,词汇部分和转换部分。,基本规则:,S=M,P,,,S,代表句子,(sentence),,,M,代表情态(,Medalitv,),情态指句子的时态、语态等;,P,代表命题(,Proposition,),命题指体词和谓词之间的及物关系,即句子的核心谓词与周围体词的关系,即格关系。,词汇部分(,1,) 词库词库是语言中词汇的集合。在词库中除了要标明每一个词条在句法、语义和语音方面的特征外,还需标明它们的底层格的特征。(,2,)词汇插入格语法中词汇插入问题主要是名词和动词的选择问题。对于名词来说,把词库中每一个名词的特征与格范畴联系起来。,转换部分格的转换部分操作与转换生成语法大同小异,大致采用移动、删除、插入、复写等方法。菲尔墨主要研究了有关格的形式和主语确定的转换规则。他认为深层格所体现的语义关系是一个固定而统一的概念,而在表层结构中的表现形式则因语言而异。有些语言主要通过介词来表现,有些语言用屈折变化和词汇变化来表现,有些语言则主要采用次序来表现,有个语言综合采用上述各种形式。,从上述这个简单的推导过程中,我们不难发现,短语结构语法存在一个最严重的问题,那就是区分歧义结构的能力很差,连该语法的创始者乔姆斯基本人都认为短语结构文法不适宜描述自然语言,所以他又提出了转换语法和管辖约束理论(,GB,)来克服短语结构语法的种种局限性。然而,由于转换生成语法通常要涉及到若干个句子之间的关系,强调句法有三个平面:深层、浅层和表层,在机器翻译和自然语言处理中使用起来很不方便,所以没有被研究者广泛应用。,三、汉语名词的语义分类,名词的语义角色分类,.doc,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!