词汇-语法理论在汉语研究中的应用.pps.pps

上传人:xian****812 文档编号:15167867 上传时间:2020-08-04 格式:PPS 页数:16 大小:182KB
返回 下载 相关 举报
词汇-语法理论在汉语研究中的应用.pps.pps_第1页
第1页 / 共16页
词汇-语法理论在汉语研究中的应用.pps.pps_第2页
第2页 / 共16页
词汇-语法理论在汉语研究中的应用.pps.pps_第3页
第3页 / 共16页
点击查看更多>>
资源描述
词汇-语法理论在自然语言处理中的应用,靳光瑾 教育部语用所 guangjin_2000 www.china-,自然语言处理学术研讨会 复旦 上海 2004-07-11-13,词汇-语法理论 (Lexique-Grammaire,Lexicon-Grammar ) 法国计算语言学家 Maurice Gross(1934-2001)基于 美国语言学家Zellig Harris(1909-1992)的语言学理论而创建的。,1934年生于法国东北的色当市 (Sedan)。 1955年进入法国理工大学 (Ecole Polytechnique)。 1961年首次访问美国,对乔姆斯基的研究产生兴趣。 1964年接受哈里斯的邀请重返美国,在哈里斯的指导下取得美国宾夕法尼亚大学的博士学位。 从此奠定了他一生从事形式语言学研究的基础。他已敏锐地意识到语言的精密描写是语言形式化的前提。 1967年与法国数学家 A. Lentin合写了 形式语法概念(Notions sur les grammaires formelles, Gauthier -Villars) 一书,受到学界的高度重视。乔姆斯基写了序言 。,Maurice Gross 与“词汇-语法” (Lexique-Grammaire,Lexicon-Grammar ),乔姆斯基在1965年发表的句法理论面面观 (Aspects of the Theory of Syntax) 一书中已觉察到探寻语言运作规则时无法回避词项制约的问题。 他在书中写道:“词汇结构的大部分其实只是音位和句法规则系统所引致的分类。Postal曾经提出,对于每一条规则R都应该对词项进行分析,应该把词项分类为应该、能够和不能够使用于规则R () 我提出这种种情况,目的仅仅在于指出,当我们认真地思考词项结构时,存在着多种有助于解决问题而尚未探讨过的方法。 () 就目前来说,我们还在对数据进行分类。至于哪些制约是属于语言内在的东西,哪些可以通过深入的分析加以消除还是悬而未决”。,1968年创建了法国科学院 (CNRS)直属的计算语言学研究所 (LADL : Laboratoire dAutomatique Documentaire et Linguistique) 该研究所是词汇-语法研究的核心基地,拥有30多名研究人员并培养大批博士生扩充梯队建设。在法国许多大学都建立了词汇-语法研究中心,如巴黎第八大学 (R. Vives)、第十三大学 (G.Gross),外省的里尔大学 (A. Dister),弗朗什-孔泰大学(M. Silberztein),格勒诺布尔第三大学(M. Piot)等。海外学者把词汇-语法带到了国际语言学的舞台上去。 开展了一项对全部法语词项的句法个性进行系统的、穷尽的描写的雄伟工程。 1975年出版了开山之作句法学入门(Methodes en syntaxe, Hermann),这本原创性巨著详尽论述了词汇-语法的理论基础、研究框架及实践原则。,1976年出版法语核心句 不及物结构(La structure des phrases simples en francais constructions intransitives, Droz) 1992年出版法语核心句 带处所词的及物结构(La structure des phrases simples en francais constructions transitives locatives, Droz) 数十年期间,完成了大量的基础研究。一共描写了6000个法语形态动词,31000个句法动词,制作了81个矩阵图。 25000个固定搭配,分成20个表; 3400个以句子为补语的简单动词,分成18个表; 10300个带名词性补语的简单动词,分成43个表。 这仅仅是就动词来说的。名词、形容词、副词等等也有相当可观的积累。,在拥有大规模的实证描写基础上,开始了两项具有深远意义的计算语言学工程: 一、构建法语电子词典。 简单词电子词典(DELAS)已登录90000词项,复合词电子词典(DELAC)已登录100000词项。 二、开发有限状态图,以表述复杂的微观系统;这种基于有限状态图的表述方式产生了容量可观的图库,当中每一幅图,显示着特定的句法或语义领域中种种词项的组合集。图库有助于把整个系统(电子词典和局部语法)的形式处理划一化,并且给出种种歧义现象的清晰图像。 INTEX系统以及后续的UNITEX系统应运而生。,系统提供了法语句法最全面、最完备、最系统的数据。 欧美越来越多的研究机构开始加以运用。大大提升了法语信息处理的能力。 建立 RELEX的网络,目的在于加强国际间研究机构的合作(第一阶段涉及法语、德语、意大利语和葡萄牙语),鼓励构建基于同一方法论的各种语言的数据库。 一个形式化的模式,当中所有属性都系统地标注上; 一个科学化的方法,当中形式标准为第一性; 一个有着语言学知识支撑的标注集,每种语言所配置的标记不少于1000.,词汇-语法用组配系统的形式工具特殊的代数形式对语言现象加以描写 句法规则高度依赖于词汇单位,某条描写规则一经提出,例外的情况就会立即被发现。导致了描写工作大部分被放弃。 “规则由词汇制约” ,每一条规则都有一定的适用范围,就是说,它适用于语言中的某一部分词汇。因此,对某条规则的描写必须包括对它的适用范围的描写,即必须提供能适用于此规则的词表。,词汇-语法是系统地描写特定语言的共时机制,并不涉及任何历时的考察。,词汇-语法的描写基于句本位简单句 句法描写的目的是给出所有的简单句; 那些被认为比简单句要大的句子应该描述成为简单句的函数,整个复杂句不作为句法研究的原始目标。 简单句定义:它是由一个独立子句构成的没有附着的关系子句。它至少由一个主语和一个谓语。这个主语或是谓语可能是复合的(包含多于一个由并列连词连接的成分),而且修饰语和短语也可以加进来。 主语-谓语/复合主语-谓语/主语-复合谓语,词汇-语法的研究有一个明确的的框架,句子是描写的对象,只限于描写核心句,即只具有一个主要动词的句子,其结构形式为主-述-连带成分。 形式表示:# N0 V W # 连带成分指以述语为中心的、置于其前及其后的成分。连带成分分为基本补足语和附加补足语,只研究基本补足语,但不存在单一的及普遍的标准可以用来区分两者。,句法特征: 所有结构等同于句子形态,而且在大多数情况下,体现为核心句,即包含一个主要动词及基本补足语的句子;无论变换与否,句子形态用NP及特定动词标示。 特定X若能进入结构S,即被视为具有特征S,当动词类化到句法格式时,动词表即固定于特定的格式。按此方法处理,词汇-语法以表格形式出现,其中横向的行是词汇单位,纵向的列是句法特征。在行与列的交汇处,加号或减号标示出相应的词汇单位能否进入到相应的结构中去。 如图:,词汇-语法表表示属于同一个类的不同词条的区别。要对一个词条进行句法分析,我们需要一个表示它的所有组合方式的图。为避免人工为每一个词条构造图,Unitex可以从表为每一个条目生成一个图,并生成一个描述表的所有组合方式的参数化图。可以用这些图进行句法分析。 词汇-语法用Unitex图操作的递归转移网络的形式表示语法。,2000年以后的词汇-语法在欧洲大陆已成为强势的语言学流派。 口号:团队精神信息处理语言描写 宗旨:运用大规模的、由电子词典及电子语法提供的语言学数据发展自然语言处理技术。 研究重点:以词汇-语法第三梯队 (S. Paumier, M. Constant,C.Fairon) 发展RELEX网络。 RELEX网络是国际计算语言学研究所联盟,读者可通过其网页了解对法语、英语、希腊语、葡萄牙语、俄语、泰语、韩语、意大利语、西班牙语、挪威语、阿拉伯语、德语、波兰语的数据处理的状况。,我们的研究是建立在词汇-语法理论 能够应用于或适用于汉语事实的假设之上 。 工作: 选高频动词1000,逐个调查句法特征; 例证选自国家语委5000万标注语料库; 完成现代汉语动词参数化状态图。 例:动词 擦,
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!