资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,哈工大信息检索研究中心,中文数据库自然语言接口技术调研,张文斌,2010-07-05,提纲,研究现状,规则流派,统计流派,总结思考,提纲,研究现状,规则流派,统计流派,总结思考,国外研究现状,国外数据库自然语言接口(NLIDB)的研究可追溯到20世纪60年代,80年代最为活跃,进入20世纪九十年代,研究热度减弱,出现了许多试验性和商用系统,如微软的English Query, BIM的LOQUI,IBM的LANGUAGEACCESS等,在NLIDB的可用性和可移植性研究中都取得了很大的进展,国内研究现状,中文NLIDB的研究始于20世纪70年代末期,20世纪90年代出现了许多实验系统或模型,由于中文的特殊性,一些国外的理论不能直接移植过来,总体来说,在理论和技术上都取得了一些进步,但研究进展缓慢,且不够系统,多属摸索性工作,尚未出现比较完善的理论和技术,中文NLIDB系统概览,中文数据库自然语言查询系统NChiql,人民大学,孟小峰等,基于受限汉语的数据库自然语言接口NLCQI,暨南大学,许龙飞等,基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL,北京大学,崔宗军等,数据库汉语查询接口WTCDIS,北京信息工程学院,李保利等,主流技术,以词汇驱动,句法语义处理一体化,主要步骤,词法分析,语法分析,语义分析,生成SQL语句,提纲,研究现状,规则流派,统计流派,总结思考,规则流派的特征,基于规则,人工总结文法、转换规则,受限汉语,规则流派的系统,NChiql,NLCQI,RChiQL,WTCDIS,RChiQL模型简介,北京大学的崔宗军、唐世渭、杨冬青,论文,基于ER模型的数据库受限汉语查询界面RChiQL的文法分析系统研究J. 中文信息学报, 2000,(04),基于ER模型和受限汉语的数据库中文查询语言研究J. 中文信息学报, 2001,(04) .,RChiQL系统结构及流程图,RChiQL模型,基于受限汉语和ER模型的数据库查询语言模型RChiQL是一个六元组,RChiQL=(RCZ, RCW, RCS, RCWC, RCYY, ER-Model),其中RCZ是受限汉语字典, RCW是受限汉语词典, RCS是受限汉语语法词典,RCWC是受限汉语搭配词典, RCYY是受限汉语语义规则词典, ER-Model是ER语义模型。,词法分析,基于数据库ER语义的全匹配算法,采用长词优先、短词等待的完全匹配策略,保证发现所有的切分歧义,效率不如最大匹配法, 但在实践中可行,例子,输入,“列出把乒乓球拍卖给北京工程的上海或深圳公司”,输出,I.“列出/把/乒乓球/拍/卖/给/北京/工程/的/上海/或/深圳/公司”,II.“列出/把/乒乓球拍/卖/给/北京/工程/的/上海/或/深圳/公司”,III.“列出/把/乒乓球/拍卖/给/北京/工程/的/上海/或/深圳/公司”,语法分析,RChiQL中的文法分析子系统G=(Vn,Vt,S,P,Y,A),Vn=VnsVng;,Vns为ER语义符号集合,如E表示实体,A表示属性等;,Vng为现代汉语有关文法符号集合,如D表示助词;,Vt=受限汉语词典;,S为开始符号;,P=,;,Vn, VnVt * ;,=,为语义搭配集合,其中为短语中心词序列;,Y=,;,为歧义短语文法,为优先系数;,A为文法分析算法。,语法分析,受限汉语查询句必须符合三段式祈使句,查询动词修饰短语目标短语,ER语义特征文法规则,研究了一千多个受限汉语查询句的基础上总结提炼而出,语义分析,将语法分析树转换为表达查询句语义的中间语言,语义分析子系统包括,语义规则库,ER语义库的建立和维护工具,语义分析算法,遇到系统不能处理的情况时,交互模块要给出ER模型下的歧义语义关系图,用户选择出正确语义,系统记录并完成处理,生成SQL语句,SQL语句生成子系统主要参考ER模型、数据库模式及各成分之间的映射关系并依据中间语言到SQL语句的格式转换规则把中间语言转换为当前DBMS能够执行的SQL语句,提纲,研究现状,规则流派,统计流派,总结思考,统计流派,陈力在中文信息处理丛书序言指出:,“汉语的语法尚未形成规范化,而且人们习惯于非规范化的语法”,介绍一种方法,基于查询语义的数据库中文界面研究,中科院计算所,张凯等,全国第七届计算语言学联合学术会议,2003,词法分析,分词词典,词链,对词标记类型和辅助信息,实体名E,属性名A,属性值Va,查询动词Vq等等,请/列出/广州/的/供应商/为/上海/的/工程/提供/的/零件,列出-广州-供应商-上海-工程-提供-零件,可能查询语义的生成,查询目标的生成,三段式:查询动词+查询条件+目标短语,目标短语模式,查询实体(如零件),查询实体+属性组(如零件的零件号和零件名),查询条件的生成,以属性值为核心,语义结构及其与SQL的转换,语义结构是一种中间表示,语义结构表示,查询目标表名,列名,条件的数组,条件信息包括表名、属性名、比较符、属性值,注意,统计涉及的表名,并保证在ER图上的连通性,填写连接属性条件,语义可能性计算,考虑因素,词链在查询句的覆盖长度越长越好,例如:列出广州所有的供应商号,列出-广州-供应商号(,最佳,),列出-广州-供应商,列出-广州-供应,查询所涉及的表的个数越少越好,修饰距离和越短越好,运行实例,数据库,供应商S(sno,city),工程J(jno,city),零件P(pno,name),供应关系SPJ(sno,jno,pno,num),查询:帮我找一下广州的供应商提供给上海的工程的零件,找词链,找(Vq)-广州(Va,S,city)-供应商(E,S)-提供(V,SPJ)-上海(Va,S,city)-工程(E,J)-零件(E,P),找-广州-供应-提供-上海-工程-零件,运行实例,生成语义结构,属性值有“广州”、“上海”,找到2个条件,语义可能性计算,“广州”修饰“供应商”,“上海”修饰“工程”,Select P.*,From S, P, J, SPJ,Where S.city=广州 and J.city=上海,and S.sno=SPJ.sno and P.pno and J.jno=SPJ.jno,提纲,研究现状,规则流派,统计流派,总结思考,质问规则流派,受限汉语很受限,手工构造规则很费力,可移植性差,语焉不详,算法描述不清晰,“根据语义分析.”,质问统计流派,主要基于词串和词义信息,没有很好地利用更深层的语法和语义信息,怎样将统计自然语言处理中的语法和语义的技术利用起来?,ER模型,数据库检索,谢谢,:-),Q?,
展开阅读全文