中文数据库自然语言接口(NLIDB)技术调研.ppt

上传人:za****8 文档编号:3179986 上传时间:2019-12-06 格式:PPT 页数:31 大小:268.06KB
返回 下载 相关 举报
中文数据库自然语言接口(NLIDB)技术调研.ppt_第1页
第1页 / 共31页
中文数据库自然语言接口(NLIDB)技术调研.ppt_第2页
第2页 / 共31页
中文数据库自然语言接口(NLIDB)技术调研.ppt_第3页
第3页 / 共31页
点击查看更多>>
资源描述
中文数据库自然语言接口技术调研,张文斌2010-07-05,提纲,研究现状规则流派统计流派总结思考,提纲,研究现状规则流派统计流派总结思考,国外研究现状,国外数据库自然语言接口(NLIDB)的研究可追溯到20世纪60年代,80年代最为活跃进入20世纪九十年代,研究热度减弱出现了许多试验性和商用系统如微软的EnglishQuery,BIM的LOQUI,IBM的LANGUAGEACCESS等在NLIDB的可用性和可移植性研究中都取得了很大的进展,国内研究现状,中文NLIDB的研究始于20世纪70年代末期20世纪90年代出现了许多实验系统或模型由于中文的特殊性,一些国外的理论不能直接移植过来总体来说,在理论和技术上都取得了一些进步,但研究进展缓慢,且不够系统,多属摸索性工作,尚未出现比较完善的理论和技术,中文NLIDB系统概览,中文数据库自然语言查询系统NChiql人民大学,孟小峰等基于受限汉语的数据库自然语言接口NLCQI暨南大学,许龙飞等基于ER模型和受限汉语的关系数据库汉语查询语言的计算模型RChiQL北京大学,崔宗军等数据库汉语查询接口WTCDIS北京信息工程学院,李保利等,主流技术,以词汇驱动,句法语义处理一体化主要步骤词法分析语法分析语义分析生成SQL语句,提纲,研究现状规则流派统计流派总结思考,规则流派的特征,基于规则人工总结文法、转换规则受限汉语,规则流派的系统,NChiqlNLCQIRChiQLWTCDIS,RChiQL模型简介,北京大学的崔宗军、唐世渭、杨冬青论文基于ER模型的数据库受限汉语查询界面RChiQL的文法分析系统研究J.中文信息学报,2000,(04)基于ER模型和受限汉语的数据库中文查询语言研究J.中文信息学报,2001,(04).,RChiQL系统结构及流程图,RChiQL模型,基于受限汉语和ER模型的数据库查询语言模型RChiQL是一个六元组RChiQL=(RCZ,RCW,RCS,RCWC,RCYY,ER-Model)其中RCZ是受限汉语字典,RCW是受限汉语词典,RCS是受限汉语语法词典,RCWC是受限汉语搭配词典,RCYY是受限汉语语义规则词典,ER-Model是ER语义模型。,词法分析,基于数据库ER语义的全匹配算法采用长词优先、短词等待的完全匹配策略,保证发现所有的切分歧义效率不如最大匹配法,但在实践中可行例子输入“列出把乒乓球拍卖给北京工程的上海或深圳公司”输出I.“列出/把/乒乓球/拍/卖/给/北京/工程/的/上海/或/深圳/公司”II.“列出/把/乒乓球拍/卖/给/北京/工程/的/上海/或/深圳/公司”III.“列出/把/乒乓球/拍卖/给/北京/工程/的/上海/或/深圳/公司”,语法分析,RChiQL中的文法分析子系统G=(Vn,Vt,S,P,Y,A)Vn=VnsVng;Vns为ER语义符号集合,如E表示实体,A表示属性等;Vng为现代汉语有关文法符号集合,如D表示助词;Vt=受限汉语词典;S为开始符号;P=,;Vn,VnVt*;=,为语义搭配集合,其中为短语中心词序列;Y=,;,为歧义短语文法,为优先系数;A为文法分析算法。,语法分析,受限汉语查询句必须符合三段式祈使句查询动词修饰短语目标短语ER语义特征文法规则研究了一千多个受限汉语查询句的基础上总结提炼而出,语义分析,将语法分析树转换为表达查询句语义的中间语言语义分析子系统包括语义规则库ER语义库的建立和维护工具语义分析算法遇到系统不能处理的情况时,交互模块要给出ER模型下的歧义语义关系图,用户选择出正确语义,系统记录并完成处理,生成SQL语句,SQL语句生成子系统主要参考ER模型、数据库模式及各成分之间的映射关系并依据中间语言到SQL语句的格式转换规则把中间语言转换为当前DBMS能够执行的SQL语句,提纲,研究现状规则流派统计流派总结思考,统计流派,陈力在中文信息处理丛书序言指出:“汉语的语法尚未形成规范化,而且人们习惯于非规范化的语法”介绍一种方法基于查询语义的数据库中文界面研究中科院计算所,张凯等全国第七届计算语言学联合学术会议,2003,词法分析,分词词典词链对词标记类型和辅助信息实体名E,属性名A,属性值Va,查询动词Vq等等请/列出/广州/的/供应商/为/上海/的/工程/提供/的/零件列出-广州-供应商-上海-工程-提供-零件,可能查询语义的生成,查询目标的生成三段式:查询动词+查询条件+目标短语目标短语模式查询实体(如零件)查询实体+属性组(如零件的零件号和零件名)查询条件的生成以属性值为核心,语义结构及其与SQL的转换,语义结构是一种中间表示语义结构表示查询目标表名,列名条件的数组,条件信息包括表名、属性名、比较符、属性值注意统计涉及的表名,并保证在ER图上的连通性填写连接属性条件,语义可能性计算,考虑因素词链在查询句的覆盖长度越长越好例如:列出广州所有的供应商号列出-广州-供应商号(最佳)列出-广州-供应商列出-广州-供应查询所涉及的表的个数越少越好修饰距离和越短越好,运行实例,数据库供应商S(sno,city),工程J(jno,city),零件P(pno,name),供应关系SPJ(sno,jno,pno,num)查询:帮我找一下广州的供应商提供给上海的工程的零件找词链找(Vq)-广州(Va,S,city)-供应商(E,S)-提供(V,SPJ)-上海(Va,S,city)-工程(E,J)-零件(E,P)找-广州-供应-提供-上海-工程-零件,运行实例,生成语义结构属性值有“广州”、“上海”,找到2个条件语义可能性计算“广州”修饰“供应商”,“上海”修饰“工程”,SelectP.*FromS,P,J,SPJWhereS.city=广州andJ.city=上海andS.sno=SPJ.snoandP.pnoandJ.jno=SPJ.jno,提纲,研究现状规则流派统计流派总结思考,质问规则流派,受限汉语很受限手工构造规则很费力可移植性差语焉不详算法描述不清晰“根据语义分析.”,质问统计流派,主要基于词串和词义信息,没有很好地利用更深层的语法和语义信息怎样将统计自然语言处理中的语法和语义的技术利用起来?ER模型数据库检索,谢谢:-)Q?,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!