基于本体的XML语义集成和查询的研究(全文)

上传人:非****1 文档编号:62885709 上传时间:2022-03-16 格式:DOCX 页数:9 大小:28.52KB
返回 下载 相关 举报
基于本体的XML语义集成和查询的研究(全文)_第1页
第1页 / 共9页
基于本体的XML语义集成和查询的研究(全文)_第2页
第2页 / 共9页
基于本体的XML语义集成和查询的研究(全文)_第3页
第3页 / 共9页
点击查看更多>>
资源描述
基于本体的XML语义集成和查询的研究XX:TP391XX:1 引言XML已经成为Web上信息表达和数据交换的事实标准65377;它提供了一种非常灵活的方式来表达数据:用户可以制定自己的标签来表示他们的数据,XML在描述数据内容的同时能突出对结构的描述,从而体现出数据之间的关系65377;但XML的一个重要不足是:XML规范只声明了数据在结构上的关系,不能表达出被标签标记的数据在语义上的联系65377;这造成两个问题:1)同一种语义能够用多种不同结构的XML文档表达,而这些异构的XML文档之间很难实现相互操作;2)许多XML标签它们所表达出的含义是相同的,但是XML处理程序无法将其识别65377;本体因其对概念的明确形式化描述,以及对概念的属性和概念间的联系的清楚表达,为解决上面的问题提供一种有效的手段65377;2 相关知识和研究背景2.1 XML模式和语义定义1一个XML的模式可以被表示成下面的形式:S=(E,root,6的形式,其中E表示所有元素的集合,表示所有属性的集合,root表示根元素65377;。和。是两个映射,其中8:E2E表示元素与其子元素之间的映射,如果一个元素包含,则认为这些元素表达的语义是相同的E2表示元素与其包含的属性之间的映射65377;映射6和p体现了XML的结构关系65377;XML的语义体现在XML的模式上65377;XML没有提供任何对语义表达的约束,因此XML模式只能表达语法而不能表达形式化语义,但是XML的元素与其属性之间以及元素间的嵌套结构中蕴含着语义信息65377;2.2 语义Web和本体语义Web以XML作为语法基础,建立数据在更深层次D语义上的互操作65377;语义Web的主要特点是引入了本体的概念65377;本体是共享概念模型的形式化规范说明,主要用来对描述属性或类的术语的含义及术语间的关系进行规约,为人和应用程序系统之间在某个主题的交流上提供的共同理解65377;定义26桓鎏哦的本体被定义为七元组的形式:O=(C,C,R,R,H,C,H,R,X)其中C表示概念的集合65377;C表示多个属性集合组成的集合,其中每个属性集合对应于一个概念65377;R是一个关系集合65377;R是由多个属性集合组成的集合,其中每个属性集合对应于R中的一个关系65377;HC表示概念之间的层次结构关系,HR表示关系间的层次关系,X表示公理集合65377;3XML模式的语义映射和集成3.1映射规则和算法映射的目的是在S和O中包含的术语之间建立一种关联,以实现XML在语义层上的互操作65377;虽然S和O覆盖不同的层次,我们认为它们有符合人们主观认识的对应关系:1)S中定义的元素可以看作是O中定义的概念;2)元素包含的属性(ttribute)可以看作是概念所具有的属性(property);3)元素之间的嵌套结构可以看作是概念之间的关系65377;定义3对模式S中的任意元素e来说,当8(e)为空并且r(e)也为空时,称e是simpletype元素;当6(e)非空时,称e是complextype元素;其余情况则称e是commontype元素65377;由于映射只涉及到概念65380;概念的属性和概念间的关系,我们在本体完整定义的基础上,给出简单本体的定义:Os=(C,c,R),用作与XML模式进行相互映射65377;这里选择OWLDL作为描述本体Os的语言,在OWL中概念用建模原语owl:Clss表示;概念的属性用数据类型属性owl:DttypeProperty表示,概念间的关系用对象属性owl:ObjectProperty表示65377;下面是映射规则以及在OWL中的表示形式:表1映射规则及本体表示:我们用下面的方式定义每个本体的基本命名空间:如果某个OWL本体o是由XML模式文件s映射而得到的,那么它的基本命名空间为:XX:/schemfile.owl,其中schemfile是s的文件名65377;下面具体的算法表示:算法:CreteOnto-by-Mpping输入:已解析的XML模式Si输出:根据映射规则生成OWL本体Oi步骤:1)使用Si构建Oi的默认命名空间前缀:prefixi;2)对Si中每个complextype类型的元素ex,执行:(1) 在Oi中新建概念prefixi:cx;(2)对8(ex)中的所有元素en,执行:如果en是simpletype类型元素,则新建数据类型属性prefixi:cxn,否则新建概念prefixi:en和对象属性prefixi:contin(cx,cn);(3)对r(ex)中的所有属性x,新建新的数据类型属性prefixi:cxx;3)对Si中的每个commontype类型的元素ec,执行:(2) 新建概念prefixi:cc;(2)对Hec)中的所有属性j,新建数据类型属性prefixi:ccj;3.2本体集成和语义补充经过映射,每一个XML模式文件都对应到一个用来注释该文件语义的本体上,这些本体虽然描述的是同一个领域的知识,但彼此之间却并没有联系65377;另外本体中概念之间的真正关系通过上面的规则并没有体现出来65377;为解决这两个问题,我们需要预先构建一领域本体,里面定义该领域内所涉及到的概念之间的复杂逻辑和语义关系65377;该领域本体称作全局本体,与定义2中的本体定义相同,用OG表示;而XML模式映射得到的本体称为局部本体,用OL表示65377;多个局部本体构成一个集合,成为局部本体集,用OLSet表示65377;本文采纳混合本体的方法对OLSet中的局部本体OL进行集成,这种方法利用OG提供的建立在原语基础上的共享词汇合,使不同OL中的术语可以进行相互比较65377;与传统的方法不同,我们参考了WordNet和SUMO本体之间映射的思想,引入同义词典这个概念,采取一种本体加同义词典的方法实现这种集成,并手工建立OG和同义词典之间的映射65377;同义词典的表示如下:定义4同义词典T=(CSynseti,Synseti)i=1,2,3其中CSynset表示概念的同义词集,包含了局部本体中可能出现的具有相同语义的概念65377;Synset集合表示概念的属性的同义词集,包含了局部本体中可能出现的具有相同语义的属性65377;同义词集在这里是指里面的词汇在上下文中可以相互替换的集合65377;映射将一个CSynset对应到全局本体中的某个概念,Synset对应到某个属性65377;这里我们只考虑同义关系映射,即同义词集里面词语的含义与它映射到的概念或属性的含义是相同的65377;由于CSynset和Synset分别包含了所有OL中可能出现的概念和属性,只要找出OL中的概念和属性在T中对应的同义词集,再根据T与OG之间的映射关系,就可以得到所有OL中概念/属性与OG中语义相同概念/属性的对应关系,最后只需保存OLSet与同义词典T的集成关系即可65377;对OL中关系的集成我们采纳不同的方法,通过每个关系在OWL语法中的domin值和rnge值来确定这些关系的语义,然后对语义相同的关系集成65377;具体做法是:(1)定义集合R,称为关系集,OLSet中所有局部本体中的关系都保存在R中,每个关系都有代表命名空间的前缀来保证不会出现命名冲突65377;根据前缀还可以找到该关系所属的局部本体65377;(3) 定义作用在概念上的操作:mpc和hc,mpc(cl)返回OL中概念cl在OG中所对应的概念表示;hc(cg)返回OG中概念cg自身及其所有的父概念65377;(4) 对R中的每个关系r:contin(Cdom,Crn),在OG中找到同时满足r.domin6hcmpc(Cdom)和r.rnge6hcmpc(Crn)的关系65377;然后在两关系之间建立映射65377;如果R中有多个关系映射到全局本体的同一个关系上,则将每个关系中的Cdom和Crn分别放入同一集合中,从而实现不同OL中关系的集成65377;本体集成及语义补充的过程中,OG65380;OL和OLSet的关系如图1所示:4基于映射集成的语义查询实验4.1 查询实验方法在上述映射与集成方法的基础上,本文设计出一语义查询系统,实现对不同模式的XML数据进行语义上的查询,语义查询利用全局本体对查询语句中概念间的语义约束进行DL推理,然后利用集成得到的丰富的语义信息对查询进行重构,最终转换为针对不同XML模式的多个结构查询65377;语义查询隐藏了底层数据格式的细节,是一种面向多个异构数据源的查询,并且能够利用本体找到隐藏的等价语义信息,实现对数据的内容而不是关键字匹配的查询65377;实验的整体框架如图2所示:其中XML数据库我们选择eXist原生数据库,数据库中存放了全局本体65380;通过映射规则得到的局部本体集和语义集成的结果,同义词典以表的形式存储在MySQL关系数据库中,关系数据库里面还包含了与全局本体之间的映射信息;为实现在全局本体中的推理,我们使用Jen2开发包中自带的OWLMini推理机65377;整个框架建立在Jv1.5的运行平台上65377;图2实验结构框图4.2 实验结果测试查询是完全依赖与语义集成的,在语义查询XML数据之前,必须先完成对模式文件的集成65377;因篇幅原因,我们仅给出测试结果,其中“uthor和“writer在相同CSynset中,“book和“script在另一CSynset中,“title,“cption和“heder在相同Synset中,“write和“writtenby在全局本体中是一对逆关系65377;测试1:测试XML模式与本体之间映射是否符合常识65377;查询语句:select?book.titlewherebook.publisher=“BC”查询结果:“UMLforJv.测试2:测试本体集成和概念间关系的语义猎取是否正确65377;查询语句:select?utor.nmewherewrittenby(book,uthor);book.heder=“XMLndJv查询结果:“Hrold,“John.测试3:测试对条件子句中隐含知识的推理65377;查询语句:select?book.titlewherewrite(uthor,book)uthor.nme=“Robert查询结果:“UMLforJv.测试4:测试语义查询是否是基于数据之间的语义而数据本身的查询65377;查询语句:select?book.titlewherewrite(uthor,book)uthor.nme=“John查询结果:“XMLndJv,“SemnticWeb.通过测试可以看出查询结果与预期的一致,这说明了这种基于本体的XML模式语义集成是一种可行的方法,同时也可以看出语义查询与一般的结构查询相比,具有很大的优势65377;5结论本文利用语义Web中RDF和OWL等规范标准,并借用WordNet和SUMO本体的映射思想,提出一种基于本体的XML语义集成和语义查询的方法,并初步进行了实验仿真65377;本文主要的贡献在于提出了一种XML语义集成的方法和在集成基础上进行语义查询的框架65377;对于方案中的有些步骤还有很大的改进空间,例如只考虑局部本体与全局本体中关系的一对一映射65377;对最后的结果如何保存才能保证在查询阶段能快速方面的访问,以及如何将rules引入到语义查询处理中,使得查询还能够根据用户自定义的规则进行规则推理,这些是我们今后进一步研究的地方65377;注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!