空间数据集成与自动更新关键技术

上传人:真** 文档编号:243001869 上传时间:2024-09-13 格式:PPT 页数:56 大小:2.08MB
返回 下载 相关 举报
空间数据集成与自动更新关键技术_第1页
第1页 / 共56页
空间数据集成与自动更新关键技术_第2页
第2页 / 共56页
空间数据集成与自动更新关键技术_第3页
第3页 / 共56页
点击查看更多>>
资源描述
,#,程 钢,2015,年,6,月,19,日,空间数据集成与自动更新关键技术,主 要,内 容,立项背景,1,模式匹配,2,属性匹配,3,更新方法,5,实体匹配,4,地理空间数据库的建设与更新,是国家空间数据基础设施建设的重要组成部分,其质量和现势性直接影响一切应用系统分析和决策的结果,。,数据更新仍然存在许多不足,:,数据源存在不一致、不完整和不准确性的问题,;,更新的智能化程度不高,;,更新过程对多种数据源整合、利用程度不高,;,整个更新过程缺乏系统科学的过程控制。,一、研究背景,数据库更新的基本过程:,(,1,)更新数据库和目标数据库之间执行模式匹配操作,发现其间语义相同或相互的模式元素,要素类,并显式地声明彼此之间的映射关系以确定哪些类型的数据可以用于目标数据库的更新。,(,2,)确定对应要素属性之间的关系。,(,3,)实例关系匹配。,(,4,)利用更新实体的信息更新目标实体。,一、研究背景,模式匹配,:在两个或者多个数据间,确定语义相关的要素类,建立映射关系。,属性匹配,:在建立了映射关系的要素类之间,确定属性关系,建立属性的对应关系。,空间数据自动更新关键技术,一、研究背景,实体匹配,:在建立了模型映射关系的要素类之间,通过语义、几何关系确定实体映射关系。,更新方法:,基利用数据于传感网的井下最佳逃生线路选择、灾点地上下快速对照定位、透水演进动态仿真与决策支持,模式匹配,指从两个数据库模式中确定语义相关的模式要素类,并声明其具体映射关系的过程。,模式匹配是更新传播的基础性操作,它所取得的匹配结果可被用于指导和简化其他处理操作,保证基础地理数据库中的变化信息被充分准确地提取和集成。,二、模式匹配,(,1,)基于实例的模式匹配方法,如果两个要数类中存在共同的实体,这两个要素类就可以认为是相关的,然后通过对比分析共同实体的属性值,可进一步确定相关的属性。,为了提高执行效率,本文采用抽样统计方式发现两个要素类之间的共同实体。,二、模式匹配,二、模式匹配,(,1,)基于实例的模式匹配方法,共同实体的识别,在目标数据库要素类中随机抽取一个空间实体,(ecn ),并生成其缓冲区,(brn);,在更新数据库要素类中查询完全被,brn,包含的候选实体集合,(EM),。,根据一定规则,判断,EM,中是否存在一个实体,(emi ),与,ecn,是同一实体。,如此循环,直到超过预定的采用样本总量。,二、模式匹配,二、模式匹配,(,1,)基于实例的模式匹配方法,采用式,(1),来定量地计算两个要素类的相似性,:,SF (F1 ,F2)= N2/N1,F1,为客户数据库中的要素类,;,F2,为主数据库中的要素类,;,N1,为进行实体识别时在,F1,中所选的样本总量,;,N2,为进行实体识别时在,F2,中能发现的对应实体总数。,二、模式匹配,(,2,)基于概念语义的要素类匹配方法,概念匹配方法:概念信息量法、语义距离法、基于属性的语义相似度及混合式语义相似度等方法。,语义距离法基本假设如下:两概念的语义距离越大,其相似度越低,反之相似度越高,。,二、模式匹配,(,2,)基于概念语义的要素类匹配方法,二、模式匹配,地名,人文地名,自然地名,区域地名,一级行政区,二级行政区,居民点,地区,市,盟,自治州,海域,海,洋,(,2,)基于概念语义的要素类匹配方法,基于语义距离的通名语义相似度算法中,,影响语义的主要因子有:,概念深度,概念密度,关系类型,关联强度和概念属性等。,二、模式匹配,(,2,)基于概念语义的要素类匹配方法,1,)概念深度,指概念节点与根节点的最短路径中包括的边数。,以“,IS-A”,关系建立的本体概念树中,每一概念是其上位概念的细化,越到下层,概念所指的对象越具体,内涵越丰富。同等语义距离下,两个概念节点的深度越大,相似度越高,反之越低;相反,同等语义距离下二者概念层次差越小,二者语义相似度越高,反之相似度越低。,二、模式匹配,(,2,)基于概念语义的要素类匹配方法,1,)概念深度,概念深度对语义相似度影响因子的计算如式,(5),,且满足 。,二、模式匹配,(,2,)基于概念语义的要素类匹配方法,2,)概念密度,本体层次中,局部区域概念密度越大,说明该区域概念细化程度越大,该处概念分类越具体,在其他因素相同的条件下,直接概念子节点间的语义相似度就越高。,二、模式匹配,(,2,)基于概念语义的要素类匹配方法,3,)关系强度,本体中概念通过各种关系联系在一起,不同关系类型对概念语义相似度的影响也有所不同。如上下位的“同义关系”所表征的语义相似度应大于“整体,-,部分”关系所表征的语义相似度。,二、模式匹配,(,3,)基于概念语义的要素类匹配方法,4,)改进的语义相似度算法,、,、,、,为调节因子,且满足,+=1,。由于语义距离在相似度计算中占主导地位,其他因子起辅助作用,所以,的权重相对较大,而,、,、,的权重相对较小。,二、模式匹配,属性匹配是数据更新的基础,用于确定更新数据中的哪些字段可以用来目标数据字段更新。,为了更全面地识别出相关的属性,将参与匹配的属性概括为数值型和字符型两种基本类型。,三、属性匹配,(,1,)数值型属性,采用相关分析方法,计算两个数值型属性的统计相关系数,然后取其绝对值作为两个属性的相似值。,设有不同数据库的属性项,X,和,Y,其对应的数据实例分别为,(x1,x2,.,xn),和,(y1,y2,.,yn),两者之间的相似性,:,X,Y,分别为实例,(x1,x2,.,xn),和,(y1,y2,.,yn),的平均值。如,r,XY,越大,说明两个属性,X,和,Y,的相似性越大。,三、属性匹配,(,2,)字符型属性相似性,采用基于编辑距离的算法来计算字符型属性之间的相似性。编辑距离是指将一个字符串变为另一个字符串所需要的最小编辑操作次数。,设有两个来自不同数据库的字符型属性项,S,和,T,其对应的数据实例分别为,(s1,s2,.,sn),和,(t1,t2,.,tn),则属性相似性,:,三、属性匹配,三、属性匹配,(,2,)字符型属性相似性,采用基于编辑距离的算法来计算字符型属性之间的相似性。编辑距离是指将一个字符串变为另一个字符串所需要的最小编辑操作次数。,设有两个来自不同数据库的字符型属性项,S,和,T,其对应的数据实例分别为,(s1,s2,.,sn),和,(t1,t2,.,tn),则属性相似性,:,三、属性匹配,三、属性匹配,(,1,)顾及语义的地名匹配,根据规范汉语地名构词特点,依据地名通名与地名类型的关系,建立规范地名通名语义知识库,并将由其提供的地名语义作为地名相似度匹配的重要指标。,地名匹配判断指标由专名相似度、通名相似度及复合地名相似度三个指标构成。,通名相似性,语义距离法,专名相似性,编辑距离法,四、实体匹配,(,1,)顾及语义的地名匹配,假设:,(,1,)任何概念与其自身的语义相似度为,1,。,(,2,)所有地名通名均为同根概念节点,,Sim_sem,相似度,0,。,(,3,)若,Sim_sem,为无穷小,则,Plit,接近,0,,专名可靠性最低,两通名表示完全不同的两种地理实体,认为二者不可能为同一地名。,四、实体匹配,(,1,)顾及语义的地名匹配,(,4,)若,Sim_sem =1,,则,Plit,为,1,,此时两地名通名为同一概念,只需比较专名的相似度。,(,5,)若,Sim_sem =1,且,Sim_lit =1,,则两地名的复合相似度值为,1,,二者为同一地名。,(,6,)若,Sim_lit=0,,此时表示个体的标志符完全不同,基本可排除同一地名的可能。,四、实体匹配,(,1,)顾及语义的地名匹配,动态权重设置方法,根据,sim_sem,的大小动态设置专名和通名的权重,四、实体匹配,(,1,)顾及语义的地名匹配,四、实体匹配,(,1,)顾及语义的地名匹配,四、实体匹配,地名对,概念,距离,Dep,(con,1,),Dep,(con,2,),Child,(con,a,),通名,相似度,专名,相似度,复合,相似度,字面,相似度,确山县,确山,8,5,5,2,0.30,0.50,0.32,0.67,东风渠公园,东风渠,6,5,5,8,0.47,0.66,0.53,0.60,河南理工大学,河南大学,0,-,-,-,1.00,0.50,0.50,0.67,郑州市,焦作市,0,-,-,-,1.00,0.00,0.00,0.33,河南省,焦作市,4,5,5,8,0.65,0.00,0.23,0.00,华北水利水电学院,华北水利水电大学,2,6,6,3,0.80,1.00,0.96,0.75,部分实验数据及匹配结果,(,2,)实体几何相似度匹配,将位置、形状、大小、拓扑等特征作为几何匹配指标。,将选取的位置、形状、大小、拓扑得出的相似度值加权平均后合并得到总相似度。,位置相似度匹配方法,大小相似度匹配方法,拓扑相似度匹配方法,四、实体匹配,常用的数据库自动更新方法主要有时间戳法、触发器法、更新日志法、快照差分法等,4,种。,时间戳法,时间戳是记录数据发生变化具体时间或类型的一种特殊属性字段。,基于时间戳记录的数据变化时间或类型,可以通过,SQL,查询语句从数据库中快速检索和提取指定时间或变化类型的变化信息。,五、更新方法,触发器法,触发器是存储在数据库中的特殊过程,在特定的预定义事件发生的时候被触发。,基于触发器的变化提取方法就是在源系统中为每项更新事件预先创建相应的触发器程序,来自动监测数据源的更新变化。,五、更新方法,更新日志法,通过分析数据库的更新日志文件来发现数据变化情况。,日志不会占用太多额外的系统资源。,但是,一些数据库系统由于不公开其日志文件的格式。,五、更新方法,快照差分法,快照是数据库中存储对象在某一时刻的即时映像。,快照差分法是通过,比较,前后两个,不同时期,快照之间的差异,从而发现提取变化数据的一种方式。,快照差分法是一种,通用性较高,的变化提取方法,可以在任何数据库甚至是其他结构化和半结构化的数据源上实现。,五、更新方法,五、更新方法,(,1,)快照差分法,五、更新方法,变化提取,假设要素类,S,和,T,的有效时间分别为,t,S,、,t,T,(,t,S,t,T,),即它们所反映的是现实世界在,t,S,、,t,T,两个不同时刻的状态的。,T=D,C,U=D,CACGCSCMCJ,U,D=,d|d,是在时段,tTtS,内,消失,的实体;,U=,u|u,是在时段,tTtS,内,未改变,的实体;,C=,c|c,是在时段,tTtS,内,发生变化,的实体;,五、更新方法,变化提取,S,=N, C,U=N,CA CG CS CM CJ,U,N=,n|n,是在时段,tTtS,内,新增,的实体;,C,c|c,是在时段,tTtS,内,变化,的实体。,U=,u|u,是在时段,tTtS,内,未改变,的实体;,CA=f(CA),,,CG=f(CG),,,CS=f(CS),CM=f(CM),,,CJ=f(CJ),五、更新方法,变化提取,在两个要素类之间进行更新信息提取的主要任务,是确定,D,,,C,和,N,,,C,等集合中所应包含的实际元素(实体)。,该任务可依据两个要素类之间的实体对应关系加以实现,规则如下:,规则,1,:对于,T,中的实体,t,,如果在,S,中没有实体与之对应,则,t,为消失实体,即:,五、更新方法,变化提取,规则,2,:对于,T,中的实体,t,,如果,S,中仅有一个实体,s,与之对应,如果,s,和,t,在同一属性,a,上的值不同,则,t,为属性变化实体;如果,s,和,t,在几何数据上的值不同,则,t,为几何变化实体。,五、更新方法,变化提取,规则,3,:对于,T,中的实体,t,,如果,s,中有多个实体与之对应,则,t,为分解实体,即:,五、更新方法,变化提取,规则,5,:对于,T,中的多个实体,如果,S,中有多个实体与之对应,则,T,中这多个实体为聚集实体,即:,五、更新方法,变化提取,规则,4,:对于,T,中的多个实体,如果,S,中仅有一个实体,s,与之对应,则,T,中这多个实体为合并实体,即:,五、更新方法,变化提取,规则,6,:对于,S,中的实体,s,,如果,T,中没有实体与之对应,则,s,为新增实体,即:,五、更新方法,增量更新,由于两个要素类的语义或属性结构存在差异,为保证目标要素类结构和数据的正确性和完整性,可逐个地将源要素类中的变化实体及其相关信息,集成到目标要素类中,这种方式为增量式集成。,可通过添加、修改、删除等三种动态操作算子加以实现。,五、更新方法,增量更新,Intsert(FeatureClassName,,,ID),在,FeatureClassName,要素类中插入标识号为,ID,实体;,Update(FeatureClassName,,,ID,,,FieldName,,,FieldValue),将要素类,FeatureClassName,中标号为,ID,的实体的,FieldName,属性改为,FieldValue,;,Delete(FeatureClassName,,,ID),删除要素类,FeatureClassName,中标号为,ID,的实体。,五、更新方法,(,2,)基于,ECA,的主动更新方法,ECA(Event-Condition-Action),是主动数据库的核心,具有较强的语义表达能力。,基本思路,:,若地理事件发生,则查看是否满足规则设定的条件,然后根据条件主动执行规定的更新操作。,五、更新方法,(,2,)基于,ECA,的主动更新方法,五、更新方法,(,2,)基于,ECA,的主动更新方法,(1),空间数据准备。,(2),事件检测与存储。,(3),触发阶段。从事件库中读取记录,在,ECA,规则库中查找该事件所触发的规则,形成一个事件,-,条件,-,操作实例。,(4),条件评估。对触发的条件进行评估,若符合,则转,(5),。,(5),同化更新操作执行。,(6),规则的终止性分析。,五、更新方法,五、更新方法,几何事件,属性,事件,(,2,)基于,ECA,的主动更新方法,实施过程中,一条事件记录触发一条,ECA,规则,然后进行规则中条件表达式的计算,看最终条件表达式值,(Value),与规则中的值是否一致,若一致则主动执行相应的更新操作。,五、更新方法,(,2,)基于,ECA,的主动更新方法,规则中“条件”包括,:,地理要素变化定量描述中各种值需满足的条件,;,空间数据的现势性及数据质量的比较条件。,五、更新方法,Badard Thierry, On the automatic retrieval of updates in geographic databases based on geographic data matching toolsA, Proceedings of the 19th International Cartographic Conference and the 11th General Assembly of ICAC, Ottawa, 1999, 47-56.,Hakima Kadri-Dahmani, Updating Data in GIS: Towards a more generic approachA, Proceeding of The 21st International Cartographic ConferenceC, Beijing, 2001, 1463-1470.,王育红,陈军,.,基础地理数据库更新信息传播实施方法研究,J.,武汉大学学报信息科学版,2010,35(9):1116-1121.,王育红,陈军。基于实例的,GIS,数据库模式匹配方法,J.,武汉大学学报信息科学版,2008,33(1):46-50.,程钢,卢小平,.,顾及通名语义的汉语地名相似度匹配算法,J.,测绘学报,2014,43(4):404-410.,程钢,梁晓莉,.,基于本体的地名信息描述方法,J.,测绘科学,,2014,39(9):19-24.,安晓亚,孙群,张小朋,陈艳丽,.,多源地理空间数据同化的主动更新与应用分析,J.,地球信息科学学报,2010,12(4):541-548.,安晓亚,孙群,肖强,李少梅,.,面向地理空间数据更新的数据同化,J.,测绘科学技术学报,2010,27(2):153-156.,参考文献,谢 谢,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!