信息系统安全第6章.ppt

资源描述

第六章并行与分布式信息检索信息存储与检索本章目录第一节引言第二节并行信息检索第三节分布式信息检索方法第四节异构数据库检索信息存储与检索第一节引言在因特网大容量的信息检索中传统的顺序技术会遇到检索速度下降的困难而并行信息检索能够突破顺序检索的局限大大加快检索的处理速度因此并行检索技术是提高信息检索系统的响应时间的一种有效途径信息存储与检索第一节引言集中式检索系统有着很多的局限性其一网络信息量呈指数增长集中式的检索方法不能适应信息急剧增长的需要其二虽然目前的搜索引擎都在努力的增加对网络信息的覆盖率但要想覆盖整个网络上的信息在目前几乎是不可能的最后检索系统之间通常没有分工协作各自独立搜索和处理信息造成了大量的重复工作和严重的带宽浪费有时甚至能造成网络阻塞为了适应网络规模的日益扩大有必要采用分布式处理技术解决网络中大量信息的检索问题信息存储与检索第二节并行信息检索 6 2 3并行检索技术 3 3 6 2 4并行检索中的索引文档处理 4 信息存储与检索 6 2 1并行信息检索原理一多个查询之间的并行处理利用MIMD结构对多个查询的处理并行化即每个处理器处理不同的查询每个查询的处理之间相互独立最多只对共享内存内的部分代码或者公有数据实行共享这种方法也称为任务级的并行检索它可以同时处理多个查询请求从而提高检索的吞吐量信息存储与检索 6 2 1并行信息检索原理二单个查询内部的并行处理即对单个查询的计算量进行分割分成多个子任务并分配到多个处理器上的搜索进程上去执行这种检索也称为进程级并行检索将单个查询分成多个子任务的方法通常有两种一种称为数据集分割它是事先将数据集分割成多个子集合用同一查询式分别查询多个子集合数据然后将每个子集合上的结果合并成最终结果另一种称为查询项分割它是将查询分解成多个子查询对每个子查询分别查询数据集得到部分结果并将部分结果合并成最终结果信息存储与检索 6 2 2并行检索的体系结构并行体系结构利用指令流和数据流的多倍性将计算机系统分为四类 SISD 单指令流单数据流 SIMD 单指令流多数据流 MISD 多指令流单数据流和MIMD 多指令流多数据流 SISD对应于传统的顺序处理体系结构 MISD十分少见并行机器实际上只有两类 SIMD和MIMD SIMD结构是用同一指令并行操作不同的数据因而是一种并行数据计算 MIMD结构比SIMD复杂其中处理器之间是独立的对不同的数据执行不同的指令 MIMD是目前并行引擎所使用的主要结构信息存储与检索 6 2 3并行检索技术一并行检索策略并行技术分为数据并行和功能并行控制并行数据级并行依赖于并行处理机特点是重复设置许多个同样的处理单元按照一定的方式相互连接在统一的控制部件作用下各自对分配来的数据并行地完成同一指令所规定的操作功能并行主要表现于多个任务或多个程序段之间执行时可能存在着数据交往或控制依赖因而解决起来较为复杂但是随着并行技术的进一步发展程序的控制并行间题将得到逐步解决信息存储与检索 6 2 3并行检索技术二并行检索软件技术软件中的并行性主要是指程序的相关性和网络互连程序的相关性分为数据相关控制相关和资源相关数据相关说明的是语句之间的有序关系控制相关指的是语句执行次序在运行前不能确定的情况资源相关与并行事件利用整数部件浮点部件寄存器和存储区等共享资源时发生的冲突有关网络互连使用静态或动态拓扑结构网络静态网络由点点直接相连而成这种方式在程序执行过程中不会改变动态网络可动态地改变结构使之与用户程序中的通信要求匹配信息存储与检索 6 2 3并行检索技术三并行检索硬件技术硬件技术方面主要从处理机存储器和流水线三个方面来实现并行处理机系列包括CISC RISC 超标量 VLIW 超流水线向量以及符号处理机存储设备按容量和存取时间从低到高可分为寄存器高速缓存主存储器磁盘设备和磁带机五个层次流水线技术主要有指令流水线技术和运算流水线技术两种信息存储与检索 6 2 4并行检索中的索引文档处理一倒排表索引结构检索系统通常采用倒排表 invertedfile 索引结构可直接从关键词映射到所在文档信息存储与检索 6 2 4并行检索中的索引文档处理二基于倒排表的分割处理使用倒排表进行数据集分割有两种实现方法物理倒排表分割方法和逻辑倒排表分割方法这两者的数据集都在物理上分成多个子集合物理倒排表分割和逻辑倒排表分割的不同之处在于前者不仅将数据集分割而且将倒排索引表也同时进行分割每个数据子集拥有自己独立的索引倒排结构对于逻辑倒排表分割倒排索引表物理上并不进行分割而是增加一个处理机分配表整张倒排索引表则被多个处理器共享使用信息存储与检索 6 2 4并行检索中的索引文档处理三 SIMD机器上的倒排检索SIMD机器也称阵列处理机是由大量相同的互连的PE 处理单元对分配来的数据并行执行同一指令所规定的操作由主文档建立倒排索引可利用CU 控制部件执行建库程序而完成对提问编辑与变换后形成的检索指令表因其中某些广义检索指令基本上属于向量类指令故需播送给各个PE 由它们并行地执行该指令规定的操作而对其中的标量指令则由CU自己执行信息存储与检索 6 2 4并行检索中的索引文档处理四 MIMD机器上的倒排检索MIMD机器也即多处理机系统它既可以是P台处理机共享一个主存的紧耦合多处理机也可以是不共享同一主存的松耦合多处理机能够实现作业任务指令数组各级全面并行在此硬件环境下倒排索引及主文档可以分割存放如倒排索引分放在内存各部分主文档分放在并行辅存中以便在检索时由各台处理机同时查找数据信息存储与检索 6 2 4并行检索中的索引文档处理五并行顺排检索假若由p台处理机构成多处理机系统处理由n个提问构成的批量提问检索则相应有两种处理方案一先将p个提问依次读入p台处理机各自变换为提问展开表得到前p个提问的检索结果后接着读入p 1 2p个提问直至所有提问处理完毕二将n个提问同时读入每一台处理机中 p台处理机各自将每个提问展开再将与其有逻辑联系的每篇文献编制成检索标识表经重复变换和比较每台处理机获得部分检索结果最后将p组结果组合起来信息存储与检索 6 3 3分布式信息检索模式 3 3 6 3 4分布式检索中的数据集选择 4 第三节分布式信息检索方法信息存储与检索 6 3 1分布式信息检索原理分布式信息检索主要是指在分布式的环境中利用分布式计算和移动代理等技术从大量的异构的信息资源中检索出对用户有用的信息的过程这里的分布式环境指的是信息资源在物理上分布于各地这些分布式的信息资源在逻辑上是一个整体从而构成一个分布式检索系统但是不同的信息资源具有不同的数据库结构即分布式的信息资源具有异构性的特点信息存储与检索 6 3 2分布式检索处理技术由于不同的信息资源具有不同的数据库结构因此在分布式环境下对于异构数据库的检索和访问并不简单解决分布式信息检索的技术很多如用于分布式数据库设计与实现的分布式对象组件模型 DCOM 和公共对象请求代理构架 CORBA 用于解决分布式环境中数据库之间异构问题的Z39 50协议 P2P网络结构技术等而代理技术同样也可实现分布式信息的检索信息存储与检索 6 3 3分布式信息检索模式一基于元搜索引擎的分布式信息检索元搜索引擎被称为搜索引擎的搜索引擎它自己并不收集网站或网页信息通常也没有自己的资源库和Robot 当用户查询一个关键词时它把用户的查询请求转换成其他搜索引擎能够接受的命令格式并行地访问多个搜索引擎来查询这个关键词然后将返回的结果进行合并排序等处理后作为自己的结果返回给用户信息存储与检索 6 3 3分布式信息检索模式二基于Z39 50的分布式信息检索根据ANSI NISOZ39 50 1995 ISO23950 的定义该协议是计算机系统之间相互联系的一系列标准它独立于任何特定类型的信息或特定类型的数据库系统 Z39 50作为一个分布式环境下计算机系统之间进行通信的标准协议实现了异构机型异种操作平台的异质数据源之间的相互操作大大降低了异种数据库之间查询的复杂程度信息存储与检索 6 3 3分布式信息检索模式三基于XML的分布式信息检索基于XML的分布式信息检索的基本思路是每个对外提供数据检索服务的信息组织可根据所属行业和数据的性质选定某个已成为标准或被共同遵守的DTD作为与外界进行数据交换的格式然后针对自身数据库的特点编制检索程序检索出的记录按选定的DTD生成XML文档并以XMLHTTP协议格式返回给用户信息存储与检索 6 3 3分布式信息检索模式四基于Web服务的分布式信息检索Web服务 Webservice 是一种可独立的模块化的Web应用它允许在Web站点上放置可编程的元素能进行基于Web的分布式计算和处理位于服务器端的Web服务具有从数据库中检索数据的功能同时还具有自描述功能能够向用户提供调用参数返回参数端口地址等接口信息方便用户调用因此可以利用Web服务来实现分布式信息检索信息存储与检索 6 3 4分布式检索中的数据集选择一朴素法朴素法 Na veApproaches 是一种简单的数据集选择方法它不用判断成员搜索引擎对检索的有用性和有效性直接将用户的查询请求发送给所有采用的成员搜索引擎进行检索信息存储与检索 6 3 4分布式检索中的数据集选择二粗略法粗略法 RoughApproaches 是一种提供每一个成员搜索引擎描述信息的数据集选择方法在这类方法中每一个搜索引擎的描述信息通常是以固定格式人工添加的当用户提出一个查询式时系统会将查询式与每个成员搜索引擎的描述信息进行匹配运算并决定该搜索引擎的相关度信息存储与检索 6 3 4分布式检索中的数据集选择三定性的方法这类方法有的采用很粗略的信息来代表每个数据集的内容数据集描述信息相对来说比较容易获取更新容易而且占用很少存储空间文档中单元词的频次信息计算也非常简单不过过于简短的信息描述很难充分全面地反映数据集的内容会遗漏潜在有用的数据集有的采用详细信息来描述数据集代表涉及到在此数据集里每个文件中出现的每个术语如果处理得当使用这种方法可探测到每个潜在有用的文件信息存储与检索 6 3 4分布式检索中的数据集选择四定量的方法定量方法评价数据集与查询之间的相似程度要更加具体和明确可以为用户提供更多的有用信息该方法衡量成员搜索引擎数据集有用性的标准是 1 成员搜索引擎数据集中对于每个查询的潜在有用文档数量 2 一个成员搜索引擎数据集中与给定查询最为相似的文档的全局相似度信息存储与检索 6 3 4分布式检索中的数据集选择五基于学习的方法这种方法根据以往的查询经验来预测数据集对于新查询的有用程度静态学习方法使用训练查询每个成员搜索引擎关于训练查询的检索经验可以在使用前得到动态学习方法使用真正的用户查询检索经验可以被逐步积累并持续更新混合学习方法是静态学习方法和动态学习方法相结合的方法它通过训练查询得到初始经验通过真实查询不断更新知识信息存储与检索 6 3 4分布式检索中的数据集选择六数据集选择方法的比较准确性朴素法没有任何计算其准确性自然最差粗略法的准确性有一定的提高但由于描述信息比较简略因此没有定性法准确虽然定量法提供的数据对用户具有极大的参考价值但还无法准确评估其准确性可扩展性朴素法具有最高的可扩展性因为它不保存任何成员搜索引擎的描述信息粗略法由于为每个搜索引擎生成描述信息非常少且与搜索引擎的规模没有关系也具有很好的可扩展性而后面几种更严格的选择方法对一个搜索引擎描述信息的大小直接与该搜索引擎中不同单元词的个数有关信息存储与检索 6 3 4分布式检索中的数据集选择可维护性朴素法不需要收集和维护任何描述信息而粗略法由于描述信息是由手工添加的与搜索引擎中的个别文档无关因此它们几乎不需要维护工作定性法和定量法都需要建立和维护一些成员搜索引擎的描述信息其可维护性完全取决于所需描述信息的多少基于学习的方法既不用计算初始数据集描述信息也不用为搜索引擎更新而修改描述信息只是在检索的过程中修改相应的描述信息因此也具有较好的可维护性信息存储与检索第四节异构数据库检索 6 4 3异构数据库跨库检索技术 3 3 6 4 4异构数据集成 4 信息存储与检索 6 4 1异构数据库的特点一异构性异构性主要体现在计算机体系结构操作系统 DMBS本身语义等方面二分布性异构数据库系统的各个异构数据库分布在不同的位置系统通过网络建立其之间的连接系统的数据保存在各个异构数据库之中这些数据可以以各种不相同的方式保存没有严格的逻辑要求三独立性包括数据的逻辑独立性和物理独立性四自制性体现在拥有对自身系统内各种资源的使用权利同时拥有与其它系统的交互权利信息存储与检索 6 4 2异构数据库跨库检索原理一异构数据库跨库检索基本原理 1 运用元搜索引擎 2 通过数据库接口软件与不同的数据库直接连接 3 不同数据库间的格式转换 4 建立索引库 5 利用SFX实现数据库的无缝连接信息存储与检索 6 4 2异构数据库跨库检索原理二异构数据库跨库检索的实施步骤 1 用户构造并提交检索式 2 检索查询 3 返回结果的加工策略信息存储与检索 6 4 3异构数据库跨库检索技术一开放式数据库互连ODBC基于C语言的开放数据库互连技术是用于访问数据库的统一界面标准主要针对客户端服务器结构的数据库二 Java数据库连接JDBCJDBC保持了ODBC独立于特定数据库的基本特性继承了Java语言的所有特点三分布式构件对象模型DCOM它通过选择提供服务接口在不同主机的进程间实现函数级功能调用使得位于不同主机的客户服务对象如同运行在同一服务进程一样信息存储与检索 6 4 4异构数据集成一联邦数据库联邦数据库是多数据库系统的一种特殊形式它是多个互相协作的自治数据库的集合二数据仓库使用数据抽取工具将各异构数据源的数据过滤后预先存储到数据仓库中针对某个应用领域三中间件是一种软件组件支持虚拟数据库在中间件中数据仍然保存在原来的各个异构数据源中中间件不存储任何自己的数据 ThankYou

展开阅读全文