毕业论文(设计)图书馆跨平台信息检索系统初探34447

上传人:沈*** 文档编号:77660900 上传时间:2022-04-20 格式:DOC 页数:8 大小:167.03KB
返回 下载 相关 举报
毕业论文(设计)图书馆跨平台信息检索系统初探34447_第1页
第1页 / 共8页
毕业论文(设计)图书馆跨平台信息检索系统初探34447_第2页
第2页 / 共8页
毕业论文(设计)图书馆跨平台信息检索系统初探34447_第3页
第3页 / 共8页
点击查看更多>>
资源描述
专业好文档图书馆跨平台信息检索系统初探徐汝兴(上海交通大学 图书馆 上海,200030)摘要 随着计算机和因特网的飞速发展,数字图书馆的电子资源日益丰富。图书馆数字资源和发布方式的多样性使用户在使用过程中越来越感到不便。跨平台信息检索系统成为目前数字图书馆建设中一个重要的课题。本文试图通过对现行各类整合系统的分析,提出一个跨平台检索系统的模式,并通过实践经验对这个系统进行进一步展望。关键词 跨平台检索系统;异构数据;数字图书馆;分布式系统;数据整合Initial Research of Cross-Platform Retrieval Systems in Digital LibraryXu Ruxing(Shanghai Jiao Tong University Library Shanghai,200030)Abstract Along with the rapid development of computer and Internet technologies, electronic resources in digital library are increasingly varied and plentiful. End users are easily getting confused in different interfaces and searching methods when making a query. The cross-platform retrieval system becomes one of the key topics in construction of digital library. The article is trying to present a model of this kind of system based on analysis of several integrated retrieval systems now in use and prospects via further applications of it.Key Words cross-platform retrieval system, heterogeneous resources, digital library, distributed system, data integratation 数字图书馆建设方兴未艾,各种数字资源层出不穷,同时由于数字资源建设的不同步以及采用技术的不同,各种数字资源都有自己的数据结构、组织方式、查询方式以及显示界面。对于用户来说,为了查准查全所需要的资料,不得不分别进入不同的查询系统,熟悉每个数据源的检索方式和显示格式。跨平台检索系统正式针对了这个问题而出现。它可以在一个统一的界面和查询环境下对不同数据源的信息统一进行查询,并以统一的界面显示不同数据源的信息。跨平台检索系统可以节省用户获取资料的时间;提高查准率和查全率;将不同媒体不同类型的数据源以整合的方式显示。现今跨平台检索系统有几种类型,都有各自的特点和适用范围,但是在结构和应用上尚不能达到真正的统一资源整合发布要求。交大图书馆近两年在这方面作了些研究和探索,并建立了一个试验系统,希望能够建立一个跨平台跨媒体的统一检索系统。通过实践也发现了一些问题,希望在此和同行进行交流切磋。1图书馆分布式数据源分析1.1电子数据源的多样性按数据实体区分有全文(原文),文摘,索引等;存储方式有数据库,文件系统等;数据分布上有本地和网上;文件格式有文本,多媒体,超媒体;数据归属上有自建,购买和免费等;数据的内容形式上又有图书、期刊、事实数据等。对用户而言,要查到所需学科的各种资料,在分散的资源中,他就必须知道哪些资源涵盖了自己的学科,熟悉使用各种客户端软件、查询界面和检索策略。即使这样,他也很可能遗漏了某些数据源。费时费力但是查全率较低。1.2数据发布形式的多样性电子资源目前主要有专用服务器/客户端和WEB发布两种方式。专用服务器/客户端模式主要应用在目前的OPAC,Z39.50,某些光盘数据库系统等方面。因特网的发展使WEB发布方式成为信息发布的主流方式,也成为跨平台检索系统主要面对的处理对象。虽然同为WEB发布方式,但是每种电子数据源的用户界面,检索点,检索策略和显示方式都因为数据源的特点和系统设计等不同而千变万化。同是电子图书,“超星”、“书生”和“APABI”都有各自的检索特点:“超星”的检索点是书名、作者、出版社和出版日期;“书生”多了ISBN、丛书名和摘要;“APABI”又多了关键词、全面检索和全文检索等检索点。电子图书如此,那么电子期刊之间、期刊与图书及其它资源间的差异就更显而易见了。2跨平台检索系统模式分析2.1元数据整合模式元数据整合模式是目前应用较多的跨平台系统。系统结构如图1原始数据源元数据集原文发布系统元数据发布系统客户端原文传递图1 元数据整合模式本模式通过对多个全文(原始)数据源按一定标准(如DC)进行标引后,组成一个元数据集,通常用数据库方式储存。通过一个发布系统(WEB服务器)与客户端进行交互。用户看到的是一个集成后的多数据源查询系统,得到的是对原始数据的描述信息。通过一个特定连接,用户可以直接从原始数据源中得到原文数据。本模式的特点是检索速度和方式不受不同数据源的约束,元数据查询和原文获取通过不同的服务,但是标引和组织元数据需要耗费一定的资源,元数据与原文数据源之间的同步性差。对于元数据一致性协同性要求较高,或变动不太频繁的数据源采用这种方式较为合适。例如:电子期刊刊名整合、自建的数据库系统、电子图书整合等2.2中间件模式这种模式多用于数据源有数据访问接口,系统结构见图2本模式采用中间件技术,对来自用户的查询请求,分解成对不同原始数据源的独立访问请求,通过标准(ODBC/JDBC)或非标准的数据访问接口(API)对原始数据源进行实时访问并将结果整合后通过发布系统(或直接)返回给用户。这种模式的特点是实时性好,任何原始数据的更改都可以在用户查询时及时得到反映;原文获取可以直接通过中间件获得从而省去原文数据源的原文发布服务;但应用局限于原始数据源必须提供访问接口,而且由于各数据源的速度问题而影响到用户得到结果的时间。另外中间件的开发和获取各数据源后的数据整合策略和技术需要合理规划。原文发布系统原始数据源ODBC/JDBC 或其它API接口数据采集中间件数据发布系统(可以含全文)查询分析/中间件分拆,数据整合(可以含全文)客户端原文传递图2 中间件模式本模式适合用于有标准接口的数据源跨平台检索中,例如:将图书馆书目查询与电子图书(电子期刊)(必须是标准的数据库而且开放的结构)整合查询;多个图书馆书目查询系统通过各自的Z39.50服务器在客户端的中间件中整合显示(省去了数据发布系统);OAI数据服务者通过OAI协议从不同数据提供者那里获取数据并整合后提供服务。2.3网页搜索代理模式这种模式的应用前提是原始数据源都提供了WEB发布并有查询功能,系统结构见图3:这种模式对于目前图书馆大量购买的数据源和网上免费数据源整合发布比较适合。这些数据源通常只提供有限的元数据,也极少会提供标准接口。分布式网页搜索代理可以通过模拟用户请求到数据源的网站上获取信息,整合以后返回给用户。客户端原文发布系统原始数据源查询分析/搜索代理分拆,数据整合(可以含全文)数据发布系统(WEB服务器)原文传递图3 网页搜索代理模式本模式对于大多数网上资源可以进行实时,高细粒度的检索(取决于对方网站提供的检索深度,例如一般国外电子期刊可以提供到篇名级的检索),用户的查准率可以得到最大程度的满足。同时,对信息挖掘分析、软件开发和网络环境等的要求也相当高。为了获得足够的元数据信息,设计时必须对数据源的WEB结构层次和文献组织有详细的分析,对不同的查询请求需要进行转换以达到数据源接受的要求;同样,对元数据的统一标准、数据整合策略和发布结果策略的制订等都有要求。国内外都有类似的软件,但是因为没有将其它类型数据源(特别是现有的自建数据库等)进行整合的妥善解决办法,真正成功的案例不多。2.4依附模式将一些其它数据源的部分元数据(含超链接)加入到一个数据源中一起发布。最常见的形式有将订购(或自制)的全文电子图书(期刊刊名)的URL地址加入到书目查询系统中(或反向)。这种模式短期可以部分解决资源最大利用的问题,但是缺点是数据更新工作量很大而且多为人工处理;适用的范围较小。3跨平台检索系统的应用和扩展3.1试验系统的分析我们从2001年起开始进行跨平台检索系统的研究,考虑到上述四种模式的特点,设计了一种集成模式。系统结构如图4:数据采集方式一:我们对不是经常更新的数据或者没有合适查询服务的数据源用3.2元数据整合模式建立了元数据数据库,试验系统尝试了书生电子图书,本馆书目查询系统(考虑图书管理系统的运行性能),自建VOD数据库(缺少查询界面)数据采集方式二:对于数据更新频繁但是查询条件简单但是有数据库接口的数据源原始数据源元数据数据库搜索代理数据采集中间件元数据采集数据分析整合器查询分析器数据发布系统(WEB服务器)原文传递原文传递客户端图4 集成模式的跨平台检索系统结构采用2.2中间件模式建立数据采集中间件,实例选用本校硕博士论文库。该数据源基于TRS数据库,TRS提供了自定义接口。数据采集方式三:对于订购的网上电子期刊等更新速度快又有较好的检索体系的数据源采用2.3网页搜索代理的方式进行元数据采集。选定的试验数据源是中国期刊网和Elsevier期刊库。由于不同数据源的数据性质差异,我们对所有选定的数据源按照DC的15个标准字段制订了转换标准;对网页搜索方式的数据源,事先分析了网页中与DC对应的数据位置。查询界面分简单(自由词)查询和高级查询。由于考虑网络和数据源速度,高级查询中列出各个数据库估计的查询时间。检索点在简单查询中对各个数据源的所有可检索点进行查询,而在高级检索中仅显示最小检索点数据源的检索条件。用户还可以选择数据源和检索词(点)的组合查询。显示分概览和细览两种,概览以列表方式显示命中记录的主要字段,细览则列出所有的15个字段,其中的统一资源标识符(DC_Identifier.URI)以URL方式直接让用户连接到全文。为了使系统具有可扩展性和可移植性,我们采用了JSP技术来进行开发。3.2实现过程中的问题由于我们水平有限,本系统涉及的标准和技术较多,还受到数据源变化等影响,系统实现过程中遇到了一些问题:元数据标准选定:考虑到各个数据源的不同特点和组织方式,我们选用了DC作为一个统一的数据标引标准。但是具体落实到不同数据源时,DC有一定的局限性,如果进行不同类型的扩展,那么数据整合又会非常复杂。检索策略:不同数据源(特别是网页类的数据源)检索点不同,这点在中文网站上尤其突出,给统一完善的检索机制带来很大挑战。我们采用的最小检索点策略将使查全率不能得到保障。期望国内数据提供商能够向国际通用标准靠拢。检索速度:受网络和原始数据源系统处理速度的影响,获得数据时间差异很大,对用户的耐心以较大考验。时间和查全率难以找到合适的平衡点。目前大多数系统采用先到先显示的方法。这样结果显示的多样化(比如排序等)无法实现。数据重复:较多的重复数据取舍标准比较难定。可以用相似度去重,但是相当数量的文献由于出处不同,所具有的特性也不同。比如文摘类和全文类文献完全视用户的实际情况而会有取舍,难以在简单查询后过滤掉内容相同的记录。另外,检索速度的差异让去重成为不可能完成的任务。原始数据的结构更新:特别是通过代理搜索模式的数据源,结构改动将会使程序改动的工作量加大。例如,中国期刊网和Elsevier都先后对网站结构进行过调整,原来设定的元数据抽取规则都必须进行相应修改。3.3系统扩展本系统可在如下方面进行适当扩展,提升其使用效率:添加合适的统计分析模块,可以进行电子资源质量和服务评估,指导馆藏电子资源的收藏政策。个性化定制,如定制数据源、查询条件、结果显示方式、专业、历史查询记录等。根据电子资源多累积少删改的特点,采用合适的数据缓存技术,可以大大加快用户查询速度。结束语我们的系统目前还不完善,许多的难题但靠我们的力量暂时还无法解决。目前图书馆界跨平台检索系统已经有多种模式,在建立系统的同时能够比较全面地考虑各个层面的因素,即使现在只是部分实现跨平台检索功能,但是为今后全面实现数据统一检索做好准备。希望我们的实验对大家决策时有所帮助。参考文献1张晓林.分布式数字图书馆机制.情报学报,2002(2):632齐 勇等.基于Web的中间件系统集成框架应用服务器的研究.计算机研究与发展,2001(4):4303盛小平.数字图书馆体系结构的比较研究.图书馆杂志,2002(12):364Roszkowski, M. and Lukas, C. A Distributed Architecture for Resource Discovery Using Metadata. D-Lib Magazine, 1998(6)5Severiens, C., et al PhysDoc A Distributed Network of Physics Institutions Documents . D-Lib Magazine, 2000(12)6姜玉明.试论电子文献的概念及其类型.图书情报知识,2003(1):17作者简介:徐汝兴,男,1961年生,上海交通大学图书馆自动化室副主任,副研究馆员本文发表在上海交通大学学报2003年增刊Editors note: Judson Jones is a meteorologist, journalist and photographer. He has freelanced with CNN for four years, covering severe weather from tornadoes to typhoons. Follow him on Twitter: jnjonesjr (CNN) - I will always wonder what it was like to huddle around a shortwave radio and through the crackling static from space hear the faint beeps of the worlds first satellite - Sputnik. I also missed watching Neil Armstrong step foot on the moon and the first space shuttle take off for the stars. Those events were way before my time.As a kid, I was fascinated with what goes on in the sky, and when NASA pulled the plug on the shuttle program I was heartbroken. Yet the privatized space race has renewed my childhood dreams to reach for the stars.As a meteorologist, Ive still seen many important weather and space events, but right now, if you were sitting next to me, youd hear my foot tapping rapidly under my desk. Im anxious for the next one: a space capsule hanging from a crane in the New Mexico desert.Its like the set for a George Lucas movie floating to the edge of space.You and I will have the chance to watch a man take a leap into an unimaginable free fall from the edge of space - live.The (lack of) air up there Watch man jump from 96,000 feet Tuesday, I sat at work glued to the live stream of the Red Bull Stratos Mission. I watched the balloons positioned at different altitudes in the sky to test the winds, knowing that if they would just line up in a vertical straight line we would be go for launch.I feel this mission was created for me because I am also a journalist and a photographer, but above all I live for taking a leap of faith - the feeling of pushing the envelope into uncharted territory.The guy who is going to do this, Felix Baumgartner, must have that same feeling, at a level I will never reach. However, it did not stop me from feeling his pain when a gust of swirling wind kicked up and twisted the partially filled balloon that would take him to the upper end of our atmosphere. As soon as the 40-acre balloon, with skin no thicker than a dry cleaning bag, scraped the ground I knew it was over.How claustrophobia almost grounded supersonic skydiverWith each twist, you could see the wrinkles of disappointment on the face of the current record holder and capcom (capsule communications), Col. Joe Kittinger. He hung his head low in mission control as he told Baumgartner the disappointing news: Mission aborted.The supersonic descent could happen as early as Sunday.The weather plays an important role in this mission. Starting at the ground, conditions have to be very calm - winds less than 2 mph, with no precipitation or humidity and limited cloud cover. The balloon, with capsule attached, will move through the lower level of the atmosphere (the troposphere) where our day-to-day weather lives. It will climb higher than the tip of Mount Everest (5.5 miles/8.85 kilometers), drifting even higher than the cruising altitude of commercial airliners (5.6 miles/9.17 kilometers) and into the stratosphere. As he crosses the boundary layer (called the tropopause), he can expect a lot of turbulence.The balloon will slowly drift to the edge of space at 120,000 feet (22.7 miles/36.53 kilometers). Here, Fearless Felix will unclip. He will roll back the door.Then, I would assume, he will slowly step out onto something resembling an Olympic diving platform.Below, the Earth becomes the concrete bottom of a swimming pool that he wants to land on, but not too hard. Still, hell be traveling fast, so despite the distance, it will not be like diving into the deep end of a pool. It will be like he is diving into the shallow end.Skydiver preps for the big jumpWhen he jumps, he is expected to reach the speed of sound - 690 mph (1,110 kph) - in less than 40 seconds. Like hitting the top of the water, he will begin to slow as he approaches the more dense air closer to Earth. But this will not be enough to stop him completely.If he goes too fast or spins out of control, he has a stabilization parachute that can be deployed to slow him down. His team hopes its not needed. Instead, he plans to deploy his 270-square-foot (25-square-meter) main chute at an altitude of around 5,000 feet (1,524 meters).In order to deploy this chute successfully, he will have to slow to 172 mph (277 kph). He will have a reserve parachute that will open automatically if he loses consciousness at mach speeds.Even if everything goes as planned, it wont. Baumgartner still will free fall at a speed that would cause you and me to pass out, and no parachute is guaranteed to work higher than 25,000 feet (7,620 meters).It might not be the moon, but Kittinger free fell from 102,800 feet in 1960 - at the dawn of an infamous space race that captured the hearts of many. Baumgartner will attempt to break that record, a feat that boggles the mind. This is one of those monumental moments I will always remember, because there is no way Id miss this.
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!