信息检索02777

上传人:仙*** 文档编号:253014026 上传时间:2024-11-27 格式:PPT 页数:34 大小:122KB
返回 下载 相关 举报
信息检索02777_第1页
第1页 / 共34页
信息检索02777_第2页
第2页 / 共34页
信息检索02777_第3页
第3页 / 共34页
点击查看更多>>
资源描述
*,*,单击此处编辑母版标题样式,信息检索系统开发与设计 第一章,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第一章 概述,本章主要内容,信息检索基本原理,信息检索系统,信息检索发展历史与趋势,信息检索学科研究范围,11/27/2024,2,信息检索系统开发与设计 第一章,1.1,信息检索基本原理,Information Retrieval,信息检索,将情报按一定的方式组织和存贮起来,并根据用户的需要找出有关情报的过程。(赖),一种延时性通讯形式,在时间上从一个时刻通往一个较晚的时刻,而空间上可能还在同一地点。(,Calvin W,Mooers, 1949),是对信息条目(,Information Items,)进行表示、存贮、组织和存取(,Access),的过程。,Information Access,信息存取,11/27/2024,3,信息检索系统开发与设计 第一章,1.1,信息检索基本原理,信息检索的基本目标:,检索出所有与用户提问相关的文献,同时尽可能检出更少的不相关文献。,相关信息的有效检索涉及两个方面,用户任务,文献的逻辑表示,11/27/2024,4,信息检索系统开发与设计 第一章,1.1 .1,信息检索中用户任务,检索,浏览,数据库,图,1-1,信息检索中用户任务,11/27/2024,5,信息检索系统开发与设计 第一章,1.1 .1,信息检索中用户任务,检索,retrieval,用户将其信息需求和问题翻译成检索系统要求的提问式,(query),,系统匹配后,提交相关文献。,浏览,browsing,使用交互式界面翻阅整个文献集合,以找出感兴趣的相关文献。,11/27/2024,6,信息检索系统开发与设计 第一章,1.1 .1,信息检索中用户任务,传统检索系统:数据检索或信息检索,超文本系统:快速浏览,电子图书馆与,Web,搜索引擎系统:检索与浏览的结合。,11/27/2024,7,信息检索系统开发与设计 第一章,1.1 .2,文献的逻辑表示,全文本,标引词的集合,目的:降低文献表示的复杂性,和计算机处理的难度。,11/27/2024,8,信息检索系统开发与设计 第一章,图,1-2,文献的逻辑表示,文本结构,文献,结构识别,着重空格,标点等,处理,停用词,处理,名词,集合,词根,处理,自动或,手工标引,标引,词,结构,全文本,标引词,11/27/2024,9,信息检索系统开发与设计 第一章,1.1 .2,文献的逻辑表示,传统:,一个集合中的文献常常通过标引词或关键词的集合来表示。,现代:,用文献的所有词集合以及结构来表示成为可能,检索系统采用文献的全文本,(full-text view),视图逻辑表示。,11/27/2024,10,信息检索系统开发与设计 第一章,1. 2,信息检索系统,信息检索系统是由一定的设备和信息集合构成,面向一定的用户,具有信息采集、组织、存贮、选择和传播等功能的信息服务设施。,11/27/2024,11,信息检索系统开发与设计 第一章,1. 2 .1,信息检索处理过程,定义和建立文本数据库,用户提问操作,匹配处理,11/27/2024,12,信息检索系统开发与设计 第一章,用户界面,文本操作,提问操作,逻辑视图,数据库管理者模块,标引,查询,排序,检索得文献,用户反馈,倒排文档,索引,排序文献,文本,数据库,文本,图,1-3,检索处理过程,文本,11/27/2024,13,信息检索系统开发与设计 第一章,1. 2 .1,信息检索处理过程,文本数据库由数据库管理者模块建立,确定使用的信息条目范围,文本操作处理,定义文本的逻辑视图,建立索引,11/27/2024,14,信息检索系统开发与设计 第一章,1. 2 .1,信息检索处理过程,11/27/2024,15,信息检索系统开发与设计 第一章,1. 2 .1,信息检索处理过程,11/27/2024,16,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,信息检索系统的逻辑构成主要是指它所包括的功能模块或子系统及其相互关系。,一个完整的信息检索系统,通常由以下几个功能模块组成,:,信息源选择采集子系统,标引子系统,建库子系统,词表管理子系统,用户接口子系统,提问处理子系统,11/27/2024,17,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,信息源选择采集子系统,信息源是检索系统的信息或数据来源,目前,信息 检索系统中的数据主要来自各种公开文献,如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文、二次文献中的文摘、索引和目录,三次文献中的百科全书、专科词典,名录、指南、手册等,有些系统还收录各种机构的内部资料,如实验记录、测试或观测结果、工程设计资料、统计资料等。,本功能模块任务:根据系统的经营方针和服务对象的需要,以快速、经济的手段,广泛地、连续不断地采集各种信息源,为系统提供充足而适用的数据来源。,11/27/2024,18,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,标引子系统,标引,就是根据一定的规则和程序,对文献内容进行分析,然后赋予每篇文献以一定数量的内容标识(分类号、主题词、关键词等),作为存贮与检索的依据。,标引作业通常与文献编目和文摘工作一起进行,然后把标引结果和其他描述事项填入工作单,交录入员去录入计算机中。,11/27/2024,19,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,建库子系统,任务是建立和维护可直接用于计算机检索的数据库。,作业内容主要包括数据录入、错误检查与处理、数据格式转换、生成并定期更新各种文档。,11/27/2024,20,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,词表管理子系统,功能是管理维护系统中已有的主题词表,使它与标引、建库等子系统相连接,支持用户的各种词汇查询操作,从提问、对话或其它文本中采集词汇、信息,以及输出各种形式的词汇数据或词表产品(从个别词目、词间关系、词频数据到整部词表)。,11/27/2024,21,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,用户接口子系统,System-user interface,是面向系统用户的一种人,-,机接口。它承担用户与系统之间的通讯功能,是二者之间实现通讯不可缺少的连接系统(软硬件)。,用户模型:是系统建立的用户认知模型,可以用来增强人、机接口的人性,使系统能考虑不同用户的不同需要、技能和经验等人类工程学因素。,命令语言:是指系统提供给用户的检索命令集合,包括基本命令(如检索开始、结束、选词、组配、显示、打印等)和扩充集(如截词、位置运算、限制检索、暂存检索策略、套录下载等)。,信息显示:指系统以屏幕显示形式提供给用户的各种信息,如菜单、窗口、帮助信息、错误信息等。,反馈机制,即系统 对用户反馈的信息所做出的反应或操作。,11/27/2024,22,信息检索系统开发与设计 第一章,1. 2 .2,信息检索系统的逻辑构成,提问处理子系统,负责处理用户输入的检索词或提问式,并将它们与数据库中存贮的数据进行比较运算,然后把运算结果输出给用户。,该模块主要由检索程序构成:,接收提问,提问校验:包括语法检查、格式检查和用词检查。,提问加工:指对源提问式进行解释性或编译性的加工,生成便于机器处理的目标提问式。,检索,即从数据库中读入一批记录,与提问式进行比较,把满足要求的记录记入输出文档。,11/27/2024,23,信息检索系统开发与设计 第一章,1. 2 .3,信息检索系统的物理构成,硬件部分,主计算机,外围设备,数据处理或传送相关设备,软件部分,系统软件,应用软件,:,数据库管理系统,建库程序,数据输入输出程序,自动标引程序,文件管理程序,词表管理程序,检索程序,记帐统计程序等,数据库,磁媒体数据库,光盘数据库,多媒体数据库,11/27/2024,24,信息检索系统开发与设计 第一章,1.3,信息检索简史与趋势,信息检索发展分期,信息检索发展趋势,11/27/2024,25,信息检索系统开发与设计 第一章,1.3.1,信息检索发展分期,50,年代,:,探索与试验时期,60,年代,:,实用化时期,70,年代,:,联机服务市场化与网络化时期,80,年代,:,最终用户检索发展与多元化时期,90,年代,:Web,搜索引擎发展时期,21,世纪,:,网络化与智能信息检索时期,11/27/2024,26,信息检索系统开发与设计 第一章,1.3.1,信息检索发展分期,图书馆中的信息检索为例,第一代:卡片目录自动化系统,OPAC online public access catalogue,第二代:增加按主题、关键词、复杂查询,第三代:图形界面、数字化、超文本、开放系统框架、基于,Web,11/27/2024,27,信息检索系统开发与设计 第一章,1.3.2,信息检索发展趋势,Web,对信息检索系统的巨大影响,Low cost :,是最便宜的存取各类信息源的系统,因而吸引更多的用户;,Great access:,数字通信技术的进步提供了更强的接入能力,无论是本地还是远程;,Publishing freedom:,人类历史上第一次,能够自由地发布和获取大量信息。,11/27/2024,28,信息检索系统开发与设计 第一章,1.3.2,信息检索发展趋势,IR,面临的问题和挑战,相关性信息的获取;,更快速的提问响应;,基于用户行为的新检索系统开发和设计;,11/27/2024,29,信息检索系统开发与设计 第一章,1.4,信息检索学科研究范围,信息检索的研究范围包括一切与信息存储检索有关的系统、过程、理论和方法。,一切可供存贮和检索利用的信息类型,如文献、数据、事实、知识、声音、图形等;各种细心你间作系统及其运行过程,如信息采集、标引、组织、存贮、处理、匹配、输出、传送等;各种过程中使用的方法,以及在信息检索实践和研究的基础上形成的各种理论和假设,均包括在这个范围内。,11/27/2024,30,信息检索系统开发与设计 第一章,1.4.1,信息检索的研究对象,信息检索理论,主要包括检索语言与标引理论,信息检索的数学模型,知识表示理论,“相关性”理论以及有关的哲学问题。,信息检索系统,主要研究信息检索系统的结构、功能、演变,它的设计开发技术、管理维护技术和评价技术,还研究它与其他信息系统乃至整个外部世界的关系。,数据库,联机信息检索与网络信息检索,是目前信息检索的主要方式,最为便利,使用也最广。涉及到许多计算机设备、软件技术、存贮技术、检索技术、系统管理和经营知识、市场营销技术等。,检索策略与方法,任务是利用、研究、评价和完善现有的各种检索策略和方法,研究开发新的更有效的策略和方法。,11/27/2024,31,信息检索系统开发与设计 第一章,1.4.1,信息检索的研究对象,用户研究与培训,研究用户的心理、需求类型与特点、用户查询信息的行为特征等,然后建立响应的用户模型,作为系统设计以及制定系统营销策略的依据。,用户培训是用户研究的继续,是与用户建立机密联系和发展新用户的一种非常有效的措施,需要研究各种方式的效果及强化培训效果的各种手段。,自动标引、自动分类和自动摘录,这是探索如何教会计算机去“理解”信息内容,自动识别和提取出文献中的有用信息和检索标识,自动生成主题标识和非系系统或文摘。,是技术难度非常大、诱惑力很强的领域,吸引了众多研究者,并取得了许多可喜的成果。,相关设备,包括对信息检索所需的各种设备的研究,如计算机系统、危机与终端设备、输入输出设备、存贮设备、通讯设施等。,系统效益研究,11/27/2024,32,信息检索系统开发与设计 第一章,1.4.2,相关学科及领域,计算机科学,数学,语言学,人工智能,认知科学,11/27/2024,33,信息检索系统开发与设计 第一章,第一章 结束,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!