第2章信息检索原理与技术

上传人:功*** 文档编号:252423353 上传时间:2024-11-15 格式:PPT 页数:48 大小:337KB
返回 下载 相关 举报
第2章信息检索原理与技术_第1页
第1页 / 共48页
第2章信息检索原理与技术_第2页
第2页 / 共48页
第2章信息检索原理与技术_第3页
第3页 / 共48页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二层,第三层,第四层,第五层,*,2.,信息检索原理及技术,2.1,信息检索概述,2.2,信息检索原理,2.3,信息检索方法,2.4,信息检索技术,2.1,信息检索概述,2.1.1,信息检索的含义,2.1.2,信息检索的实质,2.1.3,信息检索的类型和特点,2.1.1,信息检索的含义,信息检索通常是指从任何方式组成的信息集合中,查找特定用户在特定时间和条件下所需信息的方法与过程。因此,完整的信息检索应包括以下两个方面:,.,信息标引和存储过程,.,信息的检索过程,2.1.2,信息检索的实质,将描述特定用户所需信息的提问特征,与信息存储的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。提问特征是指从欲检索课题中选择出能代表信息需求的主题词、关键词或分类号等。,示例一,区域发展中的生态环境特征研究,提问特征(关键词),1.,区域发展 生态环境,2.,区域 生态 环境,示例二,食品中常见病原菌快速检测,提问特征(关键词),食品、食物,病原菌,检测,2.1.3,信息检索的类型和特点,.,书目信息检索,.,全文信息检索,.,数据信息检索,.,事实信息检索,5.,小结,书目信息检索,以标题、作者、原文来源、摘要及收藏地点为检索对象,是一种相关性检索。特点:检索结果不直接解答课题用户提出的技术问题,只提供与之相关的线索。一般以目录、索引、文摘数据库为检索工具。,例如:查找有关,“,城市生态环境及可持续发展,”,方面,的国内外信息有那些?,检索工具:,中文科技期刊数据库、万方数据资源系统、,EI,等。,全文信息检索,以论文或专利说明书的全文为检索对象,也是相关性检索。特点:是在书目信息检索基础上更深层次的内容检索。,例如:,检索,由侯果山撰写,发表在小说评论,,2009,,,(S1)“,浅谈,红楼梦,与,家,的相似之处”一文。,检索工具:中国期刊全文数据库,数据信息检索,以具有数量性质并以数值形式表示的数据为检索对象,是一种确定性检索。检索的结果是经过测试和评价过的各种数据,可用于比较分析和定量分析。它一般以数据大全、手册、年鉴等为检索工具。,示例,2008,年申请中国发明专利和获得授权发明专利的国家有哪些?,检索工具 中国统计年鉴,事实信息检索,以事项为检索对象,检索结果是有关某一事物的具体答案,也是一种确定性检索。一般利用字词典、年鉴、百科全书、手册等为检索工具。,示例,问题:国内,计算机软件的研究机构,?,检索工具:,中国企业、公司及产品数据库,中油油气勘探软件国家工程研究中心有限公司,四川省嵌入式计算机软件技术重点实验室,信息产业部实时计算机系统及应用重点实验室,电子科技大学嵌入式实时计算研究所,黑龙江省计算机软件工程技术研究中心,江苏省计算机软件工程研究中心,中山大学计算机软件研究所,云南省计算机软件技术开发研究中心,计算机软件国家工程研究中心,武汉大学计算机软件工程研究所,贵州大学计算机软件与理论研究所,浙江大学计算机软件研究所,小结:,书目信息检索是利用各种目录、题录和文摘工具获取有关信息的线索。,例如:,各种图书目录、期刊目录,国内外著名的题录和文摘有,全国报刊索引,、,工程索引,(,EI,)、,科学引文索引,(,SCI,)等。,全文信息检索是利用各种全文系统获取有关的全文信息。,例如:中国科技期刊全文数据库,数据和事实检索是利用各种参考工具书获取有关的确定性数据或事实信息。,例如:各种百科全书、年鉴、手册等。,2.2,信息检索原理,2.2.1,信息检索效率,2.2.2,信息检索系统,2.2.3,信息检索语言,2.2.1,信息检索效率,信息检索效率是评价一个检索系统性能优劣的质量标准,它贯穿于信息的存储和检索的全过程。其评价指标主要是,:,查全率,查准率,2.2.2,信息检索系统,信息检索系统是拥有一定的存储、检索技术装备、存储有各种信息,并能为用户检索所需信息的服务工作系统。目前常用的是手工检索系统和计算机检索系统。,2.2.3,信息检索语言,检索语言又称标引语言,是系统存储和检索时共同使用的一种约定语言,以达到信息存储和检索的一致性,提高检索效率。,检索语言的类型,体系分类语言,分类语言 组配分类语言,混合分类语言,标题词语言,主题语言 关键词语言,叙词语言,单元词语言,体系分类语言,体系分类语言是按学科逻辑分类的原理,运用概念划分的方法,按知识门类从总到分,从上到下,层层划分,逐级展开组成分类表,并以分类表来标引、存储信息和检索信息。特点是体现学科的系统性,反映事物的平行、隶属和派生关系,有利于从学科的角度进行族性检索,达到较高的查全率。,中图法,第四版分类体系组成及结构,中图法,T,工业技术及环境科学大类简表(二级类目表),TB,一般工业技术,TL,原子能技术,TD,矿业工程,TM,电工技术,TE,石油、天然气工业,TN,无线电电子学、电信技术,TF,冶金工业,TP,自动化技术、计算机技术,TG,金属学与金属工艺,TQ,化学工业,TH,机械、仪表工业,TS,轻工业、手工业,TJ,武器工业,TU,建筑科学,TK,能源与动力工程,TV,水利工程,关键词语言,关键词语言是一种主题语言(采用表达某一事物或概念的名词术语标引、存储和检索的一种语言)。它是直接从原文的标题、摘要、全文中,研究课题中抽选出来的具有实质意义的、未经规范化处理的自然语言词汇作为存储和检索依据的一种检索语言。,示例 一,海岸带湿地变化及其对生态环境的影响,关键词:,海岸带 湿地 生态环境,示例 二,高性能纤维的制备和研究,关键词:,纤维,制备,2.3,信息检索方法,2.3.1,信息需求分析,2.3.2,制定检索策略,2.3.3,实施检索策略,2.3.1,信息需求分析,信息需求是人们在客观或主观上就课题所需信息的要求,是人们检索信息的基本出发点,也是评价检索效果的依据。它包括两个方面,(参见教材,24,页),1.,明确检索的目的和要求,2.,对主题进行分析,示例 课题名称:相变储能纤维的制备,一、检索目的和要求:,目的:科技立项,要求:国内外有无,1.,相变储能纤维制备,的研究报道,;,2.,已采用的制备方法有哪些,?,二、主题分析,第一层面:相变储能纤维,相变材料,第二层面:制备,微胶囊化,2.3.2,制定检索策略,检索策略是为了达到检索目标而制定的具体检索方案。包括选择检索系统、确定检索途径或检索词、拟定检索程序。按检索手段分为手工检索策略和上机检索策略。,2.3.3,实施检索策略,分获取信息线索和索取原始信息两步。,获取信息线索实质上是实现书目信息检索。,索取原始信息实质上是实现全文信息检索。,.,信息检索技术及其应用,信息检索技术是指利用现代信息检索系统,如联机数据库、光盘数据库和网络数据库检索有关信息而采用的相关技术,主要有布尔检索、词位检索、截词检索和限制检索。,2.4.1,布尔检索,布尔检索技术使用的逻辑算符及含义,(,1,)逻辑与,(,2,)逻辑或,(,3,)逻辑非,逻辑与,1.,概念:逻辑与是一种具有概念交叉或概念限定关系的组配。,2.,算符:,“,*,”,或,“,AND,”,3.,特点:增强专指度,提高查准率。,4.,举例:,“,遥感技术,”,AND,“,监测,”,,表示两个概念应同时包含在一条记录中。,逻辑或,1.,概念:逻辑或是一种具有概念相同、概念相关或概念并列关系的组配。,2.,算符:,“,+,”,或,“,OR,”,3.,特点:扩大检索范围,提高了查全率。,4.,举例:废水,OR,污水,表示这两个相关概念分别在一条记录中出现或同时在一条记录中出现。,逻辑非,1.,概念,:,逻辑非是一种具有概念排除关系的组配。,2.,算符:,“,-,”,或,“,NOT,”,3.,特点:提高查准率,影响查全率。,4.,举例:制药废水,NOT,放射废水,表示检索出的记录中要排除含有,“,放射废水,”,的记录。,2.4.2,词位检索,词位检索具有限定检索词词间位置关系的功能,可弥补布尔逻辑算符只是定性规定检索词的范围,达到提高检准率的效果。,邻近检索,用于网络数据库,常用的位置逻辑算符有,:,同句、同段、,NERA,、,SAME,。,NERA,表示两词之间不得多于,9,个词,词前后位置任意,,SAME,要求检索词在同一个句子中,这里所指的同一个句子是两个句号之间的字符串,检索词在句子中的顺序任意。,例如:,air NEAR pollution,air SAME pollution,2.4.3,截词检索,截词检索是防止漏检,提高查全率的一种常用检索技术,大多数数据库都提供了截词检索的功能。用*或?表示。,截词是在检索词的适当位置进行截断,节省输入的字符,达到较高的查全率,常用的有后截词方式。,例如:,book,?表示截一个字符,为有限截词符。,comput,?,Comput*,表示截无限个字符,为无限截词符。,特殊情况:中截词,fib,?,r,2.4.4,限制检索,为了确定检索词在数据库记录中出现的字段位置,可采用字段限制查找的范围。常用的字段代码有标题(,TI,)、文摘(,AB,)、作者(,AU,)、语种(,LA,)、刊名(,JN,)等。,限制检索在光盘数据库中一般用前、后缀表示,在网络数据库中一般使用下拉菜单进行选择限制。,2.4.5,信息检索方法及技术应用实例,检索课题:,相变储能纤维的制备,1,信息需求分析,(,1,)明确检索目的与要求,1,)检索目的:学位论文开题查新,2,)检索要求:国内外相变储能纤维的制备 的相关信息。,(,2,)进行主题分析,确定主题范围。根据检索目的与要求,该课题涉及的主题范围重点为:相变储能纤维、制备。,2,制定检索策略,(,1,)选择检索词:,相变材料,phase change material,相变纤维,phase change fibers,微胶囊化,microencapsulation,制备,preparation,(,2,)使用相关检索技术构造提问式,式:(相变材料,or,相变纤维),and,(原位微胶囊化,or,微胶囊化),and,制备,式,2,:,phase change material and microencapsulation,式,3,:,phase change fibers and microencapsulation,式,4,:,phase change material and preparation,式,5,:,phase change fibers and preparation,式,6,:,phase change material*and microencapsulation,式,7,:,phase change fib,?,r*and microencapsulation,式,8,:,phase change material and preparation,式,9,:,phase change fib,?,r*and preparation,第,1,单元思考题,思考题,1.,信息、知识、文献三者的关系?,2.,构成文献的三个最基本要素是什么?,3.,文献信息资源的主要类型及特点。,4.,一、二、三次文献信息的主要代表有哪些?它们各有何特点?,5.,信息检索的类型主要有那几种?每种各有何特点。,6.,如何正确使用各种逻辑符号编写提问式,正确表达研究课题对信息的需求。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!