信息检索的基本方法和基本技术

上传人:花****园 文档编号:243522683 上传时间:2024-09-25 格式:PPT 页数:45 大小:542KB
返回 下载 相关 举报
信息检索的基本方法和基本技术_第1页
第1页 / 共45页
信息检索的基本方法和基本技术_第2页
第2页 / 共45页
信息检索的基本方法和基本技术_第3页
第3页 / 共45页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,演示文档,路漫漫其悠远,少壮不努力,老大徒悲伤,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,信息检索的基本方法和基本技术,第,一节 现代信息检索的概念与类型,一、信息检索概念,信息检索,(广义):是从任何信息集合中识别和获取所需信息的过程及其所采取的一系列方法和策略。它包括,存储,与,检索,两个方面。,信息检索,(,狭义,),:即从检索工具和检索系统中查找出所需信息的过程,。,二、,现代信息检索的类型,1、,按存储和检索内容划分,(1),文献信息检索,即查找出用户所需文献线索或原文的检索。其检索结果是文献信息。如查找某一研究课题一定年限内的有关文献,或对一项发明创造进行文献查新等,。,(2),数据信息检索,是指查找出用户所需特定数据、公式或图表形式的检索。其检索结果是数据信息。如查找某一数据、公式、图表、价格,某种物质的化学分子式,某种设备的型号与参数等。数据检索是一种确定性检索。,(3),事实信息检索,是指以特定的事实作为检索对象的一种信息检索。其检索结果是基本事实。如某个人或某个组织的基本情况,某一件事发生的时间、地点、过程等。,文献、事实、数据检索关系图,2、,按信息组织方式划分,(1),全文检索,是指检索系统中存储的是整篇文章或整本书。检索时,用户可以根据自己的需要从中获取有关的文章、段、句、节等信息,还可以进行各种频率统计和内容分析。,(2),超文本检索,是指信息在系统中的组织方式不同而言的。从组织结构上看,超文本的基本组织元素是节点和节点间的逻辑联接链。与传统文本的线性顺序不同,超文本检索强调中心节点之间的语义联接结构。其检索模式是“哪里”到“什么”。,(3),超媒体检索,是对超文本检索的补充。其存储对象超出了文本范畴,融入了静、动态图像(形)以及声音等多种媒体信息。信息的存储结构从单维发展到多维,存储空间范围在不断扩大。,3、,按使用不同的工具和手段划分,(1),手工检索,是指人们通过手工的方式来存储和检索信息,其使用的检索工具主要是书本式、卡片式的信息系统,如目录、索引、文摘等。,(2),计算机检索,是指人们在计算机检索网络或终端上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检索出所需要的信息的过程,其检索是在人机的协同作用下完成的。,第三节 现代信息检索语言、工具及,检索工具的编排结构,一、信息检索语言,1、信息检索语言,概念,:应文献信息的加工、存储和检索的共同需要而编制的专门语言,是表达一系列概括文献信息内容和检索课题内容的概念及其相互关系的一种概念标识系统。分为规范化语言和非规范化语言(自然语言)两类。,2、信息检索语言,主要作用,:(略),3、信息检索语言的,类型,按照标识的性质与原理划分:,(1)分类语言是以数字、字母(即分类号)或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。,分类表基本结构:正表、附表、说明、索引组成。其中正表是主要部分,它由类号、类名、注释三部分组成。,如:中图法正表之一项为:,TP24 机器人技术,机器人工程学入此。机器人语言入TP31,图书馆分类法简介,图书分类法是在一定的哲学思想指导下,运用知识分类的原理,结合图书的特点,采用逻辑方法编制出来的对图书文献进行分类的体系分类表。,图书分类法是图书分类的依据,是组织藏书的工具。,目前我国图书情报单位常用的分类法主要有,中国图书馆分类法,(简称中图法)、,中国科学院图书馆图书分类法,、(简称科图法)及,中国人民大学图书馆图书分类法,(简称人大法)等。,中图法分类法简介,中国图书馆分类法(简称中图法)是我国图书情报部门通行的分类方法,也是许多国内检索刊物用以组织文献的主要分类法。这个分类法,1971,年由北京图书馆、中国科技情报所等单位编制的。目前使用的是第四版。,“,中图法,”,的体系结构是以科学分类为基础,结合图书文献的特点进行划分,遵循从总到分,从一般到具体,从理论到应用,从简单到复杂,全表共划分为五大部类,往下展开成,22,个大类。在每一大类下再层层展开为二级、三级、四级类目,形成一个,等级列举式,的分类体系。,在“中图法”这样层层细分的分类体系中,处于被区分的类称为上位类,相应地说,区分出来的类就是下位类。“中图法”总共设置了53811个类目。,中图法由,编制说明,、,类目表,、,标记符号,、,说明和注释,、,索引,五个部分组成。,类目表是整个中图法的主体,是类分图书的依据。它由5个基本部类、22个基本大类、简表、详表和复分表五个部分组成。,如下表所示:,一、马克思主义、列宁主义、毛泽东思想,.A 马克思主义、列宁主义、毛泽东思想,二、哲学. B 哲学,三、社会科学,.,.C 社会科学总论,D 政治,E 军事,F 经济,G 文化、科学、教育、体育,H 语言、文字,I 文学,J 艺术,K 历史、地理,四、自然科学.N 自然科学总论,O 数理科学和化学,P 天文学、地球科学,Q 生物科学,R 医药、卫生,S 农业科学,T 工业技术,U 交通运输,V 航空、宇宙飞行,X 环境科学,五、综合性图书.Z 综合性图书,“中图法”的类目配号采用,汉语拼音和阿拉伯数字相结合的混合号码制,,即一个字母标识表示一个大类,以字母的顺序反映大类的序列,在字母后用数字表示大类下的类目划分。如 I247.57,为适应“工业技术”领域中的图书文献分类的需要,对其下一级类目的复分,也采用了字母标志,即工业技术(T)类下细分了16个二级类目(采用双字母标识)。,T 工业技术,TB 一般工业技术 TL 原子能技术,TD 矿业工程 TM 电工技术,TE 石油、天然气工业TN 无线电电子学、电讯技术,TF 冶金工业 TP 自动化技术、计算机,TG 金属学、金属工艺TQ 化学工业,TH 机械、仪表 TS 轻工业、手工业,TJ 武器工业 TU 建筑科学,TK 动力工程,TV 水利工程,(2)主题语言,是以自然语言的字符为字符,以名词术语为基本词汇,用一组名词术语作为检索标识的一类检索检索语言。,分为标题词、元词、叙词和关键词。,(3) 代码语言,是指对事物的某方面特征,用某种代码系统来表示和排列事物概念,从而提供检索的检索语言。如化学分子式。,按照表达文献的特征划分:,()表达文献外部特征的检索语言题名、责任者、文献编号等。,(2)表达文献内容特征的检索语言分类语言、主题语言、代码语言三大类型。,文献的外表特征与文献是一一对应的,而文献的内容特征与文献却是一种模糊的对应关系。,二、信息检索工具,检索工具,是指用于报道、存储和查找文献信息资源线索的工具和设备的总称,是以一次文献为基础,在广泛收集并经过严格筛选后,对其进行描述、标引或汇集,充分揭示其物质外部特征和内容特征,并按一定的规则组织而成的。,(一)检索工具的,特点,丰富的文献记录,。检索工具收录的文献信息量大,学科知识全面、系统,专业性强。,必要的检索标识。,检索工具能提供各种检索标识,如学科分类号、主题词、著者名称、汉语拼音等。,多途经的检索手段。,检索工具能提供多样化的检索途径和检索方法,如分类索引、主题索引、著者索引和专门索引等。,(,二)检索工具的基本类型,1、,按检索手段,,可分为,手工检索工具,、,机械检索工具,和,计算机检索工具,。,2、,按出版形式,,可分为,印刷型,、,缩微型,和,电子型,。,3、,按著录方式,,可分为,目录型,、,题录型,(索引型),文摘型,和,索引型,。,4、,按收录范围,,可分为,综合性检索工具,、,专科性检索工具,。,5、,按其载体形式,,可分为,书本式工具书,、,卡片检索工具,、,机读型检索工具,及,缩微型检索工具,。,三、信息检索方法和途径,(一)信息检索的方法,所谓,信息检索的方法,,,即查找文献信息的方法。信息检索的方法往往与文献信息检索的课题、性质和所检索的文献类型有关。归纳起来一般有以下几种。,如图所示:,检索方法,直接法,追溯法,综合法,顺查法,倒查法,抽查法,1、,直接法,直接法,又称为工具法或常用法,是直接利用文献信息检索工具来查找文献的方法。其常用方法分为顺查法、倒查法和抽查法。,(1),顺查法,是以研究课题所要求的起始年代为起点,由远及近,利用信息检索工具逐年进行查找的信息检索方法。检索的时间跨度一般规定为10年,检索范围要根据研究课题的具体情况而定。这种方法的特点是文献的查全率高,但费时、工作量大。,(2),倒查法,与顺查法相反,是由近及远逐年进行查找的信息检索方法。这种方法检索效率较高,省时省力,但查全率相对来说不如顺查法。,(3),抽查法,这是一种针对研究课题发展的特点,抓住学科发展迅速、发表文献较多的年代进行查找的方法。此种方法花费时间较少,却能获得较多文献,但使用抽查法要求检索者必须熟悉学科的发展情况,熟悉学科文献较为集中的时间范围,以便正确地选择抽查的时间跨度。,2、,追溯法,追溯法,又称回溯法,是利用文献末尾所附的参考文献线索,进行追溯查找的方法,这是一种传统的获取文献信息的方法,是在没有检索工具或检索工具不全的情况下使用的一种方法,这种方法查找的文献不全。,3、综合法,综合法,又称为分段法或交替法,是顺查法、倒查法、抽查法与追溯法交替使用的一种方法。这种方法既利用检索工具检索文献,又利用文献后边的参考文献进行追溯,两种方法交替使用,直到结果满意为止。,(二)信息检索的途径,1、分类途径,2、主题途径,3、著者途径,4、其它途径,四、信息检索的,程序,信息检索一般可按照下面程序来进行检索。如图所示:,分析研究,检索课题,选择,检索工具,确定检索,途径和标识,索取,原始文献,掌握获取,原文的线索,确定,检索方法,构建检索 表达式,检索并调整 检索策略,1、,分析研究信息检索课题,(1)明确信息检索课题所涉及的学科范围。,(2)明确所需信息的类型,包括文献媒体、出版类型、所需文献量、年代范围、涉及的语种、有关著者、机构等。,(3)明确信息检索课题对查新、查准和查全的指标要求。,2、,选择信息检索工具,选择恰当的检索工具,是成功实施检索的关键。选择检索工具一定要根据待查项目的内容、性质来确定。,选择的检索工具要注意其所报道的学科专业范围、所包括的语种及其所收录的文献类型等。,在选择中,要以专业性检索工具为主,再通过综合型检索工具相配合。,3、,确定信息检索途径和标识,一般来说,每种信息检索工具都为检索者提供多条检索途径,归纳起来主要有分类途径、主题途径、题名途径等。,(1)分类检索途径。是按文献所属的学科类别来检索文献的途径。主要运用于检索课题要求的是泛指性较强的文献信息。,(2)主题检索途径。是从文献的主题概念出发,按确定的主题词来检索文献的一种途径。,(3)题名检索途径。是根据文献名称来检索文献的途径。文献题名主要指书名、刊名、篇名等。,(4)著者检索途径。是通过已知著者(个人著者、团体著者)的名称来检索文献的途径。,(5)号码检索途径。是通过已知号码(专利号、标准号、报告号)来检索文献的途径。,(6)其它检索途径。在检索某些学科或专业的文献时,有一些特殊的检索途径。如美国化学文摘中有分子式索引,从分子式入手来查找有关文献。,4、,确定信息检索方法,检索方法的选择可根据课题性质、检索的对象、检索的范围和实际可能,确定某个具体课题的检索方法,如采用直接法、追溯法、综合法等。,5、,构建检索表达式,检索表达式是计算机检索中用来表达用户提问的逻辑表达式,由检索词和各种布尔逻辑算符、位置算符、截词符以及系统规定的其他组配连接符号组成,是检索策略的具体体现。,6、,检索并调整检索策略,通过检索表达式对检出的检索结果进行分析,分析检索结果是否与检索要求一致,不时要修改检索词和检索表达式,直到得到满意的结果。,7、,掌握获取原文的线索,在获取信息线索时要仔细阅读,判断所检出的信息是否符合检索的要求,不仅看篇名,还要阅读整个著录格式,进行综合分析。,8、,索取原始文献,索取原始文献是信息检索的最后一步,根据出版类型在图书馆或情报机构查找馆藏目录或联合目录确定馆藏。原则上说,应该按“由近及远”的顺序逐步扩大查找馆藏目录或联合目录确定馆藏;也尽可能多渠道、多方式地获取原文,如利用与国外图书馆的馆际互借,大型国际联机信息检索系统的联机订购,Internet上的电子邮件和下载服务,或者与出版商直接联系等。,五、手工、机械和计算机信息检索简介,1、手工信息检索,手工信息检索工具的检,索,方法,,从编制的角度,,是指使内容有序化的编排方法;,从使用者的角度,,是指查考内容的检索方法。目前比较常用的方法有,形序排检法,、,音序排检法,、,分类排检法,、,主题排检法,、,时序排检法,和,地序排检法,等。,(1),形序排检法,。将检索工具的内容依据汉字的形体特点设计制定的排列顺序的方法,主要包括部首法、,笔画法,。(汉字常用的检字法),(2),汉语拼音音序排检法,。将检索工具的内容依据汉字的读音设计制定的排列顺序的方法。主要包括,纯音序排列法,和,音序形序排列法,两种。 (汉字常用的检字法),(3),分类排检法,。是将词目、条目或文献按知识内容、学科属性分门别类地加以归并集中,按逻辑原则排列顺序的一种排检方法。基本形式是:按知识系统、学科体系层层分类,每一类目下集中同类子目或文献;按类目、子目、或文献的内在联系排列顺序。,(4),主题排检法,。是指以规范化的自然语言为标识符号,来标引文献中心内容的一种排检方法。主题排检法的一般形式为:主题词提示文献记录的中心内容或对象,主题词本身则按首字读音或笔画等顺序排列。,(5),时序排检法,。是指按时间的顺序组合文献信息素材,主要用于编制年谱、年表等检索工具。,(6),地序排检法,。是指按一定时期的行政区域来排列文献信息素材,这种可以把同一地区的有关信息素材集中在一起,全面地反映某一地区、某一国家的历史和现状。,2,、机械信息检索,可分为,机电信息检索,和,光电信息检索,两种。机械信息检索最初是从简单的穿孔卡片逐步发展起来的。,机电信息检索系统:手检穿孔卡片、机检穿孔卡片、选卡机,光电信息检索系统:缩微胶卷、胶片及检索机等。,3、,计算机信息检索,现已形成了联机信息检索、多媒体信息检索、光盘信息检索与网络信息检索并存的局面。,特点:,检索速度快、检索途径多、更新快、资源共享、检索方便灵活、检索结果可以直接输出。,计算机检索的,基本技术(方法),可分为:,(一)布尔(逻辑)检索,布尔逻辑检索是建立最早的检索理论,也是检索系统中应用最广泛的检索技术。它通过对布尔逻辑运算符进行组配,形成检索式,用以表达用户的检索需求,并通过一定的算法和手段进行检索。,布尔逻辑运算符及其关系,常用的布尔逻辑运算符有三种:逻辑或(OR),、,逻辑与(AND),、,逻辑非(NOT),A OR B (+ ) A AND B (*) A NOT B (-) B NOT A,(二)截词检索,截词检索是指对含有相同词干的检索词,检索时仅用该词干在数据库中进行检索,凡与之匹配的字符串均属于命中范围。有相应的截词符号,有一定的词形变化。,由检索词的不变部分和允许的任何变化形式共同构成的主题词均为合法检索词,且通过检索词具有逻辑与关系,截词符号有“*”“?”,分别表示无限截断和有限截断。,按截断部位可分为:左(前)截断、右(后)截断、中间,截断,等类型。,(,三)全文(位置)检索技术,全文检索是指以一次文献的全部信息作为存储和检索对象的方法。,全文检索是以原始记录中词与词之间特定位置关系为检索对象的运算,它不依赖主题词表而直接使用原文中的自由词进行检索,它通过位置算符来确定词与词之间的特定的位置关系。,全文检索可分为,文章节段检索,(可检索到文献中的每个章节或段落)和,文句检索,(可检索到文献中的每个句子。,(四)字段限制检索,字段限制检索是一种限定检索词或检索方式,在数据库内查找区域的联机检索技巧。当用户从主题或物质外部特征的角度检索文献信息资源时,可以利用文献类型、语种、出版年等辅助条件限定检索词的检索范围。,这一技术可以控制文献检索的范围,提高文献的查准率。,(五)自然语言检索,就是一种直接采用自然语言中的字、词甚至整个句子作为提问式进行检索的方法。,这种检索技术适合于还不太熟悉网络信息检索技术的人使用。,检索结果,存,储,过,程,文献信息处理人员,原始信息,信息分析、处理和标引,检 索 语 言,(主题词/分类号),检索,过,程,检,索,课,题,用,户,课 题 分 析,检,索,工,具,检索,存,入,检出,原文的获取,第三章,中文检索工具,第一节 中文检索工具概述及结构体系,一、概述,目前中国的检索刊物约有200种。,按,刊物著录编辑形式,可分为:目录、索引、文摘三大系列。,按,刊物报道信息内容范围,可分为:国内、国外两大系列。,二、中文检索工具体系,查国内文献,查国外文献,图书,全国新书目、全国总书目,国外新书通报,报刊,全国报刊索引,国外报刊目录,期刊,中文科技资料目录、中国*文摘,国外科技资料目录、国外*文摘,标准,国家标准、行业标准,各国标准目录,专利,专利公报,专利文献通报,中文检索工具体系表,第二节 中文检索工具编排及其检索途径,一、中文检索工具结构,检索工具虽然多种多样,但一种完整的文献检索工具一般由五部分组成,如图所示。,题录、文摘,使用说明,编辑内容,著录标准,代号说明,使用方法,目 录,正文,题,录,文 摘,索 引,主题、,分类,著者,、机构,各种号码,特殊号码,文献来源,期刊,图书,会议文献,二、中文检索工具的编排,中文检索工具的正文都按分类编排,并按照国家标准(GB3793-83)检索期刊条目著录规则规定的统一格式进行著录。,分类号,顺序号 中文题名=外文题名 刊,文种/著者/,刊名(国别或地名)-年,卷(期).-所在页码,提要.图表参(文摘员),主题词 索取号,分类号,顺序号 中文书名=外文书名 卷(册、编)次:卷,(册、编)的书名 著,文种/著者或编者.-版,本/与版本有关的责任者.-(丛书项).-附注项-文献标,准书号,提要。,图表参(文摘员),主题词 索取号,期刊论文著录格式,图书专著著录格式,检索工具统一著录格式,图书专著简单著录格式,三、中文检索工具检索途径,主要检索途径有三种:,著者途径,主题途径,分类途径,已知学科类目,类目表、目次,查类目表获知类目所在正文页码,已知主题词,主题索引,查主题索此获 取文献号,已知著者姓名,著者索引,按著者姓名获取文献号,由文摘(题录)正文获取文献出处,根据文献出处,获取原文,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!