信息检索科技文献检索基础知识检索方法和途径

上传人:cel****460 文档编号:243380422 上传时间:2024-09-22 格式:PPT 页数:116 大小:24.22MB
返回 下载 相关 举报
信息检索科技文献检索基础知识检索方法和途径_第1页
第1页 / 共116页
信息检索科技文献检索基础知识检索方法和途径_第2页
第2页 / 共116页
信息检索科技文献检索基础知识检索方法和途径_第3页
第3页 / 共116页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,信息检索 科技文献检索基础知识检索方法和途径,第二章 科技文献检索基础知识,2.1 文献检索的基本原理,2.2 检索语言及其种类,2.3 检索工具,2.4 科技文献检索的方法与途径,2.1 文献检索的基本原理,为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索,(searching),。,检索在信息处理和增值中有重要意义。从下图可以看到,信息的检索、利用和创造是一个循环和增值的过程。,2.1 文献检索的基本原理,文献检索(,Document Retrieval):,又称情报检索(,Information Retrieval),,是指把文献按一定方式组织和存储起来,并针对用户的需求找出所需要的文献的过程。,2.1.,1,文献检索的基本原理,文献内容,主题概念,检索需求,主题概念,检索语言,检索标识,提问标识,检索工具,结果,存储过程,检索过程,主题分析,主题分析,文献描述,文献描述,2.1.,2,文献检索的类型,根据检索对象的不同,分为:,文献检索:,以文献为检索对象,从已存储的文献库中查找到的是关于文献的信息或文献全文;,数据检索:,以数据为检索对象,从已收藏数据资料中查找出特定数据的过程;,事实检索:,通过对存储的文献中已有的基本事实,或对数据进行处理(逻辑推理)后得出新的(即未直接存入或所藏文献中没有的)事实过程。,根据检索方式不同,分为:,手工检索 计算机检索,2.2 检索语言及其种类,检索语言:,检索语言是用于描述检索系统中文献的内部及外部特征和表达用户信息提问的一种专门语言,检索的匹配正是通过语言的比较匹配来实现的。,检索语言,是信息检索系统存储与检索所使用的共同语言。,2.2 检索语言及其种类,1)按标识的性质与原理分:,分类检索语言,主题检索语言,代码检索语言,体系分类法,组配分类法,标题词语言,叙词语言,关键词语言,单元词语言,2)按表达文献的特征分:,描述文献外表特征的语言,题名语言,分类语言,著者语言,号码语言 (专利号,报告号等),描述文献内容特征的语言,主题语言 (标题词,叙词,关键词),分类主题体化语言,3)按包括的学科范围分:,综合性语言,专业性语言,4)按其标识的使用方法分:,先组式语言,后组式语言,5,)检索语言从规范、授控的情况:,人工语言,(,规范语言,),自然语言,(,非规范语言,),2.2.2分类检索语言与分类法:,分类检索语言:,是一种按科学范畴和体系来划分事物的检索语言,。,(分类语言的具体表现形式为分类法,即用分类法表达各种概念,以学科体系为基础,将各种概念按照学科,专业的性质进行分类和系统排列。),分类法:,是根据图书的内容,按照知识门类区分图书的方法。,分类法的发展:,我国分类法大致分三个阶段:,古代,近代,解放后,古 代,1,) 我国第一部图书分类法,七略,包括:辑略,六艺略,诸子略,诗赋略,兵书略,术数略,方技略,2,) 我国古代图书分类法的另一大体系,四部分类法,3,) 郑樵的图书分类法“总十二类,百家,四百三十二种”,近 代,1,),. 1840,年至杜威法的传入后不久,随着,1840,年鸦片战争失败后,帝国主义势力的入侵,西方资产阶级文化和思想传入中国,对中国固有的思想文化产生很大冲击,因而出现了,西学目录表,、,古越藏书楼书目,南洋中学藏书目,一些新的图书分类法。,2,),.,杜威法的传入后不久至,1949,年,自杜威法传入后编制的各家分类法体系结构大同小异,当时较为通行的是刘国钧的,中国图书分类法,和皮高品的,中国十进分类法,解 放 后,解放以后,党和政府十分重视图书分类法的编制工作。建国以来,我国先后编辑出版了几十种综合性和专业性的图书馆分类法,在国内影响较大的是:,中国人民大学图书馆图书分类法,中小型图书馆图书分类表草案,中国科学院图书馆图书分类法,中国图书馆图书分类法,分 类 法,等级列举分类法,分面组配分类法,混合分类法,分类法的类型:,等级列举分类的典型案例,国家标准有,中华人民共和国行政区划代码,(GB,T 22601999),等级列举分类法,杜威十进分类法,(,Dewey Decimal Classification,)简称,DDC,,编于,1876,,目前已,21,版,在世界上拥有最多的用户。,美国国会图书馆分类法,(,Libray of Congress Classification,)简称,LOC,,是世界上类目最多的分类法,目前广泛用于北美大中型图书馆,特别是学术性图书馆。,中国图书馆分类法,简称,CLC,。,分面组配分类法,印度阮冈纳赞的,冒号分类法,(,CC,),英国,布立斯书目分类法,(BC2),分面组配分类的典型案例,混合分类法,国际十进分类法,简称,UDC,,是以美国杜威法为基础,我国出版的标准出版物上有,UDC,分类号。,俄国的,图书馆书目分类法,混合分类的典型案例,分类法的组成:,尽管名称各不相同,但其组成结构基本相同,均由以下五部分组成 :,分类表、,标记符号、,辅助表、,说明和注释、,索引,1,)分类表:是图书分类法的主体,是类分文献的依据,它是根据图书分类法编制目的和要求,按照一定的原理,设置一系列大小类目,编成一个有层次的逐渐展开的排列表,它由基本部类、基本大类、简表、详表构成。,2,)标记符号:是指图书分类法中用以反映类目之间隶属关系和并列关系。任何一部分类法都有其特定的标记符号。如果不配标记符号,就不能类分文献,因此,标记符号是图书分类法的一个重要的组成部分。,3,)辅助表:也称复分表或附表,是将主表中具有共性区分的类目,从主表中抽出来,分别汇编为各种附表,附设在主表之后,供主表中某些类目进一步区分使用,它包括总论复分表、世界地区表、中国地区表、中国时代表、中国民族表等。,目前我国和世界上,比较著名的分类法有:,1.中图法、,2.科图法、,3.人大法、,4.杜威十进分类法、,1.中国图书馆分类法中图法,中国图书馆图书分类法,简称中图法。,由政府部门领导编制的一部大型综合性图书分类法,1971年着手编制,,1973年初稿并以试用本形式印出,,1974年对试用本检查和重点修订,,1975年10月由科学技术文献出版社正式出版,,1982年出版了第二版,1990年出版第三版,,自1999年第四版起更名为中国图书馆分类法,,缩写为,CLC- Chinese Library Classification,中图法组成部分:“编制说明”、“基本大类表”、“主表”、“附表” .,中图法分,五个基本部类,。社会科学部类又展开为九大类,自然科学部类展开为十大类。共计22个大类,基本序列是:,马列毛思想、,哲学、,社会科学、,自然科学、,综合性图书。,A,马克思主义、列宁主义、毛泽东思想、邓小平理论,B,哲学、宗教,C,社会科学总论,D,政治、法律,E,军事,F,经济,G,文化、科学、教育、体育,H,语言、文字,I,文学,J,艺术,K,历史、地理,N,自然科学总论,O,数理科学和化学,P,天文学、地球科学,Q,生物科学,R,医药、卫生,S,农业科学,T,工业技术,U,交通运输,V,航空、航天,X,环境科学、安全科学,Z,综合性图书,中图法22大类,中图法的标记符号:,为了便于类分图书和排列图书等,就必须用一种标记符号代表类目,凭这些符号确定各级类目的先后顺序,分类号就是代表各级类目的标记符号。 标记符号有,单纯号码,和,混合号码,。,采用一种有固定次序的符号系统做标记符号的,称,单纯号码,,如科图法、人大法。,采用两种或两种以上有固定次序的符号系统做标记符号的,称,混合号码,。,一个图书馆的同一类图书会有很多,分类相同时,也要按一定的顺序加以区分,通常在分类号后加种次号或著者号构成一本书的索书号,分类号,+,书次号,索书号一般是收藏单位赋予一个文献单位的存放,位置号,其构成由文献收藏单位自定。,索书号,索书号的组成,书次号,“书次号”是为使同类书籍个别化而编制的号码,它是索书号的组成部分之一,用以确定同一类中各种不同图书的排列顺序。,“,书次号,”的作用是:一是在组织分类目录时,使相同分类号的款目有序化,从而提供更为精确的检索途径;二是在排架时使同类图书排列有序,便于查找,归架和管理。,“书次号”种类繁多,如:登录号、种次号、年代号、页码号、著者号等。,种次号,“种次号”是以图书的“种”为单位,按同类中每种书的分编先后次序依次给予,1,、,2,、,3,等顺序号。编制种次号要根据各馆的规模、藏书的多少预先确定好各类图书种次号的类级起点。,“分类号,+,文献种次号”的作用是:以类集中文献。通过“分类号,+,文献种次号”可了解同类文献到馆的先后。,例,:,刘鹗著的,老残游记,一书索书号为:,I,I,文学,I2,中国文学,I24,小说,I242,古代至近代作品,( 1919,年,),I242.4,长篇小说,“,133”,代表在同类文献中,本书到馆的顺序号,索书号的排列方法,1.,先排列分类号,大类按字母顺序排列;大类相同者,再比数字大小,数字由小到大排列,总论复分号“,”,排在同位数字前,复分号后逐位按数字顺序排,例如:,2.,分类号相同,再按种次号次序排列,美的畅想:新潮服装设计,300,幅,美国时装画技法,时装设计款式手册,巴黎新款女装,2.中国科学院图书馆图书分类法科图法,科图法共分5大部类,下分25个大类。与中图法不同的是它用2位数字作为大类类号。例:,00 马列、毛泽东思想、邓小平理论,10 哲学,20 社会科学总论,21 历史,27 经济 经济学,31 政治 社会生活,34 法律 法学,.,3.中国人民大学图书馆图书分类法人大法,人大法是我国建国后的第一部科学地组织的分类法。分4大部类,下分17个大类。类标识用117表示17个基本大类。例:,1 马列、毛泽东思想、邓小平理论,2 哲学,3 社会科学 政治,4 经济,5 军事,6 法律,.,4.杜威十进分类法,DDC,它是世界上出现最早流行最广影响最大的一部分类法。将全部学科分9大类,以19序号代表。把不能归类的综合性文献另立一类,以第000类(总论)表示:,000 总论,100 哲学,200 宗教,300 社会科学,400 语言学,500 纯粹语言,600 技术科学,700 美术,800 文学,900 历史,5.国际十进分类法,UDC,它是当今国外图书情报界流行或影响较大的分类法。,UDC,把人类的全部知识分10大部类。其序列是:,0 总论,1 哲学 心理学,2 宗教 神学,3 社会科学 法律 行政,4 (语言学),5 数学 自然科学,6 应用科学 医学 工学 农学,7 艺术 美术 摄影 音乐 娱乐 竞技,8 语言学 文学,9 地理 传记 历史,2.2.3 主题检索语言与主题法,主题检索语言:,是以文献的主题为依据用语词作为概念标识,将概念标识进行字顺排列,并用参照系统等方法间接显示概念之间的相互关系的一种检索语言,。,标题词语言,叙词语言,关键词语言,单元词语言,所谓,主题法,,就是以自然语言中的词语或规范化的词语作为揭示文献主题的标识,并以此标识编排组织和查找文献的排检方法。,(优选出的词语必须词义明确,避免其多义性,并受特定的,词表,控制。),主 题 法,主题法与分类法的关系,相同点:,主题法和分类法一样,也是文献信息单位广泛使用的文献信息整序法。它们揭示和检索的对象都是各种类型的文献资料;它们都是从文献资料的内容途径进行揭示和检索;它们都是文献信息单位用来组织与编排检索工具,向用户揭示、宣传和流通文献资料的一种手段 。,主题法与分类法的区别:,主 题 法,分 类 法,揭示对象,文献论述的具体事物或主题概念,一般不涉及学科类别的判断,揭示的是文献内容的学科属性,使用标识,直接用词语表示文献主题(直观易懂),以抽象化的类目代号,分类号标识。(较简洁,但也较费解),排列方式,按词语字顺排列(如同词典,易学易查),按分类号,(,学科或专业门类的代号,),排列(系统性较强),用 途,较适合单篇文献的组织和检索,且更适于计算机组织和检索。(提供了从具体事物入手查找文献信息的途径,专指性强),分类法则比较适合于图书或文集的组织和检索。(提供的是从学科或专业角度查找文献信息的途径,族性检索功能强。),主题词表,主题词表,-,是根据一定的原则对自然语言实施控制后,以自然语言的语词形式表达文献主题概念的检索工具。,我国图书馆界中文图书采用,汉语主题词表,汉语主题词表,是我国第一部大型综合性叙词表。,全书收录叙词,10,万多个,由字顺表和辅助表组成。,字顺表,辅助表,主 表,附 表,社会科学主表,自然科学主表,世界各国政区名称,自然地理区划名称,组织机构,人物,词族索引,范畴索引,英汉对照索引,汉 语 主 题 词 表,检索工具:,是用来存储、报道和检索文献线索的工具。,2.3 检索工具,文摘(摘要),索引,题录,目录,1.,文摘:,是通过描述文献的外部特征和简明扼要地摘录文献内容要点来报道文献的一种检索工具,是二次文献的核心。,不仅描述文献的外部特征,而且揭示文献的内容特征,是带有文摘内容的、扩展了的题录,它比题录多有文摘等项内容。,二.按著录形式划分:,文摘、索引、题录和目录,2.,索引:,是将书刊内容中所论及的篇名、语词、主题等项目,按照一定的排检方法加以编制,注明出处,供读者查检使用的检索工具,索引的常用的类型有,分类索引、主题索引、关键词索引、著者索引和其他索引,。,索引,是对一组信息集合有系统的指引,一般只起指引特定信息内容及其存贮地址的作用。,在手检工具中,索引通常有三部分组成:,标目(,heading,)说明语(,modification,)存贮地址(,location,),其中,标目和存贮地址是必须有的成分。,二.按著录形式划分:,文摘、索引、题录和目录,3.,题录:,是将图书和报刊中论文的篇目按照一定的排检方法编排,供人们查找篇目出处的工具。,题录(,bibliography,,,bibliographic citation,)也是对文献外部特征的描述,,由一组数据项的固定组合形成题录型条目。题录一般以内容上独立的文献单元,如一篇文章或书中某一部分、某一章节或整个出版物作为其著录的基本单位。,题录通常包括:作者(或含其所在单位)、篇名和来源出处及文种等,由出处导向原文。,二.按著录形式划分:,文摘、索引、题录和目录,2.3.2 检索工具的类型,4.,目录:,是著录一批相关文献并按照一定的次序编排而成的一种揭示与报道文献的工具,主要有,国家书目、联合目录、馆藏目录、推荐书目和专题书目,。,目录是对一批相关文献外部特征的揭示和报道,是有序的文献清单(,list,)。目录通常以完整的出版单位或收藏单位为著录的基本单位,以,“,本,”,、,“,种,”,或,“,件,”,(,item,)为报道单位,如一种图书,一件科技报告。,二.按著录形式划分:,文摘、索引、题录和目录,分章下载,2.3.3 检索工具的一般结构,检索工具的一般结构大致相同,一般有五部分:,使用说明、,目次、,正文、,索引、,附录。,2.4 科技文献检索的方法与途径,2.4.1 检索科技文献检索的方法,常用法 (工具法或直接法),顺查法,倒查法,抽查法,追溯法,循环法 (综合法),在实际检索中,究竟选用哪一种检索方法,要根据,检索条件、检索要求、检索背景,等因素而定。,2.4.2 文献检索的途径,检索点(,access point,)是检索的出发点,以前常用,“,检索途径,”,(,approach),这一术语。,每件文献均有内部的(信息内容)特征及其相关的外部特征,在检索系统中检索点是标目的总称。从文献的特征出发,将其特征值与检索系统中标目数据进行计算比较,通过匹配达到检索目的。,2.4.2 文献检索的途径,主题途径,分类途径,按外部特征,按内容特征,著者途径,题名途径,序号途径,引文途径,其他途径,1.,分类检索,分类(,classification,)检索是从文献内容所属的学科类别出发来检索文献,它依据的是一个可参照的分类体系(,classification system,)。,分类体系按文献内容特征的相互关系加以组织,并以一定的标记,(,类号,),作排序工具,它能反映类目之间的内在联系,包括从属、并列、交替、相关等。,不同检索工具使用各自规定的分类表。广泛用于图书资料的是图书分类法。图书分类法的作用是指示用户根据学科内容检索图书资料,指导用户从开架书库(,open shelf,)中按类号顺序找到指定的图书及其内容相关的资料。许多出版物上都有,“,图书在版编目,”CIP,(,Cataloging In Print,)。在我国出版的图书、专著上,“,图书在版编,”,数据中有,“,中图法分类号,”,一项。,较权威的图书分类法有,如,:,中国图书馆图书分类法(,Chinese Library Classification,美国国会图书馆分类法(,Library of Congress Classification),杜威十进分类法(,Dewey decimal Classification system,),2.,主题检索,主题(,subject,)检索是从反映文献内容的有关主题词出发来检索文献,主题是检索点,它对应文献主题概念。检索按主题词的音或形的字顺进行,其方式如查字典、词典。,主题词有多种类型:有规范词和自由词,有单元词和多元词,有先 组结构和后组结构等。,按字的形序排检是为汉字字形特点而制定的,主要有部首法、笔划笔形和号码法。音序则是根据读音制定的,中国普遍使用汉语拼音字母排序。,3.,著者检索,著者(,author,)检索是从文献的作者姓名出发来检索其文献。,“,作者,”,广义上还应包括:汇编者(,compiler,)、编者(,editor,)、主办者(,sponsoring body,)、译者(,translator,)等,此外,还有代表机构、单位的团体作者(,corporate author,),包括作者所在单位(,authors affiliation,)。,检索按作者姓名或机构名称字顺进行。如果查个人,对于西方作者通常也是按姓氏(,family name,)查找,表达方式可将姓氏放在前,而名字(,given name,)在后,形成倒叙形式,这时姓名中间往往插入一个逗号,,如:,Berger, P. R.,,首先检索姓氏,Berger,。,4.,题名检索,题名(,title,)检索点是从各种事物的名称出发来检索文献信息。 这些名称包括:书名、刊名、资料名、出版物名、出版社名、会议名、物质名称等等,也包括人名和机构名。检索的对象既包括对应的文献,也包括有关的信息、事项等。比如个人电话簿(,white pages,)或公司电话簿(,yellow pages,),查找的是号码信息。书名目录、馆藏目录普遍使用书名、刊名等出版物名称作为其检索点,而论文、文章篇名一般不用作检索点。检索按名称字顺进行,这时,名称起始用的冠词如:,A,,,An,或,The,等不计入。,5.,号码检索,号码包括文献的编号(,number,)、代码(,code,)等,它们是文献信息的一些特有的外部标识,号码检索点以号码特征来检索文献信息。,号码多种多样,通常用数字、字母或用它们结合的形式或以分段的方式来表示其各部分的含义。比如科技报告有报告号,还有其合同号、拨款号等,比如专利文献有专利号、入藏号、公司代码等;比如分类号也是号码,等等。它们各自按号码顺序,或以数序、或以字序、或以混合序列检索。分类检索可看作一种特殊的号码检索,分类号是它的检索点。,在对图书和期刊检索时常用到两个号码:,国际标准书号,ISBN,(,International Standard Book Number,)及国际标准刊号,ISSN,(,International Standard Serial Number,),,它们分别是一种图书和一种期刊的唯一标号。,由于文献加工的细化,计算机标引的介入,新型电子文献出现等情况,形成了更多的可检索点,比如:,文献类型、文献属性、参考文献、语种、出版年份,等检索点,它们提供了更多的检索途径。,2.4.3 文献检索的步骤,分析研究课题,选择检索系统,确定检索途径,确定检索方法,制定检索式,提交检索系统,修改检索式,输出检索结果,用 户,满 意,不满意,2.4.4 文献检索效果的评价,检索效果(,retrieval effectiveness,),是指检索系统检索的有效程度,它反映检索系统的能力,这是对机检提出,有些指标对手检也有意义。,(,检索效果包括技术效果和经济效果两方面,技术效果主要指系统的性能和服务质量,它是由检索系统实现其功能的能力所确定的;经济效果主要指检索系统服务所花费的成本和时间,它是由检索系统完成其检索服务的代价所确定的。一些指标不仅可作定性的、也可作定量的评价,它们针对的是检索系统,也涉及实施检索的人所能发挥检索系统的最大能力、效益等因素。,),有,6,项评价检索效果的指标,它们由克兰弗登 在分析用户基本要求的基础上提出的,包括:收录范围、查全率、查准率、响应时间、用户负担及输出形式。,其中两个主要的衡量指标是,:,查全率(,Recall ratio,),查准率(,precision ratio,),分别用,R,和,P,大写字母表示。,现将检索结果中的有关参量列于表中,讨论涉及四个方面:相关文献、非相关文献、被检出的文献和未被检出的文献。,不同检索语言出发得到的实验结果都表明了这种关系,即查全率高时,查准率较低,反之亦然。,R,和,P,各自的最佳状态是逼近,100,,但同时只能满足其中的一个。要提高查准率,则要付出查全率降低的代价;要提高查全率,也会使查准率下降,这是容易理解的。,当代科技信息检索系统能达到的查全率和查准率分别是,60,70,和,40,50,。,提高检索系统的质量,(对用户而言,则要选择适合课题的学科覆盖范围的、优质的检索工具,包括其收录的全面、著录的清楚、标引的准确、完善等等。),提高用户使用检索系统的能力,提高检索效果的措施,本章小结,文献检索的基本原理,检索语言及其类型,分类检索语言 主题检索语言,检索工具,特征 类型 一般结构,科技文献检索的方法与途径,常用法,追溯法,循环法,按外部,内部特征途径,文献检索的步骤,效果评价,Thank You !,不尽之处,恳请指正!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!