科技文献检索实用教程第2章科技文献检索系统原理

上传人:xiao****017 文档编号:16343773 上传时间:2020-09-26 格式:PPT 页数:46 大小:1.09MB
返回 下载 相关 举报
科技文献检索实用教程第2章科技文献检索系统原理_第1页
第1页 / 共46页
科技文献检索实用教程第2章科技文献检索系统原理_第2页
第2页 / 共46页
科技文献检索实用教程第2章科技文献检索系统原理_第3页
第3页 / 共46页
点击查看更多>>
资源描述
1,第2章 科技文献检索系统原理,2,2.1 文献信息资源科技文献是记载科技知识或科技信息的物质载体,全世界的科技成果都是通过文献来传播的,因此,科技文献是正式渠道的信息交流中非常重要的信息源。2.1.1 什么是信息资源信息资源(information resources)也称为文献信息资源或文献资源,指可供利用并产生效益的与社会生产和生活有关的各种文字、数据、音像、图表、语言等一切信息的总称。美国哈佛大学的研究小组曾给出了著名的资源三角形,如图2.1所示。,图2.1 资源三角形,3,归纳起来可认为,信息资源由信息生产者、信息、信息技术3大要素组成。信息资源构成三要素如下:(1)信息生产者信息生产者是为了某种目的生产信息的劳动者,包括原始信息生产者、信息加工者或信息再生产者。(2)信息信息既是信息生产的原料,也是产品。它是信息生产者的劳动成果,对社会各种活动直接产生效用,是信息资源的目标要素。(3)信息技术信息技术是能够延长或扩展人的信息能力的各种技术的总称,是对声音、图像、文字等数据和各种传感信号的信息进行收集、加工、存储、传递和利用的技术。,4,2.1.2 信息资源的类型划分信息资源按传播渠道,可分为文献信息(文献信息资源)和非文献信息资源(口语、体语和实物信息资源);按照物质载体,可分为印刷型、视听型、缩微型和电子信息、网络型资源;按不同的内容加工深度和层次,可分为一次、二次和三次信息资源;按照文献的出版类型划分,可大致分为“十大情报源”。2.1.3 信息资源的4种传播形式按传播渠道划分(1)口传情报口传情报指交谈、讨论、报告、新闻发布会等。此类交流的方式一般有:同行交谈、讨论;书信交换;各种类型的学术会议;参观实验室;参观科技展览会,等等。,5,(2)体语情报体语,即人体语言,它指人们通过表情、姿势、动作、语气、手语等非词语途径表达的内心信息。(3)实物情报实物情报是指产品样机、样品、展览交流。特点是真实、直观、易仿制,同引进技术相比花钱少。缺点是要经过复杂的分析和研究才能解析出来。(4)文献情报文献情报是用文字、图形、符号、声频、视频等手段记录在一定的物质载体上的知识含量较高的信息。2.1.4 文献资源的形式按文献的载体形式划分根据文献的物质形式,全部文献被划分为6大类。,6,(1)印刷型文献(print form)用途最广,便于阅读、流传、符合人们的阅读习惯,缺点是存储信息密度较低,保藏和管理需要很大的空间和人力。(2)缩微型文献(micro form)这是以感光材料为存储介质、以缩微照相为记录手段而产生的文献形式。(3)电子出版物(electronic publications)电子出版物也称“电子型”文献,即早期所谓机读型文献,指通过计算机存储和阅读的文献类型。(4)声像型文献(audio-visual form)声像型文献以磁性材料或感光材料为载体,以磁记录或光学技术为记录手段直接记录声音、视频图像。,7,(5)光盘型文献(CD-ROM form)这是一种以弱激光束记录和再现信息的“海量”存储型文献。(6)网络型文献(network form)网络型文献主要指互联网上的所有机读文献。2.1.5 科技文献的级别按文献被加工处理的深度划分科技文献按对加工处理的深度区分,产生所谓一、二、三次文献的概念。(1)一次文献(primary document)一次文献通常指由作者以自己的研究成果为基础创作或撰写的文献。(2)二次文献(secondary document)二次文献是指文献工作者将大量分散的、无序的原始文献加以筛选,留下有价值的文献,再经过加工整理,或按文献内容特征(如主题、分类),或按文献的外部特征(如著者、篇名等),进行提炼、浓缩、简化,编辑,8,成系统的工具性文献。(3)三次文献(tertiary document)三次文献是指利用二次文献系统地检索出一批有关的文献,并对其运用科学方法和专业知识进行深入研究后撰写出的新的文献。三次文献可再分为以下两种形式:文献型。数据型。三次文献是对知识的再加工(第三次加工)。其中:主要供作文献检索。主要提供数据、事实检索,二者之中,文献型为三次文献的主要代表。2.1.6 白色文献、灰色文献和黑色文献按内容的公开程度划分所谓白色文献,是指一切正式出版并在社会上公开流通的文献。,9,灰色文献是指非公开发行的内部文献或限制流通的文献。黑色文献主要是指处于保密状态或涉及个人隐私内容的文献。2.1.7 十大文献信息源按科技文献的出版类型划分(1)科技图书(books)一次文献、但又含有三次文献的性质科技图书的范围很广,包括从艰深的专著到各类教科书和科普读物等。现在的书都一定有个ISBN号,即国际标准书号(International Standard Book Nomber),其定长为13个数字。以下以计算机网络基本原理一书的书号为例。ISBN 7-5609-2141-8地域号 出版社号 书号 计算机校验位ISBN号为定长13位,前面加上ISBN的标识,13位数字又分为4个部分: 是地域号;是出版社号;是书号;是计算机校验位。ISBN号前3,10,部分都是变长结构,但总长不变。根据ISO有关标准,计算机校验位是用前9位数字分别对10,9,8,2的乘积之和,对11的模数求余,再用模(11)减去余数而得。但中国的ISBN号却还要在国际ISBN号后面加上中图法的大类号和小类号。(2)连续性出版物(serials)1)期刊(periodical)最典型的一次文献期刊指定期或不定期出版的有固定名称的连续性出版物。连续性和周期性以及报道专题的多样化是期刊最显著的特征。期刊还有级别,这是根据其学术水平和编辑部资格等标准综合评定的。期刊中也有一种连续性会议录,它们多是每年在不同的地方召开的国际会议的结果。同图书一样,期刊等也有国际标准连续性出版物编号ISSN,11,(International Series Standard Number),实现对全世界期刊文献的管理。ISSN号全长8位,前7位是刊物代号,末位是计算机校验位。2)报纸(newspapers)以报道新闻和评论为主的一种定期的、连续发行的出版物,每期的版式基本相同,是大众传媒的重要载体。(3)科技报告(scientific and technical report)既像书又像刊的一次文献科技报告指与政府部门签有合同的科研项目的正式报告,或是其进展中阶段的实际记录。科技报告是一次文献,许多最新的研究课题和尖端学科,往往首先反映在科技报告中。科技报告具有保密的特点,因而不易获取。,12,(4)会议文献(proceedings)报道最新科技动向的一次文献会议录中收集的论文或报告,均为会议文献。此外,还有会前文献,它包括会议预印本、会议论文摘要等。会议文献有几种不同的出版形式,如以期刊形式出版的会议专号、会议特辑、书本式的专题性论文集(即会议录)、连续性会议录等。(5)政府出版物(government publications)体现政府科技发展政策的三次文献政府出版物是指各国政府部门及其设立的专门机构出版的文献。(6)专利文献(patent document)集技术、经济、法律为一体的一次文献专利文献包括了丰富的技术情报、经济技术情报。专利的范围几乎囊括所有的技术领域。,13,(7)标准文献(standard documents)促进社会产品质量进步的三次文献标准文献主要针对工农业产品、工程建设的质量、规格及其检验方法等所作的技术规定,是从事生产、建设的一种共同技术依据。标准文献的内容分为基础标准、产品及零部件标准、原材料及毛坯标准、工艺及其装备标准、方法标准5种。按审批机构分为国际标准(ISO)、国家标准(GB)、部颁标准、企业标准4个等级。(8)学位论文(dissertation)体现毕业生学术水平和能力的一次文献学位论文是指高等院校的研究生、毕业生撰写的作为评定学位依据的毕业论文,如博士论文、硕士论文、学士论文等,特点是具学术性和独创性。,14,(9)产品样本(product literature)提供产品技术细节和规格的一次文献这是产品制造厂商介绍他们产品的文献,如产品说明书、产品目录等。(10)技术档案(technical archive)记录工程项目的一次文献技术档案是科研或生产部门对某项工程项目所作的全部有关技术文件进行归档后的文献,包括工程图纸、图表、图片、原始记录或其复印件、任务书、协议书、技术合同、审批文件、计划、方案和实施措施等。技术档案的特点是:它是某一工程项目的完整、忠实的记录,内容详尽、具体,是科技储备的一种最高、最完善的形式。除上述10大文献情报源外,其他还有科技新闻、科技手稿等。例如,参考消息上的科技新闻栏目常常报道最新的国外医学科技和科学探索。文献中常常出现“特种文献”的说法。,15,什么叫特种文献?上述的会议文献、科技报告、专利文献、标准文献这4种常被称为特种文献。通常指那些在出版发行方面或获取途径方面比较特殊的文献,或难于搜求(如科技报告),或具某些解决纠纷的意义(如专利文献和标准)。2.1.8 信息资源的整体特征及规律(1)数量剧增,种类繁多科学技术的进步和信息产业的飞速发展,极大地推动了信息数量的增加和信息的流动。(2)内容交叉重复表现在同一内容的文献以不同的形式分别出版;同时由于语种繁多,译文增加,也造成了科技文献在内容上的交叉重复现象。,16,(3)文献出版分散表现在两个方面:一是同一专业的文献往往分散刊载在许多相关专业或综合性刊物上;二是专业性刊物所发表的文献一般涉及多种学科领域的科研成果。(4)文献失效加快社会的进步、科技的发展,促使科技文献有效使用时间日益缩短,失效周期明显加快。(5)载体多样化随着科技的发展,文献的载体发生了重大变化,缩微、声像、机读等新型文献载体相继问世。(6)语种多样化除载体多样化以外,世界各国文献使用的语种也在不断增多。,17,2.1.9 科技文献的系统结构系统论是现代科学认识论的一个重要观点,人们由孤立、单纯的“实物中心论”转向“系统中心论”,这是人们思维方式的重大变化。下面的科技文献系统结构图(见图2.2)表明了人类对知识加工的层次性、文献源及知识本身的不断推陈出新的动态结构。2.2 检索语言语言是一种人们用以交流沟通的重要工具,用于人与人之间的通信活动。因其使用的场合不同,信息检索语言也有不同的叫法。信息检索语言是由符号、代码或科技语词组成的集合。其中,符号、代码是按学科门类严格编制的;科技语词是经过优选的、规范化的。就其表述文献的有关特征而言,信息检索语言可分为表述文献外部特征的检索语言和文献内容特征的检索语言。检索语言体系如图2.3所示。,18,图2.2 科技文献的系统结构模型,19,图2.3 检索语言体系,20,2.2.1 分类语言与分类法(1)分类语言分类语言是用分类号和相应分类款目来表述文献的概念,并将各种概念按照学科属性系统组织起来的一种检索语言。分类语言能反映事物的从属派生关系,便于按学科门类进行族性检索。按照分类方式的不同,分类语言又分为体系分类语言、组配分类语言和混合分类语言。1)体系分类语言按学科体系从综合到一般、从复杂到简单、从高级到低级层层展开,逐级细分,所形成的序列规范检索词称体系分类语言。2)组配分类语言它是采用规范的或成熟通用的词汇概念加信息内容特征概念进行组配而成,21,的检索语言。一般按学科性质分组,又称“组面”。3)混合分类语言它是结合了体系分类语言和组配分类语言所形成的检索语言。(2)中国图书馆分类法介绍中国图书馆分类法(简称中图法)是中国目前图书情报界广泛使用的一部综合性分类法。它是在科学分类的基础上,结合图书的特性编制的分类法。中图法采用英文字母与阿拉伯数字相结合的混合编码形式,一个字母代表一个大类,即一级类目。不同字母与数字组合代表不同级次的类目,其中有一个特殊的是工业技术用双字母代表二级类目。在分类法中,类号和类目密不可分,它们一一对应,并由全部类号对全部类目构成一种“映射”,以便把类目进一步代码化、“数字化”,为各种,22,知识门类的整理和有序化建立基础。例如:TP24 机器人技术分类号 类目中图法将图书分为5个基本部类,22个基本大类,在每一个大类下面再根据学科内容层层展开,共53 81 1个类目。表2.1展示了中图法的基本大类。(3)图书馆索书号组成与图书排架索书号是由字母数字组成的分类号和种次号组成的类号,即索书号=分类号+种次号(著者号)。索书号要对位排列,即先比较字母(按英文字顺)再比较数字,数字排序采用位比法十进制(按小数制的排列方法),小的在前,大的在后,同位数字相同,再比较下一位数字。,23,24,(4)分类语言的优势与不足1)优势严密性和系统性是其主要特征。分类法既能应用于组织检索工具和检索系统,又能用来组织图书资料的分类和排架。2)不足不易反映学科交叉、渗透的情况,也不易准确标引或检索主题概念复杂的文献。2.2.2 主题语言与主题法(1)主题语言主题语言是利用自然语言中的词、词语来描述文献所论述或研究的事物概念,并按其字顺序组织起来的一种检索语言。,25,(2)主题语言类型主题语言根据主题性质的不同,可分为标题词语言、关键词语言、叙词语言和单元词语言。1)标题词语言规范化的主题词标题词(subject headings)是用于标引和查询信息主题概念的规范词。标题词语言又称为标题法,是最早出现的检索语言,故又称为传统式主题法。标题法的主要特征是事先编表,标题词以固定的组合方式在主题表中形成标题。2)关键词语言可轮排的未经规范化处理的主题词关键词语言不经过预先处理,是一种用自然语言做检索标识的检索语言,因此在信息组织中有广泛的应用。,26,用关键词法编制索引特别快,因为既不需要规范化处理,又大多采用计算机自动抽词,即使有些不规范也不要紧。3)单元词语言可组配的主题词单元词(uniterm)语言是从标题词语言分离出来的,单元词是一种基本的、不能再分的单位词语,也称元词。字面组配是单元词语言的基本原理。4)叙词语言规范化、可组配、可轮排、便于计算机检索的主题词叙词又称描述词(descriptor),它集成了标题词法的规范化、单元词法的后期组配、关键词法的轮排等优点,其科学性和使用性都比较好。叙词语言是以叙词作为信息标引和信息获取依据的一种检索语言,故又称主题词语言。,27,概念组配和字面组配标题词、单元词和叙词的比较概念组配是概念的分析和综合,而不是简单依字面意义进行组词和拆词。概念组配也是叙词语言的基本原理。叙词的规范化处理除了关键词外,其他几种主题词都需要进行规范化处理,这是由于自然语言中的文字、语音和语词都是十分庞大的集合,有极其丰富的表达能力,但也往往带来大的模糊性和不确定性。表2.2是叙词中有关同义词规范化处理的例子。(3)主题语言的优势与不足1)优势专指性和直接性是其主要特征。能形成专指度高的检索标识,查准率高;简单直接,不像分类语言需要转换为分类号。,28,29,30,2)不足查全率低;表达概念的受限,标引、检索前处理量大且难以达到统一;词表收录有限,很多概念在词表中没有反映。2.2.3 分类主题一体化语言网络信息的分类、主题一体化整序,就是既对信息进行分类整词、信息形式特征、信息编码特征等关联起来,从而向用户提供分类主题一体化的检索功能。在网络信息查询中,分类与主题的一体化结合主要表现在以下两个方面:(1)在特定的知识范畴内进行字顺检索用户为缩小字顺的搜索范围,一般先选择一定的类目,在该类控制下进行主题检索;或者在浏览过程中发现类目关系比较复杂、不易把握时,在该类中转向字顺检索。,31,(2)用特定的分类限定字顺检索在进行主题检索时,常使用一定的条件进行限制,以便把检索结果控制在某种范围内。使用信息的形式属性加以限定。使用分类系统的知识范畴进行限定。2.2.4 自然语言检索的特点相对于受控语言而言,由于未经任何的规范化处理,基于自然语言的检索比较符合人们的检索习惯。作为信息检索的一种类型,自然语言检索可能成为未来信息检索的主流形式。另一个重要的特点在于:由于自然语言检索采用自然语言处理技术,因而能够在一定程度上理解文本信息和用户提问的含义,并在某些环节上进行概念控制,因此能更准确地定位检索目标,实现较好的查准率。,32,自然语言不存在受控语言的统一兼容问题,在使用自然语言的各数据库间可实现标引、检索成果的共享。2.2.5 检索工具的数据存储结构检索工具存储文献的数据结构是以层次型为主、结合关系型和网络型的复合体。数据库(或一本月刊或年刊)由记录构成,一个记录相当于手工检索工具的一个文摘或题录;记录又由字段组成,字段就是“著录项”,它可由子字段构成。一个文摘能够“输出”的信息如图2.4所示。在一个文摘中,各著录项之间有什么关系?一个文摘的各著录项的信息“权重”是不一样的。著者项包括著者、合著者、第一著者的工作单位等。,33,图2.4 一个文摘能“输出”的全部著录项,34,通常的出版项的著录格式为出版地:出版者,出版年如果把文摘看成一个文献平面,则大的著录项是与这平面正交的小平面,其相交线正是那些既是文摘中的重要著录项、又是自己所在的小平面中为首的著录项。它们通过“著者”就与文献建立了联系。,图2.5 文摘平面与集合著录项的正交模型,35,2.3 科技文献检索和文献检索系统2.3.1 文献检索文献信息检索或情报检索(Information Retrieval),是指把文献信息按一定的方式组织和储存起来,并能根据用户的需要取出所需的特定的信息的整个过程。它的全名为信息存储与检索(Information Storage and Retrieval)。文献信息检索根据检索信息的对象分为数据检索、事实检索和文献检索3种形式。(1)数据检索(Data Retrieval)以文献中的数据为对象的一种检索。(2)事实检索(Fact Retrieval)以文献中的事实为对象,检索某一事物发生的时间、地点或过程。,36,(3)文献检索(Document Retrieval)以文献为对象的一种检索,凡是查找某个题目(Topics)的有关文献,以及回答这些文献的情况、出处、收藏地方等,均属文献检索的范畴。这3种类型的检索,检索对象不同,检索结果也不同。数据检索侧重于检索对象的量的方面,事实检索侧重于检索对象的质的方面,而文献检索既不能确切地回答检索对象的量,也不能简单地回答质的方面。2.3.2 文献检索系统作为一个系统,就不能局限于仅仅研究文献及检索工具,还应包括作用于此系统的人,即文献加工人员及广大的检索用户在内。因此也会有人机工程、人机界面的种种新问题。文献检索系统可分为手工检索(手检)和计算机检索(机检)两种类型。,37,(1)文献检索系统的构成无论手检还是机检系统,它们都由以下4个部分组成:1)检索文档检索文档即文献的检索标识的有机集合。2)技术设备技术设备如书目卡片柜、缩微品的阅读器、书本式目录、文献库等。3)作用于系统的人作用于系统的人如用户、文献加工者、系统维护人员、管理人员等。4)系统构成准则系统构成准则是构成系统的一种“标准”,或一种逻辑语义工具。(2)文献检索的基本原理文献检索的基本原理就是把用户提问式中的检索标识与文献的存储标识,38,相比,如果能够取得一致,就称为“匹配”,就可得到“命中文献”。文献检索并非只是检索工具使用的问题,它是文献的收集、整理、加工、检索、用户调查、读者心理分析等一系列的过程。文献检索系统的一般检索模型如图2.6所示。,图2.6文献检索系统模型框图,39,由图2.6可知,文献信息检索是通过对大量的、分散无序的文献信息(包括网络信息)资源进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致(匹配),以便有效地获得和利用各种信息资源。由图2.6可知,科技文献检索系统由两大部分组成:文献的存储过程和检索过程。2.4 文献检索的方法、步骤和检索结果的评价2.4.1 文献检索的一般步骤(1)掌握课题要求分析课题、分析已知情报这一步应了解用户的检索要求。检索目的是为了成果鉴定等3种情况。了解研究课题所属的专业、学科范围和检索范围及检索年限。了解检索目的和要求。,40,了解已经有哪些已知情报。(2)制订检索策略检索策略(search strategy)是指为实现检索目标而制订的全盘计划或方案。它一般包括以下6个方面或步骤:确定回溯年限和查找范围。选择检索手段。选择检索工具或数据库。选择检索方法。检索方法通常分为直接法、追溯法和综合法3种。A.常用法常用法指通常使用各种检索工具查找文献的方法,也就是文献检索教材中介绍的主要方法。常用法又分以下3种:,41,a.倒查法。b.顺查法。c.抽查法。B.追溯法利用引文索引或综述、述评文献、专著等文后所附的参考书目(不一定专指图书)信息入手,追溯查找原文,再利用那些找出的文献所附的参考文献扩大检索。C.综合法常用法与追溯法结合。即通过检索工具检索出一批文献,再利用检出文献进行追溯,从而扩大检索范围。确定检索途径和检索词。构造检索式。,42,这是计算机检索中用来表达检索提问的一种逻辑算式,由AND,OR,NOT或其他算符(也称算子)连接检索词。(3)索取原文缩写刊名变全称。通过馆藏查原文。如果查出的文献是科技图书,可用图书馆的OPAC系统查找。一般有3种途径:书名目录、著者目录和分类目录。例如,对于黄万新编著的图书馆现代化技术一书,可能在内封面上方出现这样几个符号:82292137.635H78此处822921是馆藏号。37.635是该书所属的科图法分类号,而H78则是著者姓名拼音字头,加上顺序号。因此37.635/H78就是索书号。索书号唯一地对应着一种书。,43,如果查出的文献是期刊论文,则需要利用馆藏期刊目录(有书本式的和卡片式的)。如果本馆缺藏,则可能用到联合目录。复制原文。2.4.2 检索结果的评价反映检索效果最重要的两个标准是查全率与查准率。(1)查全率与查准率的概念查全率R(recall factor):检索出的有关文献量与存储的全部有关文献量之比。查准率P(pertinency factor):检索出的有关文献量与检索出的总文献量之比。如果把检索出的有关文献量用a代表,存储的全部有关文献量为a+c(c是漏检的数量),检出的总的文献量为a+b(显然,b是误检的量),,44,则 其中,O是漏检率(omission factor),M是误检率(miss factor)。查全率是指系统在进行某一检索时,检出的相关文献量与系统文献库中相关文献总量的比率,它反映该系统文献库中实有的相关文献量在多大程度上被检索出来。查准率是指系统在进行某一检索时,检出的相关文献量与检出文献总量的比率,它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。查准率和查全率结合起来,描述了系统的检索成功率。,45,图2.7 查全率与查准率呈双曲线(反比)关系,46,(2)影响检索效果的因素1)影响查全率的因素主要有文献库收录文献不全,检索词缺乏控制和专指性,词表结构不完整,词间关系模糊或不正确,标引不详,标引前后不一致,标引人员遗漏了原文的重要概念或用词不当等。2)影响查准率的因素影响查准率的因素主要有:检索词不能准确描述文献主题和检索要求,组配规则不严密,选词及词间关系不正确,标引过于详尽,组配错误,检索时所用检索词(或检索式)专指度不够,检索式中使用逻辑或不当等。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!