信息、信息源与检索系统

上传人:xian****hua 文档编号:245027095 上传时间:2024-10-07 格式:PPT 页数:154 大小:2.40MB
返回 下载 相关 举报
信息、信息源与检索系统_第1页
第1页 / 共154页
信息、信息源与检索系统_第2页
第2页 / 共154页
信息、信息源与检索系统_第3页
第3页 / 共154页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2 信息、信息源与检索系统,2.1 信息及其相关概念,2.2 信息源,2.3 检索原理,2.4 检索语言,2.5 检索系统,2.6 信息检索技术,2.7 信息检索策略及步骤,2.1 信息及其相关概念,2.1.1 信息的定义,2.1.2 信息的特征,2.1.3 信息的功能,2.1.4 信息的类型,2.1.1 信息的定义,事物运动的状态与方式的反映,是自然界人类社会和人类思维活动中存在的一切物质的一种属性。,2.1.2 信息的特征,普遍性,时效性,扩散性,共享性,2.1.3 信息的功能,主要体现在,:,是一种重要的资源;,认识世界,改造世界;,提供知识和智慧。,2.1.4 信息的类型,(1)按信息表现形式划分,文字信息,图像信息,数值数据信息,语音信息,2.1.4 信息的类型,(2)以信息所依附的载体为依据,文献信息,口头信息,电子信息,生物信息,2.1.4 信息的类型,(3)按信息加工的结果划分:,知识,、,情报,、,文献,知识,人脑意识的产物,带有主观性。,信息是产生知识的原料,知识是大脑对信息加工后形成的产品。, 情报,人们,在一定时间内,为一定目的,而传递的,有使用价值,的知识和信息。,具有,特定传递对象,的特定知识或有价值的信息;它是人们在特定活动中产生的、经加工整理形成的、秘密的、专门的、新颖的信息,服务于特定对象,如军事情报、企业经济情报等。具有知识性、决策性、传递性。,由信息提炼,转化而成的,是经过人类认识,挑选,系统和深化了的信息。,知识是人的大脑通过思维重新集成整合的、反映事物运动规律的系统化信息,情报学,2.1.4 信息的类型,文献,文献的定义:,记录有人类精神信息的、且便于存贮或传递的人工固态附载物,记录知识的载体,文献的特点:,知识是文献的本质属性,;,载体是文献的存在形式;,记录是构成文献的重要手段;,新陈代谢是文献发展、运动的规律。,文献的载体:,从金石、竹简、羊皮、丝帛、纸张发展到感光介质和磁性介质。,文献的记录方式:,包括手工记录、机械记录、光记录、电记录、声记录和磁记录,其中最常见的是印刷。,2.1.4 信息的类型,回目录,2.2 信息源,2.2.1 概念,2.2.2 信息源的类型,2.2.3 文献的类型,2.2.1 概念,信息源是产生信息的源泉,也是人们获得信息的来源。,广义:信息源对应于英文的Information Source(s)。信息是物质的一种属性,因此“万物皆是信息源”。信息源可以是文献、实物,也可以是个人、机构,还可以是会议场所、活动场地或是自然界的山川、河流等,这就是广义的信息源。,狭义:基于对信息的狭义理解,信息源是人们在科研、生产及其他一切人类活动中产生并积累下来的成果和各种原始记录,以及对这些成果和原始记录加工整理后得到的产品。这就是狭义的信息源。,2.2.2 信息源的类型,文献信息源;非文献信息源,(1) 文献信息源,文献信息源是指以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息。从整体上说,这类信息源是当前数量最大、利用率最高的信息源。,(2) 非文献信息源,非文献信息源又称零次信息源或预信息源,是非文字记录性信息的来源,如口头言论传播的信息、参观考察、会议、展览、访问、实物样品、电视广告传播等无文献记录或不做记录的信息来源。,2.2.3 文献的类型,2.2.3.1 按载体形态划分,2.2.3.2 按文献加工层次划分,2.2.3.3 按出版类型划分,2.2.3.1 按载体形态划分, 印刷型(Printed Form), 缩微型(Micro Form), 声像-视听型(Audio-Visual Form), 电子型 (Electronic Form),2.2.3.2 按文献加工层次划分, 零次文献(笔记、手稿、记录等),一次文献(专著、报纸、期刊、特种文献),二次文献(目录、题录、索引、文摘),三次文献(专题报告、综述、手册、百科 全书),2.2.3.2 按文献加工层次划分, 零次文献(Zeroth Literature),零次文献是指未经出版发行的或未进入社会交流的最原始的文献,如私人笔记、手稿、个人通信、新闻稿、工程图样、考察记录、试验记录、调查稿、原始统计数据、技术档案等。,优点:内容新颖。,缺点:不成熟,不公开交流,难以获得。,2.2.3.2 按文献加工层次划分,一次文献,人们对自然和社会信息进行首次加工(固化)而成的文字记载,如专著、报纸、期刊、专利文献、标准文献、会议文献、科技报告、样本等成品文献都属于一次文献。,优点:一次文献都有详尽具体的学术内容与研究数据,参考和使用价值较高,是科研人员研究的主要依据,缺点:在内容上是分散的、无系统的,因此不便于管理和传播。,2.2.3.2 按文献加工层次划分,二次文献,为了便于人们查找文献,对一次文献进行再加工,通过整理、提炼和压缩,并按其外表特征(题名、作者、文献物理特征)和内容特征序化,形成另一类新的文献形式目录、题录、索引、文摘,这就是二次文献。,二次文献不是一次文献本身的堆积,而是一次文献特征的汇集,通过它们可以很方便地找到一次文献,或了解一次文献的内容。,2.2.3.2 按文献加工层次划分,三次文献,三次文献是选择、利用有关的一次文献,再加以分析、综合而编写出来的第三个层次的文献形式专题报告、综述、进展以及手册、百科全书、年鉴等工具书。,三次文献具有系统性、综合性、知识性和概括性的特点,它从一次文献中汲取重要内容,便于人们高效率地了解某一领域的状况、动态、发展趋势和有关情况。,2.2.3.2 按文献加工层次划分,从知识加工的角度看,一次文献是对知识的第一次加工(创造性);二次文献是对知识的第二次加工(有序化);三次文献是对知识的再加工,它既是有序化,又带有一定的创造性,并且往往又返回到一次文献(如专著、综述文章等)。,从文献检索的角度看,一次文献是检索对象(目标),二次文献是检索工具(手段),三次文献是情报研究成果(既可作为检索目标,又可作为检索手段)。,2.2.3.3 按出版类型划分,信息源,图书,期刊,特种文献,会议文献,科技报告,专利文献,学位论文,政府出版物,标准文献,公司产品资料,技术档案,2.2.3.3 按出版类型划分, 图书 ( Book ),一般分为两类:,阅读型,;,工具型,2.2.3.3 按出版类型划分,图书的唯一标识:ISBN号(国际标准书号International Standard Book Number),ISBN 7 - 5438 3138 - 4,语言区码,出版商代码,出版物序号,校验码,校验号:,ISBN-10,ISBN-13,前缀号+语言区码+出版商代码+出版物序号+校验码,校验号:前12位数依次乘以1和3,然后求它们的和除以10的余数,最后用10减去这个余数,就得到了校验码。,1.书上17页的方法;,2.用1-9这9个数依次乘以前面的9位数,然后求它们的和除以11的余数。,2.2.3.3 按出版类型划分, 图书 ( Book ),识别的主要依据:著录项中的ISBN号、出版社名称、地址、出版年、页数等。,著录格式:,作 者.书名文献类型标识.出版地:出版社,出版年.,杨永厚,.,实用信息检索方法,M,.,南京,:,河海大学出版社,2002,.,Skolink M I. Radar handbook.,New York: McGraw-Hill, 1990,25,特点:,知识内容更成熟、更稳定、更可靠,。通过图书可以了解他人关于某个专门问题的研究或对实践经验的系统论述,如果要对某些问题获得较全面、系统的了解,或对不熟悉的领域有个初步、基本的了解,阅读有关图书是个较好的办法。,缺陷:,出版周期长、内容更新慢,2.2.3.3 按出版类型划分, 期刊(Journals or Magazine or Periodical),期刊是一种有固定名称、定期并计划无限期出版的连续出版物。,特点:出版周期短,内容新颖,2.2.3.3 按出版类型划分,识别依据:,著录项中的,ISSN,号。,例如:,ISSN,号,1000-5374,期刊的刊名一般都采用缩写形式并以斜体字印刷,刊名后著录有,卷号(,V,)、期号(,n,),、出版年月及起止页码。,Thomas, Jenny. Cross-cultural Pragmatic,FailureJ,. Applied Linguistics, 1983, (4): 91-111.,Liu H, Rangel R H, Lavernia E J. Acta Metal,Vol,42,,,n,10, 1994,P77-89,Vol.42 No.10 = v42,n10 = 42(10),2.2.3.3 按出版类型划分, 专利文献(Patent Document),广义:包括专利申请书、专利说明书、专利公报和专利检索工具,以及与专利有关的一切资料,狭义:指各国专利局出版的专利说明书。,专利号,是识别专利文献的重要依据。,例如:,US:828496,专利文献的出处,一般有patent,P,字样。,例如:Tally;Kevin L.Mechanics seat and step stool,P,.US:20070007799,January 11,2007.,2.2.3.3 按出版类型划分, 会议文献(Conference Document/Conference Paper),主要指在各种学术会议上发表的论文。,特点:专业性强、内容新、针对性强、学术水平高、出版发行较快、信息传递及时、可靠性高,是了解新动态、新发现的重要信息源。,著录及识别:会议文献出处一般著录有会议的名称、开会时间、地点、出版时间等等,判断是否是会议文献还可根据表示会议特征的英文名称来决定。如,conference,congress,meeting,Odoni,A R. The flow management problem in air traffic,control.Odoni,A R,Szego,G. Flow Control of Congested Network,Conference,. 1987,,,269-298,。,2.2.3.3 按出版类型划分, 科技报告(Science & Technical Report),科学研究工作中阶段性或最终研究成果的总结。,特点,:,内容比较新颖、详尽、专深,,,包括科研项目的研究方案,、,实验记录,、,实验数据,、,图表等,。,识别,:,可依据报告编写单位代码(如,AD,、,PB,、,NASA,、,DOE,)及报告号、表示报告的特征词(如,report, notes,)等加以识别。,2.2.3.3 按出版类型划分, 学位论文(Dissertation/thesis),为获得某种学位而撰写的科学论文,。,特点,:,具有独创性、新颖性、科学性和可靠性。,可依据表示学位论文名称(如,thesis, dissertation,)以及授予学位的单位及其地址、授予学位时间等加以识别。,Simulation and Analysis of a power plant,Feedwater,System.,Dissertation,. Chap,lin, Robin Anthony, Ph.D., Queens,University,2.2.3.3 按出版类型划分, 标准文献(Standard Literature),狭义,指按规定程序制订,经公认权威机构,(,主管机关,),批准的一整套在特定范围,(,领域,),内必须执行的,规格,、,规则,、,技术,要求等规范性,文献,广义,指与标准化工作有关的一切文献,包括标准形成过程中的各种,档案,、宣传推广标准的手册及其他出版物、揭示报道标准文献信息的目录、索引等,特点:具有约束力;时效性;针对性。,识别及著录,:,标准文献,主要依据,标准号,加以识别。标准号通常由标准代号,(ISO,GB),、序号、年代号构成。如,:GB1-73,GB/T 16159-1996,汉语拼音正词法基本规则,S.,北京,:,中国标准出版社,1996.,2.2.3.3 按出版类型划分, 政府出版物(Government Publication),政府部门及有关机构颁布和出版的文件资料,。,一类是行政性文献(包括宪法、司法文献),另一类是科学技术文献,主要指政府部门出版的科技报告、标准、专利文献、科技政策文件,公开后的科技档案、经济规划、气象资料等。,由于政府出版物与其他科技文献,(,如科技报告,),有一定重复,有书、报告、会议录等多种文献,因此,可根据具体情况按具体出版形式加以识别。,2.2.3.3 按出版类型划分, 公司产品资料(Company & Products Data),各国厂商为推销产品而出版发行的各种商业性宣传资料。,可从公司名称、地址、产品名称等方面加以识别。,2.2.3.3 按出版类型划分, 档案文献(Archives),具有保存价值的各种文字、图表、声像等不同形式的历史记录。,档案文献主要依据档案号查询。,回目录,2.3 检索原理,2.3.1 信息检索的一般原理,2.3.2 文献的内外表特征,2.3.1 信息检索的一般原理,从已存储的文献资源中找出与用户,情报,提问相关的文献,信息。,广义的信息检索全称为“信息存储与检索”(,Information Storage and Retrieval,),包括信息存储和信息检索两个方面。,狭义的信息检索仅指广义的信息检索的后半部分,即信息检索部分。,信息检索的实质是反映和寻求提问标识与检索标识之间相匹配的信息。,2.3.1 信息检索的一般原理,输出,2.3.1 信息检索的一般原理,以新华字典为例说明检索的基本原理,新华字典,首先由编辑人员收集汉字及其注音、释义和用法,将它们一一记录下来(记录的结果称为款目),然后按照汉语拼音为序编成字典的正文。为方便使用,又以部首笔画为序,排成检字表(又称为部首笔画索引),这个过程称为字典的编辑过程。,使用字典时,或者直接在正文中以拼音顺序,或者利用检字索引,以偏旁部首顺序查找所需的汉字及释义,这个过程成为字典的查找过程。,新华字典,的这两个索引顺序,既是编辑汉字的依据,又是查找汉字的依据(这种依据称为检索标识,又称检索语言)。,2.3.2 文献的内外表特征,根据与文献内容特征的关系密切与否,,把表征文献的特征分为:,内容特征,外表特征,2.3.2 文献的内外表特征,文献的内容特征,与文献主题内容密切相关的检索标识称为文献的内容特征。,表达文献内容特征的,检索标识,主要有各种形式的,分类号,和,主题词,。,文献内容特征的,检索途径,包括,分类途径,、,主题途径,。,文献外表特征,与文献主题内容没有关系或关系不大的信息称为文献的外表特征,即不打开书本或不看文献的具体内容就可以确定的特征,例如,,著者,、,著者单位,、,期刊名称,、,专利号,、,科技报告号,等。,2.3.2 文献的内外表特征,回目录,2.4 检索语言,2.4.1 检索语言的概念,2.4.2 检索语言的类型,2.4.3 分类检索语言,2.4.4 主题检索语言,2.4.1 检索语言的概念,检索语言是根据信息检索的需要创造出来的一种,符号系统,。,在信息存储的过程中,使用检索语言描述信息的内容特征和外表特征,从而形成检索标识;在信息检索过程中,使用检索语言描述检索提问,从而形成提问标识。当提问标识与检索标识完全匹配或部分匹配时,需要的信息就被检索出来了。,2.4.2 检索语言的类型,按照是否受控划分为,人工检索语言,(受控语言),,自然检索语言,(自然语言)。,如一篇文章用“微型计算机”这个术语来叙述研究对象,另一篇文章用“微型电脑”,第三篇文章用“微机”,虽然都表示同一概念,这三篇文章都必须用“微型计算机”(根据词表决定)做标题词。其中“微型计算机”为受控语言,另外两者为自然语言。,2.4.2 检索语言的类型,按照表达文献特征的不同划分为:,外表特征检索语言,内容特征检索语言,2.4.2 检索语言的类型,外表特征检索语言,题名题名索引,著者著者索引、团体著者索引,报告号索引,合同号索引,存取号索引,其他人名索引、引用文献目录,文献编号,2.4.2 检索语言的类型,内容特征检索语言,体系分类分类索引,标题词著者索引、团体著者索引,叙词,关键词,其他分子式、机构式索引、专利号索引,主题索引,2.4.3 分类检索语言,分类检索语言是指以数字、字母或字母与数字结合作为基本字符,采用字符直接连接并以圆点(或其他符号)作为分隔符的书写法,以基本类目作为基本词汇,以类目的从属关系来表达复杂概念的一类检索语言。,2.4.3 分类检索语言,分类检索语言的优点表现在:,分类检索语言是以学科体系划分类目,符合人们认识事物的规律和处理事物的习惯。,分类检索语言便于组织图书资料排架。,分类检索语言的缺点表现在:,检索者在检索课题时首先必须了解课题的学科体系才能顺利地查找到相应的类目,否则会遇到一定困难。,分类语言采用的分类表的结构是固定的,不便于随时修订和增设新的类目。,分类检索语言采用分类号作为标识,检索文献时,需要将检索文献的主题内容转换成分类号,转换过程中,容易产生误差,造成误检。,2.4.3 分类检索语言,世界上比较著名的分类法有,国际专利分类法,、,美国国会图书馆分类法,、,杜威十进分类法,、,国际十进分类法,等。,在我国应用较广的分类法有,中国图书馆分类法,(简称中图法)、,中国科学院图书馆图书分类法,(简称科图法)、,中国人民大学图书馆图书分类法(,简称人大法)等。,2.4.3 分类检索语言,(1)中国图书馆图书分类法,我国图书馆的分类方法有很多种,其中影响最大、使用面最广的是中国图书馆图书分类法,目前我国95%以上的图书馆都采用此法。,中图法采用“五分法”形成,五大部,,在五大部类之下,层层细分,划分为,22个基本大类,。,2.4.3 分类检索语言,一、马克思主义、列宁主义、毛泽东思想、邓小平理论,A 马克思主义、列宁主义、毛泽东思想、邓小平理论,二、哲学宗教,B 哲学、宗教,三、社会科学,C 社会科学总论,D 政治、法律,E 军事,F 经济,G 文化、科学、教育、体育,H 语言、文学,I 文学,J 艺术,K 历史、地理,2.4.3 分类检索语言,四、自然科学,N 自然科学总论,O 数理科学和化学,P 天文学、地球科学,Q 生物科学,R 医药、卫生,S 农业科学,T 工业技术,U 交通运输,V 航空、航天,X 环境科学、安全科学,五、综合性图书,Z 综合性图书,2.4.3 分类检索语言,中图法分类号由,字母,和,数字,组成,采取,等级列举,表达从属关系。,T 工业技术,. 一级类目,TH 机械、仪表工业,. 二级类目,TH12 机械设计、计算与制图, 三级类目,TH121 标准、规格,. 四级类目,TH126 机械制图,. 四级类目,TH126.1 识图法, 五级类目,TH126.2 作图法, 五级类目,2.4.3 分类检索语言,工业技术,T,一级,T-0 工业技术理论,T-1 工业技术,现状与发展,TP 自动化技术,、计算机技术,TQ 化学工业,TS 轻工业、,手工业,TU 建筑科学,TV 水利工程,二级,TP3 计算技术、,计算机技术,TP1 自动化基,础理论,TP2 自动化技术,及设备,TP6 射流技术,(流控技术),TP7 遥感技术,TP8 远动技术,三级,TP30 一般性问题,TP31 计算机软件,TP32 一般计算器,和计算机,TP33 电子数字计算机,TP34 电子模拟计算机,TP35 混合电子计算机,TP36 微型计算机,TP37 多媒体技术与,多媒体计算机,TP38 其他计算机,TP39 计算机的应用,四级,2.4.4 主题检索语言,主题检索语言是指以自然语言为基础,以,名词术语,为基本词汇,用一组名词术语作为检索标识的一类信息检索语言。,主题检索语言又可分为,标题词,、,元词,、,叙词,、,关键词,、,代码语言,。,2.4.4 主题检索语言,(1) 叙词,叙词是指一些以概念为基础,经过规范化,且具有组配功能并可以显示词间关系和动态性的词或词组。,叙词语言就是以叙词作为文献检索标识和查找依据的一种检索语言。CA和EI等著名检索工具都采用了叙词法进行编排,。,2.4.4 主题检索语言,叙词的语义性是指叙词与叙词之间存在一定的语义关系。叙词之间的语义关系主要有同义关系、属分关系和相关关系。,叙词语言对语义关系的揭示方法,主要通过各种语义参照符号来反映。,叙词的语义参照系统,参照关系,参照项,符号,作用,同义关系,用,Y,从非叙词指引到叙词,代,D,从叙词指引到非叙词,属,S,从下位叙词指引到上位叙词,属分关系,分,F,从上位叙词指引到下位叙词,相关关系,族,Z,从下位叙词指引到最高位叙词,参,C,从某一叙词指出其相关叙词,2.4.4 主题检索语言,Shengyu jiazhi,剩余价值,Surplus value,D 超额剩余价值,价值增值,剩余价值量,F 绝对剩余价值,相对剩余价值,C 地主、雇佣劳动、,利润、利息、剩余,价值率、资本、资,本积累、资本主义,地租,汉表中主题词表参照项,2.4.4 主题检索语言,国内用叙词语言编制的叙词表已有七八十种,最常用的有,汉语主题词表,、,化工汉语主题词表,、,机械工程主题词表,、,电子技术汉语主题词表,、,国防科学技术叙词表,等。,常见的国外叙词表有,INSPEC叙词表,、,工程索引叙词表,、,工程与科学叙词表,等。,2.4.4 主题检索语言,(2)关键词,关键词是指,出现在文献标题,(篇名、章节名)、,文摘,、,正文,中,对表征文献主题内容具有实质意义的语词,即对揭示和描述文献主题内容具有重要和关键性的词语。,2.4.4 主题检索语言,关键词法就是将文献原来所用的,能描述其主题概念且具有关键性的词抽出,不加规范或只做极少量的规范化处理,按字顺排列,以提供检索途径的方法。,关键词法主要用于计算机信息加工抽词编制索引。,回目录,2.5 检索系统,2.5.1 检索系统的类型,2.5.2 数据库基本概念,2.5.3 检索工具,2.5.1 检索系统的类型,信息检索系统(Information Retrieval System)是指根据特定的信息需求而建立起来的一种,有关信息搜集、加工、存储和检索的程序化系统,。,信息检索系统由5个基本要素组成:信息源(如文献信息数据库等),存储、检索信息的技术设备,存储、检索信息的逻辑语义工具及方法(如检索语言、标引、组织与检索等),系统工作人员,信息用户,。,2.5.1 检索系统的类型,1,按存储和检索设备划分:,手工检索系统,和,计算机检索系统,1),手工检索系统,手工检索系统是以手工方式利用印刷型检索工具来处理和查找文献的系统。,手工检索的特点是检索人员可根据自身需求,边查边思考,随时根据课题需要修改检索策略,但查询速度慢、效率低、检索系统内容更新慢。,2.5.1 检索系统的类型,2)计算机检索系统,计算机检索系统是利用计算机检索存储于计算机或计算机网络内信息资源的一种方式,也是现在发展迅速、应用最为广泛的检索系统。,计算机检索系统的主要特点是:第一,检索速度快,能大大提高检索效率,节省人力和时间;第二,采用灵活的逻辑运算和后组式组配方式,便于进行多元概念检索;第三,能提供远程检索实现跨区域、异步联机检索。,2.5.1 检索系统的类型,2 按著录和标引方式划分,1)目录型检索系统,2)题录型检索系统,3)索引型检索系统,4)文摘型检索系统,5)全文型检索系统,2.5.1 检索系统的类型,1)目录型检索系统,目录是一批相关文献的著录,并按照一定的次序编排组织而成的一种揭示和报道文献信息的系统。它,以一个完整的出版单位为著录单元,,一般著录文献的名称、著者、文献出处(含出版单位、卷期、出版年月等)。目录的种类很多,如:,国家书目,、,联合目录,、,馆藏目录,等。,2.5.1 检索系统的类型,馆藏目录是用来反映一个图书馆、信息机构等文献收藏状况的目录系统。,OPAC(Online Public Access Category)系统即联机公共检索目录。读者在网上通过OPAC可进行书刊目录信息和读者借阅信息的查询,还可以实现部分流通功能,如预约服务、读者借阅情况查询、发布图书馆公告等。,2.5.1 检索系统的类型,2.5.1 检索系统的类型,联合目录是综合收录,多个图书馆的馆藏,并提供检索的文献目录。它反映了某些地区若干图书馆及其他图书收藏单位的书刊收藏情况,从目录上把它们联成一体,便于开展馆际互借和复制,有利于实现资源共享,如中科院文献情报中心的,全国期刊联合目录,、,中西文期刊联合目录,等。,2.5.1 检索系统的类型,国家目录是对,一个国家出版的全部图书,所做的统计性记录。国家书目记载了一个国家出版的全部图书,为用户提供一个国家最全面最权威的图书出版情况,,是进行图书采购、整理、利用及开展信息查询和咨询业务的重要依据,。我国的国家书目是,全国总书目,、,全国新书目,。,2.5.1 检索系统的类型,2)题录型检索系统,题录是以,单篇文献,为基本著录单位,描述文献外表特征,,无内容摘要,,快速报道文献信息的一类检索系统。,题录的著录对象是单篇文献,是查找最新文献线索的重要工具。,2.5.1 检索系统的类型,3)索引型检索系统,索引是根据一定的需要,把特定范围内的某些重要文献中的有关款目或知识单元(如书名、刊名、人名、地名、词语等)按照一定的方法编排并指明出处,为读者提供文献线索的一种检索系统。,索引的类型是多种多样的,常用的索引类型有:分类索引、主题索引、关键词索引、著者索引、其他索引如:分子式索引、专利号索引、标准号索引、报告号索引、合同号索引等。,2.5.1 检索系统的类型,4)文摘型检索系统,文摘是指一份文献浓缩的精炼表达,无需补充解释或评论,它以简明扼要的文字描述文献的主要内容,所以,文摘型检索系统是以简练的文字将文献的主要内容准确、扼要地摘录下来,并按照一定的著录规则和编排方式系统地组织起来的检索工具。,2.5.1 检索系统的类型,5)全文型检索系统,全文检索系统是指将文章中所有的文字序列都作为检索对象进行索引,并根据需要找出含有欲检索词汇的文献的系统。,由于全文型检索系统能提供所需的更全面、直接的原文信息,一些题录型、文摘型检索系统也逐渐向着全文型检索系统发展。,2.5.2 数据库基本概念,数据库的定义,要建立计算机检索系统,首先必须对所收集到的大量文献资料按一定的体系和规则加以处理,使之成为机读形式的数据,这种在计算机存储设备上按一定方式存储的相互关联的数据集合,就是数据库。,2.5.2 数据库基本概念,数据库的类型:,书目数据库、源数据库,和,混合型数据库,(1)书目数据库,又称参考数据库,书目数据库向用户提供一些简单的基本信息以及原始文献的线索,指引用户根据文献检索去寻找原始文献,获取详细的信息。如中国机械工程文摘数据库、CA(美国化学文摘)、MA(金属文摘)、INSPEC(英国科学文摘数据库)、馆藏目录数据库等。,2.5.2 数据库基本概念,(2)源数据库,是指能直接提供原始资料或具体数据的数据库,用户不必再查阅其他信息源。它包括5个数据库:,1)数值数据库,2)事实性数据库,3)全文数据库,4)术语数据库,5)图像数据库,2.5.2 数据库基本概念,1)数值数据库,:,提供数值型数据类信息,如各种统计数据、科学实验数据、科学测量数据等。有时还含有文本,主要是有关数值的定义和数值项的说明、解释等必不可少的文字,如中国企业产品数据库、美国国立医学图书馆化学物质毒性数据库RTECS、中国统计年鉴数据库等。,2.5.2 数据库基本概念,2)事实性数据库,:存储的数据一般是用来描述人物、机构、事物等非文献信息源的情况、过程、现象、特性等事实性信息,诸如名人录、机构指南、产品目录、科研成果目录、研究或开发项目目录以及大事记之类。,2.5.2 数据库基本概念,3)全文数据库,:是一种存储文献全文或其中主要部分的源数据库,如法律法规全文库、中国学术期刊数据库、中文科技期刊数据库等。,4)术语数据库,:是一种专门存储名词术语、词语以及术语工作和语言规范工作成果的源数据库,如名词术语信息库、各种数字化辞书等。,2.5.2 数据库基本概念,5)图像数据库,:是一种用来存储各种图像或图形信息及有关文字说明资料的源数据库,主要应用于建筑、设计、广告、产品、图片等资料类型的计算机存储与检索。,(3)混合型数据库,2.5.2 数据库基本概念,(3)混合型数据库,2.5.2 数据库基本概念,数据库的构成,(1)字段,(2)记录,(3)文档,2.5.2 数据库基本概念,(1)字段,字段是组成记录的基本信息单元,,每一字段都是对文献某一特征的描述,,如书名字段、著者字段、文摘字段、出版项字段等。,字段通常又可分为,基本索引字段,和,辅助索引字段,。,2.5.2 数据库基本概念,Dialog系统常用的基本索引字段及其代码,字段代码(后缀),字段名,中译名,AB,Abstract,文摘,DE,Descriptor,叙词,ID,Identifier,自由词,TI,Title,题名,基本索引字段,是指描述文献内容特征的字段,一般用后缀形式表示,如篇名、文摘、叙词、自由词等。,2.5.2 数据库基本概念,Dialog系统常用的辅助索引字段及其代码,字段代码(前缀),字段名,中译名,AU=,Author or Invertor,著者或发明者,AF=,Author Affiliation,著者单位,AC=,Application Country,申请国,AD=,Application Date,申请日期,AN=,Abstract Number,文摘号,AN=,Application Number,申请号,CC=,Class Code,Country Code,分类代码,国家代码,辅助索引字段,是指描述文献外表特征的字段,如著者、机构名称、语种、刊名、来源、出版年等。在检索Dialog系统中的数据库时,一般将辅助索引字段代码置于检索词前,称为前缀。,2.5.2 数据库基本概念,(2)记录,记录是组成数据库或文档的基本单元,由若干字段组成。一条记录是对一实体的完整描述,在全文数据库中,一本书、一本期刊、一篇文章就是一条记录。,2.5.2 数据库基本概念,例如:,【论文标题】,计算机网络在高校教育中的作用,【英文标题】,Enhancing the Role of Network in,the Higher Education,【作 者】,李露蓉,【作者单位】,贵州大学计算机科学与工程学院,,贵州,贵阳,550003,【刊 名】,电脑与电信,【英文刊名】,COMPUTER & TELECOMMUNICATION,【年 卷 期】,2007 NO.4,【栏目名称】,计算机教育,【关 键 词】,网络教学;信息技术;信息能力;课程整合,【摘 要】,随着网络的普及和发展,网络信息技术日趋成,为现代人学习、生活和工作的主要信息来源,2.5.2 数据库基本概念,(3)文档,数据库中若干记录的集合称文档。文档按其组织方式可分为,顺排文档,(Sequential File)、,倒排文档,(Inverted File)。,2.5.2 数据库基本概念,Record1,Computer, Software, Application,Record2,Computer, Application, library,Record3,Computer, Control, Industry,Record4,Automation, Control, Application,Record5,Optimal, Control,顺排文档,也称主文档,由一条条相关的记录按存取号的大小顺序线性排列而成。例如,一顺排文档由5篇文献组成,每篇文献包含若干关键词标引:,2.5.2 数据库基本概念,计算机在检索与课题相关的文献时,需要按顺序从头到尾查遍磁带或磁盘上所有的记录,这种查找方式既不经济又费时间,为弥补这一缺陷,产生了倒排文档。,倒排文档,是将顺排文档中的可检字段(文献特征标识)抽出重排而派生出来的文档。计算机从顺排文档记录中抽取每一个文献特征标识(如分类号、主题词)作为信息存储单元,按某种顺序排列,并在每一标识后面列出相应的文献记录存取号以及与该标识匹配的文献数。,2.5.2 数据库基本概念,如上述顺排文档构成的关键词倒排文档如下:,关键词,文献存取号,篇数,Application,1,2,4,3,Automation,4,1,Computer,1,2,3,3,Control,3,4,5,3,Industry,3,1,Library,2,1,Optional,5,1,Sofuware,1,1,2.5.2 数据库基本概念,不同类型的特征标识形成不同的倒排文档,如著者倒排文档、主题词倒排文档等。在检索过程中,不是由记录号查文献特征标识,而是由文献特征标识查记录号,与顺排文档检索功能正好相反,故称为倒排文档。,计算机系统通过倒排文档,只能根据文献的特征标识检索到相关文献记录的存取号和篇数。如果要输出文献的题录及文摘,还须访问主文档,即通过文献的存取号调取文献记录。,从数据库的内部机构来看,一个数据库至少包含一个顺排文档和多个倒排文档。,2.5.3 检索工具,检索工具是指用以报道、存储和查找文献线索的工具。,2.5.3 检索工具,检索工具的类型,按加工文献和处理信息的手段可分为:,(1)手工检索工具,指通过普通卡片目录和书本式文摘、索引,以手工方法为检索基础的文献信息检索工具。但费时费力,检索效率低,检索效果差。,(2)机械检索工具,指运用一定的机器设备来辅助检索文献信息的检索工具。,2.5.3 检索工具,按著录文献内容可分为:,(1)目录型检索工具,(2)题录型检索工具,(3)文摘型检索工具,(4)索引型检索工具,(5)搜索引擎,回目录,2.6 信息检索技术,信息检索过程中,为了全面准确地检索到课题所需要的信息,一个检索词往往难以满足信息需要,很多时候需要用各种算符将若干个检索词组成检索式进行检索,它们主要有,逻辑算符,、,位置算符,、,截词符,和,限制符,等。,2.6.1 逻辑算符,布尔逻辑算符是指规定检索词之间的,逻辑关系,的算符,常用的布尔逻辑算符有以下几种:,逻辑“与”(,AND,或*),。它用于表达两个或两个以上检索词之间的相交关系或限定关系。逻辑“与”检索能增强检索的专指性,使检索范围缩小。,逻辑“或”(,OR,或,+,),。它用于表达两个或两个以上检索词之间的并列关系。逻辑“或”检索扩大了检索范围,能提高检索信息的查全率。此算符适于连接有同义关系或相关关系的词。,逻辑“非”(,NOT,或,-,),。它用于表达两个或两个以上检索词之间中排除不需要的检索词运算,可以缩小检索范围,增强检索的准确性。此运算适于排除含有某个指定检索词的记录,但如果使用不当,将会排除有用文献,从而导致漏检。,对于一个复杂的逻辑检索式,检索系统从左向右进行处理。在有括号的情况下,先执行括号内的运算;有多层括号时,先执行最内层括号中的运算,逐层向外进行。在没有括号的情况下,不同的系统对AND,R,的运算次序有不同的规定。,2.6.1 逻辑算符,2.6.2 位置算符,位置算符是在检索式中算符两边的检索词之间表示,位置关系,的符号。它能够提高检索的准确性,当检索词要用词组表达,或者要求两个词在记录中位置相邻或相连时,可使用位置算符。,()算符,。表示两个检索词中间可以插入“”个词,可词序不能颠倒,但允许有一空格或标点符号。,()算符,。表示两个检索词中间可以插入“”个词,且词序可以颠倒。,()算符,。表示两个检索词必须出现在同一个字段内,但两词的词序和中间插入的词数不限。,()算符,。表示两个检索词必须出现在同一个子字段内,但两词的词序和中间插入的次数不限。,2.6.2 位置算符,注意:在不同的数据库中,位置算符的表达方式和检索功能有可能不同,具体应用时应参看数据库的使用说明。,2.6.2 位置算符,在英语词汇中,一个词可能有很多形态,如单复数形式的不同、英美拼写方法的不同、词性不同等。如果检索时遗漏了某些形式,就可能造成漏检;而将这类词作为检索词全部列出,不仅不太可能,而且还会增加检索时间。此时,采用截词检索即可解决这一问题。,所谓,截词检索,,是指在检索词中保留相同部分,用相应的截词符代替可变化部分。检索中计算机会将所有含有相同部分标志的记录全部检索出来。,如:输入,comput,*,可检出,computer,computers,computing,computerization,2.6.3 截词检索,2.6.3 截词检索,截词的方式有多种,可以分为,有限截词,、,无限截词,。,常用的截词符有:*, #,?,!,$,注:不同的数据库所用的截词符不一样,使用应先查一下各数据库的帮助加以确认,2.6.3 截词检索,有限截词,放在词中间或末尾,一个符号表示一个字母如:wom?n 可检索出:woman,women(中间截断),无限截词,放在词的末尾,一个符号表示任意多个字母如:comput* 可检出:Computer, computers, computering,2.6.3 截词检索,按照截词的位置,可分为:,1)后截断、前方一致,Comput*computer,computers,computing,计算机(前方一致)计算机软件、计算机维修,2)前截断、后方一致,*computerminicomputer,microcomputer,计算机(后方一致)微型计算机、个人计算机,3)中间截断、前后一致,Fib*board ,fib,er,board,fib,re,board,2.6.4 限制符(字段检索),限制符检索,是通过限制检索范围达到优化检索结果的方法。,限制符检索需要,用字段限制检索的范围,。常用的字段代码有标题()、文摘()、叙词()、自由词()、作者()、语种()、刊名()、年代()等。这些限制符在不同数据库系统有不同的表达形式和使用规则。,回目录,2.7 信息检索策略及步骤,检索策略是在信息检索过程中确定检索途径与检索用词,并明确各词之间的逻辑关系与查找步骤的科学安排。,制定检索策略是否周密及在检索过程中能否根据检索进程的反馈信息修改原来的检索策略,都关系着检索的成败。,2.7 信息检索策略及步骤,2.7.1 信息检索方法,2.7.2 信息检索途径,2.7.3 信息检索步骤,2.7.4 影响信息检索策略的因素,2.7.5 提高信息检索效率的途径,2.7.1 信息检索方法,(1)常用法,常用法又称工具法,是利用各种检索工具来查找文献,可分为,顺查法,、,逆查法,和,抽查法,。,顺查法,是按照事物或现象发展变化的自然过程来查找,也就是从远及近查,用于了解某一事物发展的脉络。,逆查法,与顺查法相反,它是由近及远查,重点为近期文献,适用于新兴课题的研究或学科动向研究。,抽查法,是针对学科特点,抓住该学科发展迅速、文献发表较多的一段时间逐年检索的方法。使用抽查法的前提是检索者对学科发展特点非常熟悉。,2.7.1 信息检索方法,(2)追溯法,是通过文献后附有的已知参考文献(引文)中提供的线索来查找文献的一种方法。,追溯法的缺点是查找文献数量十分有限,易造成误检漏检。,2.7.1 信息检索方法,(3)循环法,是将常用法和追溯法交替使用的一种综合文献检索方法。,对于新的课题,一般从文献的内容特征入手,按分类途径或主题途径查找。如果在查找过程中,发现某著者发表的文章较多或有独创见解,便可利用著者途径追溯该著者的文章。,2.7.1 信息检索方法,(4)浏览法,浏览法一般适用于:,信息需求不太明确;,只想了解本学科的前沿动态,希望能跟上学科发展的步伐。,2.7.2 信息检索途径,检索途径主要是指信息检索点,通常依据文献的特征来区分不同的检索途径。,(2)外表特征检索途径,著者途径,题名途径,序号途径,引文途径,其他途径:文献出版的类型、日期、地址、国别、语种等特征。,(1)内容特征检索途径,主题途径,分类途径,实例:三维人脸建模技术研究,(1)根据自己的查询内容,确定要查找的文献学科范围、类型、文种、时间等。,学科范围:计算机技术与应用,类 型:期刊论文、会议论文、学位论文等,文 种:中英文,时 间:不限,2.7.3 信息检索步骤,(2)选择相关的数据库,确定检索途径。,数据库要求:,收录范围包括计算机学科,CNKI,数据库,Springer link,PQDD,学位论文数据库,(,文摘,/,全文,),在选定数据库后,需要了解数据库有那些可供检索的字段,即检索途径,以便我们制定检索策略。,(,题名、关键词、文摘、主题,),2.7.3 信息检索步骤,(3)对检索课题进行概念分析,,编制检索式,主题分析,(,核心概念组面、隐含概念、概念组面关系),课题名称:三维人脸建模技术研究,语句切分:,三维,|,人脸,|,建模,|技术|研究,核 心 词:三维;人脸;建模,隐含概念或同义词:,3D,;,模型,2.7.3 信息检索步骤,课题名称:三维人脸建模技术研究,语句切分:,三维,|,人脸,|,建模,|技术|研究,核 心 词:三维;人脸;建模,隐含概念或同义词:,3D,;,模型,检 索 词:,三维,;,人脸,;,建模,;,3D,;,模型,(3)对检索课题进行概念分析,,编制检索式,编制检索式,确定检索词,(提取核心词,排除无关词,不使用模糊词等),组配检索词,构成检索式,(正确使用布尔逻辑算符和截词符),2.7.3 信息检索步骤,课题名称:三维人脸建模技术研究,检 索 词:,三维,;,人脸,;,建模,;,3D,;,模型,检 索 式:,(,三维,or,3D,) and,人脸,and (,建模,or,模型,),(,three dimens*,or,3D,) and,fac*,and,model*,(4)对数据库文档进行查找,检出相关文献并分析检索结果。,2.7.3 信息检索步骤,结果太多,进行缩检,结果太少,进行扩检,增加字词,减少字词,用更专指的词,用更泛指的词,使用限定词,同义词、近义词、拼写形式,布尔逻辑 and not,布尔逻辑 or,限定学科或主题范围,扩大或不限定,限定日期范围,扩大或不限定日期范围,限定文献类型,多文献类型,限定检索字段,采用全文检索,(5)根据检索结果对检索式进行调整,直到检索到满意文献。,2.7.3 信息检索步骤,2.7.3 信息检索步骤,获取原文的途径:,本单位图书情报部门,掌握国内主要的或对口的图书情报机构的馆藏信息。,从著者获取原文。,从检索刊物出版机构获取原文。,利用国际联机检索终端向国外订购原文。,2.7.4 影响信息检索策略的因素,()检索课题分析与理解的透彻程度,()信息检索工具特征的熟悉程度,()检索式的制定与优化,2.7.5 提高信息检索效率的途径,()对课题概念进行深入分析,()选择合适的检索工具,对于不同的数据库而言,其学科范围、检索指令、更新频率、输出方式、收费标准均有所不同,所以在检索之前有必要阅读相关数据库的使用介绍。,()准确发掘检索点,合理确定检索词,2.7.5 提高信息检索效率的途径,()合理组配及优化检索式,)扩大检索范围,如果某项检索需要尽可能全面地检索相关信息,即有较高的查全率,或初步检索得到的结果数量太少时,则应采取如下措施扩大检索范围:,增加选取检索词的同义词、近义词及相关词,并利用逻辑运算符将它们联系起来;,逐渐减少不太重要的概念词,降低检索词的专指度,从词表或检出文献中选择一些上位词或相关词,并减少检索表达式中的运算;,利用某些检索工具的自动扩检功能进行相关检索;,取消某些过于严格的限制符,调整位置算符;,针对同一个检索提问选用多种检索工具,访问多个数据库,以弥补单一检索工具和单个数据库在覆盖面和容量、规模上的限制。,2.7.5 提高信息检索效率的途径,)提高检索精度,如果某项检索需要尽可能准确地检索到相关信息,即有较高的查准率,或初步检索得到的结果太多,应采取如下措施缩小检索范围:,提高检索词的专指度,增加或换用下位词和专指性较强的自由词;,增加概念词并用连接,进一步限制主题概念的相关检索项;,限制检索词出现的可检字段;,使用限定词,通过对关键词的年代、语种、数量、学科等的限定能够有效地缩小查询范围,使检索结果逼近用户需求;,利用二次检索。,回目录,思考题,简要说明布尔逻辑符、截词符、位置符的含义及作用。,2.,举例说明信息检索的一般步骤。,3.,需要扩大检索范围时,如何调整检索策略?,作业,根据所学专业,自拟一个课题,并分析课题的检索词和检索式,1检索课题名称,中文:,_,英文:,_,2. 所涉及的学科领域:,_
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!