数字资源的检索原理与检索策略

上传人:cel****460 文档编号:243718777 上传时间:2024-09-29 格式:PPTX 页数:56 大小:294.02KB
返回 下载 相关 举报
数字资源的检索原理与检索策略_第1页
第1页 / 共56页
数字资源的检索原理与检索策略_第2页
第2页 / 共56页
数字资源的检索原理与检索策略_第3页
第3页 / 共56页
点击查看更多>>
资源描述
绍兴文理学院图书馆,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,绍兴文理学院图书馆,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,数字资源的检索原理与检索策略,教学目的,培养和强化学生的信息意识,了解信息检索与利用的根底知识和检索原理,从宏观层面上掌握数字资源的特点与类型,信息组织和加工的根本方法,掌握中外文文献数据库的检索方法及技巧,介绍网络学术资源的收集方法和收集技巧,初步掌握文献信息分析的方法和如何利用信息资源进展论文开题及学位论文写作等。为日后进一步学习和提高科研工作效率、水平和质量打下根底。,2,一个科研人员的时间分配表,查资料,实验研究,写报告,方案思考,查资料,(30-50%),写报告,计划思考,实验研究,3,讲授内容,第,1,章 数字资源的检索原理与检索策略,第,2,章 中文文献数据库,第,3,章 著名综合性参考数据库,第,4,章 英文参考数据库,第,5,章 全文数据库,第,6,章 电子图书、电子报纸及其使用,第,7,章 电子期刊及其使用,第,8,章 特种文献及其检索,第,9,章 事实和数值型数据库,第,10,章 网络学术资源的收集,第,11,章 信息资源的分析利用、组织与论文写作,4,第,1,章 数字资源的检索原理与检索策略,本章主要内容:,1.1,数字资源及其检索概述,1.2,数字资源检索原理,1.3,数字资源的检索技术,1.4,数字资源检索语言,1.5,数字资源的检索策略,5,1.1.1,数字资源的概念与特点,1.,数字资源,的概念,数字资源是数字化的信息资源或数字化文献,是指可通过计算机本地或远程读取、使用,以数字形式存放在光、磁载体上,以电信号、光信号的形式传输的图像、文字、声音、视频等信息资源。,记录有知识的一切载体,统称为文献,。,数字资源根据不同的划分标准可分为不同的类型:,按生产途径和发布范围的不同,-,商用资源、网络公开学术资源、特色资源和其他资源。,按储存的物理地点的不同,-,现实资源、虚拟资源,。,按信息源的不同,-,数据库、电子期刊、电子图书、电子报纸、联机馆藏目录和网络资源,等。,6,2 数字资源的特点六个特点,1记录手段:数字化的信息,实现信息资源共享。,2存储介质:存储的信息密度高、容量大,检索速度快、检索功能齐全。,3信息类型:信息类型多种多样,多种输出方式。,4数据构造:具有通用性、开放性和标准化的特点。,5信息传递:传递和反响快速灵敏,具有动态性的实时性的特点。,6组织形式:从顺序的、线性的转变为直接的、网状。,7,1.1.2 主要数字资源类型简介五个类型,参考数据库,1,全文数据库,2,事实、数值型数据库,3,电子图书、电子期刊和电子报纸,4,网络资源(指南搜索引擎),8,1.1.3 数字资源检索的开展阶段四个阶段,脱机检索阶段,联机检索阶段,光盘检索阶段,网络检索阶段,9,1.1.4 数字资源检索的进展三大技术,1.,全文检索技术,2.,基于内容的多媒体检索技术,3.,数据挖掘技术,10,1.2,数字资源检索原理,1.数字资源检索?,指通过检索系统,采用一定的技术手段,根据一定的原那么,在数据库或其他形式的数字资源中自动找出用户所需相关信息的过程。,2.检索原理:,(1)信息存储:信息的搜集、著录、标引、整序,(2)信息检索:对用户所表达的信息需求进展分析,并与所存储的数字资源进展匹配运算,自动检索出两者相一致的局部,输出给用户,即为检索结果。,识别用户、接收提问、提问校验、转化提问式、检索和结果输出,11,信息的著录,外表特征,内容特征,12,.,3,数字资源的检索技术,布尔逻辑检索技术,1,截词检索技术,2,邻近检索技术,3,字段检索技术,4,13,1.3.1,布尔逻辑检索技术,布尔逻辑检索是指通过标准的布尔逻辑关系算符来表达检索词与检索词间的逻辑关系的检索方法,主要的布尔逻辑关系词有:逻辑与(AND)、逻辑或OR、逻辑非NOT,14,逻辑与,逻辑乘: “and或“*表示,组配方式:A*B或者A and B 表示两个概念的穿插和限定关系,只有同时含有这两个概念的记录才算命中信息,作用:增加限制条件,即增加检索的专指性,以缩小提问范围,减少文献输出量,提高查准率。,15,逻辑或,又称逻辑和:“or、“+,组配方式:A OR B或者AB,表示检索含有A词,或含有B词,或同时包含A、B两词的文章。,作用:放宽提问范围,增加检索结果,起扩检作用,提高查全率。,16,逻辑非,又称逻辑差: “not “-,组配方式:AB,表示检索出含有A词而不含有B 词的文章。,作用:逻辑非用于排除不希望出现的检索词,它和“*的作用相似,能够缩小命中文献范围,增强检索的准确性。,17,例如检索:“打印机驱动程序,查询关键词:打印机、驱动程序,检索表达式:打印机 AND 驱动程序,例如检索:“微型计算机方面的有关信息,查询关键词:微型计算机、微机,检索表达式:微型计算机OR 微机,布尔逻辑检索例子,18,布尔运算符优先级比较,有括号时:括号内的先执行;,无括号时:NOT AND OR,例:检索“唐宋诗歌的有关信息。,关键词:唐、宋、诗歌;,检索表达式:,唐 OR 宋AND 诗歌;,唐 AND 诗歌 OR 宋 AND 诗歌;,错误表达式:,唐 OR 宋AND诗歌;,唐 AND 宋AND诗歌;,唐 OR 宋OR诗歌;,唐AND 宋OR诗歌;,布尔逻辑运算符优先级,19,请注意,在不同的数据库中,所使用的逻辑符号可能是不同的,有的用“and、or、not 有的用“*、+、-。,一些检索工具会完全省略任何符号和关系,直接把布尔逻辑关系隐含在菜单中。,一些网络检索工具如搜索引擎甚至用“、,、-即空格、逗号、减号来表示。,20,1.3.2,截词检索技术,主要应用于西文数字资源的检索,定义:是指在检索式中用专门的符号截词符号表示检索词的某一局部允许有一定的词形变化。,作用:主要是提高查全率,截词符一般用“?或“*表示,21,截词位置,按截词位置可分为前截词、后截词、前后截词和中间截词;,按截断字符数的不同,可分为有限截断和无限截断。,22,截词位置,右截词,又称后截词、前方一致。允许检索词尾有假设干变化。例如comput*将检索出computer 、computing、computerised、computerized、computerization等结果。,中间截词,又称前前方一致。允许检索词中间有假设干变化。例如wom*n,检索到woman、women的结果。英美的不同拼法,defen*e可同时检出defence和defense的结果。,左截词,又称前截词、前方一致,允许检索词前有假设干变化,例如*physics就可检索到physics、astrophysics、biophysics、chemophysics、geophysics等词的结果。,?Computer可检索computer、minicomputer、microcomputer等结果。,23,前后截词:词干的前后各有一个截词符,允许检索词的前端和尾部各有假设干变化形式。如?computer?可检索computer、computers、computerize、computerized、computerization、minicomputer、minicomputers、microcomputer、microcomputers等结果。,24,请 注 意,在不同的数据库和联机检索系统中,所使用的截词符号没有统一的标准,有的用“?,有的用“*,有的用“#,用的用“等。,即便常用的“?和“*在不同的数据库中其用法也是不一定一样的。,在允许截词的检索工具中,一般是指右截词,局部支持中间截词,左截词比较少见。,我们将要使用的一些数据库,一般用“*代表一个字符串,用“?代表任意一个字符。,25,1.,.3,邻近检索技术,邻近检索又称位置检索,主要是通过检索式中的专门符号来规定检索词在结果中的相对位置。,例如检索“生物防治的文献,假设用检索式“biological*control检索,那么会将“抑制生物control biological的文献也查出来,这显然不是所需文献。,主要有相邻位置算符W、nW、N,nN,句子位置算符S,字段算符F,L,26,1. W 算符,W算符:W是with(word)的缩写,可简写为“( ),表示此算符两侧的检索词必须按此前后顺序相邻排列,词序不可变,且两词之间不许有其他的词或字母,但允许有一空格或标点符号。,如biological (W) control相当于检索biological control,,CD (W) ROM相当于检索CD ROM或CD-ROM。,27,1.,(nW),算符,(nW),算符:,(nW),是,n words,的缩写,表示此算符两侧的检索词之间允许插入最多,n,个词,且词序不可变。,如,wear (1W) material,相当于检索,wear materials,、,wear of materials,等词。,28,2. N和nN算符,N是near的缩写,表示此算符两侧的检索词必须严密相连,词序可变,词间不允许插入其他词或字母,但允许有一空格或标点符号。,nN表示两词间可插入最多n个词,词序可变,如检索式environment (2N) protection 就可检索出包含“environment protection、“environment of the protection 、“environment of water protection、“protection of forest environment等内容的结果。,information(1N)retrieval,可检出: information retrieval,retriveal of information,29,EBSCO,外文全文数据库中,ti information n2 retrieval,30,3. S、F、L算符,1S算符:S是sentence的缩写,表示两个检索词须同时出现在文献记录的同一子字段中,两词的词序不限,两词间插入词的数量不限。,2F、L算符:在联机检索中还有对同字段进展检索的F算符和L算符。F表示此算符两侧的检索词必须同时出现在信息记录的同一个字段内,两词的词序不限,两词间插入词的数量不限。用此算符时须指定所要查找的字段,如题名字段、文摘字段、叙词字段等。例如digital (F) computer/TI表示在题名字段TI中同时出现这两个检索词的才算命中信息。L算符要求检索词同在叙词字段中出现并且具有词表规定的等级关系, 因此,该算符只适用于有正式词表、且词表中的词具有附属关系的数据库或文档。,邻近检索对提高检索的查准率和查准率有重要作用,但网络检索中根本上只支持W、nW和N、nN检索式。,31,1.3.4,字段检索技术,字段检索是限定检索词在记录中出现的字段范围,检索时,计算机只对限定字段进展查找。,32,1.3.4,字段检索技术,字段检索分后缀方式和前缀方式。,TI题名、AB摘要、DE主题词、ID标识词 su (主题词KW(关键词,AU著者、BN国际标准书号、SN国际标准刊号、CC分类类目、CS机构、DT文献类型或PT出版物类型、JN刊名或JA刊号、LA语种、PY出版年、SO来源出版物,注意:不同的数据库其字段代码可能不同。,33,举例,在EBSCO数据库检索中,某一用户需检索有关“数字图书馆与信息检索、参考咨询方面的文献信息,检索要求:题名或文摘中包含数字图书馆digital library,数字图书馆要求考虑单复数,主题为信息检索information retrieval或参考咨询reference,请编制其检索策略检索式。,(ti:digital librar* or ab:digital librar*) and su:(reference or information n2 retrieval),34,1.4,检索语言,检索语言是信息存储与检索过程中用于描述信息的内容特征、外表特征和表达用户情报提问一种人工语言。,分类,分类检索语言,主题检索语言,35,1.4.1,分类检索语言,分类检索语言是指用分类号表达各种概念,并将各种概念以学科性质为主加以划分和系统排列的检索语言。,体系分类语言,和组配分类语言,36,1.体系分类语言:是一种用分类号直接表达知识分类等级概念的标识系统,是将文献内容的概念按学科性质进展分类和系统排列,具有等级制构造特点的语言。对概括事物所共有的本质属性的概念作为类目,并给出相应的标记符号作为分类号。,2.体系分类法:一套分类的准那么分类法,它是根据类目分类号之间的相互关系,按一定的原那么组织起来的,是提供信息分类存储和分类检索的依据。,37,A,马克思主义、列宁主义、毛泽东思想、邓小平理论,B,哲学,C,社会科学总论,N,自然科学总论,D,政治、法律,O,数理科学和化学,E,军事,P,天文学和地球科学,F,经济,Q,生物科学,G,文化、科学、教育、体育,R,医药、卫生,H,语言、文字,S,农业科学,I,文学,T,工业技术,J,艺术,U,交通运输,K,历史、地理,V,航空、航天,X,环境科学,Z,综合性图书,?中图法?五大部类,二十二个根本大类,38,TB,一般工业技术,TD,矿业工程,TE,石油 、天然气工业,TF,冶金工业,TG,金属学与金属工艺,TH,机械、仪表工业,TJ,武器工业,TK,能源与动力工程,TL,原子能技术,TM,电工技术,TN,无线电电子学、电信技术,TP,自动化技术、计算机技术,TQ,化学工业,TS,轻工业、手工业,TU,建筑科学,TV,水利工程,工业技术所含学科较多,其下位类用二个大写英文字母表示:,39,O1数学,O11 古典数学,O12 初等数学,O13 高等数学,O14 数理逻辑与数学根底,O15 代数、数论、组合理论,O151 代数方程式论,O152 群论,O153 抽象代数,O153.1 半序集合和格论,40,H3,常用外国语,H31,英语,H32/H37,各种常用外国语,均可仿,H31,分,H32,法语,H33,德语,H34,西班牙语,H35,俄语,H36,日语,H37,阿拉伯语,41,H311语音,朗读法、演讲术,H312文字,H313语义、词汇、词义,根本词汇,同义词、多义词、反义词,熟语、俗语,外来语,略语,词源,H314语法,构词法,词类,句法,H315写作、修辞,翻译,H316词典,H317方言,H319语文教学,H31,英语,42,H319语文教学,教学改革,教学方案、教学大纲,教学法,英语学习方法入此。仿H193分,读物,以提高阅读能力为目的各科简易读物、对照读,物、注释读物入此。,习题、试题,会话,口语、会话教材、听说读练习、视听教学入此,43,O4物理学,O41理论物理学,O42声学,O43光学,O44电磁学、电动力学,O45无线电物理学,O46真空电子学电子物理学,O469 凝聚态物理学,O47半导体物理学,O48固体物理学,O51低温物理学,O52高压与高温物理学,O53等离子体物理学,O55热学与物质分子运动论,O56分子物理学、原子物理学,O57原子核物理学、高能物理学,O59应用物理学,44,O41理论物理学,O411物理学的数学方法,O412相对论、场论,O413量子论,量子力学波动力学、矩阵力学,量子电动力学,量子场论与多体问题核论,标准场,O414热力学与统计物理学,热力学,统计物理学,O415非线性物理学,45,3.体系分类法的特点:表达了学科系统性,便于从学科或专业的角度出发进展族性检索,但由于是先组式检索语言,缺乏进展多概念灵活组配的能力,不能满足特性检索的需要。,46,1.4.2,主题检索语言,是指描述文献主题的语词标识并按字顺序列排检的检索语言。,1.标题词语言:标题词语言是主题检索语言中最早出现的一种语言。经过同义词标准、词义标准和词类标准。,2.单元词语言:从文献中抽取出来的,能表达文献主题内容,不能再分解的概念单元的标准化词。,3.叙词语言:指以叙词作为信息单元主题标识和检索的主题语言。叙词又称描述词或表达词,是指从信息的内容中抽出的,以概念为根底,经过优化和标准化处理并具有概念组配和词间语义关系显示功能,用以表达文献主题和检索需求的名词或术语。,4.关键词语言:指以关键词作为信息单元主题标识和检索的主题语言。关键词是反映文献主题概念,具有实际检索意义,从文献中直接选取,未经标准,用以标引和检索文献信息的词语。关键词又称自由词,属自然语言范畴。,47,1.4.3,主题语言与体系分类语言的区别,1.标识符号不同:体系分类语言采用一套由字母、数字或二者混合构成的号码体系,作为大小类目的标识符号。用体系分类语言编排组织的检索工具,主要是依据类号决定序列。主题语言主要是使用标准化或直接采用自然语言中的语词作为表达文献主题的标识符号。,2.体系编排不同:体系分类表是按学科划分,按等级关系的逻辑分类进展编排,这种体系能充分提醒事物之间的等级关系和相关关系。主题表是按主题词的字顺进展编排,主题同排列的先后顺序不表达事物之间的任何关系。,3.类目语义关系表达方式不同,4.用途不同:体系分类语言比较适用于图书或文集的处理和检索,而主题语言那么比较适用于单篇的文献资料。体系分类语言可用于编制分类目录和分类索引,主题语言主要适用于编制主题索引或主题目录。,5.检索特点不同:体系分类语言具有族性检索特点,而主题语言具有特性检索特点。,48,1.5,数字资源的检索策略,检索策略:在分析检索提问实质的根底上,为实现检索目标而制定的一个合理的检索方案。,广义地说,它包括信息需求分析,数据库和检索方式的选择,检索词确实定和检索提问式的拟定等过程。,1.5.1 信息需求分析,1.分析信息检索目的,制定检索目标。,2.分析所需信息涉及的学科,确定检索的学科范围。,3.分析所需信息的类型、年代,确定检索的信息类型和年代范围。,49,1.5.2,数据库的选择,1.数据库的类型是否满足检索需要。数据库的类型不同,决定了它适用于不同的检索对象和满足于不同的检索要求。,2.数据库的学科专业范围是否与检索课题的学科专业相吻合,任何一个数据库在收录文献信息时总有一定的学科范围,应有针对性。,3. 数据库收录的文献类型、文献存储年限、更新周期是否符合检索需求。数据库出版商往往以某一类型文献编制数据库,如专利、会议录等。,4.数据库描述文献的质量,包括对原文的表达程度、标引深度、专指度如何,是否按标准化著录等。,5.数据库提供的检索入口是否与检索课题的线索相对应等,6.对所需文献信息在国别和语种加以选择限定。,50,1.5.3,选择检索方式,许多数据库提供多种检索方式,如?中国期刊全文数据库?提供了初级检索、高级检索、专业检索和分类检索等途径,搜索引擎如Alta Vista提供简单检索与复杂检索界面。初级检索或简单检索易学易用、简单明确、界面友好,适用于一般用户,但是其操作步骤多,而且检索速度、查准率和查全率都低于命令检索。而高级检索或复杂检索可以综合应用各种检索运算符或操作命令准确地表达检索需求,灵活地进展各种检索方案的检索,较为简捷、快速地得到较为理想的检索效果,但是需要用户熟悉各种系统的检索操作符,适合于有经历的检索人员。,51,1.5.4 检索项确实定,检索项是用户根据自己课题涉及的专业内容所提出的能够全面确切表达主题概念的检索词。因此,检索词选择得当与否,直接影响其检索效果。,检索词一般可分为,4,类:,第一类是表示主题概念的检索词,-,主题词,包括标题词、单元词、叙词、关键词。,第二类是表示学科分类的检索词,如分类号。,第三类是表示作者的检索词,如作者姓名、机构名称等。,第四类是表示特殊意义的检索词,如专利号、国际标准书号、分子式等,52,选取主题词的根本方法:,1.分析主题,找出课题所包含的显性概念和隐含概念,2.找出核心概念,排除无关概念和重复概念,3.从待检数据库和检索工具的词表中选取标准化的词或词组,4.选用上位词、近义词或下位词作为检索词,5.选用自由词作检索词,53,1.5.5,检索式的构造,检索提问式是数字资源检索中用来表达用户检索提问的逻辑表达式。,在编制检索提问式时,准确、合理地运用位置逻辑算符、截词符、字段符等技术是编制检索式的根本要求。,1. 合理的检索提问式应到达以下两个根本要求:,1能充分而准确地反映信息需求的内容。,2能适应所查数据库的索引体系、用词和匹配规那么,即与数据库中的信息标识相匹配。,54,2.,编制检索提问式时须注意的问题:,在构造检索提问式时,要弄清所使用的数据库的检索功能和所采用的操作算符。,检索词之间用“逻辑或连接, 可扩大检索式概念的外延,有利于提高检全率。,为提高检索速度,在使用布尔算符时,应把估计出现频率低的词放在“AND的左边,把频率高的词放在“OR的左边,同时使用“AND和“OR时,应把“OR放在“AND的左边。,综合利用各种算符,提高检索效率,,应防止可能产生多种逻辑判断的组配。,可利用逻辑非“NOT剔除不符合要求的信息,限制与用户提问不相关信息的检出。,检索提问式要精炼明了。,55,谢谢大家!,结 语,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 药学课件


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!