李静药学信息资源检索课件

上传人:磨石 文档编号:240709394 上传时间:2024-05-02 格式:PPT 页数:68 大小:7.16MB
返回 下载 相关 举报
李静药学信息资源检索课件_第1页
第1页 / 共68页
李静药学信息资源检索课件_第2页
第2页 / 共68页
李静药学信息资源检索课件_第3页
第3页 / 共68页
点击查看更多>>
资源描述
第三讲上计算机检索基础计算机检索基础第一节第一节 计算机检索的相关知识计算机检索的相关知识第二节第二节 计算机检索的基本方法计算机检索的基本方法第三节第三节 计算机检索的策略与评价计算机检索的策略与评价第一节 计算机检索相关知识计算机检索的原理计算机检索的原理计算机检索的基本过程计算机检索的基本过程计算机检索的特点计算机检索的特点计算机检索系统的构成计算机检索系统的构成计算机检索的类型计算机检索的类型1、计算机检索的原理计算机检索,就是利用计算机对信息进行存贮计算机检索,就是利用计算机对信息进行存贮和检索,包括信息的存贮过程和信息的检索过和检索,包括信息的存贮过程和信息的检索过程。程。存贮过程:把分散的信息进行搜集、整理、分存贮过程:把分散的信息进行搜集、整理、分析、标引,以描述信息内容及特征,输入到计析、标引,以描述信息内容及特征,输入到计算机中,建立相应的数据库。算机中,建立相应的数据库。检索过程:将用户的需求转化为检索系统可识检索过程:将用户的需求转化为检索系统可识别的提问标识,并与系统内信息进行比对,将别的提问标识,并与系统内信息进行比对,将满足用户需求的信息输出给用户。满足用户需求的信息输出给用户。2、计算机检索的基本过程计算机检索的基本过程分为三个阶段计算机检索的基本过程分为三个阶段1 1、提出问题阶段、提出问题阶段2 2、检索阶段、检索阶段3 3、结果输出与反馈阶段、结果输出与反馈阶段用户需求分析与用户需求分析与构造检索式构造检索式将用户需求与数据库进将用户需求与数据库进行比对,查找所需信息行比对,查找所需信息对输出结果不满意,则调整检对输出结果不满意,则调整检索策略与检索式,继续检索索策略与检索式,继续检索3、计算机检索的特点检索速度快检索速度快信息量大、内容更新快信息量大、内容更新快检索点多、检出率高检索点多、检出率高能充分达到资源共享的目的能充分达到资源共享的目的能满足多元检索的需求能满足多元检索的需求服务方式灵活服务方式灵活4、计算机检索系统的构成逻辑组成:指计算机信息检索系统所包含的功逻辑组成:指计算机信息检索系统所包含的功能模块或子系统及其相互关系。包括:数据源能模块或子系统及其相互关系。包括:数据源选择与采集子系统、标引子系统、建库子系统、选择与采集子系统、标引子系统、建库子系统、词表管理子系统、系统用户接口子系统、提问词表管理子系统、系统用户接口子系统、提问处理子系统处理子系统物理组成:主要包括硬件部分、软件部分、数物理组成:主要包括硬件部分、软件部分、数据库。据库。5、计算机检索的类型1 1、按检索设备及工作方式分类、按检索设备及工作方式分类脱机检索、联机检索、光盘检索、脱机检索、联机检索、光盘检索、网络检索网络检索2 2、按检索内容分类、按检索内容分类文献检索、数值检索、事实检索、文献检索、数值检索、事实检索、全文检索全文检索3 3、按计算机检索提供的服务方式分类、按计算机检索提供的服务方式分类定题检索、回溯检索、日常检索定题检索、回溯检索、日常检索第二节 计算机检索的基本方法布尔逻辑检索布尔逻辑检索截词检索截词检索位置运算符检索位置运算符检索限制检索限制检索1、布尔逻辑检索布尔逻辑检索:布尔逻辑检索:是指利用布尔运算符连接各个检索词,然后是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以检索出所需信息由计算机进行相应逻辑运算,以检索出所需信息的方法。其常用运算符有的方法。其常用运算符有逻辑与、逻辑或、逻辑逻辑与、逻辑或、逻辑非。非。逻辑与逻辑与:用:用“ANDAND”或者或者“*”来表示相交关系来表示相交关系 如:如:A and B A and B 表示检索结果要同时含有表示检索结果要同时含有A A和和B B所代表的检索词,用于所代表的检索词,用于缩检缩检。逻辑或逻辑或:用用“OROR”或者或者“+”来表示并列关系来表示并列关系 如如A OR B A OR B 表示检索结果要含有检索词表示检索结果要含有检索词A A或者检或者检索词索词B B或者同时含有检索词或者同时含有检索词A A和和B B,用于,用于扩检。扩检。逻辑非逻辑非:用:用“NOTNOT”或者或者“-”来表示排斥关系来表示排斥关系 如:如:A NOT B A NOT B 表示检索结果要含有检索词表示检索结果要含有检索词A A而不能含有检索词而不能含有检索词B B,用于,用于缩检缩检。布尔逻辑运算的次序问题布尔逻辑运算的次序问题(1 1)在计算机检索系统中,默认从左到右依次运算;)在计算机检索系统中,默认从左到右依次运算;(2 2)在不同的检索系统中,逻辑与、逻辑或、逻辑非)在不同的检索系统中,逻辑与、逻辑或、逻辑非的运算次序不相同;的运算次序不相同;(3 3)为明确运算次序,可以用小括号()来限定,多)为明确运算次序,可以用小括号()来限定,多层括号的时候,先算内层括号,再算外层。层括号的时候,先算内层括号,再算外层。概念:截词检索就是在检索中保留相同的部概念:截词检索就是在检索中保留相同的部分(即词干),用相应的截词符代替可变化分(即词干),用相应的截词符代替可变化部分,以检索出具有相同词干部分并满足相部分,以检索出具有相同词干部分并满足相应截词规则的一种检索方法。应截词规则的一种检索方法。截词符:截词符:*为无限截词符,代表多个字符;为无限截词符,代表多个字符;?为有限截词符,代表一个字符。为有限截词符,代表一个字符。2、截词检索截词检索的几种截断方式(1 1)前截断(左截断、后方一致)前截断(左截断、后方一致)如:如:*学生,可检索出:中学生、大学生、三好学生学生,可检索出:中学生、大学生、三好学生 等等(2 2)后截断(右截断、前方一致)后截断(右截断、前方一致)如:人如:人*,可检索出:人民、人民币、人文,可检索出:人民、人民币、人文 等等(3 3)前后截断(左右截断、中间一致)前后截断(左右截断、中间一致)如:如:*om*om*,可检索出:,可检索出:comecome、homehome、domodomo等等(4 4)中间截断(前后一致,一般只允许有)中间截断(前后一致,一般只允许有限截断)限截断)如:如:m?nm?n,可检索出:,可检索出:menmen,man man 等等3、位置运算符检索概念:位置运算是单词之间的位置比较运算,只概念:位置运算是单词之间的位置比较运算,只有当记录中单词的位置关系符合检索式的指定时有当记录中单词的位置关系符合检索式的指定时候,文献才会被命中输出。单词之间的位置关系候,文献才会被命中输出。单词之间的位置关系包括词距和词序两个方面。词距指两个单词之间包括词距和词序两个方面。词距指两个单词之间的间隔距离,词序指两个单词之间的先后顺序。的间隔距离,词序指两个单词之间的先后顺序。(1)(W)与(nW)算符(W W),即,即WithWith,表示算符两侧的检索词必须紧密相连(除了,表示算符两侧的检索词必须紧密相连(除了空格与标点符号外),空格与标点符号外),且词序不可颠倒;且词序不可颠倒;如:如:biological(W)controlbiological(W)control相当于检索相当于检索biological controlbiological control CD(W)ROM CD(W)ROM相当于检索相当于检索CD ROMCD ROM或或CD-ROMCD-ROM。(nWnW),W W的含义为的含义为WordWord,n n为数字,如为数字,如A A(5W5W)B B,表示,表示A A和和B B之之间最多允许有间最多允许有5 5个单词间隔,个单词间隔,A A和和B B之间的之间的词序不可颠倒词序不可颠倒。如如:wear(1W)materials:wear(1W)materials相当于检索相当于检索wear of materialswear of materials。(2)、(N)与(nN)算符(N N),即,即NearNear,表示算符两侧的检索词必须紧密相,表示算符两侧的检索词必须紧密相连(除了空格与标点符号外),连(除了空格与标点符号外),且词序可以颠倒且词序可以颠倒;Information(N)retrievalInformation(N)retrieval 可检出可检出:information retrieval:information retrieval retrieval information retrieval information(nNnN),n n为数字,如为数字,如A A(5N5N)B B,表示,表示A A和和B B之间最之间最多允许有多允许有5 5个单词间隔,个单词间隔,A A和和B B之间的之间的词序可以颠倒词序可以颠倒。如:检索式如:检索式environment(2N)protection environment(2N)protection 就可检就可检索出包含索出包含 “environment protectionenvironment protection”、“environment of the protection environment of the protection”、“environment of water protectionenvironment of water protection”、“protection of forest environmentprotection of forest environment”(3)、(F)算符(F F)算符中的算符中的“F F”的含义为的含义为“FieldField”,表示,表示该算符两侧的检索词必须在同一字段(如:标该算符两侧的检索词必须在同一字段(如:标题、著者等)中出现,题、著者等)中出现,且词序可以颠倒且词序可以颠倒。如:如:digital(F)computer/TIdigital(F)computer/TI 表表示示在在题题名名字字段段(TITI)中中同同时时出出现现这这两两个个检索词的才算命中信息。检索词的才算命中信息。(4)、(S)算符(S S)算符中的算符中的“S”“S”的含义为的含义为“Sentence”“Sentence”,表示该算符两侧的检索词,表示该算符两侧的检索词必须在同一句子中出现,且必须在同一句子中出现,且词序可以颠倒词序可以颠倒 如:检索式如:检索式High(W)strength(S)steelHigh(W)strength(S)steel表表示只要在同一个句子中检出含有示只要在同一个句子中检出含有High High strengthstrength和和steelsteel形式的均为命中记录。形式的均为命中记录。比较上述的运算符,按照限制程度的大小排序,比较上述的运算符,按照限制程度的大小排序,依次为:依次为:(W W)与()与(nWnW)最强)最强(N N)与()与(nNnN)次之)次之(S S)再次之)再次之(F F)最弱)最弱强强弱弱4、限制检索字段限制检索字段限制检索 限定检索词在数据库记录中出现的字段范围的一种方法,限定检索词在数据库记录中出现的字段范围的一种方法,用于缩小查找范围。用于缩小查找范围。范围限制检索范围限制检索 主要用于出版年、记录号、专利号等字段,使用各种比主要用于出版年、记录号、专利号等字段,使用各种比较关系符来限定其与检索词的比较范围。常用比较关系有:较关系符来限定其与检索词的比较范围。常用比较关系有:,=,。TITI(题名)、(题名)、ABAB(摘要)、(摘要)、DEDE(主题词)、(主题词)、IDID(标识(标识词)、词)、SU(SU(主题词)、主题词)、KW(KW(关键词)关键词)AU AU(著者)、(著者)、BNBN(国际标准书号)、(国际标准书号)、SNSN(国际标准刊(国际标准刊号)、号)、CCCC(分类类目)、(分类类目)、CSCS(机构)、(机构)、DTDT(文献类型)(文献类型)或或PTPT(出版物类型)、(出版物类型)、JNJN(刊名)或(刊名)或JAJA(刊号)、(刊号)、LALA(语种)、(语种)、PYPY(出版年)、(出版年)、SOSO(来源出版物)(来源出版物)注意:不同的数据库其字段代码可能不同。注意:不同的数据库其字段代码可能不同。数据库中的字段包括:三、计算机检索的策略与检索效率评价计算机检索的策略制定计算机检索的策略制定计算机检索的效率评价计算机检索的效率评价1、计算机检索的策略制定分析检索课题分析检索课题选择合适的信息数据库选择合适的信息数据库检索词的选取检索词的选取编制检索提问式编制检索提问式试检索与调整检索策略试检索与调整检索策略输出检索结果输出检索结果2、计算机检索的效率评价评价检索效果的常用指标有:评价检索效果的常用指标有:查全率(查全率(Recall ratioRecall ratio)查准率(查准率(Precision ratioPrecision ratio)漏检率(漏检率(Omission ratioOmission ratio)误检率(误检率(Fall-out ratioFall-out ratio)高查全率和查准率是人们在检索活动中通常所高查全率和查准率是人们在检索活动中通常所追求的目标。追求的目标。查全率查全率是指被检出的相关文献量与系统文档中是指被检出的相关文献量与系统文档中实有的相关文献量之间的比率。它是衡量信息检实有的相关文献量之间的比率。它是衡量信息检索系统收录内容及其用户检索结果的完整程度的索系统收录内容及其用户检索结果的完整程度的指标。可用下式表示:指标。可用下式表示:被检出相关文献量被检出相关文献量查全率(查全率(R R)=100%=100%系统中相关文献总量系统中相关文献总量漏检率漏检率 查准率是指检出的相关文献量与检出文献总量之查准率是指检出的相关文献量与检出文献总量之间的比率。它是衡量信息检索系统收录内容及用户间的比率。它是衡量信息检索系统收录内容及用户检索结果精确度的尺度。可用下式表示:检索结果精确度的尺度。可用下式表示:检出相关文献量检出相关文献量 查准率(查准率(P P)=100%=100%检出文献总量检出文献总量 误检率误检率影响查全率的因素所选检索词不符合检索系统所用的词表规范所选检索词不符合检索系统所用的词表规范检索词专指性太强检索词专指性太强相关词数量不够相关词数量不够信息数据库选择不当信息数据库选择不当没有将同义词作为检索词没有将同义词作为检索词影响查准率的因素检索词的专指度不够检索词的专指度不够检索词选择不规范检索词选择不规范提高查全率的方法(1)(1)准确把握检索对象及目的准确把握检索对象及目的,选择合适的数据库。选择合适的数据库。(2)(2)降低检索词或分类号的专指度。降低检索词或分类号的专指度。(3)(3)更多地采用学科分类途径来扩大检索范围。更多地采用学科分类途径来扩大检索范围。(4)(4)减少逻辑减少逻辑“与与”及逻辑及逻辑“非非”的使用。的使用。(5)(5)增加逻辑增加逻辑“或或”及截词检索技术的使用。及截词检索技术的使用。(6)(6)不限定检索对象的文献类型、时间段、文种等。不限定检索对象的文献类型、时间段、文种等。(7)(7)注意同义词的合理使用,适当使用近义词扩检注意同义词的合理使用,适当使用近义词扩检提高查准率的方法(1)(1)准确把握检索对象及目的准确把握检索对象及目的,选择合适的数据库。选择合适的数据库。(2)(2)提高检索词或分类号的专指度。提高检索词或分类号的专指度。(3)(3)更多地采用专用名词及特性检索的途径。更多地采用专用名词及特性检索的途径。(4)(4)选择逻辑选择逻辑“与与”及逻辑及逻辑“非非”的使用。的使用。(5)(5)减少或不采用逻辑减少或不采用逻辑“或或”及截词检索技术的使用。及截词检索技术的使用。(6)(6)限定检索词出现的字段及在段落、文句中的位置。限定检索词出现的字段及在段落、文句中的位置。(7)(7)限定检索对象的文献类型、时间段、文种及其它限定检索对象的文献类型、时间段、文种及其它 特征。特征。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!