资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,一、信息检索,知识介绍,(六)、机检的有关知识,常用的检索方式,命令检索(command search),使用特定的操作命令来实施检索,灵活快速地进行检索,CS=(general(w)electric(f)Portland),菜单检索(menu search),方便,易掌握,称“easy-to-use”检索,多用于光盘检索和web检索,1、布尔逻辑检索,是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过布尔逻辑算符来实现的,这些运算符能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。,逻辑运算符有三种:与、或、非,(1)、逻辑,与,:一般用and或*表示,是一种用于交叉概念和限定关系的组配,它可以,缩小检索范围,有利于提高查准率,。,凡是用AND的检索式,AND两侧的检索词必须同时出现在同一条记录中,该记录才算命中,如:,AU=CHENG,GENGDONG AND PY=1997-1998,Solar*Energy,(2)、逻辑,或,:,一般用or或+表示,少数数据库用|表示,是一种用于并列关系的组配,它可以,扩大检索范围,防止漏检,有利于提高查全率,凡是用OR的检索式,OR两侧的检索词只要有一个在一条记录中出现,该记录就算命中,如:,(AU=QIU,DAHONG OR AU=QIU,D.H.OR AU=QIU,D H OR AU=QIU,DA-HONG OR AU=DAHONG,QIU)AND CS=DALIAN,www+internet+network,(3)、逻辑非,:,一般用not或-表示,少数数据库用#或/表示,是一种排斥关系的组配,用来从原来的检索范围中,排除不需要的概念或影响检索结果的概念,,,有利于提高查全率,凡是用NOT的检索式,NOT前面的检索词必须在记录中出现而后面的检索词一定不能出现,该记录才算命中,如:,OPTICAL NOT FIBER,EnergyNuclear,优先顺序,逻辑运算符的优先顺序为NOT、AND、OR,如果要改变运算顺序需要用,“,(),”,如:,A AND(B OR C),逻辑“与”的缺陷,逻辑“与”只要求两个检索词必须同时出现在同一篇文献中,而没有限定算符两侧检索词之间的位置关系,有时难免造成误检。,例如:查找“细菌对染料破坏”方面的文献,检索词:细菌、破坏、染料,采用逻辑“与”组配:细菌 and 破坏 and 染料,检索结果:命中同时用这三个词标引的文献,有“细菌对染料的破坏”方面的文献,也会有“染料对细菌的破坏”方面的文献,要排除后一部分的文献,就需用位置算符限定词与词之间的位置关系。,2、位置运算符,又称,邻接算符,(adjacent operators),适用于两个检索词以指定间隔距离或者指定的顺序出现的场合。跟AND运算符类似,但比AND运算符功能更具体。比如:通过“communication AND satellite”进行检索时,命中的文献可能既含有“communication satellite”,又含有“satellite communication”;也可能含有“communication devices for satellite”“communication links without satellite”等等。显然其中有些记录与课题要求毫无关系。位置运算符可以用于改进AND运算符的这种不足之处,因此,它们可以看成是特殊功能的AND运算符。,按照两个检索词出现的顺序和距离,可以有多种位置运算符,而且对于同一功能的运算符,不同的检索系统可能有不同的表达方式,也有的检索系统不支持位置运算符,检索之前应该先看看数据库的帮助信息。,常用位置运算符有(w)、(n)、(s)、(f),(1).(,W,),(W)算符中的W含义为“With”。,词序不许颠倒,两词之间不许插词,只允许出现空格或连字符号,(W)算符还可以使用其简略形式,(),例如:,CD(W)ROM 将命中 CD ROM 或 CD-ROM,solar()energy 检出 solar energy,(2).(,nW,),(nW)算符中的W 含义为“Word”,它允许两词中间可以插入,0-n,个其他词,包括系统禁用词,词序不变,例如:,communication(2W)satellite,将检索出含有communication satellite、communication via satellite、communication on the satellite的记录。,(3).(,N,),(N)算符中的N含义为“Near”,词序可以颠倒,两词之间不许插词,只允许出现空格或连字符号,例:,cross(N)section,可检出 cross section 和 section cross,(4).(,nN,),(nN)是(N)算符的变形,检索词之间允许插入0n个词,包括系统禁用词,词序可以颠倒,例如:,cotton(2N)processing,可检出cotton processing、processing of cotton、processing of Egyptian cotton,(5).(,S,),(S)算符中的S含义为“Sentence”,词序可以颠倒,两词必须出现在同一句子(子字段)中.,(6).(,F,),(F)算符中的F含义为“Field”,两词必须出现在同一字段中,词序不限,例如:,pollution(F)control,可检出control and management of industrial pollution,(F)与and的区别,(F)邻近算符指定两个检索词在,同一个字段中,出现,而AND布尔逻辑组配中的两个检索词会出现在不同的字段中,此外同位置运算符相比,AND可以连接两个以上的检索词,还可以两个以上的检索集合进行组配。,例如:,au=cheng,gengdong AND cs=dalian AND py=1998,3、截词算符,截词算符就是使计算机保留检索词中的相同词干部分,允许检索词可有一定范围的变化,这种功能可减少输入步骤,简化检索程序,扩大检索范围,从而节省机时,降低费用,提高查全率。不同的数据库有不同的截词符,DIALOG系统用“,?,”,ORBIT系统用“,+,”,此外还有的系统用“,$,”或“,*,”,截词有,前方一致、后方一致、中间一致和中间屏蔽,四种形式。,截词是计算机检索中常用的方法,尤其是英语的单词词尾变化较多,为避免漏检经常要使用前方一致的截词检索。,(1).前方一致,也叫后截断,将截词符置于一个字符串的后面,以表示其后的有限或无限个字符的检索。,无限截词,如:,Physic?,可检出physic、physical、physican、physicalism,截断两个字符,如:physic?,可检出physic、physical、physican,截断一个字符,如:textile?,可检出textitle、textitles,中间有一个空格,(2).后方一致,(支持的检索系统较少,EI光盘不支持),也叫前截断,将截断符置于一个字符串的前面,以表示其前的无限个字符的检索。,均为无限截词。,如:?polymer,可检出polymer、copolymer、homopolymer,(3).中间截断,也叫中间屏蔽,如:,defen?e,可检出defence、defense,fib?s,可检出fibers和fibres,(4).中间一致,(支持的检索系统较少,EI光盘不支持),词头词尾都可变化,如:,?wave?,可检出wave、waves、microwave,利用计算机进行信息,检索的步骤,1、确定检索目标,2、选择数据库,3、编制检索提问式,4、上机检索,5、整理检索结果并对检索效率进行评价,1.,确定检索目标,要进行信息检索,首先必须确定信息检索的目标,即对信息用户的需求进行具体的分析,这种分析应主要包括以下内容:,明确检索的目的,明确用户是要查新、查参考资料还是查询论文被收录或引用情况等,以便对检索的查准、查全和时间范围的指标要求有一个大致的了解,从而制定出符合情况的检索策略。,课题分析,对课题内容进行分析,找出核心概念和隐含概念,排除无关的概念,明确概念之间相互的逻辑关系。,课题分析直接从项目名称中确定,检索概念,例1:项目“聚乙烯的合成(synthesis of polyethylene)”,主要概念:聚乙烯、合成(synthesis、polyethylene),检索式:,聚乙烯 and 合成,Synthesis and polyethylene,课题分析找出隐含概念,例2:项目“灌溉用的橡塑多孔管”,Rubber-Plastic Porous Pipe For Irrigation,橡塑多孔管也称为橡塑渗灌管,其主要原料为橡胶粉(由废旧轮胎制得)和塑料(如粉状聚乙烯)。隐含概念:橡胶、塑料,该产品主要用于农林、园艺等方面的灌溉。,主要概念:橡胶、塑料、多孔管、灌溉,检索式:(橡胶 or 塑料 or橡塑)and 多孔管 and 灌溉,课题分析泛指概念具体化,例3:项目“唐山综合防灾的研究”,由于唐山是一个城市,因此该项目实际上是“城市综合防灾的研究”。,该项目针对的主要灾害是地震、洪水和火灾,,所采用的研究手段是决策支持系统和专家系统,。,防灾,地震、洪水、火灾,研究,决策支持系统、专家系统,主要概念:城市、地震、洪水、火灾、决策支持系统、专家系统,检索式:城市 and(地震 or 洪水 or 火灾)and(决策支持系统 or 专家系统),排除重复无关的概念,可避免漏检,节省检索费用。,例4:项目“河豚毒素的液相色谱分析”,从项目名称上看,其主要概念为,“河豚毒素”、“液相色谱”和“分析”,但由于液相色谱本身就是一种分析方法,它隐含了“分析”这一概念,主要概念:河豚毒素、液相色谱,检索式:河豚毒素 and 液相色谱,2.选用合适数据库,根据检索目标分析所确定的检索目的、涉及的学科范围和信息类型,选择合适的数据库。,具体选择过程中还应考虑数据库的类型(参考、全文还是电子期刊)、内容(专利、标准、会议)、收录的数据学科范围、数据库的更新周期,收录文献的语种等因素。,例如,要查新就要选择收录文献最全,更新周期快的数据库;要看全文就要选用全文数据库或电子期刊;要查标准或专利就要选择标准库或专利库。,3.使用适当的检索语言,,构造检索表达式,分析各个检索词之间的位置关系和逻辑组配关系,分析检索词应该限定在哪个字段中检索(是在所有基本索引中检索还是限定在分类、主题、自由词、文摘还是其他辅助索引字段中检索?),4.上机检索,上机检索是用户的实际操作过程,检索策略输入检索系统后,系统响应的检索结果通常很难一次就能满足课题的要求,例如,有时输出的篇数太多,而且不相关的文献所占的比例很大,而有时输出的文献数量太少,甚至为零。,因此在检索的过程中用户需要不断地根据检索结果对检索策略进行调整和修改,包括检索词的重新选取以及检索提问式的重新构造,经过反复的检索最终获得比较满意的检索结果。,(1)输出篇数过多时,此时多数是由误检造成的,原因主要有以下几点:,1),没有对检索词进行限制,。包括字段限制,时间限制,分类限制等。,2),主题概念不够具体或具有多义性导致误检,。例如,仅使用mathematics进行检索结果很多,就需要调整检索策略,将概念具体化。,如:mathematics and economic,再如,检索世界贸易组织仅输入“WTO”,系统可能会检索出“World Tourism Organization”(世界旅游组织),3),对所选的检索词截词截得过短,。例如,使用math?将有太多的检索结果。,(2)输出篇数过少时,此时多数是由漏检造成的,原因可能有以下几点:,1),选用了
展开阅读全文