信息检索技术

上传人:t****d 文档编号:243351658 上传时间:2024-09-21 格式:PPT 页数:21 大小:153.50KB
返回 下载 相关 举报
信息检索技术_第1页
第1页 / 共21页
信息检索技术_第2页
第2页 / 共21页
信息检索技术_第3页
第3页 / 共21页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第三节 机检基础知识,计算机检索式(逻辑表达式):,检索词+有关算符,1、布尔逻辑算符,2、截词算符,3、字段限定符,4、位置算符,1,一、布尔逻辑检索,在计算机文献检索中,用户的检索需求是通过,检索提问式,表达的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。,布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔代数中的逻辑运算符,AND/*(与)、OR/+(或)、NOT/(非),。,布尔逻辑检索: 即运用,布尔逻辑算符,对,检索词,进行逻辑组配,表达两个概念之间的逻辑关系。,1.,AND,或,*,算符 实现逻辑“,与,”组配,检索时,命中信息同时含有两个概念,专指性强。,如:,logistics AND e-commerce,2,一、布尔逻辑检索,在计算机文献检索中,用户的检索需求是通过,检索提问式,表达的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。,布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔代数中的逻辑运算符,AND/*(与)、OR/+(或)、NOT/(非),。,布尔逻辑检索: 即运用,布尔逻辑算符,对,检索词,进行逻辑组配,表达两个概念之间的逻辑关系。,1.,AND,或,*,算符 实现逻辑“,与,”组配,检索时,命中信息同时含有两个概念,专指性强。,如:,logistics AND e-commerce,3,一、布尔逻辑检索,在计算机文献检索中,用户的检索需求是通过,检索提问式,表达的,逻辑算符在检索提问式中起着逻辑组配作用,它们能把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索需求。,布尔逻辑(组配)算符:系统中采用的逻辑组配算符是布尔代数中的逻辑运算符,AND/*(与)、OR/+(或)、NOT/(非),。,布尔逻辑检索: 即运用,布尔逻辑算符,对,检索词,进行逻辑组配,表达两个概念之间的逻辑关系。,1.,AND,或,*,算符 实现逻辑“,与,”组配,检索时,命中信息同时含有两个概念,专指性强。,如:,logistics AND e-commerce,4,2.,OR,或,+,算符 实现逻辑“,或,”组配,3.,NOT,或 算符 实现逻辑“,非,”组配,检索时,命中信息包含所有关于逻辑,A,或逻辑,B,或同时有,A,和,B,的,检索范围比,AND,扩大。,如:,rapid transit OR light rail OR subways,railway OR railroad,命中信息包含逻辑,A,、不包含逻辑,B,或同时有,A,和,B,的,排除了不需要的检索词。,如:,fruit NOT apple,(TEST),5,二、截词检索,(truncation) ,截词符,截词是指将检索词在适当的地方截断,截词检索是用截断词的一个局部进行的检索,凡是满足这个截词所有字符(串)的记录,系统都为命中。,截词检索在西文数据库中广泛使用。是在词干后可能变化的位置加上截词符号。检索词的单复数形式,同一词英、美不同拼法,词根相同的词都可用截词检索。这样既可减少检索词的输入量,又可扩大查找范围,提高查全率。,按 截 词 位 置 分: 有前截断、后截断、中截断;,按截词的字符数量分:有限制截断、无限截断。,*,表示截词的截断符号,各检索系统有不同的规定,没有统一标准。,6,1. 后截断,后截断是在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查找词干相同的所有词。从检索性质上讲,后截断是前方一致检索。,非限制截断,:是在检索词词干后面加一个截词符,表示不限制词尾可变化的字符位数,即查找词干相同的所有词。,例:,comput?,表示允许其后可带有任何字符且数量不限,相当于查找,compute、 computed、 computes、 computing、 computer、 computers、computerize、computerized、computation、 computations、 computational、 computationally,等词。,*,不宜将词截得过短,否则容易造成误检。,限制截断,:是在检索词词干后面加若干个截词符,表示限制可变化的字符数,。,例:fib? 相当于查找 fiber,或 fibre (Ei Compendex Plus),librar? 相当于Libraries,librarian,library,educat? 相当于Educator,educated,7,2. 中截断,(通配符或屏蔽),是把截断符号置于一个检索词的中间,对词中间出现变化的字符数加以限定。一般中截断仅允许有限截断。,例:organi#ation, 可检索到包含organization和organisation的记录。,一个?代表零个或任意个字符。,例: colo?r ,可检索到包含 color、colour、colonizer、 colorimeter的记录。,一个? 和数字,其中的数字代表可替换的字符数。,例:colo?1r, 只能检索到包含colour的记录。,8,三、词位置检索,(positional operator) ,位置运算符,利用布尔逻辑算符对检索词进行逻辑组配时,未限定检索词之间的位置关系,会影响某些课题的查准率并容易造成误检。为了弥补其不足,一般检索系统都提供文中自由词检索功能,也称全文检索功能,(Full text searching)。,所谓全文检索是利用文献记录中任何有实义的关键词、词组或字符串作为检索词,词与词之间的位置关系可以用位置运算符来表达。位置运算符的使用,进一步强化了对概念的限制,比布尔逻辑运算符更能表达复杂的概念,并避免AND逻辑组配产生的词义含糊或误检。,为了提高检索的广度和准确度,常常需要对检索词之间的位置关系加以限定。,*,全文检索的运算方式,不同的检索系统有不同的规定,主要差别有两点:,规定的位置算符不同;,位置算符的职能和使用范围不同。,下面介绍几种数据库经常使用的位置运算符:,9,1.W - With,W 算符是With的缩写,表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。所连接的词之间除可以有一个空格、标点或连接号外不得夹有任何其他单词或字母。,例: intelligent (W) robot? (Ei Compendex Plus),Wn( 或nW) 表示在此算符两侧的检索词必须按输入时的前后顺序排列,不能颠倒。但允许在连接的两个词之间最多插入n个单元词。,例: intelligent w1 robot* (OCLC FirstSearch),2. N - Near,N算符是Near的缩写,表示此算符两侧的检索词必须紧密相连,所连接的词之间不允许插入任何其他单词或字母。但词序可以颠倒。,例: intelligent NEAR robot* ( Ei CPX Web), Nn (或nN)表示在两个检索词之间最多可插入n个单词,且两词的词序任意。,例: intelligent,N1 robot* (OCLC FirstSearch ),3. Adj - adjacency,邻接算符,表示在此算符两侧的检索词必须按所列词序排列,不能颠倒,两词之间不允许有其他的词或字母。相当于短语检索。,例:,intelligent,adj robot* (Elsevier Science SDOS),10,四、字段检索,(range searching),字段检索即指定检索词出现的字段,被指定的字段也称检索入口,检索时,系统只对指定字段进行匹配运算,提高了效率和查准率。西文数据库,字段检索常用代码来表示,如下表所示。,11,注意:,目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能采用不同的字段代码表示。,如题名字段:,Ei CPX Web,中, 用,highway transport* within TI,来表示;,OCLC Firstsearch,中,用,TI: highway transport*,来表示。,在进行字段检索时,为了避免出现检索误差, 应先看一下该数据库的使用指南或说明。,例: Ei CPX Web 网络版数据库主要字段的字段代码如下:,CV Ei叙词表受控语言,TI,题名,AB 文摘,AU 著者姓名,AF 著者机构名称,ST 连续出版物名称,PN 出版时间,12,构造检索提问式示例,:,课题:数字化图书馆的文献检索服务,检索概念分析:,document retrieval,并列概念,document delivery,document delivery system,digital library,同义词 virtual library,electronic library,检索提问式:,(document W retrieval or document W delivery or document W delivery W system*) and (digital W librar* or electronic W librar* or virtual W librar*),record found : 11,(OCLC Firstsearch),13,造成误检或漏检的原因,1)课题分析不透;“学科归属”不清。,2)“语言”不通。,3)主题概念不是大了,就是小了。,4)“同义词库”不全,5)核心词太多,6)选择的检索工具专业性不够。E-journal or search engine?,14,1)课题分析不透;“学科归属”不清。,对课题的真正含义和学科归属不清楚,会造成最大的失误。,如查找有关“玻璃钢”制造工艺方面的资料,如果从字面含义着手,以为它属玻璃工业或金属材料的范畴,而事实上,玻璃钢既不属硅酸盐工业里的玻璃类,也不属金属材料里的钢铁制品,而是合成树脂与塑料工业里的增强、填充塑料制品。,如果没有认真分析课题的真正含义和学科归属,就匆匆着手检索,往往会欲速不达,或多走弯路,甚至导致失败。,15,2)“语言”不通。,基于计算机的文献检索的特点与其说是人机对话,不如说是标引人员与检索人员的对话,只有标引人员与检索人员所表达的“语言”一致,才能顺利实现文献检索。,往往检索工具使用的是标引语言,而检索者使用的多数是自由词,未经规范化,这样在表达方式上有差异,造成了检索障碍。如:,自由词:维生素 C (vitamin C);标引词 :抗坏血酸 (ACID,ASCORBIC),自由词:艾滋病 (AIDS); 标引词:ACQUIRED IMMUNODEFICIENCY SYNDROME(后天免疫缺陷综合症);又如“沙示”(SARs), 禽流感(Bird flu).,16,3)主题概念不是大了,就是小了。,检索者不知道如何正确定位课题的主题概念,往往会不是大了,就是小了,初学者更容易把概念偏大。,主题概念的范畴太大造成大量没用的文献被误检,太小造成重要的的文献被漏检。,如“石油工业的废水处理”,若用“废水处理”作为主题概念,就会太大,在中国期刊网中有1400多篇,如果我们知道石油工业主要排放的是毒性较大的含酚废水,那么主题概念定位在“含酚废水处理”就比较恰当了,此时查出的文献大概有2030篇。,17,4)“同义词库”不全,往往同一件事情或事物,不同作者喜欢用不同的词来表达,这就造成了庞大的同义词库,如果偏偏你头脑中的“同义词库”不是那么全,造成漏见就不足为怪了。例:,艾滋病,艾滋病、爱滋病,碳纤维,碳纤维、炭纤维,聚四氟乙烯PTFE,polytetrafluoroethylene, Teflon,设备apparatus,equipment,device,汽车car,automobile,vehicle,18,5)核心词太多,对于由A、B、C、D、E多个主题组合的多主题概念课题,如果将所有主题混在一起同时组配,会造成“零结果”现象。,因为,只要A、B、C、D、E其中之一的检索结果为零,则经过布尔逻辑“和”的运算,检索结果=A*B*C*D*E =0 。,19,6)选择的检索工具专业性不够,E-journals:,中文:中国期刊网、万方数据库系统、维普。,英文:Elsevier,Search engine:,北大天网,百度,,GooGle, Yahoo! Openfind, .,20,THE ENDTHANKS A LOT,21,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!