网络信息检索基本方法.ppt

上传人:zhu****ei 文档编号:3530695 上传时间:2019-12-17 格式:PPT 页数:73 大小:2.17MB
返回 下载 相关 举报
网络信息检索基本方法.ppt_第1页
第1页 / 共73页
网络信息检索基本方法.ppt_第2页
第2页 / 共73页
网络信息检索基本方法.ppt_第3页
第3页 / 共73页
点击查看更多>>
资源描述
2010-9-13,第二讲网络信息检索基本方法,【目的与要求】掌握布尔逻辑检索等网络信息检索的基本技术。熟悉网络信息检索的途径和步骤。【重点】布尔逻辑语言、邻近检索、截词检索【难点】邻近检索,影响信息检索质量的因素,信息资源本身的质量对信息检索的影响(鱼龙混杂,参差不齐)检索软件对信息检索的影响(不同的搜索引擎,数据库系统)用户水平对信息检索的影响,网络信息检索的基本技术,网络信息检索的基本途径,网络信息检索基本步骤,MACTH,计算机将检索提问词,文献记录标引词,信息检索过程的实质:,智能检索,基本技术,邻近检索,字段限制检索,布尔逻辑检索,截词检索,模糊检索,词组检索,1,2,3,4,5,6,7,一、网络信息检索的基本技术,1.布尔逻辑检索(booleanlogic),逻辑检索是一种比较成熟、较为流行的检索技术,现代的情报检索系统大多都采用这种技术。逻辑检索的基础是逻辑运算,逻辑运算中最常用的是布尔逻辑运算符(booleanlogicoperator),它的作用主要是利用布尔逻辑算符将一些具有简单的、表达某一主题概念的检索单元(或检索标识)组配成一个具有复杂概念的检索式,以满足课题检索的要求。主要运算符有“和(and,*)”、“或(or,+)”、“非(not,-)”。,运算优先级顺序为NOT、AND、OR,可以用括号“()”改变它们的运算顺序。如Aand(BorC),检索顺序为先B或C,然后再与A,实例:,【实例】在搜索引擎中输入“电视台-中央电视台”,查询结果不包含“中央电视台”。,逻辑算符举例,查找关于“动物保护”的文献:“动物AND保护”查找有关冬虫夏草的文献:“冬虫夏草or冬虫草or虫草”查找关于能源方面的文章,但关于“核能”的不要:“energynotnuclear”(energy-nuclear)检索西红柿种植技术的相关文章:(西红柿+番茄)*(种植+栽培+培育),Exercise1:,查找电子图书的标准(DigitalbookORelectronicbookORe-bookORonlinebook)ANDstandard,Goolge的默认运算符就是逻辑“与”,用空格、“AND”和“+”都表示,而逻辑“非”只能用“-”而不能用“NOT”表示,逻辑“或”用“OR”表示。百度的默认运算符是逻辑“与”,空格均表示逻辑“与”。在ISIWebofKnowledge平台上,逻辑算符“AND”、“NOT”、“OR”不区分大小写,但不支持以“*”、“-”、“+”代替。在ScienceDirect中,逻辑“非”是用“ANDNOT”表示,而不是我们常用的“NOT”。,2.词组检索(phrasesearch),通常在所检索词上加“”对所检索词视为词组处理,表示检索与“”内形式完全相同的短语,以提高检索的精度和准确度,因而也有人称之为“精确检索”(exactsearch)。例如:“动物保护”,表示动物保护是个词组,检索结果动物和保护不能分开。若不加“”,检索结果可以是动物保护、动物多样性保护、动物栖息地保护、动物资源保护等形式。,ScienceDirect用双引号“”表示宽松短语检索,标点符号、连字符、停用字等会被自动忽略,如检索式为“heartattack”会检出包含“heartattack”和“heart-attack”的检索结果。在该数据库中,精确检索是用“”表示。,邻近检索有时又被称为位置算符检索。因此,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。在不同的检索系统中,所采用的位置算符是不同的,功能也有差异。下面以全球最大的联机检索系统Dialog为例来说明位置算符的用法,OCLC也是如此。,3.邻近检索(proximitysearch),布尔逻辑运算符和词组检索虽然能有效的扩大和缩小检索范围,但无法对检索词之间的相对位置进行限制,文献记录中词语的相对次序或位置不同,所表达的意思可能不同,又称为位置算符检索,用来规定检索系统原始记录中的检索词之间的特定位置关系,同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样,我们要利用位置逻辑算符来限定检索词与检索词之间的位置关系,从而使检索出的文献更确切地符合用户要求,提高查准率。,Eg:“粉末的掺合与颜料包装”,(W)WITH算符,表示两个检索词前后次序固定,二者之间只能间隔连字符、空格或者是逗号。【实例】在OCLC中输入communicationwsatellite;,wN(withN)算符,表示两个检索词之间插有n个词,但顺序不能颠倒。表达式:AWNBAB两词靠近,次序为A先B后,中间最多可加n个词。【实例】在EBSCO中输入communicationw3satellite;,N(Near)算符,N(Near)表示两个检索词可以互换顺,二者之间只能间隔连字符、空格或者是逗号。表达式:ANB:AB两词靠近,次序可变。【实例】在OCLC中输入communicationnsatellite;,nN(NearN)算符,表示两个检索词之间可以插入n个词并且词序可以颠倒表达式:A(nN)B:AB两词靠近,次序可变,中间最多可加n个词。【实例】在EBSCO中输入communicationn3satellite;比较:在EBSCO中输入sourceandlaw、sourcew2law,(F)Field,(F)表示在此运算符两侧的检索词必须同时出现在文献记录的同一字段内,如出现在篇名字段、文摘字段等,但两个词的前后顺序不限,夹在两个词之间的词的个数也不限。,(S)算符,(S)算符表示在此运算符两侧的检索词必须同时出现在文献记录的子字段或同一段话中,两个词次序不限,中间插入词的数量也不限。,4.截词检索(truncation/wildcat),截词检索又称部分一致检索,是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符用“?”或“*”标识。截词检索是预防漏检,提高查全率,尤其适用于英语,常用于处理词语的单复数,不同拼写方式,相同词根的近义词,以及动词的不同形式等。,后截断,无限截断同根词检索,如:physic?,截词检索与截词检索算符,Physic,physics,physicst,physicalism,Physic,physics,physicst,如:physic*,有限截断单复数,也称“右截”,中截断用于中美拼写不同和单复数,前截断同根词检索,如:m?n,man,men,如:*computer,minicomputer,computer,microcomputer,“左截”,特别提示:“*”、“?”的比较“*”,无限截词,代表0-无数个字符如regard*,代表regard,regarding,regardless等。“?”,有限截词,代表0-1个字符,如library?,library,librarys。,5.字段限制检索技术(fieldlimiting),组成数据库的最小单位是记录,一条完整的记录中的每一个著录事项为字段。一般来说,数据库的记录基本包括下列字段:题名(TI,title)、关键词(KW,keyword)、主题词(DE,descriptor)、文摘(AB,abstract)、全文(FT,Fulltext)、作者(AU,author)、作者机构(CS,CoporateSource)期刊名称(JN,Journal)、出版国(CO,Country)、出版年份(PY,PublicationYear)、语种(LA,Language),字段限制检索就是通过限制字段和限制字段的范围来缩小检索结果,达到精确检索的方法。检索方式主要有:限定字段检索和限定范围检索(1)限定字段检索:将检索词限定在特定的字段中,一般有两种表达方式。前缀方式,将检索词放在所限定的字段代码之后,如用在著者(AU)、刊名(JN)、出版年(PY)、语种(LA)等字段后,例如:AU=Evans,A.,LA=Chinese后缀方式,将检索词放在字段代码之前,之后用字段限定符号:in或/;如:Furniture/TI即家具一词出现在题目中。,(2)限定范围检索:是通过使用限定符来限制信息的检索范围,以达到优化检索的方法。不同的检索系统略有不同,常通过使用的有:“=、=、:”等。表达式:字段名=(=、)例如:PY=1995即限定出版年份为1995及以后的文献;PY=1996:2005即1996年至2005年的文章,思考:比较3个检索式检索结果的不同,“Informationretrieval”/TIInformationANDretrieval/TIInformation(F)retrieval不仅要求在题名字段中,还要求两者必须与输入的形式完全相同只要求在题名字段中,而不严格限制它们是短语,如“informationorganizationmethodsforeffectiveretrieval”只需要在同一个字段中,Exercise2:,查找华中科技大学罗俊院士1999年以来发表的文章?AU=LuoJunAND(CS=HuazhongUniv*)ANDPY=1999查找2002年出版或发表的关于克隆人立法方面的英文著作或论文。“Thelegislationofhumancloning”orhumancloneandlegislat*andLA=EnglishandPY=2002,大多数网络检索工具都有类似于字段限制检索的功能,可将查找范围限制在特定的范围中,如:标题(title)图像(image)文本(text)统一资源定位符(url)网站(site)链接(link),举例:url:Link:whitehouse.govsite:www.harvard.edu,6.区分大小写检索(case-sensitive),china-china,China,CHINAChinaChinaWindows,windows,7.模糊检索(fuzzysearch),又称概念检索(相关检索)。当我们输入一个检索词时,搜索引擎不仅反馈包括了该关键词的网址,同时也发来与关键词意义相近的内容。如“检索”,查找,寻找,找寻,找一找.如“土豆”,模糊检索的检索结果中会返回包括“土豆”、“马铃薯”、“洋芋”等含义相近或相关的内容。现在大多数搜索引擎都有这种功能,只不过模糊程度不同。,8.自然语言检索(naturallanguagesearch),即直接采用自然语言中的字、词、句进行提问式检索,同一般口语一样。智能检索CouldyoupleasegivemesomeinformationonEnglishliterature?这种智能检索也是搜索引擎发展的趋势。,实际检索时,需要将上述各种方法综合使用才能获得最佳检索效果。如“查找2000年以来PeterSuber教授撰写的关于开放存取”的论文?可以构建检索式为:OpenAccessOROAOR*freeresourcesOROpenSource)AND(AU=PeterSuber)ANDPY=2000。检索式的构建不是一蹴而就的,需要根据检索结果的多寡和精准程度进行不断调整。另外需要特别注意的是,不同的检索系统所使用的算符类型和符号各异,本文拘于篇幅无法一一列举,因此使用检索系统尤其是数据库前必须浏览帮助系统,详细了解字段及算符的设置情况,以确定最合适的途径进行检索。,二.网络信息检索的基本途径,即我们常说的检索点AccessPoint检索点即是检索信息或文献时所通过或使用的渠道,而检索工具提供的检索点是多种多样的,它以检索的对象文献的特征而定。科技文献有两方面的特征,一是外表特征文献载体的外表上记明的易见的线索;二是文献的内容特征即从文献内部包含的知识信息中的内隐的潜在的线索。,1.按文献外表特征的检索途径:,名称途径即根据书名、刊名、篇名来查找文献信息的途径,它是把文献名称按照字顺排列起来成为一个体系,构成书名检索点、刊名检索点和篇名检索点。著者途径以著作者(个人著者、团体著者、专利发明人、专利权人、合同人及机构等),提供以作者字顺为途径的检索点,以实现对知名专家或专业学术机构研究成果和科技成果的检索。序号途径指通过号码(包括报告号、合同号、专利号、标准号、馆藏号、索取号、排架号等)查找文献的途径,这种途径主要是利用各种号码索引来组织检索,号码索引一般是按照字母顺序和号码顺序编排。,2.按文献的内容特征的检索途径,以文献的内容特征作为检索途径。即按照课题要求来查找文献的方法,更宜于用来检索未知线索的文献。分类途径按学科体系查找文献的途径,主要利用分类目录或分类索引的方法,通过利用专业知识确定所研究的课题所需文献属于什么类别,它在个学科体系中的地位,再进行检索的方法。主题途径通过文献资料的内容主题进行检索的途径,即利用从文献资料中抽出来的或经过人工规范化的能代表文献资料内容实质的标引词来检索,检索词可分为关键词、标题词、元词、叙词等几种类型。综合来说,分类途径和主题途径是文献检索的常用途径,但一些检索工具还提供了分子式索引、环系索引、化学物质索引、会议索引、图书索引等,作为某些专业与学科检索用的辅导性检索途径。,1.,2,3,从已知文献特征选择检索途径,如果事先已知文献名称、著者、序号等条件,应相应采用名称索引、号码索引或有关的目录索引。,从检索工具提供的索引选择检索途径。,从课题检索要求选择检索,课题学科范围要求广的应用特性检索-主题途径,范围窄的采用分类途径。,3.选择检索途径的原则,三.网络信息检索基本步骤,思考:我们想想完成一个检索任务,哪些要素必不可少?检索词、检索式(检索策略)、检索途径、检索系统,检索前的准备工作,1.,网络信息检索基本步骤示意图,课题分析,2.选择检索系统,3.确定检索途径和检索方法,4.确定检索词,6.实施检索、分析检索结果、索取原文,5.制定检索策略,编制检索式,7.调整检索式,优化策略,主要指明确检索目的与要求。分析课题的主要内容及所涉及学科范围,以便确定有关检索标识(分类)、检索途径和选择合适的检索工具。分析课题所需信息的类型、文献量、年代范围、涉及语种、有关著者、机构等。确定课题对查新、查准和查全的指标要求,例如:若要了解某学科、理论、课题等最新进展和动态,则要检索最近的文献信息,强调“新”字;若要解决研究中某具体问题,找出技术方案,则要求检索有针对性、能解决实际问题的文献信息,强调“准”字;若要撰写综述、述评或专著等,要了解课题、事件的前因后果、历史和发展,则要检索详尽、全面、系统的文献信息,强调“全”字。,1.课题分析,2.选择检索系统,主要是根据课题的检索要求选择合适的检索工具或数据库,如:查找图书可用OPAC书目数据库;查学科术语或数据等可用事实型数据库、参考工具书或网络搜索引擎;撰写学位论文、申请研究课题尽可能选用一些收录年份较长的综合型和专业数据库。,考虑权威性数据库;数据库的学科专业范围是否与课题的学科相吻合;需要的是题录、文摘信息还是全文信息,还是事实、图形、数据等;数据库收录的文献类型、年限、更新周期,所需文献信息在国别和语种是否符合检索需求等。,举例:,考虑学科范围、信息类型和数据量【例题】用_检索-呋喃甲醇羧酸酯的合成、含有碳和氢元素的化合物的英文综合学术性文献。A.外文Elsevier数据库B.外文农业类CAB文摘数据库C.外文农业类AGRICOLA数据库D.外文食品科技文摘数据库FSTA了解收录的文献类型【例题】已知参考文献:徐经长等.国际会计学.中国人民大学出版社.1999.要找原文,使用_检索国际会计学。A.中文科技期刊数据库B.中国人民大学报刊全文数据库C.图书馆的馆藏查询,【例题】使用检索CN03250961.8苗间除草机构密封传动箱。A.维普中文科技期刊数据库B.图书馆馆藏查询C.中国人民大学报刊全文数据库D.中国国家知识产权大局专利数据库E.中国国家科技图书文献中心(NSTL),【例题】用检索编号是GB/T17302.2-1998的文献A.中国国家知识产权局B.中国国家科技图书专利数据库文献中心(NSTL)C.国务院发展研究中心信息网D.中国标准信息服务网,考虑信息的时间范围同一个数据库版本不同,时效性也不一定相同。例如清华大学图书馆收藏的工程索引(EI)各种载体及馆藏的简况比较:印刷版(EI)月刊,年度更新,收录文献源2600种,馆藏年限1968-1996。光盘版(EiCompendex)季度更新,收录文献源2600种,馆藏年限19701997年。网络版(EiCompendexWeb)包括光盘版(EiCompendex)和EiPageOne两部分,半月更新,收录文献源5000种,馆藏年限1970至今。因此网络版(EiCompendexWeb)信息更新最快,量最大。,3.确定检索途径和检索方法,检索途径主要有:分类、主题、著者、序号。分类途径:按文献内容的学科分类体系查找文献的途径。在印刷型检索工具中主要有分类目录和分类索引。在计算机检索系统中,则把文献按分类聚类,通过层层点击进行检索,或利用系统提供的分类号进行检索。主题词/关键词途径:按表达文献主题内容的主题词或关键词作为标识查找文献的途径。题名途径:是根据文献的标题或名称,包括书名、刊名、篇名等来查找文献的途径著者途径:是根据已知文献著(编、译)者的名称查找文献的途径。代码途径:如标准号、专利号、ISSN号等时间途径:以文献的时间范围查找文献的途径。,检索方法,一般有直接检索法、间接检索法、追溯检索法和循环检索法四种。直接检索法又称浏览法,是通过广泛阅读、浏览近半年的各类文献资料来获得所需的最新信息。同时,在课题确定后,可阅读百科全书、专业手册、年鉴等参考工具书,了解课题的相关背景知识。缺点:费时费力,具有一定的盲目性和偶然性。间接检索法又称系统检索法,指借助于检索工具或系统查找所需文献的方法。常用的有顺查法、倒查法和抽查法。顺查法:是以所查课题的起始年代为起点,由远而近按时间顺序查找文献的方法,适合于大课题的检索。优点是查全率高,缺点是工作量大。倒查法:是由从最新的文献开始,由近到远进行查找的方法。特点是效率高,查得的文献比较新颖,时常用于科技查新。抽查法:是根据检索需求,抓住课题研究发展迅速、出版文献较多的时间段进行集中检索。用这种方法能获得一指具有代表性、反映学科发展水平的文献。,追溯法:利用文献末尾所附的参考文献为线索查找文献的方法,这种检索方法基于文献之间的引用和被引用揭示了文献主题之间存在着某种内在的联系。追溯引文法:先查出一批与检索课题有关的文献,再以这批文献后面的参考文献作为线索,查找文献的方法。引文索引法:利用引文索引,从被引文献开始查找引用它的全部论文的方法。交替检索法:间接检索法和追溯法的结合。先利用检索工具查得一批相关文献,然后再利用这批文献所附的参考文献进行追溯查找,如此交替使用,直至满足检索需求为止。,4.确定检索词,概念的分析:任何一个特定的检索课题,往往都是用若干个概念表达的,将检索课题从不同角度对课题内容进行概念分析,并针对每一个概念,选择尽可能多的检索词。主题概念转化而成的检索词应能准确、完整地表达检索课题的内容。如:检索课题:“土壤环境条件对豆科作物固氮作用的影响”土壤环境、豆科作物、固氮作用漏检我们应利用自已所学的专业知识对课题进行深入细致的分析,把那些与课题关系密切、能全面、准确表达课题内容实质的词一起作主题词。决定土壤环境条件的温度、湿度、PH值等;豆科作物中的大豆、花生等;固氮作用中起重要作用的根瘤菌、固氮菌等。,隐含概念的分析,课题的隐含的概念和相关的内容需要从课题所属的专业角度作深入分析,才能够提炼出能够确切反映课题内容的检索概念。如:检索“人造金刚石”方面的文献,其中“人造(manmade)的含义包括有“人工合成(synthetic)在内,单选用“manmade”检索会漏掉许多有用的文献;检索“古代家具设计”的相关文献古代包括明代、清代、宋代等朝代,不能仅以古代作为检索词。,确定检索词的规则,a.要用哪些词?同义词应尽量选全:同一概念的几种表达式同一名词的单数、复数、动名词、过去分词等用截词解决,如:child,children规范称谓、俗称、全称、简称等,如:盘丽鱼俗称七彩神仙鱼充分利用选定主题概念的上位或下位概念,找不到课题对应的主题词时,可采用最近一级的上位词。如:“山核桃产品加工”方面的文章,如果“山核桃加工”没有检索记录的话,就得选“核桃加工”作检索词充分考虑相关的词,如研究三带双锯鱼的生活习性,假如找不到相关的文献,可以查找同属或同种的鱼类的研究资料,借以参考。,b.不用哪些词?少用或不用对检索课题意义不大的词一般不选用动词、形容词、禁用词,少用或不用不能表达课题实质的高频词词义泛指过度大的词:如“展望”趋势、现状、近况等,“应用”作用、用途、用法等词义延伸过多的词:如“制造”制备、生产、加工、工艺等,“提炼”精炼、提取、萃取、回收,以及诸如“有机物”、“无机物”、“病虫害”等外延十分宽的概念等,一般都应转换成具体的方法或材料、化合物及具体的病害与虫害的名称表示。,例:神经网络在旋转机械故障诊断中的应用研究1.本课题包含“神经网络”“旋转机械”“故障诊断”三个概念,“应用”和“研究”属于意义过于宽泛的词,不应该作为检索词。2.扩展神经网络:相关的上位词有人工智能旋转机械故障诊断:相关词有故障定位、故障检测,上位词有容错技术3.检索式:(神经网络OR人工智能)AND(旋转机械)AND(故障诊断OR故障定位OR故障检测OR容错技术),5.制定检索策略,编制检索式,检索策略通过编制检索式,选择检索途径来实施。检索式是检索策略的逻辑表达式,指利用布尔逻辑运算符、位置算符、截词符和字段符等,对各检索词进行准确、合理地逻辑和位置组合,编制出检索提问式。再配合选择检索点,即检索入口,通常的检索入口,如:题名、著者、主题词、关键词、分类、引文、文摘、全文、出版年等。举例:明代家具的美学研究(明式家具+明代家具)*(审美+美学),6.实施检索、分析检索结果、索取原文,可直接下载的无全文的,7.调整检索式,优化策略,当命中文献太少时,应进行扩检,提高查全率准确把握检索对象及目的,选择合适的数据库。降低检索词或分类号的专指度。更多地采用学科分类途径来扩大检索范围。减少逻辑“与”及逻辑“非”的使用,增加逻辑“或”及截词检索技术的使用。将检索途径调整到更宽泛的字段中。不限定检索对象的文献类型、时间段、文种等。,当命中文献太多时,可对检索策略进行细化,提高查准率提高检索词或分类号的专指度。更多地采用专用名词及特性检索的途径。选择逻辑“与”及逻辑“非”的使用。减少或不采用逻辑“或”及截词检索技术的使用。限定检索词出现的字段及在段落、文句中的位置。如将检索词的查找范围限制在篇名和叙词字段中。利用文献的外表特征限制检索,不选“全文检索”。限定检索对象的文献类型、时间段、文种及其它特征。将检索词向下位类收缩,提高检索的专指性;在检出记录中选取新的检索词对结果进行再次限制。,【例题】华中科技大学学生已知一些理工科类大学学位论文题目,如何获得原文?,【题解】方法1:使用华中科技大学图书馆的馆藏目录查询到图书形式的学位论文,直接借阅:方法2:使用图书馆购买的学位论文数据库检索,可以直接查看近年来的原文。方法3:本地没有的则通过网上检索得到题目后,再从高校图书馆、国家科技图书文献中心(NSTL)通过馆际互借寻找全文,收费较低,时差也短。方法4:外文图书可以通过OCLC获取。,Exercise3:,练习三:松毛虫的防治策略研究检索词间关系:松毛虫and(防治or预防)检索式:松毛虫*(防治+预防),Exercise4,论家具设计中的简约主义检索词之间的关系:家具and(简约主义or简约风格)检索式:家具*(简约主义+简约风格),2010-9-13,ThankYou!,OCLC检索结果,EBSCO检索结果,OCLC检索结果,EBSCO检索结果,EBSCO检索结果,EBSCO检索结果,
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!