检索策略课件

上传人:无*** 文档编号:189959713 上传时间:2023-02-25 格式:PPT 页数:52 大小:174.50KB
返回 下载 相关 举报
检索策略课件_第1页
第1页 / 共52页
检索策略课件_第2页
第2页 / 共52页
检索策略课件_第3页
第3页 / 共52页
点击查看更多>>
资源描述
检索策略第六章计算机信息检索的基本策略检索策略 一、检索策略一、检索策略v检索策略检索策略:为实现检索目标而实施的方法。:为实现检索目标而实施的方法。计算机信息检索,实质上由计算机将输入的计算机信息检索,实质上由计算机将输入的检检索策略索策略与系统中存贮的文献特征标识及其逻辑组配与系统中存贮的文献特征标识及其逻辑组配关系进行类比、匹配的过程。由于关系进行类比、匹配的过程。由于信息需求信息需求本身具本身具有不确定性,加之对数据库中的文献特征标识不能有不确定性,加之对数据库中的文献特征标识不能充分了解,以及系统功能的某些限制,都会不同程充分了解,以及系统功能的某些限制,都会不同程度地影响检索效果。但是只要遵循一定的检索步骤,度地影响检索效果。但是只要遵循一定的检索步骤,制定良好的制定良好的检索策略检索策略,便可以减少各种不利因素的,便可以减少各种不利因素的影响,尽可能地使检索提问标识与信息需求和检索影响,尽可能地使检索提问标识与信息需求和检索系统保持良好的一致性,从而在系统中检索出满足系统保持良好的一致性,从而在系统中检索出满足用户需求的信息。用户需求的信息。检索策略二二、检索策略的实施技巧、检索策略的实施技巧v信息需求信息需求是人们客观上或主观上对各种情报信息的是人们客观上或主观上对各种情报信息的一种需求。这种需求是人们索取情报信息的出发点,一种需求。这种需求是人们索取情报信息的出发点,也是计算机信息检索时选择数据库、确定检索策略也是计算机信息检索时选择数据库、确定检索策略以及评价检索效果的依据。以及评价检索效果的依据。v不同类型的课题,其信息需求的范围和程度也不尽不同类型的课题,其信息需求的范围和程度也不尽相同。例如,申请发明、申报成果奖励、鉴定及立相同。例如,申请发明、申报成果奖励、鉴定及立项类的查新课题,往往需要全面地收集某一主题范项类的查新课题,往往需要全面地收集某一主题范围的文献信息,这类课题具有普查、追溯的特点,围的文献信息,这类课题具有普查、追溯的特点,应着眼于应着眼于查全查全;而对于科研、生产中为解决某一特;而对于科研、生产中为解决某一特定问题的攻关课题,往往只要求检出的信息对自己定问题的攻关课题,往往只要求检出的信息对自己的研究有所帮助,而对查找的文献范围不需要很广。的研究有所帮助,而对查找的文献范围不需要很广。因此,这类课题则要求因此,这类课题则要求查准查准。检索策略v检索策略制定的原则检索策略制定的原则:(1)快,即从检索请求的提出到检索结果的快,即从检索请求的提出到检索结果的提交要快速:提交要快速:(2 2)准,即检索结果要准确,避免检索出过)准,即检索结果要准确,避免检索出过多无关内容;多无关内容;(3 3)全,检索结果全面,满足用户的需求;)全,检索结果全面,满足用户的需求;(4 4)效益原则,即以最低的费用获取所佳的)效益原则,即以最低的费用获取所佳的信息。信息。检索策略三、三、计算机信息检索的具体步骤计算机信息检索的具体步骤 1 分析检索课题,制定切实可行的检索策略分析检索课题,制定切实可行的检索策略 (这是检索的出发点,依据这是检索的出发点,依据)2 2 利用检索系统特定的指令正确实施检索利用检索系统特定的指令正确实施检索3 3 通过人通过人-机对话的方式不断调整、修改、机对话的方式不断调整、修改、检索策略检索策略4 4 根据查找的文献线索获取原始文献根据查找的文献线索获取原始文献检索策略检索策略检索策略检索策略(检索策略例例1 城市生活污染研究城市生活污染研究v关键词:城市(都市、城区)关键词:城市(都市、城区)v生活污染(生活污水、生活垃圾、电磁辐射生活污染(生活污水、生活垃圾、电磁辐射污染等)污染等)v检索式检索式(城市城市 or 都市都市 or 城区)城区)and(生活(生活污染污染 or 生活污水生活污水 or 生活垃圾生活垃圾 or 电磁辐射电磁辐射污染)污染)检索词的选择及检索式的构建检索策略例例2 了解有关国内近十年来室内装修污染方面的研究了解有关国内近十年来室内装修污染方面的研究v关键词:室内、装修、污染关键词:室内、装修、污染v同义词或近义词:同义词或近义词:室内(住宅、居室、房屋)室内(住宅、居室、房屋)污染(放射性、化学、氡气、甲醛、苯等)污染(放射性、化学、氡气、甲醛、苯等)v确定学科范畴等辅助信息:环境科学。中文库为主,确定学科范畴等辅助信息:环境科学。中文库为主,十年期限。十年期限。v以室内环境污染检测,危害和处理等方面研究为主以室内环境污染检测,危害和处理等方面研究为主v选择专业数据库选择专业数据库 和各类型综合数据库为主,以和各类型综合数据库为主,以google等网络资源为辅等网络资源为辅 检索策略:例例3:GPS在建筑事业中的应用在建筑事业中的应用 主题词主题词:A:全球定位系统;:全球定位系统;B:建筑测量;:建筑测量;组配词:组配词:C:应用:应用 表达式表达式:A AND B AND C例例4:加拿大遥感活动展望:加拿大遥感活动展望 主题词主题词:A:遥感;:遥感;B:测绘科技活动;:测绘科技活动;组配词:组配词:C:加拿大;:加拿大;D:展望:展望 表达式:表达式:(A OR B)AND C AND D检索策略例例5:Peter教授在测量平差理论方面的研究教授在测量平差理论方面的研究 主题词主题词:A:测量平差;:测量平差;组配词:组配词:B:理论;:理论;C:研究;:研究;D:Peter 表达式表达式:A AND(B OR C)AND D 例例6:Batson关于土地规划与地籍测量方面的论述关于土地规划与地籍测量方面的论述 主题词主题词:A:土地规划;:土地规划;B:地籍测量;:地籍测量;组配词:组配词:C:评论;:评论;D:Batson;表达式表达式:(A OR B)AND C AND D 检索策略例例7:专题测图用于土地利用制图和植被:专题测图用于土地利用制图和植被制图制图主题词主题词:A:专题测量仪;:专题测量仪;B:土地利用:土地利用制图;制图;C:植被制图:植被制图;D:测绘仪器;:测绘仪器;E:地图制图;:地图制图;F:专题制图:专题制图表达式表达式:(A OR D)AND(B OR C OR E OR F)检索策略例例8:新型的自动化数字制图软件的开发与利:新型的自动化数字制图软件的开发与利用用主题词主题词:A:机助制图系统;:机助制图系统;B:系统软件;:系统软件;C:软件技术;:软件技术;D:自动化测图:自动化测图组配词组配词:E:开发;:开发;F:应用:应用表达式表达式:(A OR D)AND(B OR C)AND(E OR F)检索策略例例9:利用人造卫星数据及地理信息分析森林:利用人造卫星数据及地理信息分析森林 用途用途主题词主题词:A;卫星影象;卫星影象;B;卫星遥感;卫星遥感;C;地理信地理信息系统;息系统;D:森林遥感:森林遥感;E;森林判读;森林判读;F;森林调森林调查;查;G;森林监测;森林监测;H;数据处理数据处理表达式表达式:(A OR B)AND C AND(D OR E OR F OR G)AND H检索策略注意注意 在检索过程中,由于可以随时修改在检索过程中,由于可以随时修改检索策略,因此一方面要以制定的检索检索策略,因此一方面要以制定的检索式为基础,要服从检索式,但不要过多式为基础,要服从检索式,但不要过多地受构造检索式的限制,要把条件适当地受构造检索式的限制,要把条件适当放宽一些,逐步缩小检索范围,多次试放宽一些,逐步缩小检索范围,多次试验,以找到最佳检索式验,以找到最佳检索式 检索策略实例分析与说明实例分析与说明(以下选题均来源于学生作业,分析并更正)(以下选题均来源于学生作业,分析并更正)检索策略 课题一课题一 GIS技术的可视化研究技术的可视化研究v课题分析:课题分析:二十一世纪是一个信息大爆炸的时代,随二十一世纪是一个信息大爆炸的时代,随着着“信息论信息论”,“控制论控制论”及及“认知论认知论”等理论等理论的产生,作为一门古老的学科的地图学也在这些的产生,作为一门古老的学科的地图学也在这些新兴理论的指导下,在这个信息时代产生了新的新兴理论的指导下,在这个信息时代产生了新的发展点,发展点,“数字地球数字地球”的提出为地图科学提出了的提出为地图科学提出了更新更高的要求,更新更高的要求,GIS作为处理地理信息的一种作为处理地理信息的一种技术,应运而生。技术,应运而生。检索策略 GIS是一种采集,加工,分析,访问是一种采集,加工,分析,访问及表达空间数据的信息系统。作为数据本及表达空间数据的信息系统。作为数据本身是抽象的,不易直观接受的信息,因此身是抽象的,不易直观接受的信息,因此研究如何对数据进行加工和研究如何对数据进行加工和可视化可视化表达,表达,对于用户来说是十分必要的。对于用户来说是十分必要的。检索策略目前的目前的GIS可视化的研究正方兴未艾,对可视化的研究正方兴未艾,对DEM,DTM和和DLG等数据模型特别是等数据模型特别是DEM的研究进展的研究进展飞速,而飞速,而三维三维可视化的表达方式又成为其中最可视化的表达方式又成为其中最热门的方向,通过热门的方向,通过DEM生成的等高线,地貌晕生成的等高线,地貌晕渲土,三维透视景象,三维地形漫游及交互式渲土,三维透视景象,三维地形漫游及交互式三维可视系统在地图学界开始发挥其强大的效三维可视系统在地图学界开始发挥其强大的效用,并将在用,并将在GIS技术中占有三分天。技术中占有三分天。检索策略 数字高程模型数字高程模型(DEM)作为数字地形模作为数字地形模拟的重要成果已经成为国家空间数据基础拟的重要成果已经成为国家空间数据基础设施设施(NSDI)的基本内容之一,其相关学科的基本内容之一,其相关学科有数据库,软件工程,遥感与航测等。在有数据库,软件工程,遥感与航测等。在不久的将来,随着不久的将来,随着虚拟现实虚拟现实技术与技术与GIS的的融合,必然为地理信息学科带来翻天覆地融合,必然为地理信息学科带来翻天覆地的变化。的变化。检索策略检索关键词与表达式中文关键词:地理信息系统或GIS(上位)数字高程模型,可视化,三维,虚拟现实(下位)基本表达式:关键词=(地理信息系统OR GIS)AND(可视化)AND(三维 OR 虚拟现实)英文Topic Words:GIS or Geography Information System3D,DEM,VR,visualizationBoolean Expression:kw=GIS AND visualization AND(3D OR DEM)检索策略课题二课题二 检索策略检索策略检索策略检索策略 检索策略检索策略检索策略检索策略检索策略 检索策略检索策略课题五课题五 检索策略检索策略检索策略检索策略课题六课题六 检索策略 检索策略检索策略检索策略 课题七课题七 检索策略检索策略检索策略四、四、检索效果的评价检索效果的评价v查全率与查准率是检索质量的两个重要的评价指标。查全率与查准率是检索质量的两个重要的评价指标。v查全率查全率(recall ratio)=检出的相关文献量检出的相关文献量/检索系统中检索系统中相关文献总量相关文献总量即检出文献中合乎需要的文献数量占数据库中存在的即检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。查全率高说明有用的合乎该需要的所有文献的比例。查全率高说明有用的东西都被你检中了,但对于数量巨大的数据库而言,东西都被你检中了,但对于数量巨大的数据库而言,要达到要达到100%的查全率是不可能的,在网络条件下尤的查全率是不可能的,在网络条件下尤其如此。其如此。检索策略v查准率查准率(precision ratio)=检出的相关文献量检出的相关文献量/检出的检出的文献总量。指检出文献中合乎需要的文献数量占检文献总量。指检出文献中合乎需要的文献数量占检出文献全部数量的比例。出文献全部数量的比例。准确率高说明你检出的东西都是有用的东西。一般准确率高说明你检出的东西都是有用的东西。一般地说,很少能达到地说,很少能达到100%的查准率。的查准率。v在查全与查准两个方面一般难以两全,为了获得很在查全与查准两个方面一般难以两全,为了获得很多有用的东西(达到高的查全率),需要较少的限多有用的东西(达到高的查全率),需要较少的限制检索条件,但这样检出的无用的东西就会很多制检索条件,但这样检出的无用的东西就会很多(查准率不高),反之亦然。在计算机检索中,一(查准率不高),反之亦然。在计算机检索中,一般认为查准率为般认为查准率为6070、查全率为、查全率为4060是较是较为理想的。为理想的。检索策略 n n为检索系统中文献总量,为检索系统中文献总量,m m为检索输出的文献量,为检索输出的文献量,a a为为n n中中与检索课题有关的文献量,与检索课题有关的文献量,b b为为m m中与检索课题有关的文献量中与检索课题有关的文献量(检准文献量检准文献量),则,则n n、m m、a a、b b之间的关系如图所示。之间的关系如图所示。图1.4 文献总量与检出文献之间的关系 检索策略文献总量与检出文献之间的关系文献总量与检出文献之间的关系 令令R R表示查全率、表示查全率、P P表示查准率、表示查准率、M M表示漏检率、表示漏检率、N N表示误检率,则表示误检率,则R R、P P、M M、N N定义如下:定义如下:R=b/aR=b/a*100100 P=b/mP=b/m*100100 M=(1-b/a)M=(1-b/a)*100100=100=100-R-R N=(1-b/m)N=(1-b/m)*100100=100=100-P-P 检索策略v在一个具有在一个具有10001000篇文献的试验性机检系统中篇文献的试验性机检系统中检索某课题,用一特定检索策略查该课题时检索某课题,用一特定检索策略查该课题时输出文献输出文献6060篇。经分析评估,发现该系统中篇。经分析评估,发现该系统中共有该课题相关文献共有该课题相关文献5050篇,检出的文献中实篇,检出的文献中实际相关文献只有际相关文献只有3030篇,求查全率、查准率、篇,求查全率、查准率、误检率和漏检率。误检率和漏检率。查全率查全率=30/50=30/50*100%=60%100%=60%查准率查准率=30/60=30/60*100%=50%100%=50%误检率误检率=(60-30)/60=(60-30)/60*100%=50%100%=50%漏检率漏检率=(50-30)/50=(50-30)/50*100%=40%100%=40%检索策略检索策略思考题思考题v请为检索课题请为检索课题“多媒体技术在远程教育中的研多媒体技术在远程教育中的研究究”制定检索策略制定检索策略 v什么是查全率、查准率?在检索策略的实施过什么是查全率、查准率?在检索策略的实施过程中,如何扩大和缩小检索范围,提高查全率程中,如何扩大和缩小检索范围,提高查全率和查准率和查准率
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!