第1章-信息检索概述课件

资源描述

信息检索理论与技术1整体概述THEFIRSTPARTOFTHEOVERALLOVERVIEW,P L E A S E S U M M A R I Z E T H E C O N T E N T第一部分2信息检索理论与技术w引言3本课程教材w苏新宁主编信息检索理论与技术科学技术文献出版社4本课程主要内容w信息检索概述w信息检索理论模型w文本信息检索w信息检索相关性研究w信息检索的预处理技术n标引、分类与文摘wInternet信息检索技术w信息检索技术的研究热点n多媒体信息检索、跨语言检索、分布式检索、对等网络检索技术、隐性网页、网格检索技术、语义检索、基于本体的信息检索、小世界理论5五次讨论w相关性反馈w网格环境下的信息检索技术w语义网与信息检索w基于本体的信息检索技术w小世界理论在信息检索中的技术6第一章信息检索概述7本章主要内容w信息检索的起源与发展w信息检索基本原理w信息检索系统w信息检索学科研究范围81.1 信息检索的起源与发展w什么是信息检索（Information Retrieval，IR）n信息检索通常指信息用户为处理解决各种问题而查找、识别、获取相关的事实、数据、文献的活动及过程。n赖茂生先生：信息检索是将信息按一定的方式组织和存贮起来，并根据用户的需要找出有关信息的过程。n信息检索涉及信息的表示、存贮、组织和存取91.1 信息检索的起源与发展w信息检索研究的兴起n起初，信息检索并没有作为一个研究领域而存在n随着科学技术的发展和信息数量的剧增，信息检索研究逐步兴起l人们越来越关注如何从浩如烟海的信息源中迅速而准确地查找到学习和研究所需要的资料101.1 信息检索的起源与发展w信息检索概念的发展n文献检索l2020世纪中叶以前，信息检索研究关注的是如何检索、利用文献中记载的信息l原因：当时，信息存储和传播主要以纸质介质为载体，信息检索活动围绕着文献的获取和控制展开n情报检索l2020世纪5050年代以后，社会信息传播与存储载体呈现多元化，人们不再拘泥于纸质载体研究信息检索n信息检索l“信息”一词较“情报”一词的含义更为宽泛 111.1 信息检索的起源与发展w信息检索方式的发展n手工检索n机械检索n计算机检索121.1 信息检索的起源与发展w手工检索是指仅用手工的方式来处理和查找文献工具,如文摘、索引、目录、参考工具书等。w优点：n不需要特殊设备，查找简单、灵活n用户可以随时修改检索策略n检索费用较低等优点w缺点：n效率低下、费时较多、查全率较低w它是一种传统而又基础的检索手段，在某些部门领域仍然使用131.1 信息检索的起源与发展w计算机化检索的发展n20世纪50年代:探索与试验时期n20世纪60年代:实用化时期n20世纪70年代:联机服务市场化与网络化时期n20世纪80年代:最终用户检索时期n20世纪90年代:Web搜索引擎发展时期n21世纪:网络化与智能信息检索时期141.1 信息检索的起源与发展wWeb对信息检索系统的巨大影响n低费用(Low cost):是最便宜的存取各类信息源的系统，因而吸引更多的用户；n自由发布信息:人类历史上第一次，能够自由地发布和获取大量信息。151.1 信息检索的起源与发展wIR面临的问题和挑战n相关性信息的获取；n更快速的提问响应；n基于用户行为的新检索系统的开发和设计；161.2 信息检索基本原理w信息检索过程涉及三个方面l用户任务l文献的逻辑表示l相关性判断171.2.1 信息检索中用户任务检索浏览数据库图 1-1 信息检索中用户任务181.2.1 信息检索中用户任务w检索 retrieval n用户将其信息需求和问题翻译成检索系统要求的提问式(query)，系统匹配后，提交相关文献。w浏览 browsingn使用交互式界面翻阅整个文献集合，以找出感兴趣的相关文献。191.2.1 信息检索中用户任务婚介所征婚者集合应征者要求基本信息201.2.1 信息检索中用户任务检索系统信息集合用户要求标引信息211.2.2 文献的逻辑表示w全文本标引词的集合w目的：降低文献表示的复杂性，和计算机处理的难度。22图1-2 文献的逻辑表示文本结构文献结构识别着重空格标点等处理停用词处理名词集合词根处理自动或手工标引标引词结构全文本标引词231.2.2 文献的逻辑表示w传统：一个集合中的文献常常通过标引词或关键词的集合来表示。w现代：n用文献的所有词集合以及结构来表示n即全文索引241.3 信息检索系统w信息检索系统是实现计算机信息检索的平台w本节主要内容n信息检索系统的处理过程n信息检索系统的逻辑构成n信息检索系统的物理构成251.3 信息检索系统w信息检索系统是由一定的设备和信息集合构成，面向一定的用户，具有信息采集、组织、存贮、选择和传播等功能的信息服务设施261.3.1 信息检索系统处理过程w定义和建立数据库w用户提问操作w匹配处理27用户界面文本操作提问操作逻辑视图数据库管理者模块标引查询排序检索得文献用户反馈倒排文档索引排序文献文本数据库文本图1-3 检索处理过程文本281.3.2 信息检索系统的逻辑构成w信息检索系统的逻辑构成主要是指它所包括的功能模块或子系统及其相互关系291.3.2 信息检索系统的逻辑构成w一个完整的信息检索系统，通常由以下几个功能模块组成:n信息源选择采集子系统n标引子系统n建库子系统n词表管理子系统n用户接口子系统n提问处理子系统301.3.2 信息检索系统的逻辑构成w信息源选择采集子系统n本功能模块任务：将各种信息源电子化，为系统提供充足而适用的数据来源。l目前，信息检索系统中的数据主要来自各种公开文献，如一次文献中的期刊、图书、研究报告、会议论文、专利文献、政府出版物、学位论文、二次文献中的文摘、索引和目录，三次文献中的百科全书、专科词典，名录、指南、手册等l有些系统还收录各种机构的内部资料，如实验记录、测试或观测结果、工程设计资料、统计资料等l自动采集系统311.3.2 信息检索系统的逻辑构成w标引子系统n标引，就是根据一定的规则和程序，对文献内容进行分析，然后赋予每篇文献以一定数量的内容标识（分类号、主题词、关键词等），作为存贮与检索的依据。n创建文档替代物321.3.2 信息检索系统的逻辑构成w建库子系统n任务是建立和维护可直接用于计算机检索的数据库n主要工作包括：l数据录入l错误检查与处理l数据格式转换l等等331.3.2 信息检索系统的逻辑构成w词表管理子系统n功能是管理维护系统中已有的主题词表，使它与标引、建库等子系统相连接n本体n作业：尝试构建一个情报学的领域本体341.3.2 信息检索系统的逻辑构成w用户接口子系统n用户接口子系统承担用户与系统之间的通讯功能（软硬件）l命令语言：是指系统提供给用户的检索命令集合，包括基本命令（如检索开始、结束、选词、组配、显示、打印等）和扩充集（如截词、位置运算、限制检索、暂存检索策略、套录下载等）。l信息显示：指系统以屏幕显示形式提供给用户的各种信息，如菜单、窗口、帮助信息、错误信息等。l反馈机制，即系统对用户反馈的信息所做出的反应或操作。351.3.2 信息检索系统的逻辑构成w提问处理子系统n负责处理用户输入的检索词或提问式，并将它们与数据库中存贮的数据进行比较运算，然后把运算结果输出给用户。n该模块主要由检索程序构成：l接收提问l提问校验：包括语法检查、格式检查和用词检查。l提问加工：指对源提问式进行解释性或编译性的加工，生成便于机器处理的目标提问式。l检索，即从数据库中读入一批记录，与提问式进行比较，把满足要求的记录记入输出文档。361.3.3 信息检索系统的物理构成w硬件部分n主计算机、外围设备、数据处理或传送相关设备w软件部分n系统软件n应用软件:数据库管理系统,检索程序,记帐统计程序等w数据库n磁媒体数据库、光盘数据库、多媒体数据库371.4 信息检索学科研究范围w信息检索的研究范围包括一切与信息存储、检索有关的系统、过程、理论和方法n一切可供存贮和检索利用的信息类型，如文献、数据、事实、知识、声音、图形等；n各种信息检索系统及其运行过程，如信息采集、标引、组织、存贮、处理、匹配、输出、传送等；n信息检索过程中使用的各种方法，以及在信息检索实践和研究的基础上形成的各种理论和假设。381.4.1 信息检索的研究对象w信息检索理论n主要包括检索语言与标引理论，信息检索的数学模型，知识表示理论，“相关性”理论以及有关的哲学问题。w信息检索系统n主要研究信息检索系统的结构、功能、演变，它的设计开发技术、管理维护技术和评价技术，还研究它与其他信息系统乃至整个外部世界的关系。w数据库和数据仓库n信息资源的组织391.4.1 信息检索的研究对象w检索策略与方法n任务是利用、研究、评价和完善现有的各种检索策略和方法，研究开发新的更有效的策略和方法。401.4.1 信息检索的研究对象w自动标引、自动分类和自动摘录n这是探索如何教会计算机去“理解”信息内容，自动识别和提取出文献中的有用信息和检索标识，自动生成主题标识或文摘。n是技术难度非常大、诱惑力很强的领域，吸引了众多研究者，并取得了许多可喜的成果。411.4.1 信息检索的研究对象w相关设备n包括对信息检索所需的各种设备的研究，如计算机系统、微机与终端设备、输入输出设备、存贮设备、通讯设施等。w系统效益研究421.4.2 相关学科及领域w计算机科学w数学w语言学w人工智能w认知科学431.5 信息检索评价查全率（Recall）查准率（Precision）互逆相关F指标M指标441.5 信息检索评价nPrecision and RecalllContingency table451.5 信息检索评价nPrecision and Recall(contd)lRecall is the proportion of relevant documents retrieved by the system.lPrecision is the proportion of retrieved documents that are relevant.lFallout is the proportion of non-relevant documents retrieved by the system.lA good IR system should have a high recall(retrieve as many relevant documents as possible)&have a high precision(retrieve very few non-relevant documents).461.5 信息检索评价nPrecision and Recall(contd)lUnfortunately the two goals are quite contradictory.lAverage Precision47EvaluationwRelevancewEvaluation of IR Systems nPrecision vs.RecallnCutoff PointsnTest Collections/TRECnBlair&Maron Study48What to Evaluate?wHow much learned about the collection?wHow much learned about a topic?wHow much of the information need is satisfied?wHow inviting the system is?49What to Evaluate?wWhat can be measured that reflects users ability to use system?(Cleverdon 66)nCoverage of InformationnForm of PresentationnEffort required/Ease of UsenTime and Space EfficiencynRecalllproportion of relevant material actually retrievednPrecisionlproportion of retrieved material actually relevanteffectiveness50RelevancewIn what ways can a document be relevant to a query?nAnswer precise question precisely.nPartially answer question.nSuggest a source for more information.nGive background information.nRemind the user of other knowledge.nOthers.51Standard IR EvaluationwPrecisionwRecallCollection#relevant in collection#retrieved#relevant retrieved#relevant retrievedRetrievedDocuments52Precision/Recall CurveswThere is a tradeoff between Precision and RecallwSo measure Precision at different levels of Recallprecisionrecallxxxx53Precision/Recall CurveswDifficult to determine which of these two hypothetical results is better:precisionrecallxxxx54Precision/Recall Curves55Document Cutoff LevelswAnother way to evaluate:nFix the number of documents retrieved at several levels:ltop 5,top 10,top 20,top 50,top 100,top 500nMeasure precision at each of these levelsnTake(weighted)average over resultswThis is a way to focus on high precision56The E-MeasureCombine Precision and Recall into one number(van Rijsbergen 79)P=precisionR=recallb =measure of relative importance of P or RFor example,b=0.5 means user is twice as interested in precision as recall57TRECwText REtrieval Conference/CompetitionnRun by NIST(National Institute of Standards&Technology)n1997 was the 6th yearwCollection:3 Gigabytes,1 Million DocsnNewswire&full text news(AP,WSJ,Ziff)nGovernment documents(federal register)wQueries+Relevance JudgmentsnQueries devised and judged by“Information Specialists”nRelevance judgments done only for those documents retrieved-not entire collection!wCompetitionnVarious research and commercial groups competenResults judged on precision and recall,going up to a recall level of 1000 documents58Sample TREC queries(topics)Number:168 Topic:Financing AMTRAK Description:A document will address the role of the Federal Government in financing the operation of the National Railroad Transportation Corporation(AMTRAK)Narrative:A relevant document must provide information on the governments responsibility to make AMTRAK an economically viable entity.It could also discuss the privatization of AMTRAK as an alternative to continuing government subsidies.Documents comparing government subsidies given to air and bus transportation with those provided to aMTRAK would also be relevant.59TRECwBenefits:nmade research systems scale to large collections(pre-WWW)nallows for somewhat controlled comparisonswDrawbacks:nemphasis on high recall,which may be unrealistic for what most users wantnvery long queries,also unrealisticncomparisons still difficult to make,because systems are quite different on many dimensionsnfocus on batch ranking rather than interactionnno focus on the WWW60TREC ResultswDiffer each yearwFor the main track:nBest systems not statistically significantly differentnSmall differences sometimes have big effectslhow good was the hyphenation modellhow was document length taken into accountnSystems were optimized for longer queries and all performed worse for shorter,more realistic querieswExcitement is in the new tracksnInteractivenMultilingualnNLP61Blair and Maron 1985wHighly influential paperwA classic study of retrieval effectivenessnearlier studies were on unrealistically small collectionswStudied an archive of documents for a legal suitn350,000 pages of textn40 queriesnfocus on high recallwUsed IBMs STAIRS full-text systemwMain Result:System retrieved less than 20%of the relevant documents for a particular information needs when lawyers thought they had 75%wBut many queries had very high precision62提问与解答环节Questionsandanswers63结束语感谢参与本课程，也感激大家对我们工作的支持与积极的参与。课程后会发放课程满意度评估表，如果对我们课程或者工作有什么建议和意见，也请写在上边64感谢观看Theusercandemonstrateonaprojectororcomputer,orprintthepresentationandmakeitintoafilm65

展开阅读全文

第1章-信息检索概述课件

最新文档