信息检索的相关概念.ppt

上传人:w****2 文档编号:6252321 上传时间:2020-02-20 格式:PPT 页数:50 大小:1.37MB
返回 下载 相关 举报
信息检索的相关概念.ppt_第1页
第1页 / 共50页
信息检索的相关概念.ppt_第2页
第2页 / 共50页
信息检索的相关概念.ppt_第3页
第3页 / 共50页
点击查看更多>>
资源描述
现代信息检索ModernInformationRetrieval 第一章信息检索的相关概念 提纲 信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程 2 提纲 信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程 3 信息检索的基本概念 信息检索产生信息检索简介信息检索概念 4 信息检索的基本概念 信息检索产生信息检索简介信息检索概念 5 信息过载 Informationoverload 全世界每年产生1到2EB 1EB 1018B 信息 相当于地球上每个人大概产生250MB信息 其中纸质信息仅占所有信息的0 3 Lyman Hal03 静态网页有上百亿 动态及隐藏网页至少是静态网页的500倍 TomLandauer认为人的大脑只能存储量 一辈子只能接触6G的信息量 6 Internet增长 1 7 Internet增长 2 8 全球数字化进程加快 1998年 美国前副总统戈尔提出数字化地球的概念 1998年 江泽民总书记提出数字中国战略构想 1999年 北京市市长刘淇提出数字北京概念 全世界启动了数字图书馆 数字博物馆在内的一系列工程 另外包括虚拟博物馆 数字电影 交互电视 会议电视 远程教育 遥感 GPS等在内的服务或应用也产生大量文本和多媒体数据 9 问题 一方面 人们可以获得的信息的来源非常广泛 另一方面 人们如何快速 准确 全面地获得自己所需要的信息 非常困难 信息量太大 而且信息冗余度大 质量良莠不齐 格式不一 位置分散 关联复杂 语言繁多用户需求的表达和理解非常困难信息的理解非常困难 自然语言文本 图片 视频 10 11 信息检索是研究如何解决上述问题的一门学科 IR系统 用户需求 相关结果 信息检索的基本概念 信息检索产生信息检索简介信息检索概念 12 信息检索信息检索简介 1 InformationRetrieval这个术语产生于CalvinMooers1948年在MIT的硕士论文 InformationRetrieval IR 从文档集合中返回满足用户需求的相关信息的过程 作为一门学科 是研究信息的获 acquisition表示 representation 存 storage 组织 organization 和访问 access 的一门学问 13 信息检索简介 2 信息检索可以看成计算机科学Science 和图书情报学的交叉学科 Computer Library Info Science 以计算机为手段 处理信息对象和其他学科也融合 语言学 认知科学等检索来自英文单词Retrieval 有些人把它翻译成获取 其本义是 获得与输入要求相匹配的输出 和我们平时所理解的搜索意义上的检索不一样 14 信息检索简介 3 IR不仅仅是搜索 IR系统也不仅仅是搜索引擎 例1 返回与信息检索相关的网页 搜索引擎 SearchEngine SE 例2 毛主席的生日是哪天 问答系统 QuestionAnswering QA 例3 返回联想PC的型号 配置 价格等信息信息抽取 InformationExtraction IE 例4 订阅有关NBA的新闻信息过滤 InformationFiltering 信息推荐也可以这样说 狭义的IR通常是指InformationSearch 而广义的IR包含非常多的内容 SE QA Search IE等 本课程介绍的是广义的IR 信息检索的基本概念 信息检索产生信息检索简介信息检索中的基本概念 16 信息检索中的基本概念 用户需求 用户需求 UserNeed UN 用户需要获得的信息 严格地说 UN只存在于用户的内心 但是通常用文本严格地说 UN只存在于用户的内心 但是通常用文本来描述 如查找与2006世界杯相关的新闻 有时也称为主题 Topic UN提交给检索系统时称为查询 Query 如2006世界杯 对同一个UN 不同人不同时候可以构造出不同的Query 比如上述需求也可表示成2006世界杯新闻 Query在IR系统中往往还有内部表示 17 信息检索中的基本概念 文档与文档集 文档 Document 检索的对象可以是文本 也可以是图像 视频 语音等多媒体文档 textretrieval imageretrieval videoretrieval speechretrieval multimediaretrieval可以是无格式 半格式 有格式的文档集合 Collection 所有待检索的文档构成的集合也称为Repository Corpus 18 信息检索的基本概念 相关度 相关 relevant 相关度relevance 相关取决于用户的判断 是一个主观概念不同用户做出的判断很难保证一致 即使是同一用户在不同时期 不同环境下做出的判断也不尽相同 19 信息检索的基本概念 相关度 续 定义 相关性 的两个角度 系统角度 系统输出结果 用户是信息的接受者 这种理解置用户于被动的地位 基于这种理解 研究的重心落在系统本身 主题相关性 检索系统检出的文档的主题即核心内容与用户的信息需求相匹配 系统角度相关并不和用户脱节 系统角度定义的相关简单可以计算 用户角度 观察用户对检索结果的反应 是系统输出向用户需求的投射 相关性被认为是用户方面的属性 用户角度定义的相关目前仍然难以计算 现代信息检索研究中仍然主要采用系统角度定义的主题相关性概念 当然也强调考虑用户的认知因素 20 信息检索的基本概念 相关度 续 21 信息检索的基本概念 相关度 续 形式上说 信息检索中的相关度是一个函数R 输入是查询Q 文档D和文档集合C 返回的是一个实数值R f Q D C 信息检索就是给定一个查询Q 从文档集合C中计算每篇文档D与Q的相关度并排序 Ranking 相关度通常只有相对意义 对一个Q 不同文档的相关度可以比较 而对于不同的Q的相关度不便比较相关度的输入信息可以更多 比如用户的背景信息 用户的查询历史等等现代信息检索中相关度不是唯一度量 如还有 重要度 权威度 新颖度等度量 或者说这些因子都影响Google中据说用了上百种排名因子 22 信息检索的基本概念 信息检索和数据库检索 23 近年来 随着XML的出现 两种检索已经逐渐融合 边界越来越不明显 信息检索课程介绍 本文将主要介绍面向文本对象的检索 即文本检索 textretrieval 文本是人们表达知识 论文 交流 口语 的最常用的形式 文本可以用于描述其他媒体 其他媒体形式的检索的方法往往借鉴自文本检索 信息检索的两种研究方式 以计算机为中心 IR的工作主要是建立索引 对用户查询进行处理 排序算法等等以用户为中心 IR的主要工作是考察用户的行为 理解用户的需求 这些行为和需求如何影响检索系统的组织本课程主要研究以计算机为中心的IR问题 目前是主流 24 提纲 信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程 25 历史分段 计算机出现以前计算机出现以后Internet出现以后 26 IR历史 计算机出现以前 计算机出现以前 约4000年前 人类就开始有目的地组织信息 一个典型的例子就是图书中的目录 随后 逐渐出现索引的概念 即从一些词和概念指向相关信息或者文档的指针 计算机问世以前 人们主要通过手工方式来建立索引 27 IR历史 计算机出现以后 1948 C N Mooers在其MIT的硕士论文中第一次创造了 InformationRetrieval 这个术语 1960 70年代 人们开始使用计算机为一些小规模科技和商业文献的摘要建立文本检索系统 产生了布尔模型 BooleanModel 向量空间模型 VectorSpaceModel 和概率检索模型 ProbabilisticModel 康奈尔大学的Salton领导的研究小组是该领域研究的佼佼者 伦敦城市大学的Robertson及剑桥大学的SparckJones是概率模型的倡导者 28 IR历史 计算机出现以后 续 1980年代 出现了一些商用的较大规模数据库检索系统Lexis NexisDialogMEDLINE 29 IR历史 Internet出现以后 1986 Internet正式形成1990 s 第一个网络搜索工具 1990年加拿大蒙特利尔大学开发的FTP搜索工具Archie第一个WEB搜索引擎 1994年美国CMU开发的Lycos1995 斯坦福大学博士生开发的Yahoo1998 斯坦福大学博士生开发的Google 提出PageRank计算公式 1998 基于语言模型的IR模型提出 30 IR历史 Internet出现以后 续1 1990年代的其他重要事件 评测会议NISTTREC推荐系统的出现RingoAmazonNetPerceptions文本分类和聚类的使用 31 IR历史 Internet出现以后 续2 2000 s信息抽取WhizbangFetchBurningGlass问答系统TRECQ Atrack2001年 百度成立 32 IR历史 Internet出现以后 续3 2000以来的其他重要事件 多媒体IRImageVideoAudioandmusic跨语言IRDARPATides文本摘要DUC评测 33 提纲 信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程 34 相关研究领域 图书情报学 Library Info Science 数据库管理 DatabaseManagement 人工智能 ArtificialIntelligence 自然语言处理 NaturalLanguageProcessing 机器学习 MachineLearning 35 图书情报学 LibraryandInformationScience LIS IR最初起源于LISLIS主要关注IR中的用户方 人机交互 用户界面 可视化 LIS关注人类只是的高效分类LIS关注文献的引用分析 citationanalysis 和文献计量 bibliometrics 近年来数字图书馆方面的工作使得LIS和IR日益融合 36 数据库管理系统 DatabaseManagement DM DM主要面向关系表中的结构化数据而非自由文本 DM主要集中于高效解决形式化语言 如SQL 定义的查询 DM中不论是查询还是数据都具有明确的语义 近年来半结构化的XML数据的出现使DM和IR逐渐融合 37 人工智能 ArtificialIntelligence AI AI关注知识的表示 推理和智能行为 AI中知识的形式化表示一阶谓词逻辑 FirstOrderPredicateLogic 贝叶斯网络 BayesianNetworks 近年来Web本体及智能信息Agen方面研究使得IR和AI相互融合 38 自然语言理解 NaturalLanguageProcessing NLP NLP关注自然语言文本的语法 syntactic 语义 semantic 及语用 pragmatic 分析 NLP可以分析短语结构和语义 使得IR可以在短语上 或者从语义上进行处理 而不是仅仅基于单个关键词 NLP和IR天生就是融合的 39 NLP和IR融合的其他方面 通过上下文词义消歧 wordsensedisambiguation 来确定一个词在某个特定上下文的语义 通过一些NLP方法来获得文档中的一个语言片断 informationextraction 通过NLP方法可以从文档集合中返回一些问题的答案 questionanswering 40 机器学习 MachineLearning ML ML关注通过对经验的学习来提高计算机系统的性能 从标注好的例子中学习相关概念 然后进行自动分类 有监督的学习 supervisedlearning 将未标注的例子自动聚集到有意义的不同集合中 无监督的学习 unsupervisedlearning 41 ML和IR融合的方面 文本分类 TextCategorization 自动层次分类 如Yahoo目录 自适应过滤或推荐 Adaptivefiltering recommending 垃圾过滤 Spamfiltering 文本聚类 TextClustering IR结果的自动聚类层次型类别体系的自动构建 如Yahoo 42 提纲 信息检索的基本概念信息检索的历史信息检索和其他学科的关系信息检索的基本流程 43 IR系统示意图 44 IR系统的组成框架 45 IR系统的组成部分 1 用户接口 UserInterface 用户和IR系统的人机接口输入查询 Query 返回排序后的结果文档 RankedDocs 并对其进行可视化 Visualization 支持用户进行相关反馈 Feedback 用户的两种任务 retrieval或者browsingIR的两种模式 pull adhoc 或者push filtering Pull 用户是主动的发起请求 在一个相对稳定的数据集合上进行查询Push 用户事先定义自己的兴趣 系统在不断到来的流动数据上进行操作 将满足用户兴趣的数据推送给用户 46 IR系统的组成部分 2 文本处理 TextOperations 对查询和文本进行的预处理操作中文分词 ChineseWordSegmentation 词干还原 Stemming 停用词消除 Stopwordremoval 查询处理 Queryoperations 对经过文本处理后的查询进行进一步处理 得到查询的内部表示 QueryRepresentation 查询扩展 QueryExpansion 利用同义词或者近义词对查询进行扩展查询重构 QueryReconstruction 利用用户的相关反馈信息对查询进行修改文本标引 Indexing 对经过文本处理后的文本进行进一步处理 得到文本的内部表示 TextRepresentation 通常基于标引项 Term 向量化 概率计算组成成倒排表进行存储 47 IR系统的组成部分 3 搜索 Searching 从文本中查找包含查询中标引项的文本排序 Ranking 对搜索出的文本按照某种方式来计算其相关度LogicalView 指的是查询或者文本的表示 通常采用一些关键词或者标引项 indexterm 来表示一段查询或者文本 48 本章小结 信息检索是一门交叉学科 不仅仅是搜索信息检索中的用户需求 查询 文档 文档集 相关度概念信息检索和其他学科领域的关系信息检索的组成和流程 49 课后思考题 信息检索的定义是什么 请列举几种信息检索的应用 信息检索的基本流程如何 各组成部分的功能是什么 50
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!