第三章_信息检索评价教材课件

资源描述

第三章:信息检索系统的评价任飞亮东北大学自然语言处理实验室2010 第三章:信息检索系统的评价任飞亮1内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究内容提要引言2内容提要n引言引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究内容提要引言3评价n评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值，或者是某项政策的效果等等n信息检索评价则是指对信息检索系统的性能（主要是其满足用户信息需求的能力）进行评估的活动n从信息检索系统诞生以来，对检索系统的评价就一直是推动其研究、开发与应推动其研究、开发与应用用的一种主要力量评价评价一般是指评估某个系统的性能、某种产品的质量、某项技术4信息检索的评价n针对一个检索系统，可以从功能和性能两个方面对其进行分析评价n功能评价n可通过测试系统来判定是否支持某项功能n因此相对来说较容易n性能评价n时间与空间性能n相关度排序性能用户真正关心的性能信息检索的评价针对一个检索系统，可以从功能和性能两个方面对其5评价信息检索系统的困难n相关性不是二值评价，而是一个连续的量n即使进行二值评价，很多时候也很难n从人的立场上看，相关性具有如下特点：n主观的，依赖于特定用户的判断n情景相关的，依赖于用户的需求n认知的，依赖于人的认知和行为能力n时变的，随着时间而变化评价信息检索系统的困难相关性不是二值评价，而是一个连续的量6准备条件：n在评价和比较检索系统的检索性能时,需要以下条件:n一个文档集合C。系统将从该集合中按照查询要求检出相关文档n一组用户查询要求q1,q2,qn。每个查询要求qi描述了用户的信息需求n对应每个用户查询要求的标准相关文档集R1,R2,Rn。该集合可由人工方式构造n一组评价指标。n这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值准备条件：在评价和比较检索系统的检索性能时,需要以下条件:7内容提要n引言n性能评价指标性能评价指标n基本评价指标基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究内容提要引言8基本评价指标n准确率与召回率n平均准确率基本评价指标准确率与召回率9基本评价指标n准确率与召回率准确率与召回率n平均准确率基本评价指标准确率与召回率10召回率和准确率(查全率和查准率)相关文本相关文本检索出的检索出的文本文本全部文本集合全部文本集合检出且相关未检出且相关检出且不相关未检出且不相关检出未检出相关不相关召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设：文本集中所有文献已进行假设：文本集中所有文献已进行了检查了检查召回率和准确率(查全率和查准率)相关文本检索出的全部文本集合11举例nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果：1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3 (准确率,召回率)(100%,10%)(66%,20%)(50%,30%)(40%,40%)(33%,50%)准确率上升的时候准确率上升的时候,召回率在下降召回率在下降,反之亦然反之亦然!相关文档集举例ExampleRq=d3,d5,d9,d25,d3912准确率和召回率的关系101准确率召回率返回最相关的文本但是漏掉了很多相关文本理想情况返回了大多数相关文档但是包含很多垃圾准确率和召回率的关系101准确率召回率返回最相关的文本理想情1311点标准召回率下的准确率曲线n11个标准召回率下所对应的准确率:0%,10%,20%,100%02040608010020406080100插值法准确率召回率准确率准确率上升的上升的时候时候,召召回率在回率在下降下降,反反之亦然之亦然!11点标准召回率下的准确率曲线11个标准召回率下所对应的准确14基本评价指标n准确率与召回率n平均准确率平均准确率基本评价指标准确率与召回率15平均准确率n上述准确率召回率的值对应一个查询n每个查询对应不同的准确/召回率曲线n为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下：Nq:使用的查询总数Pi(r):在召回率为r时的第i个查询的准确率平均准确率上述准确率召回率的值对应一个查询Nq:使用的查询16多个查询下进行检索算法的比较n对多个查询，进行平均，有时该曲线也称为：准确率/召回率的值。n如下为两个检索算法在多个查询下的准确率/召回率的值。n第一个检索算法在低召回率率下，其准确率较高。n另一个检索算法在高召回率下，其准确率较高多个查询下进行检索算法的比较对多个查询，进行平均，有时该曲线17准确率与召回率评价的适应性n这两个指标相互关联，评价不同方面，结合在一起形成单个测度更合适n测的是批处理模式下查询集合性能准确率与召回率评价的适应性这两个指标相互关联，评价不同方面，18内容提要n引言n性能评价指标n基本评价指标n单值评价指标单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究内容提要引言19单值评价方法n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图单值评价方法随着测试集规模的扩大以及人们对评测结果理解的深入20单值评价方法n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图单值评价方法随着测试集规模的扩大以及人们对评测结果理解的深入21已检出相关文献的平均准确率均值nMean Average Precision,MAPn最近几年常用的评价标准n单个查询的平均准确率是逐个考察排序中每个新的相关文档,然后对其准确率值进行平均后的平均值;n查询集合的平均准确率是每个查询的平均准确率MAP的平均值,MAP的计算公式如下:nMAP是反映系统在全部查询上性能的单值指标n系统检索出来的相关文档位置越靠前,MAP就可能越高.n如果系统没有返回相关文档,则MAP默认为0.r为相关文档数已检出相关文献的平均准确率均值Mean Average Pr22MAP-例子MAP=?nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果：n1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3(1+0.66+0.5+0.4+0.3)/5=0.57相关文档集MAP-例子MAP=?ExampleRq=d3,d23新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图新的评价指标随着测试集规模的扩大以及人们对评测结果理解的深入24P10评价n定义:系统对于查询返回的前10个结果的准准确率确率.n考虑到用户在查看搜索引擎结果时,往往希望在第一个页面(通常为10个结果)就找到自己所需的信息,因此P10能比较真实有效地反映在真实应用环境下所表现的性能.P10评价定义:系统对于查询返回的前10个结果的准确率.25P10-例子P10=?nExampleRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123n通过某一个检索算法得到的排序结果：n1.d123 6.d9 11.d382.d847.d511 12.d483.d56 8.d129 13.d2504.d69.d187 14.d1135.d8 10.d25 15.d3 0.4相关文档集P10-例子P10=?ExampleRq=d326新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率准确率n准确率直方图新的评价指标随着测试集规模的扩大以及人们对评测结果理解的深入27R准确率n单个查询的R准确率是指检索出R篇相关文篇相关文档档时的准确率准确率.nR是当前检索中相关文档总数n查询集合中所有查询的R准确率是每个查询的R准确率的平均值.R准确率单个查询的R准确率是指检索出R篇相关文档时的准确率.28R准确率-例子1.d123 6.d9 2.d847.d5113.d56 8.d1294.d69.d1875.d8 10.d25 10-准确率=?1.d1232.d843.d56 10-precision=4/10=0.43-准确率=?3-precision=1/3=0.333R准确率-例子1.d123 6.d9 29新的评价指标n随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现n单值评价方法n已检出相关文献的平均准确率均值nP10nR准确率n准确率直方图准确率直方图新的评价指标随着测试集规模的扩大以及人们对评测结果理解的深入30准确率直方图n用于快速比较两个检索算法的性能n在多个查询下,分别计算每一查询下的R准确率,计算其差值,并用直方图表示.n用RPA(i)和RPB(i)分别表示使用检索算法A和检索算法B检索第i个查询时得到的R准确率,它们之间的差值RPA-B(i)=RPA(i)-RPB(i)nRPA-B=0:对于第i个查询，两个算法有相同的性能nRPA-B0:对于第i个查询，算法A有较好的性能nRPA-B1时，表示准确率P的重要性大于召回率Rn当b1时，表示召回率R的重要性大于准确率PE评价指标E评价指标是另一种把准确率和召回率结合在一起的评价62其他测度方法n调和平均值nE评价指标n面向用户的测度方法面向用户的测度方法其他测度方法调和平均值63面向用户的测度方法n覆盖率：在用户已知的相关文档集合中,检出相关文档所占的比例n新颖率：检出的相关文献中用户未知的相关文献所占的比例U为用户已知的相关文档集Rk为系统检索出的文档集合A与集合U的交集Ru为检出的用户以前未知的相关文档集面向用户的测度方法覆盖率：在用户已知的相关文档集合中,检出相64图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文献|U|检出的用户以前未知的相关文献|Ru|检出的用户已知的相关文献|Rk|图示覆盖率和新颖率相关文献|R|结果集|A|用户已知的相关文65内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测国外信息检索评测n信息检索评价的研究内容提要引言66国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEF国外的评测统一评测的意义67国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEF国外的评测统一评测的意义68TREC评测nTREC评测 n文本检索会议（Text Retrieval Conference，TREC）是信息检索(IR)界为进行检索系统和用户评价而举行的活动,它由美国国家标准技术协会(NIST)和美国高级研究计划局(DARPA)（美国国防部）共同资助，开始于1992年。n主要致力于以下几个方面n促进基于大规模测试文档集的检索研究。n为了反映现实系统的主题多样性，必须保证有足够的实验语料集，TREC的文献集合一般在2G左右，包括50100万篇文献；n建立一个开放的论坛来交流研究思想，使与会者能交流研究的成果与心得，促进企业学术机构和政府部门之间的交流沟通。n通过展示检索方法在解决实际问题中的有效性，来加速实验室技术的商业化产品转换。n通过提供大型的语料库、统一的测试程序，有系统地整理评测结果，达到改善文本检索评价和检验方法的目标。TREC评测TREC评测 69TREC评测任务n早期的评测任务：nAd hoc检索任务（传统的批处理检索）n类似图书馆里的书籍检索，即书籍库（数据库、文档集合）相对稳定不变，而用户的查询要求是千变万化的。n主要研究任务包括对大数据库的索引查询、查询的扩展等；n固定主题检索任务(Information Routing)n用户的查询要求相对稳定，而文档集常常发生变化n研究的主要任务不是索引，而是对用户兴趣的建模，即如何为用户兴趣建立合适的数学模型；TREC评测任务早期的评测任务：70TREC评测任务n新的任务n博客任务：研究在博客上的信息检索方法n企业检索任务：研究企业搜索问题，即满足用户对组织机构的相关数据的信息检索需求；n基因数据检索任务：n法律文档检索任务：目的是提高律师检索电子文档集效率的技术n问答系统任务：要求系统能针对问题给出具体而明确的答案n垃圾邮件过滤任务n超大规模文档检索任务：目的是研究是否以及什么时候把传统信息检索中基于测试集的评价方法应用于超大规模文档集。TREC评测任务新的任务71TREC评测影响n在测试集方法：TREC评测的测试集开创了大量文档集、结构化的查询、务实的相关性判断，被信息检索的研究团体广泛采用；n在评测任务方面：TREC致力于持续地研究发展许多新的测试任务，为新的热点研究提供了急需的数据和评价体系，促进了这些技术的快速发展。n在会议及论坛方面：TREC会议的举行使得研究者能透过系统测试以及相互间的观摩切磋，使系统的检索技术得到提高，并获得更高的检索效益。TREC评测影响在测试集方法：TREC评测的测试集开创了大量72国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEF国外的评测统一评测的意义73NTCIRnNTCIR评测nNTCIR(NACSIS Test Collection for IR Systems)始于1998年，是由日本国立信息学研究所（National Institute of Informatics，简称NII）主办的搜索引擎评价型国际会议 n主要评测任务n传统的日文、中文、韩文、英文的单语ad hoc任务.n最重要的任务是跨语言信息检索。若以C、J、K、E分别代表中文、日文、韩文、英文，则有 CCJKE、JCJKE、KCJKE、ECJKE等极为复杂的检索任务。n另外一个比较重要的任务是中枢语言信息检索，这个任务是模拟在语言资源不足的情况下进行跨语言信息检索。n如要进行CK的跨语言信息检索，但是没有中韩双语词典，只好借用中英词典以及英韩词典，此时，英语就被视为中枢语言。NTCIRNTCIR评测74NTCIRn其他评测任务n问答挑战(Question Answering Challenge,QAC):它与TREC的QA任务类似，是单语QA，但是QAC的难度更大。它提供一种特别的QA评测任务，这些任务由一系列问题构成，这些问题是环环相扣。n网页检索：与TREC的Web 检索任务类似；n自动文摘：为文档进行摘要。n专利检索：与日本知识产权局合作的专利检索评测任务，其目的是为了提升专利检索的品质与绩效。NTCIR其他评测任务75国外的评测n统一评测的意义n同一个算法在不同的数据条件下得到的结果差异很大n没有统一的测试方法和共同的数据集合,几乎不可能比较不同算法n数据采集需花费很大的人力物力.而由政府学术机构或者学术团体组织的开放技术评测,可以为科研提供一种统一的、普遍认可的评价基准和大型测试集，节省了各个研究者重复采集数据而造成的重复付出，对整个领域的科学研究和技术进步起到很大的推动作用。n通过技术评测可以提出新的研究问题。n国外著名的评测nTRECnNTCIRnCLEF国外的评测统一评测的意义76CLEFnCLEF(Cross-Language Evaluation Forum)评测nCLEF于2000年开始筹办，是欧洲各国共同合作进行的一项长期研究计划，主要想通过评测信息科技技术，促进欧洲语言中的各种单一语言以及多语言信息技术的发展，nCLEF的目标只在于跨语言信息检索以及多语言信息检索方面 nCLEF的评测任务n跨语言文本检索：包括三个子任务，即单语检索、双语检索以及多语检索。n跨语言专利数据检索：主要是使用专业领域上下文的信息进行单语言以及跨语言的信息检索。n交互式跨语言检索(Interactive Cross-Language Retrieval(iCLEF):尝试模拟实际检索环境下使用者与检索系统的互动情形，以改善信息检索系统的性能。n多语问答:是一种跨语言QA检索评测n图像跨语言检索/跨语言语间检索CLEFCLEF(Cross-Language Evalua77内容提要n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究信息检索评价的研究内容提要引言78信息检索评价的研究n在评测推动下，取得了很大的成果。n今后的研究问题与趋势n增加测试数据集合的规模n继续针对相关判断的完整性与一致性做进一步研究；n信息检索评价方法的研究发展方向以TREC等信息检索评测具体的检索任务为发展方向。n中文信息检索评价以及评测还处于起步阶段，与国际知名评测仍有较大差距。信息检索评价的研究在评测推动下，取得了很大的成果。79本章小结n引言n性能评价指标n基本评价指标n单值评价指标n特殊的评价方法n其他评价方法n国外信息检索评测n信息检索评价的研究本章小结引言80思考题n1、分析对比MRR评价方法与MAP评价方法，并指出何时二者等价。n2、分析信息检索评价方法中的准确率与召回率评价方法的局限性。n3、在一个检索评价中，产生了几个查询，对每个查询，检索系统按相关度从高到低的顺序对返回的文档结果排序。对某个特定的主题，相关文档集是这样生成的：先将每个检索系统提交结果中排序为1的文档放入文档集，然后再依次将排序为2、排序为3、的文档放入文档集，直到文档集中有不少于120个不重复的文档为止。这120个文档分成6组，每组20个文档，交给6个人，进行人工相关性判断。如果一个人没有提交他的相关判断的结果，那么就只好将那20个文档判断为非相关的。问题：n1、如果有一个人未提交他的判断结果，那么会对相应主题的评价结果产生什么样的影响？这个影响会有多大？n2、这个影响是否会因检索系统而异？n3、假设120个文档都经过相关判断，对某个查询来说仍会有上百个文档是未经过判断的。这种情况会对这个查询的评价结果产生什么样的影响？n请以召回率、准确率以及平均准确率为中心对此问题进行讨论。思考题1、分析对比MRR评价方法与MAP评价方法，并指出何时81

展开阅读全文

第三章_信息检索评价教材课件

最新文档