搜索引擎重复网页发现技术分析.pptx

资源描述

搜索引擎重复网页发现技术分析中科院软件所作者张俊林一介绍统计结果表明近似镜像网页数占总网页数的比例高达全部页面的29 而完全相同的页面大约占全部页面的22 这些重复网页有的是没有一点改动的拷贝有的在内容上稍作修改比如同一文章的不同版本一个新一点一个老一点有的则仅仅是网页的格式不同如HTML Postscript 文献 Models andAlgorithmsforDuplicateDocumentDetection1999年将内容重复归结为以下四个类型 1 如果2篇文档内容和格式上毫无差别则这种重复叫做full layoutduplicate 2 如果2篇文档内容相同但是格式不同则叫做full contentduplicates 3 如果2篇文档有部分重要的内容相同并且格式相同则称为partial layoutduplicates 4 如果2篇文档有部分重要的内容相同但是格式不同则称为partial contentduplicates 近似重复网页发现技术就是通过技术手段快速全面发现这些重复信息的手段如何快速准确地发现这些内容上相似的网页已经成为提高搜索引擎服务质量的关键技术之一发现重复或者近似网页对于搜索引擎有很多好处 1 首先如果我们能够找出这些重复网页并从数据库中去掉就能够节省一部分存储空间进而可以利用这部分空间来存放更多的有效网页内容同时也提高了web检索的质量 2 其次如果我们能够通过对以往搜集信息的分析预先发现重复网页在今后的网页搜集过程中就可以避开这些网页从而提高有效网页的搜集速度有研究表明重复网页随着时间级别不发生太大变化所以这种从重复页面集合中选择部分页面进行索引是有效的 3 另外如果某个网页的镜像度较高也就预示着该网页相对重要在搜集网页时应赋予它较高的优先级而当搜索引擎系统在响应用户的检索请求并对输出结果排序时应该赋予它较高的权值 4 从另外一个角度看如果用户点击了一个死链接那么可以将用户引导到一个相同页面这样可以有效的增加用户的检索体验因而近似镜像网页的及时发现有利于改善搜索引擎系统的服务质量二基本处理流程通过分析现有技术可以归纳出以下几个解决该问题的核心技术点每个不同的技术基本上是由这几个技术点构成无非是具体采纳的技术不同而已 1 文档对象的特征抽取将文档内容分解由若干组成文档的特征集合表示这一步是为了方面后面的特征比较计算相似度 2 特征的压缩编码通过HASH编码等文本向数字串映射方式以方便后续的特征存储以及特征比较起到减少存储空间加快比较速度的作用 3 文档相似度计算根据文档特征重合比例来确定是否重复文档 4 聚类算法通过叠代计算算出哪些文档集合是根据相似度计算是相近的 5 工程化问题出于海量数据计算速度的考虑提出一些速度优化算法以使得算法实用化我们可以从几个不同的角度对于现有的方法进行分类 l按照利用的信息现有方法可以分为以下三类 1 只是利用内容计算相似 2 结合内容和链接关系计算相似 3 结合内容链接关系以及url文字进行相似计算评价现有绝大部分方法还是利用文本内容进行相似识别其它两种利用链接关系以及URL文字的方法还不是很成熟而且从效果看引入其它特征收效并不明显所以从实际出发还是选择利用内容进行相似计算的算法 l按照特征提取的粒度现有方法可以分为以下三类 1 按照单词这个级别的粒度进行特征提取 2 按照SHINGLE这个级别的粒度进行特征提取 SHNGLE是若干个连续出现的单词级别处于文档和单词之间比文档粒度小比单词粒度大 3 按照整个文档这个级别的粒度进行特征提取评价目前这个领域里面很多工作借鉴类似于信息检索的方法来识别相似文档其本质和SHINGLE等是相同的都是比较两个文档的重合程度但是区别是SHINGLE是将若干单词组成片断粒度比较大而信息检索类方法其实是用单词作为比较粒度粒度比较小粒度越大计算速度越快而粒度越小计算速度越慢所以信息检索类方法是不实用的而且对SHINGLE的改进以及新提出的方法的发展趋势也是粒度越来越大这样才能解决实际使用中速度的问题粒度最大的极端情况是每个文档用一个HASH函数编码比如MD5 这样只要编码相同就说明文档完全相同但是粒度太大带来的问题是对于细微的变化文档无法判别只能判断是否完全相同至于部分相同以及相同的程度无法判断所以现有方法也可以从以下角度分类粒度最小粒度单词中等粒度 SHINGLE 最大粒度整个文档可见SHINGLE类方法其实是在速度和精确程度上的一种折中方法可以探讨不同粒度的效果比如以句子为单位进行编码以段落为单位编码等不同粒度的编码单位还可以考虑动态的编码首先以自然段落编码进行判别如果发现部分相似然后针对不同的部分再以细小粒度比如句子甚至单词级别的比较所谓SUPER SHINGLE就是将粒度放大得到的粒度越大好处是计算速度越快对于MD5整个文档来说每个文档一个HASH编码然后排序将相同的找出是速度最快的缺点是会遗漏很多部分相似的文档粒度越小好处是招回率比较高缺点是计算速度减慢 l按照去处重复的级别进行分类去处重复三个级别 1 镜像站点根据站点内相似页面多少进行判断实现相对简单 2 完全相同网页实现相对简单并且速度比较块可以根据页面MD5整个文档来说每个文档一个HASH编码然后排序将相同的找出 3 部分相同页面实现相对负责目前大多工作在这个部分评价三个级别应该从最高级别到较低级别分别进行因为有很大比例 22 的内容是完全相同的这个部分实现起来相对简单而且如果这个部分已经识别那么针对部分相同页面的计算量会大量减少这样应该可以减少总体的计算时间 l按照去重的时机可以分为以下三类 1 抓取页面的时候去重这样可以减少带宽以及减少存储数量 2 索引之后进行去重 3 用户检索时候进行再次去重增加准确性耗费时间评价可以结合三个时机某个或者所有都结合对于GOOGLE来说很可能是结合了2和3两种方法 GOOGLE的很多思路建立在后台计算和实时计算联合比如相关度计算后台计算重要性得分在用户输入查询后得到初始数据集合然后根据这个数据集合之间文档的关系重新调整顺序比如去处重复首先在后台进行重复发现为了增加精确度在返回查询结果后在返回文档集合内又根据描述部分重新计算哪些文档是重复的这样增加了准确性估计其它很多相关算法也采取这种联合策略为了加快速度实时计算部分可以和CACHE部分结合进行计算 l按照不同的特征选择方法有几种方式 1 完全保留特征 2 特征选择设置不同的选择策略来保留部分特征抛弃其它特征 a 比如对于单词级别的抛弃权重小的单词 I MATCH b 对于SHINGLE方法可以保留部分SHINGLE抛弃其它SHINGLE 1 一种是保留FINGERPRINT第I个位置为0的SHINGLE 其它抛弃 2 一种是每隔I个SHINGLE进行抽样保留其它抛弃这两种得到的文档SHINGLE数目是变长的 3 一种是选择最小的K个SHINGLE 这种得到定长的 SHINGLE数目 4 用84个RABINFINGERPRINT函数对于每个SHINGLE进行计算保留数值最小的84个FINGERPRINT 这个方法是定长的对于SHINGLE类方法来说还可以区分为定长的和变长的block切分算法定长算法速度快但是如果内容有稍微变化比如插入或者删除一个字符或者单词其影响会比较大比如Shingle及其改进方法 Super Shingle CSC及其改进方法 CSC SS 变长算法速度相对慢但是内容变化只是造成局部影响比如CDC TTTD等算法评价为了提高计算速度一种策略是在特征提取的时候抛弃部分特征保留部分特征通过减少特征数目来加快计算速度另外一个策略是粒度尽可能加大比如SUPER SHINGLE MEGA SHINGLE甚至是文档基本为了提高算法效果策略是采取变长的内容切割算法比如CSC算法等这三种策略是方法加快速度和准确性的发展方向一些初步的结论 1 对于信息检索类型的方法来说由于其特征选择是基于单词的所以计算速度是个根本的问题所以基本上是不实用的 2 从利用的信息来看实用的系统还是应该立足于只是利用文本内容来判别相似性排除掉利用链接信息等方法 3 从算法特征抽取粒度来看应该立足于SHINLGE类的粒度甚至是文档级别的粒度算法而SHINGLE类别的算法又应该优先选择抛弃部分特征的算法以及变长的算法 4 从去重级别角度考虑应该将完全相同的文档和部分相同的文档识别分开进行而且首先进行完全相同文档的识别这样会有效加快计算速度 5 从去重时机考虑可以考虑结合后台去重以及实时去重这样增加去重的效果 6 从压缩编码方法来看最有效的方式可能是RABINFINGERPRINT变体算法 7 从聚类方法来看最有效的方式可能是UNIONFIND算法目前比较快的算法基本上都采用这个方法 8 从整体方法选择来看应该选择改进的SHINLGE方法在此基础上进行进一步的改进三方法效率比较 1 SHINGLING方法时间效率O mn 2 其中m是SHINGLE的大小 n是文档数目计算时间为 3千万文档 10台机器算一天或者一台机器算10天 2 改进的SHINGLE方法 OntheEvolutionofClustersofNear DuplicateWebPages 时间效率接近于线性的O n 计算时间为 1亿5千万网页计算3个小时 3 IMACH方法最坏的情况下时间复杂度是 O dlogd 速度比较快 4 BLOOMFILTER方法 10k数据花费大约66ms 从计算效率考虑速度排序为 1 改进的SHINGLE方法 2 IMATCH方法 3 BLOOMFILTER方法 4 SHINGLE方法四目前代表性解决方法分析1 Shingle方法 1997年 a 特征抽取 Shingle方法所谓Shingle类似于自然语言处理中常用的N GRAM方法就是将相互连续出现窗口大小为N的单词串作为一个Shingle 两者的不同点在于Shingle是这些串的集合相同的串会合并为一个而N GRAM则由于考虑的是文本线性结构所以没有相同合并步骤每个Shingle就是文档的一个特征一篇文档就是由所有这些Shingle构成的 b 压缩编码 40bit长度RabinFingerPrint方法至于存储方式则类似于传统信息检索领域的倒排文档技术存储信息以记录某个特征在哪些文档中出现过然后进一步计算文档的相似性 c 文档相似度计算 1 相似度任意两个文档A和B 相似度指的是两者相同的 Shingle数目占两者Shingle数目总和的比例 2 包含度指的是两者相同的Shingle数目占某篇文档 Shingle数目的比例 d 优化措施 1 分布计算然后合并 2 抛弃超高频出现Shingle 分析发现这些Shingle是无意义的片断 3 完全相同文档保留一份进行聚类文档是否完全相同根据压缩编码后数值是否相同判断 4 SuperShingle 关于Shingle的Shingle 从更大结构上计算相似性以节省存储空间 2 Google可能采取的方法a 特征抽取类似于Shingle方法不同点在于对于每个单词根据HASH函数决定属于哪个LIST 这样每个文档由若干个这样的LIST构成 b 压缩编码 FingerPrint方法对于组成文档的LIST进行FingerPrint方法计算 c 文档相似度计算编辑距离 EditDistance 如果两个文档有任何一个FingerPrint相似就判断为内容接近 d 聚类方法首先对按照DocID进行排序然后采取UnionFind聚类方法聚类结果就是相似文档集合 e 优化措施 3 HP实验室方法 2005年 a 特征抽取基于内容的Chunk方法变长而非定长的Chunk算法 TTTD算法将一篇文档分解为若干个长度不同的Chunk 每个Chunk作为文本的一个特征与shingle方法相比这种变长Chunk方法能够增加系统招回率 b 压缩编码 128bitMD5HASH方法每篇文章压缩编码后由若干二元组构成 c 文档相似度计算 1 构建所有文档和Chunk构成的二分图 2 找到文档A包含的所有CHUNK 计算这些CHUNK还被哪些其它文档包含 3 计算这些文档和A的相似性 d 聚类方法 UnionFind算法 e 优化措施 Bipartite划分本质上是将大规模数据分成小规模数据进行识别然后再合并结果相当于分布计算 4 bloomfilter 2005年 1 特征抽取方法基于内容的语块 Content definedchunkingCDC CDC将文档切分为变长的内容片断切分边界由rabinfringerprint和预先制定的maker数值匹配来进行判断 2 编码构造bloomfilter集合元素对于切分的片断进行编码 bloomfilter的编码方式如下整个文档是由片断构成的文档由长为m的二值数组表示在将一个元素内容片断进行编码插入集合的时候利用k个不同的hash函数进行编码每个hash函数设置m个位置的某个位置为1 这种技术以前主要用来进行判断某个元素是否被集合包含 3 相似度计算方法 bloomfilter方法对于两个已经编码的文档两个长度为m的二值数组通过bit逻辑运算AND计算如果两者很多位置都同时为1 那么两个文档被认为是近似的 4 优势 1 文档编码形式简洁便于存储 2 由于计算相似性是BIT逻辑运算所以速度快 3 相对Shingling方式来说便于判断文档包含关系某个文档包含另外一个短小的文档 5 内容链接关系 2003年 1 特征抽取方法这个方法在抽取特征的时候同时考虑了文档的内容因素以及链接关系因素内容因素通过RandomProjection技术将文档内容从高维空间映射到低维空间并且由实数表示如果两个文档映射后的数字越接近则表明两者内容越相似链接因素通过考虑类似于PAGERANK的连接关系将某个网页的内容因素计算获得的分值通过链接传播到其他网页传播关系见下列公式多次叠代计算后得到每个页面的链接得分 2 相似度计算方法每个文档由二元组构成 RP代表内容部分的数值 HM代表链接关系代表的数值如果两个文档每个项之间的差值都小于指定值则判断两个文档是相似的 3 效果只采取内容精度达到90 两者结合精度达到93 从中看出链接的作用并不明显这可能跟这个方法的链接使用方法有关因为通过链接计算的还是内容的情况 6 I Match方法 2002年 1 I Match不依赖于完全的信息分析而是使用数据集合的统计特征来抽取文档的主要特征将非主要特征抛弃输入一篇文档根据词汇的IDF值过滤出一些关键特征并且计算出这篇文档的唯一的Hash值那些Hash值相同的文档就是重复的 2 使用SHA1作为Hash函数因为它的速度很快而且适用于任何长度 SHA 1生成一个20 byte或者160 bit的hash值并且使用一个安全的冲突消解算法使得不同的标志串 tokenstreams 生成相同的hash值的概率非常低把元组插入树结构的时间复杂度是 O dlogd 其他的如检索数据结构 hash表需要 O d 对重复 duplicate 的识别是在将数据插入hash数组或是树结构中进行的任何的hash值的冲突就表示检测到一个重复内容 3 最坏的情况下时间复杂度是 O dlogd 速度比较快

展开阅读全文