Pagerank算法介绍.ppt

上传人:sh****n 文档编号:6395923 上传时间:2020-02-24 格式:PPT 页数:35 大小:4.73MB
返回 下载 相关 举报
Pagerank算法介绍.ppt_第1页
第1页 / 共35页
Pagerank算法介绍.ppt_第2页
第2页 / 共35页
Pagerank算法介绍.ppt_第3页
第3页 / 共35页
点击查看更多>>
资源描述
PageRank算法介绍 李鹏飞2013 4 28 Google服务器 Google工作电脑 Google爬虫 网页 Google存储系统 搜索引擎示意 目录 Google的网页排序PageRank算法求解PageRank算法的应用小结 Google的网页排序 在Google中搜索 体育新闻 Google的网页排序 在Google中搜索 体育新闻 搜索引擎工作的简要过程如下针对查询词 体育新闻 进行分词 体育 新闻 根据建立的倒排索引 将同时包含 体育 和 新闻 的文档返回 并根据相关性进行排序这里的相关性主要是基于内容的相关性但是会有一些垃圾网页 虽然也包含大量的查询词 但却并非满足用户需要的文档 如下图 一个网页中虽然出现了四次 体育新闻 但却不是用户所需要的因此 页面本身的重要性在网页排序中也起着很重要的作用 查询词和文档的相关性 Google的网页排序 在Google中搜索 体育新闻 Google的网页排序 如何度量网页本身的重要性呢 互联网上的每一篇html文档除了包含文本 图片 视频等信息外 还包含了大量的链接关系 利用这些链接关系 能够发现某些重要的网页直观地看 某网页A链向网页B 则可以认为网页A觉得网页B有链接价值 是比较重要的网页 某网页被指向的次数越多 则它的重要性越高 越是重要的网页 所链接的网页的重要性也越高 A B 网页是节点 网页间的链接关系是边 Google的网页排序 如何度量网页本身的重要性呢 比如 新华网体育在其首页中对新浪体育做了链接 人民网体育同样在其首页中对新浪体育做了链接可见 新浪体育被链接的次数较多 同时 人民网体育和新华网体育也都是比较 重要 的网页 因此新浪体育也应该是比较 重要 的网页 新华网体育 人民网体育 Google的网页排序 一个更加形象的图 链向网页E的链接远远大于链向网页C的链接 但是网页C的重要性却大于网页E 这是因为因为网页C被网页B所链接 而网页B有很高的重要性 Pagerank算法简介 创始人 拉里佩奇 LarryPage Google创始人之一应用 是Google用来衡量一个网站的好坏的唯一标准 Google的网页排序 PageRank的提出Google的创始人之一LarryPage于1998年提出了PageRank 并应用在Google搜索引擎的检索结果排序上 该技术也是Google早期的核心技术之一LarryPage是Google的创始首席执行官 2001年4月转任现职产品总裁 他目前仍与EricSchmidt和SergeyBrin一起共同负责Google的日常运作 他在斯坦福大学攻读计算机科学博士学位期间 遇到了SergeyBrin 他们于1998年合伙创立Google Pagerank算法原理 Google的网页排序 网页的PageRank值PR值 取值0 10Google工具栏98 Pagerank算法相关概念 PR值 用来评价网页的重要性 PR值越大越重要 其级别从0到10级 一般PR值达到4 就算是一个不错的网站了 Google把自己的网站的PR值定到10 这说明Google这个网站是非常受欢迎的 也可以说这个网站非常重要 阻尼因数 dampingfactor 其值为0 85阻尼系数d定义为用户不断随机点击链接的概率 所以 它取决于点击的次数 被设定为0 1之间 d的值越高 继续点击链接的概率就越大 因此 用户停止点击并随机冲浪至另一页面的概率在式子中用常数 1 d 表示 无论入站链接如何 随机冲浪至一个页面的概率总是 1 d 1 d 本身也就是页面本身所具有的PageRank值 Pagerank核心思想 PageRank通过网络浩瀚的超链接关系来确定一个页面的等级 Google把从A页面到B页面的链接解释为A页面给B页面投票 Google根据投票来源 甚至来源的来源 即链接到A页面的页面 和投票目标的等级来决定新的等级 这样 PageRank会根据网页B所收到的投票数量来评估该网页的重要性 此外 PageRank还会评估每个投票网页的重要性 因为某些重要网页的投票被认为具有较高的价值 这样 它所链接的网页就能获得较高的价值 这就是PageRank的核心思想 当然PageRank算法的实际实现上要复杂很多 PageRank简单计算 假设一个由只有4个页面组成的集合 A B C和D 如果所有页面都链向A 那么A的PR PageRank 值将是B C及D的和 继续假设B也有链接到C 并且D也有链接到包括A的3个页面 一个页面不能投票2次 所以B给每个页面半票 以同样的逻辑 D投出的票只有三分之一算到了A的PageRank上 换句话说 根据链出总数平分一个页面的PR值 如图1所示的例子来说明PageRank的具体计算过程 PR值计算公式 PR A 1 d N d PR t1 C t1 PR tn C tn N 网络中网页总数d 阻尼因数PR x 网页x的PR值C tn 网页tn的链出网页数一个页面的PageRank是由其他页面的PageRank计算得到 Google不断的重复计算每个页面的PageRank 如果给每个页面一个随机PageRank值 非0 那么经过不断的重复计算 这些页面的PR值会趋向于正常和稳定 这就是搜索引擎使用它的原因 PR值的取决因素 链入网页数链入网页的质量链入网页的链出网页数 PageRank值是一个特殊矩阵中的特征向量 这个特征向量为 PR值的计算 1 PR A 1 d n d PR t1 C t1 PR tn C tn PR值的计算 2 1 d n d PR t1 C t1 PR tn C tn 2 2使用幂法求PageRank 幂法计算过程如下 X设任意一个初始向量 即设置初始每个网页的PageRank值均 一般为1 R AX while 1 if lX RI e 如果最后两次的结果近似或者相同 返回RreturnR else X R R AX 一 P概率转移矩阵的计算过程 先建立一个网页间的链接关系的模型 即我们需要合适的数据结构表示页面间的连接关系 1 首先我们使用图的形式来表述网页之间关系 现在假设只有四张网页集合 A B C 其抽象结构如下图1 2 3求解步骤 2 我们用矩阵表示连通图 用邻接矩阵P表示这个图中顶点关系 如果顶 页面 i向顶点 页面 j有链接情况 则pij 1 否则pij 0 如图2所示 如果网页文件总数为N 那么这个网页链接矩阵就是一个NxN的矩阵 3 网页链接概率矩阵然后将每一行除以该行非零数字之和 即 每行非0数之和就是链接网个数 则得到新矩阵P 如图3所示 这个矩阵记录了每个网页跳转到其他网页的概率 即其中i行j列的值表示用户从页面i转到页面j的概率 图1中A页面链向B C 所以一个用户从A跳转到B C的概率各为1 2 4 概率转移矩阵P采用P 的转置矩阵进行计算 也就是上面提到的概率转移矩阵P 如图4所示 2 3求解步骤 2 4A矩阵计算过程 2 5循环迭代计算PageRank的过程 2 6改进 LarryPage和SergeyBrin两人从理论上证明了不论初始值如何选取 这种算法都保证了网页排名的估计值能收敛到他们的真实值 由于互联网上网页的数量是巨大的 上面提到的二维矩阵从理论上讲有网页数目平方之多个元素 如果我们假定有十亿个网页 那么这个矩阵就有一百亿亿个元素 这样大的矩阵相乘 计算量是非常大的 LarryPage和SergeyBrin两人利用稀疏矩阵计算的技巧 大大的简化了计算量 PageRank的计算举例 链接源ID链接目标ID12 3 4 5 72131 242 3 551 3 4 661 575 3PageRank算法的应用 学术论文的重要性排序学术论文的作者的重要性排序某作者引用了其它作者的文献 则该作者认为其它作者是 重要 的 网络爬虫 WebCrawler 可以利用PR值 决定某个URL 所需要抓取的网页数量和深度重要性高的网页抓取的页面数量相对多一些 反之 则少一些关键词与句子的抽取 节点与边 小结 优点 是一个与查询无关的静态算法 所有网页的PageRank值通过离线计算获得 有效减少在线查询时的计算量 极大降低了查询响应时间 PageRank的缺点过分相信链接关系一些权威网页往往是相互不链接的 比如新浪 搜狐 网易以及腾讯这些大的门户之间 基本是不相互链接的 学术领域也是这样 1 人们的查询具有主题特征 PageRank忽略了主题相关性 导致结果的相关性和主题性降低2 旧的页面等级会比新页面高 因为即使是非常好的新页面也不会有很多上游链接 除非它是某个站点的子站点 排序技术是搜索引擎的绝密Google目前所使用的排序技术 已经不再是简单的PageRank 谢谢大家
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!