资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,无忧,PPT,整理发布,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,*,网络爬虫设计及相应算法争论,姓名:,指导教师:,项目介绍,1,完成内容,4,选题背景,2,主要工作,3,总结及展望,5,工程名称:网络爬虫设计及相应算法争论,The Research and Design of Web Crawler,工程类别:软件争论设计类,工程来源:科研工程,项目简介,1,项目介绍,1,完成内容,4,选题背景,2,主要工作,3,总结及展望,5,搜寻引擎介绍:,互联网的快速进展,使得网上信息越来越多,搜寻引擎正是为了解决在浩瀚的信息海洋中快速高效的查找信息的问题。,搜寻引擎是通过互联网搜寻信息的重要途径,涉及到多个领域的理论和技术,具有很高的综合性和很强的挑战性。本课题争论的内容是搜寻引擎的关键局部网络爬虫。,选题背景,2,网络爬虫介绍:,网络爬虫是搜寻引擎系统中特别重要的组成局部,它负责从互联网中搜集网页、采集信息,这些网页信息用于建立索引从而为搜寻引擎供给支持,它打算着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜寻引擎的效果。,选题背景,2,网络爬虫的根本原理:,1从一个初始URL集合中选择一个URL,下载该URL对应的页面;,2解析该页面,从该页面中抽取出其包含的URL集合,接下来将抽取的URL集合再添加到初始URL集合中;,3重复前两个过程,直到爬虫到达某种停顿标准为止。,选题背景,2,项目介绍,1,完成结果,4,选题背景,2,主要工作,3,总结及展望,5,学习爬虫的根本技术,网页抓取技术,网页去重技术,多线程技术,主要工作,3,网页抓取技术,宽度优先遍历算法和广度优先算法,PageRank算法基于链接的搜寻算法,主要工作,3,网页去重技术,Bloom Filter 算法,错误率估量,最优哈希函数个数,位数组大小,主要工作,3,多线程技术,多线程,半同步,/,半异步并发模式,多线程的问题,主要工作,3,项目介绍,1,完成结果,4,选题背景,2,主要工作,3,总结及展望,5,设计实现爬虫系统,并对系统性能就以下两方面进展比较分析:,在测试时间、最大连接数等根本参数一样的状况下,通过给爬虫系统设置不同的多线程数进展页面抓取,并对结果进展比较分析。,在测试时间、恳求线程数、页面抓取线程数等根本参数一样的状况下,通过转变爬虫系统的最大页面连接数进展页面抓取,并对结果进展比较分析。,完成结果,4,1.测试爬虫在测试时间、最大连接数等根本参数一样的状况下,承受单线程或多线程方式抓取页面的速度,结果如下表:,2.测试爬虫系统在测试时间、恳求线程数、页面抓取线程数等根本参数一样的状况下,承受不同的并行连接数抓取页面的速度,结果如下表:,完成结果,4,1.测试爬虫在测试时间、最大连接数等根本参数一样的状况下,承受单线程或多线程方式抓取页面得到的表格绘制曲线图如下:,从图中可以看出,在多线程的状况下,爬虫系统的效率确实有所提高,但是提高的效果并不特别明显。而理论上,多线程的抓取效率应当是要明显高于单线程的,但是由于测试是在单CPU机器上进展的,所以效率的提高并不能很好的表达出来。,完成结果,4,1.测试爬虫系统在测试时间、恳求线程数、页面抓取线程数等根本参数一样的状况下,承受不同的并行连接数抓取页面得到的表格绘制曲线图如下:,从图中可以看出,在其他条件一样的状况下,最大并行连接数对爬虫的爬取效率的影响比较大。当最大连接数从16变化到32时,抓取效率提高了将近1倍,之后又渐渐趋于平缓。这是由于系统的线程数限制了抓取效率。在一样的HTTP恳求和页面抓取的线程数的条件下,在肯定的范围内,最大连接数越高,爬虫效率也越高,当超过某一范围,爬虫的效率会趋于平稳。,完成结果,4,项目介绍,1,完成结果,4,选题背景,2,主要工作,3,总结及展望,5,总结:,1、完成了爬虫系统的学习与设计;,2、争论比较了相关算法;,3、对系统结果进展了比较分析。,展望:,1、爬虫系统效率仍旧比较低;,2、爬取的信息不够准确;,3、还有很多爬虫算法有待学习和争论。,总结及展望,5,Thank You!,
展开阅读全文