几种常见的搜索引擎的性能比较与分析2

上传人:痛*** 文档编号:104562961 上传时间:2022-06-10 格式:DOC 页数:32 大小:620.50KB
返回 下载 相关 举报
几种常见的搜索引擎的性能比较与分析2_第1页
第1页 / 共32页
几种常见的搜索引擎的性能比较与分析2_第2页
第2页 / 共32页
几种常见的搜索引擎的性能比较与分析2_第3页
第3页 / 共32页
点击查看更多>>
资源描述
闽江学院本科毕业论文题 目几种常见的搜索引擎性能比较与分析学生 吴宽富 学 号 4 系 别 物理系与电子信息工程系 年 级 2008级 专 业 电子信息工程 指导教师 林宏 职 称 讲师 完成日期2012-5-10声明闽江学院毕业论文(设计)诚信声明书本人重声明:兹提交的毕业论文(设计)几种常见的搜索引擎的性能比较与分析,是本人在指导老师 林宏老师 的指导下独立研究、撰写的成果;论文(设计)未剽窃、抄袭他人的学术观点、思想和成果,未篡改研究数据,论文(设计)中所引用的文字、研究成果均已在论文(设计)中以明确的方式标明;在毕业论文(设计)工作过程中,本人恪守学术规,遵守学校有关规定,依法享有和承担由此论文(设计)产生的权利和责任。声明人(签名):年 月 日摘 要本文研究的目的是为了让我们更好的理解目前常见的几种搜索引擎,熟悉它,认识它,用好它,让它们成为我们工作生活、学习和工作的好帮手。 本文主要是对搜索引擎的初显、发展做大概的叙述,对搜索引擎的技术原理、工作的原理、系统构架等做简单分析,希望大家可以对搜索引擎有进一步的了解,同时对我们常用的几种搜索引擎进行分类,并对搜索结果的排序方法进行研究。最后通过几个指标对常见的几种搜索引擎做性能比较与分析,并通过实例来说明搜索引擎的应用,从而让大家对搜索引擎有更深的认识,让搜索引擎更好地为我们学习、生活和工作服务。 关键词:搜索引擎 排序方法 性能比较 性能分析刷红色处要用书面语刷紫色处是我改好的英文翻译要一并跟上AbstractThis thesis is about toultimately make people have a detailed knowledge of some common search engines at present. With knowing them, be familiar with them and taking advantage of them well, we can have them as good helpers in our daily lives, study and work.This thesis mainly to narrate the general appearance and development of search engines, and analyseparticularly search enginestechnique principle, work principle, system architecture and so on. It is hoped that people would be able to know better about the search engines. Meanwhile, some common search engines are sorted, and their results-basically-sorted methods are analysed. With the comparison and analysis among the common search engines and showing how to make use of them effectively, this paper is attempt to help people understand search engines more deeply, and make search engines serve our study, daily lives and work better.Key words:Search engines; Sorting method ; Performance comparison ; Performance analysis 目 录*(这里头有误吧)声明2摘 要3ABSTRACT4第一章 课题背景知识11.1搜索引擎的初显11.2搜索引擎的发展2第二章 常见几种搜索引擎32.1 搜索引擎的原理32.2 搜索引擎的分类5第三章 常用搜索引擎的结果排序方法63.2DirectHit算法73.3 PageRank算法73.2 竞价排名法9第四章 常用的几种搜索引擎的性能比较与性能分析104.1数据库114.2检搜结果124.3用户界面13第五章 常用的几种搜索引擎实际应用与性能分析16参考文献25感2727 / 32第一章 课题背景知识近几年,随着网络的不断发展和壮大,搜索引擎越来越成为人们生活中重要的一部分,找资料、查地图、听音乐,只有想不到的,没有搜索不到的。中国二十多年来互联网的不断发展,造就出5亿的网民,搜索引擎也出现空前的火热。各种分类的行业也慢慢的兴起,使得搜索引擎越来越成为人们生活中必不可少的实用工具。搜索引擎的出现,整合了众多信息,恰恰起到了信息导航的作用。通用搜索引擎就如同互联网第一次出现的门户一样,大量的信息整合导航,极快的查询,将所有上的信息整理在一个平台上供网民使用,于是信息的价值第一次普遍的被众多商家认可,迅速成为互联网中最有价值的领域。大家熟知的搜索引擎Google、百度、雅虎等是通用搜索引擎现如今的杰出代表,他们为互联网的发展做出了重要的贡献。总而言之搜索引擎改变了人们的生活,给人们的生活工作学习带来了巨大的帮助。1.1搜索引擎的初显(刷白什么意思?!)搜索引擎从1990年原型初显,进过三十多年的发展,现在成为人们生活中必不可少的一部分,它经历了太多技术和观念的变革。 搜索引擎出现之前,互联网上就已经存在很多旨在让人们共享的信息资源了。这些资源当时主要存在于各种允许匿名访问的FTP站点。为了便于人们在分散的FTP资源中找到他们所需的东西,1990年,加拿大麦吉尔大学(McGillUniversity)的几个大学生开发了一个软件Archie。它是一个可搜索的FTP文件名列表,用户必须输入精确的文件名搜索,然后Archie会告诉用户哪一个FTP地址可以下载这个文件。Archie实际上是一个大型的数据库,再加上与这个大型数据库相关联的一套检索方法。Archie虽然还不是搜索引擎,但是从它的工作原理上看,它是所有搜索引擎的祖先。当万维网(WorldWideWeb)出现以后,人们可以通过html传播网页信息,网络上的信息开始成倍增长。人们纷纷使用各种方法将网络上的信息搜集来,进行分类、整理,以方便查找。现在人们很熟悉的雅虎(Yahoo)就是在这个环境下诞生的。还在Stanford大学读书的美籍华人致远和他的同学迷上了互联网。他们将互联网上有趣的网页搜集过来,与同学一起分享。后来,1994年4月,他们俩共同办了雅虎。随着访问量和收录数的增长,雅虎目录开始支持简单的数据库搜索。但是因为雅虎的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。1.2搜索引擎的发展当“蜘蛛”程序出现时,现代意义上的搜索引擎才初显端倪。它实际上是一种电脑“机器人”(ComputerRobot),电脑“机器人”是指某个能以人类无法达到的速度不间断地执行某项任务的软件程序。由于专门用于检索信息的“机器人”程序就象蜘蛛一样在网络间爬来爬去,反反复复,不知疲倦。所以,搜索引擎的“机器人”程序就被称为“蜘蛛”程序。这种程序实际是利用html文档之间的关系,在Web上一个网页一个网页的爬取(crawl),将这些网页抓到系统来进行分析,并放入数据库中。第一个开发出“蜘蛛”程序的是MatthewGray,他于1993年开发了WorldWideWebWanderer,它最初建立时是为了统计互联网上的服务器数量,到后来发展到能够捕获网址。现代搜索引擎的思路就来源于Wanderer,后来很多人在此基础上对蜘蛛程序进行了改进。1994年7月20日发布的Lycos第一个将“蜘蛛”程序接入到其索引程序中。引入“蜘蛛”后给其带来的最大优势就在于其远胜于其它搜索引擎的数据量。自此之后几乎所有占据主导地位的搜索引擎中,都靠“蜘蛛”来搜集网页信息。Infoseek是另一个重要的搜索引擎,于1994年年底才与公众见面。起初,Infoseek只是一个不起眼的搜索引擎,它沿袭Yahoo!和Lycos的概念,并没有什么独特的革新。但是它友善的用户界面、大量附加服务使它在用户中赢得了口碑。1995年12月,它与Netscape的战略性协议,使它成为一个强势搜索引擎:当用户点击Netscape浏览器上的搜索按钮时,弹出Infoseek的搜索服务,而此前由Yahoo!提供该服务。1995年12月15日,AltaVista正式上线。它是第一个支持高级搜索语法的搜索引擎,成功地整合了此前人类所有的信息检索技术,解决了包括字根处理、关键词检索、布尔逻辑,以与通过向量空间模型的查询排名等关键问题。正式公开之前,AltaVista就已经拥有20万访问用户,在短短三个星期之,到访人数由每天30万次增加到200万次。它的成功在于满足了用户三个方面的需求:网上索引围超过了此前任何一家搜索引擎;短短几秒钟便可从庞大的数据库中为用户返回搜索结果;AltaVista小组从一开始就采用了一种模块设计技术,能够跟踪的流行趋势,同时不断扩大处理能力。在当时许多搜索引擎之中,AltaVista脱颖而出,成为网络搜索的代名词。Google就是站在这样的巨人的肩膀上颠覆并创造着。“上网即搜索”改变了人们上网方式的,就是现在鼎鼎大名的Google。Google并不是搜索引擎的发明者,甚至有点落后,但是它却让人们爱上了搜索。1998年9月,在佩奇和布林创建Google之时,业界对互联网搜索功能的理解是:某个关键词在一个文档中出现的频率越高,该文档在搜索结果中的排列位置就要越显著。这就引出了这样一个问题,如果一个页面充斥着某一个关键字的话,那么它将排在很显著的位置,但这样一个页面对于用户来说,却没有任何意义。佩奇和布林发明了“网页级别”(PageRank)技术,来排列搜索结果。即考察该页面在网上被的频率和重要性来排列,互联网上指向这一页面的重要越多,该页面的位次也就越高。当从网页A到网页B时,Google就认为“网页A投了网页B一票”。Google根据网页的得票数评定其重要性。然而,除了考虑网页得票数的纯数量之外,Google还要分析投票的网页,“重要”的网页所投出的票就会有更高的权重,并且有助于提高其他网页的“重要性”。Google以其复杂而全自动的搜索方法排除了任何人为因素对搜索结果的影响。没人能花钱买到更高的网页级别,从而保证了网页排名的客观公正。除此之外,动态摘要、网页快照、多文档格式支持、地图股票词典寻人等集成搜索也都深得网民的喜爱。其他众多搜索引擎也都紧跟Google,推出这些服务。Fast(Alltheweb)公司发布的搜索引擎AllTheWeb,总部位于挪威,其在海外的风头直逼Google。Alltheweb的网页搜索支持Flash和pdf搜索,支持多语言搜索,还提供新闻搜索、图像搜索、视频、MP3、和FTP搜索,拥有极其强大的高级搜索功能。而中国的百度更是凭借“更懂中文”而吸引着中国的网络受众,它拥有超过10亿的中文网页数据库,并且,这些网页的数量每天正以千万级的速度在增长。 搜索引擎就越来越成为人们生活中重要的一部分。第二章 常见的搜索引擎的原理和分类2.1 搜索引擎的原理搜索引擎,应该被定位成一个计算机应用软件系统,或者是一个网络应用软件系统。从网络用户的角度看,它根据用户提交的类自然语言查询词或者短语,返回一系列很可能与该查询相关的网页信息,供用户进一步判断和选取。为了有效地做到这一点,它大致上被分成三个子系统;即网页搜集,网页预处理和查询服务。网页搜集主要负责网页的抓取,由URL服务器、爬行器、存储器、分析器和URL解析器组成,爬行器是该部分的核心;网页预处理主要负责对网页容进行分析,对文档进行标引并存储到数据库里,由标引器和分类器组成,该模块涉与许多文件和数据,有关于桶的操作是该部分的核心;查询服务主要负责分析用户输入的检索表达式,匹配相关文档,把检索结果返回给用户,由查询器和网页级别评定器组成,其中网页等级的计算是该部分的核心。搜索引擎的主要工作流程是:首先从蜘蛛开始,蜘蛛程序每隔一定的时间自动启动并读取网页URL服务器上的URL列表,按深度优先或广度优先算法,抓取各URL所指定的,将抓取的网页分配一个唯一文档,存入文档数据库。并将当前页上的所的超连接存入到URL服务器中。在进行抓取的同时,切词器和索引器将已经抓取的网页文档进行切词处理,并按词在网页中出现的位置和频率计算权值,然后将切词结果存入索引数据库。整个抓取工作和索引工作完成后更新整个索引数据库和文档数据库,这样用户就可以查询最新的网页信息。查询器首先对用户输入的信息进行切词处理,并检索出所有包含检索词的记录,通过计算网页权重和级别对查询记录进行排序并进行集合运算,最后从文档数据库中提取各网页的摘要信息反馈给查询用户。图1-1-1搜索引擎通用总体系统结构图2.2 搜索引擎的分类搜索引擎按其工作方式主要可分为三种,分别是全文搜索引擎(FullTextSearchEngine)、目录索引类搜索引擎(SearchIndex/Directory)和元搜索引擎(MetaSearchEngine)。2.2.1全文搜索引擎全文搜索引擎是名副其实的搜索引擎,国外具代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,国著名的有百度(Baidu)。它们都是通过从互联网上提取的各个的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。图1-2-1全球著名全文搜索引擎LOGO2.2.2目录索引目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的列表而已。用户完全可以不用进行关键词(Keywords)查询,仅靠分类目录也可找到需要的信息。目录索引中最具代表性的莫过于大名鼎鼎的Yahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国的搜狐、新浪、网易搜索也都属于这一类。图1-2-2全球著名目录索引LOGO2.2.3元搜索引擎(METASearchEngine)元搜索引擎在接受用户查询请求时,同时在其他多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等,中文元搜索引擎中具代表性的有搜星搜索引擎。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合,如Vivisimo。2.2.4其他除上述三大类引擎外,还有以下几种非主流形式:(一)集合式搜索引擎:如HotBot在2002年底推出的引擎。该引擎类似META搜索引擎,但区别在于不是同时调用多个引擎进行搜索,而是由用户从提供的4个引擎当中选择,因此叫它“集合式”搜索引擎更确切些。(二)门户搜索引擎:如AOLSearch、MSNSearch等虽然提供搜索服务,但自身即没有分类目录也没有网页数据库,其搜索结果完全来自其他引擎。(三)免费列表(FreeForAllLinks,简称FFA):这类一般只简单地滚动排列条目,少部分有简单的分类目录,不过规模比起Yahoo等目录索引来要小得多。 (四)垂直搜索引擎:有针对性的搜索引擎。一次搜索的结果可能有成千上条,而在这过于庞大的信息群中,有用信息只是其中的小部分。通用搜索引擎的弊端在网络信息的急剧膨胀下突显起来,搜索越来越难以控制,用户需求和市场服务间的巨大反差产生了强大的“搜索噪音”,垂直搜索引擎的应运而生,成为搜索引擎发展史上的一块里程碑。第三章 常见的搜索引擎的结果排序方法3.1 词频位置加权排序算法词频位置加权排序算法是一种只从关键词出现次数和位置考虑进行排序的方法,它是计算机情报检索中最基础的排序算法。该方法以一个关键词与网页的相关度大小作为排序标准,而关键词在网页中的相关度则由它在网页中出现的频次和位置两方面加权计算得出。在这种方法中,词对网页的相关性与词在该网页中的权值成正比。一个词在网页中出现的次数决定词对网页的相关度,这种想实际上来自于卢恩自动标引的方法。卢恩认为,过一些无检索意义的词后,一个词在一篇文献中出现的频次越高,那么它对这篇文献的重要性就越大,这是目前研究自动标引的一个基本理论基础。许多搜索引擎都以索引项的词频和位置作为相关度的判定标准,采用前述的词频加权方法来计算相关度。一个词在网页文档中出现的频率越高,它代表该文档主题的程度就越大,其作为索引项的准确性也就越高,权值就越大。在与查询词匹配时,它所代表的文档与查询请求的相关度就越高。除词频外,一个词在文档中的位置也对索引器选词和计算词的权值产生影响。例如在网页title标签、链点标签、Meta keyword标签、Meta description标签中选词并按词频计算权值时,或索引项出现在网页标题、文章前几段、段首等位置时,其权值会加大。虽然大多数搜索引擎都以词频和词的位置来计算相关度,但在细节上又各有不同。在计算网页的相关度时,其中各词的关系和词间的相对位置也是影响因素。网页中各词的相互距离越近则结果排序越靠前。以词频和词位置计算相关度的方法是较为客观准确的,它是应用最为广泛也是最成熟的方法,各大搜索引擎迄今仍以它作为计算相关度的基本方法。 这种算法的主要优点就是简单、易实现。该方法的缺点也很明显,虽然词的频次和位置是决定排序结果的要素,但并不是唯一要素。该算法过于依赖词的重要性,而忽视了络信息的另一个特点,即网络信息容的质量无法得到保证。因此较易为人利用来实现不良竞争,轻易地把其网页设计修改成“含有关键词的网页”,从而在搜索引擎结果中排在前面。这使搜索引擎结果的客观性和准确性受到侵害,检索的查准率受到影响。3.2DirectHit算法 与其它的算法相比,Askjeeves公司的directhit技术则是一种注重信息的质量和用户反馈信息的排序方法。 用户输人检索词提交给搜索引擎后,搜索引擎将查询到的相关信息以web页面形式反回给用户时,一般提供相关URL、title网页的、标签和来自于body标签,类似于要的一段少量的文字。用户浏览返回的结果、查找自己需要的信息实际是一个过滤无用信息、进行二次检索的过程。用户在二次检索中得到的结果应该是相关性较高的结果,排名应该靠前。DirectHit算法就是一种按照上述用户的反馈结果进行排序的技术。其算法基本思想如下搜索引擎将查询的结果返回给用户,DirectHit开始跟踪用户在该搜索引擎检索结果的点击如果返回结果中排名靠前的网页被用户点击后,浏览时间较短,用户又重新返回搜索引擎击其他的检索结果,那么可以认为其相关度较差,系统将降低该网页的相关性另一方面,如果网页被用户点击打开进行浏览,并且用户在该网页浏览的时间较长,那么该网页的受欢程度就高,相应的,系统就会增加该网页的相关度。由于相关度在不停地变化,对于同一个词在不同的时间进行检索,得到结果集合的排序也就有可能不同,即DirectHit排序是一种动态排序。从上面的分析可以看出,在该算法排序中,网页排序结果是由两部分决定的,即网页被点击次数和被浏览的时间长度。很显然,用户点击反馈越多则该算法的准确度就越高,因此DirectHit与一些搜索引擎建立了合作伙伴关系,即这些引擎使用DirectHit技术进行结果排序,而用户在使用这些搜索引擎查询点击后,搜索引擎将点击的结果反馈给DirectHit,DirectHit将这些收集这些结果再计算相关度。同时,该算法带来了新的问题,即有些为了提高自己的排名,多次从的伙伴中点击自己的,来获取靠前的排名结果。对此,Askjeeves公司也采用相关的技术来屏蔽一些重复的点击,从而保证排名的相对准确性。该算法是建立在用户点击的基础上的,因此该算法又被称为受欢迎程度来决定算法。同时分类目录进行排序时是各搜索引擎编辑者已经排好的,与之相比,该算法又称为用户控制排序算法,而分类目录的排序则称为编制控制排序算法。该算法的优点是它利用了用户的反馈信行排序,充分满足了“用户保障原则”;但是,该在70%的用户是不会浏览检搜结果中第三页以后的信息,因此,对一些排名靠后或者新登录的很难有机会获得击,从而一直无法提高自己的排名。3.3 PageRank算法PageRank算法是由google的创始人之一、斯坦福大学计算机系的Lawrencepage博士等设计的一种对网页进行排序的算法。PageRank不仅是google成为全球最成功的搜索引擎的重要因素之一,同时它还带动了超分析技术的发展。随着PageRank的成功,越来越多的研究单位和商业组织开始涉足超分析技术这一领域的研究与开发。 PageRank采用的一种独特的表示网页重要度大小的数值。在google收集的网页数据库中,每一个网页都有一个自己的PageRank。用户使用google进行查找后,google按照关键词匹配进行查找,首先根据词频位置加权排序算法将查找结果排序,然后再PageRank值的大小对排序进行调整,将调整好的排序结果返回给用户。PageRank的计算公式如下: 假设一个由4个页面组成的小团体:A,B,C和D。如果所有页面都链向A,那么A的PR(PageRank)值将是B,C与D的和。继续假设B也有到C,并且D也有到包括A的3个页面。一个页面不能投票2次。所以B给每个页面半票。以同样的逻辑,D投出的票只有三分之一算到了A的PageRank上。换句话说,根据链出总数平分一个页面的PR值。最后,所有这些被换算为一个百分比再乘上一个系数q。由于下面的算法,没有页面的PageRank会是0。所以,Google通过数学系统给了每个页面一个最小值1-q所以一个页面的PageRank是由其他页面的PageRank计算得到。Google不断的重复计算每个页面的PageRank。如果给每个页面一个随机PageRank值(非0),那么经过不断的重复计算,这些页面的PR值会趋向于正常和稳定。这就是搜索引擎使用它的原因。 PageRank算法优点点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。3.2 竞价排名法(怎么编号的)上述3种排序主要是从技术出发来寻求好的排序结果,接下来我们讨论的是从商业利润出发的一种排名方法竞价排名法。这种方法开始于原来的overtune公司,该公司目前已经为这项服务申请了专利。在我们国,百度的竞价排名服务就做的非常的出名。竞价排名(payperclick)是指一些商业购买关键字排名,搜索引擎公司按照客户点击或者按照时间段对它们进行收费的一种服务。下面我来举例子说明竞价排名过程:设有一商业R为了取得关键词E在搜索引擎F中的第N位排名,它首先向F申请E的竞价排名服务,F对其进行审核(包括是否合法等),然后给出N+1、N-1两个排名的价格,R交给F的服务费必须在上面两个价格之间才能获得第N位排名。在拿到服务费以后,F将对R的容进行一定的审查,审查完毕后,R将获得在F中进行词检索E的第N位排名。当然,如果以后有新的商业出R的服务费高于R,则R的排名将会后退。此后,如果用户在检索B时在检索结果中点击了R的,那么R将向F付服务费。笔者认为,竞价排名主要在以下两个方面出现,一方面,从商业来说,上文已经说过,搜索引擎每次检索反馈的结果集合太大太多,需分很多页来显示,而大部分用户都不愿意浏览第3页以后的信息,因此导致一些排名靠后的网页根本就没有机会被浏览。而在互联网时代,对于一些商业来说,点击就意味着就有商机,排序靠前对他们来说非常重要。因此,他们愿意付出一定的代价来换取商机。这实际上也就是商业的一种广告投资。另外一方面,从搜索引擎来说,各搜索引擎公司也需要赢利方式。互联网在遭遇泡沫经济后,各种互联网服务提供商,如服务等都开始寻找自己新的赢利模式,收费服务便在这时应运而生。作为internet第二大应用项目的搜索引擎服务,能够获取效益的一种手段就是在检索结果时将一些付费商业排名前面,为它们做广告宣传,自己则获取广告收人。这种收费方式甚至被业界誉为最成功的互联网收费模式。上述从需求和供求两方面的结合,就诞生了竞价排名这个检搜结果排序方式。在实施竞价排名时,由于是用户他们自己选择关键词,因此只要他们申请了这项服务的排序,搜索相关度还是比较高的。另外搜索引擎本身也会做审查的过程,检搜出来信息的质量也得到了一定的保证。而且,这种方式确实给商业和搜索引擎都带来了收益。该服务的缺点是对于一些没有申请服务而相关度大的,其排名将会相对靠后,这样就不利于用户找到最合适的资料。第四章 常见的几种搜索引擎的性能比较与性能分析搜索引擎的评价主要是指检索性能的评价。从用户的角度来考虑,用户追求的是搜索引擎的检索效率,即在最短的时间找到他们最需要的结果。怎样才能达到这个目的呢?首先,登录时间、检索响应时间、检索式构建时间、检索结果查阅时间都希望应尽可能的短;其次,要得到最需要的结果,离不开搜索引擎中数据库的规模,检索式构建的合理与否等因素。结合以上两种指标体系,以上述检索效率的影响因素为依据,我们以数据库、检索结果和用户界面作为搜索引擎检索性能的评价标准。4.1数据库 网上信息量呈几何级数增长,为提高查全率,各搜索引擎都在努力扩大自己的数据库,google所收网页已号称有50亿个;数据库数据的更新周期影响着查准率,百度的更新周期已号称部分日更新,总量周更新。但各搜索引擎的数据库规模,数据更新周期等均为其商业秘密,具有不可得性。本文通过alexa.chinaz./?domain=得出以上几个搜索引擎的日访问量数据,然后分析其数据库规模。常用中文搜索引擎日访问量统计表平均日访问IP(周平均)日平均访问PV(周平均)在中国访问量排名在世界访问量排名访问速率google300720000347030880081568ms/44分雅虎1356600008600844002542214ms/26分百度67500000116505000015874ms/76分搜狐搜狗577800020916360231132201ms/26分网易有道3144000723120039259718ms/84分新浪28,380,000167,725,8004161,871Ms/34分上述数据是2012年4月15号到4月21号的数据。(这个数据是真实的吧) 为提高查全率,各搜索引擎总是尽最大努力去收集尽量多的网页。据最新资料,google所收网页已达50亿,收藏15亿个网址,在同行中首屈一指。而百度则号称收有十多亿个中文网页,并以每秒2.3个网页的速度增长,它的数据更新周期已达一周一次。而上述三大门户则侧重于收藏,并把收藏作为一种商业行为,即对所收进行收费,否则不予收藏。因此,它们所收的网页数量远远不如google和百度。4.2检搜结果 检索结果的评价主要是查全率和查准率。查准率高可以减少重复检索,节省用户的检索时间;查全率高可以提高用户命中结果的可能性。对各搜索引擎检索结果的比较,笔者建立了一个比较模型,然后选取关键词进行检索,并对检索结果进行数据统计。 模型说明:第一,统计总命中记录数和前20个结果所在站点总数,进行查全率比较;通过前20个结果中重复数和前20个结果中相关度等级分布情况进行查准率统计;第二,选取含义明确、较新出现的词汇作为检索词。本次数据统计选用的五个关键词为:A1:房地产市场,A2:电子商务,A3:通货膨胀,A4:打破垄断,A5:中国股票市场;第三,检索结果与检索词的相关度分为三个等级,分别为K1、K2、K3(K1表示相关状况较好,K2表示容部分相关,K3表示容不相关);第四,在每个具体的检索数据栏里列出该检索词的检索响应时间。表2前20个结果中相关等级为K1/K2/K3的命中个数(无重复)(居中)Google中文雅虎中文百度搜狐搜狗网易有道新浪A111/8/314/5/29/11/013/6/010/8/011/7/0A213/6/115/4/116/4/013/5/212/5/214/4/3A311/8/117/2/09/2/014/3/014/6/012/6/2A414/3/016/4/06/14/014/3/012/6/111/10/0A515/2/416/3/014/6/116/5/113/6/015/3/2表3总命中数/前20个结果所在站点总数/20数前个结果重复数/响应时间(单位:秒)Google中文雅虎中文百度搜狐搜狗网易有道新浪A171800000 /18/1/0.08 123757442/18/1/0.7633400000/20/0/0.1831210170/?/0/0.26945100/20/0/?773684/18/1/?A2185000000/20/1/0.12143365541/20/0/0.47100000000/20/0/0.312767291/?/0/0.253129000000/19/0/?246421/20/0/?A333700000/17/1/0.1444243475/19/1/0.1845100000/19/0/0.246900000/?/0/0.09430000/18/1/?291949/15/2/?A45260000/17/1/0.306493278/18/1/0.152980000/20/0/0.28373785/?/0/0.11614000/20/0/?14434/16/3/?A51700000/20/0/0.1260790374/18/1/0.142770000/19/1/0.371208509/?/0/0.0058250000/19/0/?7692/18/?注:搜狐栏中的“?”是因为搜狐搜索结果中没有网址显示;网易和新浪栏中“?”表示这两个没有显示搜索时间4.3用户界面(这点其实可以抓点儿图 更直观更具说服力) 不管是搜索引擎服务商还是用户,对用户界面的要求都是美观、实用。搜索引擎界面的美观性主要表现在简洁上,“实用”则体现在界面所提供的功能、容等方面。首页简洁能节省的登录时间,并能让用户尽快地找到检索入口;结果输出界面要求简洁而不简单,简洁能缩短网页响应时间,让用户更方便地查阅输出结果。页面的实用性主要体现于显示的结果容和页面友好性上,包括首页中给用户提示的帮助系统,结果输出页中“网页快照”和提供二次检索的“在结果中搜索”与检索结果的摘要等方面。因此,用户界面数据主要从这几个方面来统计。主要容有网页快照否是否支持“在结果中检搜”是否提供相关检搜词参照google中文非常简洁,首页页面文字11行有容详细提供图像、网页目录搜索和网上论坛服务无百度非常简洁,首页页面文字10行有容详细提供图片、新闻、MP3、搜索和贴巴服务无雅虎中文较为简洁,首页页面文字11行有容非常简单提供分类、图片、新闻搜索无网易有道繁杂,分为六大块:搜索框、分类搜索目录等无提供分类、图片搜索有,较少(在网页上部有一小的广告)搜狐搜狗繁杂,分为七大块:(两大部分为医疗广告)有容详细提供新闻、MP3、商业企业、分类目录搜索服务有,多(两大部分的医疗广告占了整个网页页面的四分之一)新浪较为简洁,分为检索框、分类目录、专题搜索等四大块有,容较详细提供全部、分类目录、新闻、图片、MP3、旅游、等搜索服务有,少(网页顶部有一个演唱会的广告)由于各侧重点不同,所设主页的数也不一样。雅虎、搜狐、新浪、网易都是门户,它们提供多项服务,首页有上百个;而google、百度由于专注于搜索主业,网页做得极为简洁,数都很少。这样有两个好处:第一,由于打开的负担轻(少),用户能迅速登录;第二,网页页面简洁,不会给用户眼花缭乱的感觉,能让用户在最短的时间找到检索入口。百度和google的首页的友好性很强,有详细的帮助文档。 google和百度检索结果输出界面具有很强的实用性。首先,它们在检索结果输出时能显示更多、更详细的信息。其他显示容不全:搜狐检索结果不显示所搜索到的网址,而网易、新浪不显示搜索响应时间、搜狐只显示标题和摘要两项,网易只有标题、摘要和网址三项。此外,百度和google还把丰富的检索技巧放在结果输出页的醒目位置,如:在每条检索结果后附上“网页快照”,在网页顶部或底部附有“在结果中检索”、“相关检索词”。第五章实例说明常见的几种搜索引擎的应用 所有的搜索引擎都是服务人,为人解决问题,帮助人获取互联网的信息是搜索引擎存的最大的价值,下面笔者从学习、生活和工作中选取三个例子具体分析搜索引擎是的应用。(下面这个表太大 同时也可以抓图说明问题)搜索对象搜索引擎种类信息相关性评价和信息价值评价是否存在商业推广性能比较与分析六度空间理论百度信息相关性较高,查看了前十条搜索记录,有九条都是关于此理论的,关于六度空间各百科,论坛,博客等资料。信息价值度较高,在百度前十条中,有七条有价值存在为百姓网,58同城,慧聪网,赶集,起点中文网做推广百度搜索引擎拥有目前世界上最大的中文信息库,总量达到6000万页以上,并且还在以每天几十万页的速度快速增长。由于后台应用了高效的信息索引算法,大大提高了检索时的响应速度和承受大访问量时的稳定性,百度搜索引擎对超过6000万网页检索一次的本地平均响应时间小于0.5秒。谷歌信息相关性高,查看了前十条搜索记录,除了一条死,其他都是与之相关并且很有价值的信息。信息价值度高,在十条信息中,有9条都很有价值,有理论解释和理论验证,小实验等。以与权威部门的解释。存在关键字广告和广告联盟Google拥有的数据库是几大搜索引擎中最大的。因此,Google的搜索结果往往比别的引擎更多。它尽量把与关键词有关的页面都呈现给搜索者,广泛,但缺乏精度。由于Google的数据库有很多来自blog,同时也有很多blogger搜索Google,因此Google很重视对blog资料的索引,搜索结果中往往含有比其它更多的blog信息雅虎信息相关度较高,十条有九条是关于六度空间理论的。信息价值度较高,有几条和Google中的差不多,价值度较高,另外还有几条是不相关的,有纯粹的商业信息。存在花了很大篇幅来论述并推广它的广告。是一个综合门类的,他们的口号是“国人做的面向全世界最好的搜索”网易有道信息相关性较高,查看了前十条搜索记录,有九条都是关于此理论的,关于六度空间各百科,论坛,微博等资料信息价值度一般,在有道前十条中,有六条有价值,很多就是跟百度文库里面的资料,而且有些是纯粹的商业信息。存在其他推广广告网易是中国主要的门户,目前提供网络游戏、电子、新闻、博客、搜索引擎、论坛、虚拟社区等服务搜狐搜狗信息相关性较高,查看了前十条搜索记录,有八条都是关于此理论的,关于五度空间各百科,论坛,博客等资料。信息价值一般,主要是微博是自己的资料,很多都是跟其他的资料。有较多的商业推广信息,本来的信息库存储不是非常广大为中文世界最大的网络资产,搜狐矩阵所提供的互联网服务从媒体资讯、无线增值、互动沟通扩展到产业服务、搜索引擎、游戏和生活服务等多个领域新浪信息相关性较低,查看了前十条搜索记录,有四条都是关于此理论的,而且大部门信息是别的连接过来的资料。没什么信息价值,有些是微博是自己的资料,很多都是跟其他的资料有做其他的商业广告的推广,这些资料跟查找的资料相关度不是很高以新闻、游戏、搜索引擎、网上购物、微博、企业的电子解决方案等一系列服务的门户六度空间理论基本容你和任何一个陌生人之间所间隔的人不会超过六个,也就是说,最多通过六个人你就能够认识任何一个陌生人。这就是六度空间理论,也叫小世界理论。有一个数学领域的猜想,名为SixDegreesofSeparation,中文翻译包括以下几种:六度分隔理论、六度空间理论以与小世界理论等。六度虽然是个社会学的理论,但是实际上它更像一个数学理论,很多人说六度和四色问题有异曲同工之妙。在我看来,六度理论很好的阐述了在一个网状结构(我们的人类社会)下,不同节点之间的联系和连接关系,然而它并不完整,并不足以指导我们的实践。手持移动电视百度价值度较高,有关于手机移动电视的各方面的信息,如资费标准,技术问题等等。存在为百姓网,58同城,慧聪网,赶集,起点中文网做推广。与Google不同,百度致力于打造专业的中文搜索引擎,它采用字词结合的信息处理方式,巧妙的解决的中文信息的理解问题。支持主流的中文编码标准等。谷歌价值度较高,有很多关于手机移动电视的咨询、价格存在关键字广告和广告联盟Google是强大的搜索引擎,数据更新快,它有八个数据中心,每个月中下旬开始更新,同时它有强大的搜索功能,有32个栏目一应俱全。雅虎价值度高,有我们比较关心的如移动梦网的手机移动电视如何看等,有很好的本土特色。存在花了很大篇幅来论述并推广它的广告。是一个综合门类的,下面我讲的是它的搜索业务,他们的口号是“国人做的面向全世界最好的搜索”由于刚刚与阿里巴巴整合,很多方面还不是很完善。网易有道价值度一般,10条信息中有6条相关的信息,但是里面的信息都是重复的,有的就是百度文库里面的资料有推广其他的广告网易发展成有道,有道也是专门的搜索引擎的,但是里面的数据很多是别的地方连接的,没有比较创新的信息出来搜狐搜狗价值含量一般,很多是重复的资料,搜索出来的也是大部分其它的资料有较大蝙蝠的其他广告推广,而且结构还是比较繁乱的搜狐搜狗有50000种的主题分类,50万的优化,做为人工精选分类,有比较专业的分类搜索引擎服务新浪价值的含量较低,里面相关的资料都是跟其它里面过来的有很多医药等不相关的,而且页面也比较混乱,找不到比较有价值的东西搜索引擎做的不是很专业,主要还是做的是分类的搜索引擎,不过本身就有广大的门户信息资源,还是有点相关的信息的手持移动电视市场手机移动电视的市场是非常巨大的,但由于未取得国家的市场准入,所以现在还没发展起来,就目前来讲,手机移动电视与具有CNNB功能的MP4数码播放器之间有较激烈的竞争,并且还有山寨版的手机与品牌手机之间的对抗,这一切都使得手机移动电视市场竞争很激烈。手机移动电视的客户群体是非常大的,特别是08年奥运会的鼓动之后,这几年手机移动电视有非常大的客户使用群体。、等一些城市已经发展的如火如荼了。软件代理公司百度价值含量信息一般,首页的10条信息中有5条相关的信息,其中两条重复,也就4条有用的信息,两条是用友软件的代理,一条金蝶软件代理,另外一条是股票软件代理广告主要是以为关键词的竞价排名为主,比较人性化中国最大的搜索引擎,占了中国80%的搜索引擎市场。有比较成熟的市场运作模式,赚钱的渠道也比较多,是国最成功的关键词竞价排名运营商谷歌信息价值含量一般,搜到了5条相关的信息,其中有两条相关的信息存在关键字广告和广告联盟是信息量最全的搜索引擎,全球占有量排名第一,不过因为文化的差异,在关键次搜索做的不如百度,但仍然在中国占有很大的一块市场雅虎信息没什么价值,搜到的信息基本上是重复的,只有一条相关的信息存在花了很大篇幅来论述并推广它的广告。雅虎是综合类的门户,因为是综合类型的,所以本身的信息就比较杂乱,因此里面的搜索的信息一饿就比较杂乱点网易有道信息含量低,跟百度的搜索的资料非常类似,前10条只有3条相关的信息,而且有两条是跟百度重复,本身就重复两条,没有获取有价值的信息存在其他推广广告,广告比较专业性,唯一性网易旗下搜索引擎,主要提供网页、图片、热闻、视频、音乐、博客等传统搜索服务,同时推出海量词典、阅读、购物搜索等创新型产品。搜狐搜狗价值含量一般,前10条中有5条相关信息,其中2条重复,一条没用,3条有价值的信息有较多的商业推广信息,本来的信息库存储不是非常广大搜狗有10亿的网页,每个词平均查找低于0.1秒,但是里面的很多都是从百度里面过来的新浪有两条没有太大相关的信息有做其他的商业广告的推广,这些资料跟查找的资料相关度不是很高以新闻、游戏、搜索引擎、网上购物、微博、企业的电子解决方案等一系列服务的门户软件代理公司1、鸿图科技,用友软件代理 。2、信友工程,用友软件代理。3、金友商软件,金蝶总代。4、捷信达科技,速达软件代理。5、科尔软件公司,管家婆软件代理。调研结论1.引擎是一个非常庞大的东西,不是一下子能够摸清楚的,有很多奥秘与技巧在里面,六度空间理论、手机移动电视和软件代理公司这三个项目在搜索引擎里如何找到你想要的确实不容易。2.六度空间理论,加上互联网我相信我们的地球真的可以成为地球村。3.手机移动电视的市场非常巨大,将来用手机移动电视看电视消遣将成为一种趋势。4的软件代理公司主要是做ERP软件代理和OA的软件代理,主要有做金蝶软件,用友软件,管家婆软件,速达软件为主。参考文献1闫俊英垂直搜索引擎的研究与实现D工业大学:硕士学位论文,20042燕娜,邵志清基于全文搜索的中文搜索引擎设计技术J计算机工程与应用,2002.17:196-1983吴军,Google研究员数学之美EB/OLGOOGLE黑板报,20064晓明,闫宏飞,王继民搜索引擎-原理、技术与系统M:科学,20045馬場肇Google秘密-PageRank徹底解説J20036AndreiBroderyNetworkApplicationsofBloomFilters:ASurveyC7闫宏飞可扩展Web信息搜集系统的设计、实现与应用初探C20028天网搜索EB/OL,20079晓明,凤旺森两种对URL的散列效果很好的函数:软件学报,200410周连喆中文搜索引擎概念检索研究与实现D大学:硕士学位论文,200211寒梅基于概念检索的中文搜索引擎的研究与设计D大学:硕士学位论文,200312车志军人工智能在搜索引擎资源获取中的应用D大学:硕士学位论文,200613闰宏飞,晓明关于中国Web的大小、形状和结构计算机研究与发展C200214计算机动画算法与编程基础: 清华大学 雍俊海 页数: 180 版次印次: 2008-07-01 第1次印刷 ISBN编号: 57 出版时间: 2008-07-01。15开发自己的搜索引擎-Lucene+Heritrix(第2版)ISBN编号: 91 出版时间: 2010-1-1 : 人民邮电 页数: 562 版次印次: 2 开本: 16开 装帧: 平装 字数: 77300016搜索引擎优化入门与进阶 ISBN编号: 50 出版时间: 2008-12-1 : 人民邮电 页数: 254 版次印次: 1 开本: 16开 装帧: 平装 字数: 390000 吴泽欣17搜索引擎优化入门与进阶(第2版) ISBN编号: 89 出版时间: 2009-12-1 : 人民邮电 页数: 282 版次印次: 2 开本: 大16开 装帧: 平装 字数: 457000 吴泽欣18自己动手写搜索引擎ISBN编号: 02 出版时间: 2009-12-1 : 电子工业 页数: 353 版次印次: 1 开本: 16开 装帧: 平装 字数: 390000 罗刚19搜索引擎优化高级编程PHP版 ISBN编号: 11 出版时间: 2008-7-1 : 清华大学 页数: 339 版次印次: 1 (美)Jaimie Sirovich,(美)Cristian Darie著 开本: 16开 装帧: 平装 印数: 15000 字数: 535000致感我的指导老师林宏,在完成论文的过程中,给予了悉心的帮助和指导。感大学四年来所有教授过我知识的老师。感我的父母、家人、朋友。感闽江学院,感物理学与电子信息工程系,感我的同学们。
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 成人自考


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!