资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,搜索引擎原理,基于东搜,DSpider,描述,搜索引擎原理,搜索引擎简史,搜索引擎的构成要素,“东搜”的基本介绍,关于搜索引擎的未来展望,搜索引擎简史,Archie(1990),World Wide Web Wanderer(1993),Lycos(1994),其他引擎们,Google(1998),Baidu(1999),总目录,Archie(1990),最早的几百个网站出现于,1993,年,大部分在大学里,但是很久之后才有了,Archie,。最早出现的,搜索引擎,叫,Archie,,是,1991,年由,Alan,Emtage,,一个蒙特利尔的,McGill,大学的学生创造的。,总目录,简史,WWW Wanderer,(,1993,),不久,网络上第一个机器人出现了。在,1993,年,6,月,,Matthew Gray,引入了万维网漫游者。他最初想要测量网络的增长,并且创建这个机器人来计算活动的网络服务器数量。不久他将这个机器人升级为计算实际,URL,数量。他的数据库叫,Wandex,。,总目录,简史,Lycos(1994),Lycos,是下一代搜索的主要发展,它是,1994,年,7,月在卡内基梅隆大学设计的。到,1994,年,8,月,,Lycos,识别了,394000,个文件,比其他搜索引擎都多。在,1994,年,10,月,在,Netscape,列出的搜索引擎里,,Lycos,排名第一。,总目录,简史,其他引擎们,总目录,简史,Google(1998),谷歌中国,,即,Google,中国,,是,中国大陆,使用率第二大的搜索引擎。谷歌中国成立于,2006,年,4,月,,服务器置于,北京,,是唯一一个服务器设在美国以外地区的,Google,本地化版本。,总目录,简史,Baidu(1999),百度,1999,年,由,李彦宏,以及其好友,徐勇,在,美国,创办,截至,2006,年,,百度是目前大陆访问使用量最高的,搜索引擎,(,64.5%,),公司名称“百度”二字源自,宋代,词人,辛弃疾,的,青玉案,的一句词:“众里寻他千百度”。截至,2009,年,3,月,百度在,Alexa,互联网排名中排名,11,。,总目录,简史,搜索引擎的构成要素,搜索器,索引器,检索器,/,用户接口,总目录,搜索器,高强度爬虫程序:,Baiduspider,,,Yahoo!Slurp,,,iaskspider/2.0,,,Sogou,web spider/3.0,中等强度爬虫程序:,Googlebot/2.1,,,YodaoBot/1.0,开源爬虫程序:,Heritrix,Nutch,Larbin,总目录,构成要素,索引器,Lucene,:,全世界都知道,http:/,lucene.apache.org,/,Xapian:C,+,开发的概率信息检索库,功能强大,.http:/,www.xapian.org,/,ICTCLAS:,全球最受欢迎的汉语分词开源系统,获得首届国际分词大赛综合排名第一,国家,973,评测第一名。,http:/ictclas.org/index.html,(Institute of Computing Technology,Chinese Lexical Analysis System),总目录,构成要素,“东搜”的基本介绍,搜索器,DSpider,索引器,Lucene(CJKAnalyzer,),检索器,/,用户接口,用,JSP,实现,总目录,搜索器,DSpider,mini,drank,indexer,image,video,music,download,web,js,总目录,基本介绍,DSpider_mini,数据库统一接口,爬虫算法,网页内容获取,字符编码检测,线程管理,数据挖掘,程序运行日志,总目录,基本介绍,数据库统一接口,总目录,基本介绍,DSpider_mini,爬虫算法,总目录,基本介绍,DSpider_mini,爬虫算法,总目录,基本介绍,DSpider_mini,等待队列,运行队列,成功队列,失败队列,网页内容获取,总目录,基本介绍,DSpider_mini,1.,请求行:请求行由三个标记组成:请求方法、请求,URI,和,HTTP,版本,它们用空格分隔。例如:,GET/,index.html,HTTP/1.1,2.,请求头标:由关键字,/,值对组成,每行一对,关键字和值用冒号(,:,)分隔。请求头标通知服务器有关于客户端的功能和标识,典型的请求头标有:,User-Agent,客户端厂家和版本,Accept,客户端可识别的内容类型列表,Content-Length,附加到请求的数据字节数,网页内容获取,-,百度首页测试,总目录,基本介绍,DSpider_mini,客户端发送请求,:,GET/HTTP/1.0,HOST:,ACCEPT:*/*,服务器返回头信息,:,HTTP/1.1 200 OK,date=sun,22 mar 2009 12:02:25,gmt,server=bws/1.0,content-length=3596,content-type=text/html,cache-control=private,expires=sun,22 mar 2009 12:02:25,gmt,set-cookie=,baiduid,=879623fc024528e897342282be7ac796:fg=1;expires=sun,22-mar-39 12:02:25,gmt,;path=/;domain=.,p3p=cp=,oti,dsp,cor,iva,our,ind,com“,网页正文内容,.,字符编码检测,总目录,基本介绍,DSpider_mini,服务器返回头信息,Content-Type,i.e.content-type=text/html;,charset,=utf-8,HTML,标签中的元标签信息,i.e.,检测开头三字节,(,可能存储着编码信息,),i.e.UTF-8,编码格式的文本文件,其前,3,个字节的值就是,-17,、,-69,、,-65,字符编码检测,总目录,基本介绍,DSpider_mini,线程管理,总目录,基本介绍,DSpider_mini,总经理,-Spider,类,负责线程调度,工作分配,员工,-,SpiderWorker,类,负责完成分配的任务,总经理,-Spider,类,总目录,基本介绍,DSpider_mini,员工,-,SpiderWorker,类,总目录,基本介绍,DSpider_mini,数据挖掘,总目录,基本介绍,DSpider_mini,超链接的挖掘,(extraction),图片的挖掘,音频文件的挖掘,视频文件的挖掘,超链接的挖掘,总目录,基本介绍,DSpider_mini,程序运行日志,总目录,基本介绍,DSpider_mini,索引器,Lucene,doIndex,doImageIndex,doMusicIndex,doResourceIndex,doVideoIndex,总目录,基本介绍,doIndex,总目录,基本介绍,检索器,/,用户接口,网页,图片,音乐,视频,资源,词典,个人,书签,总目录,基本介绍,检索网页,总目录,基本介绍,检索器,/,用户接口,检索图片,总目录,基本介绍,检索器,/,用户接口,检索音乐,总目录,基本介绍,检索器,/,用户接口,检索视频,总目录,基本介绍,检索器,/,用户接口,检索资源,总目录,基本介绍,检索器,/,用户接口,检索词典,总目录,基本介绍,检索器,/,用户接口,搜索引擎的未来展望,整合搜索多元的信息做很聪明的、相关度的排序,用时间地点来整合它,也可以跨语言整合它,移动搜索会根据你不同的地域给你一个智能的判断,智能搜索能否用语音和形象做一些搜索,人性化搜索今天我们更多是人来找信息,但是以后很多的时候可能是信息找到你,总目录,谢谢关注,!,Thank You!,
展开阅读全文