资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015-8-27,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015-8-27,#,第一章 搜索引擎能带给我们什么?,纪元霞,TEL,:,13518715536,EMAIL,:,jyx_,OUT LINE,搜索引擎带来的巨大变革,搜索引擎,搜索引擎的定义,搜索引擎的原理,搜索引擎的分类,搜索引擎资源,有搜索引擎就足够了吗?,搜索引擎的缺陷,如何解决?,内事不知问百度,外事不知问,google,搜索引擎一代,“,他们是经常使用搜索引擎的青少年,他们用,google,或者雅虎帮助自己完成每天的日常生活,”,维基百科,计算机系的小张经常利用搜索引擎查找一些计算机专业名词,英语系的李同学,经常使用,Yahoo Answer,寻找一些陌生的词汇,比如,sister lotus,monkey king,芙蓉姐姐,孙悟空,搜索,正在改变我们的生活,互联网以其强大的数据存储量,迅速更新的信息,为搜索引擎的客观存在提供了物质基础与信息支持,。,据说看完百度收录的所有网页,需要,人类历史上第一次可以在家中面对如此大的信息量,合理的利用搜索引擎,可以从茫茫信息海洋中提取需要的信息,这就是搜索引擎带给我们最实在的利益。,整整,1500,年,讨论:,互联网给你带来了什么?,互联网,25,周年(,1989-2014,):改变世界的,25,大方面,搜索,正在改变我们的生活,互联网:海量数据,飞速更新,信息无序,信息量越大,越难被利用,没有人对互联网信息的有效性和有序性负责,如何获取和利用互联网上的信息?,目前解决这一问题的最佳途径是利用搜索引擎,搜索引擎的定义,搜索引擎的定义,搜索引擎是指通过网络搜索软件或网站登录等方式,将互联网上大量网站的页面收集到本地,经过加工处理而建库,从而能够对用户提出的各种查询做出响应,提供用户所需的信息。,你所知道的搜索引擎有哪些?能说说它们的特点吗?,从具体到抽象,从常用中文搜索引擎的特点理解搜索引擎的特点,百度:,百度是全球最大的中文搜索引擎,在索引库规模、检索效率、更新时间、响应时间等方面均处于领先地位。,除了普通的网页搜索外,在垂直搜索方面也推出了相关产品,如,MP3,、视频、图片等搜索,在非搜索领域推出了百度百科、百度知道、百度贴吧、玩吧、,HI,吧等。,百度搜索是一个综合性的搜索引擎,百度文库、百度地图等均应用广泛,谷歌,:,谷歌搜索速度极快,网页数量在搜索引擎中名列前茅,支持多达,132,种语言,搜索结果准确率极高,具有独到的图片搜索功能和强大的新闻组搜索功能,支持关键词自助广告,具有,PR,技术支持,必应,Bing:,图片唯美,画质清晰,页面非常的简洁舒服,让人视觉产生美感。,导航很方便,Bing,的首页还链接了微软自己的一些产品,如,MSN,、,Windows Live,等,雅虎中国,Yahoo,:,搜索界面简洁漂亮大方,雅虎在全球共有,24,个网站,,12,种语言版本。,Yahoo,的图像搜索引擎技术优于其它搜索引擎。所返回的图片准确度很高,且每张图片的质量都很好。,搜狗,Sougou,搜搜,soso,几乎所有谈及搜索引擎的特点时都要提到搜索效率,检准率等指标。,以上具体实例清楚表明搜索引擎就是按照一定的算法从浩瀚的互联网资源中检索用户所需的信息。,搜索引擎(,Search Engine,),是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。,搜索引擎的原理,网页的组成,搜索引擎的原理,网页的组成,(,1,),IP,地址和域名地址,,是搜索引擎和我们进入网站的唯一途径,如百度有一个,IP,地址,为,61.135.169.125,。,由于,IP,地址不方便记忆,我们通常使用域名地址(如,)。由,DNS,服务器将域名地址翻译为该域名所对应的,IP,地址。,(,2,)网页地址,,俗称网址。,Internet,上的每一个网页都具有一个唯一的名称标识,通常称之为,URL,(统一资源定位符)地址,这种地址可以是本地磁盘,也可以是局域网上的某一台计算机,更多的是,Internet,上的站点。,(,3,)网页标题,,在网页的源文件中,以,将其标识出来。如:,欢迎访问云南农业大学主页!,;当然,有时候网站为了提高其搜索引擎的蜘蛛爬虫的命中率,会在,中加入足够多的内容,如一个名为“中国论文发表网”的网站,其标题的内容包括:,论文发表、发表论文、发表文章、期刊合作、教育论文发表、科技论文发表、经济论文发表、职称论文发表、学术论文发表、论文协,(,4,)网页正文,。,网页的组成,搜索引擎的原理,一个搜索引擎由搜索器、索引器、检索器 和用户接口 四个部分组成。搜索器的功能是在互联网 中漫游,发现和搜集信息。索引器的功能是理解搜索器所搜索的信息,从中抽取出索引项,用于表示文档 以及生成文档库的索引表。检索器的功能是根据用户的查询在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果、提供用户相关性反馈机制。,1,、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(,spider,)。爬虫,Spider,顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。,2,、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度,/,丰富度等,3,、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和,URL,外,还会提供一段来自网页的摘要以及其他信息,搜索引擎的原理可以看做三步:从互联网上抓取网页建立索引数据库在索引数据库中搜索排序。,它并不真正搜索互联网,它搜索的实际上是预先整理好的网页索引数据库。,它也不能真正理解网页上的内容,它只能机械的匹配网页上的文字。,搜索引擎,如此神器从何而来?,搜索引擎的历史,所有搜索引擎的祖先,是,1990,年由,Montreal,的,McGill University,三名学生(,Alan Emtage,、,Peter Deutsch,、,Bill Wheelan,)发明的,Archie,(,Archie FAQ,)。,Archie,是第一个自动索引互联网上匿名,FTP,网站文件的程序,Archie,是一个可搜索的,FTP,文件名列表,用户必须输入精确的文件名搜索,然后,Archie,会告诉用户哪一个,FTP,地址可以下载该文件,虽然,Archie,搜集的信息资源不是网页(,HTML,文件),但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,,Archie,被公认为现代搜索引擎的鼻祖。,1993,年发布了,Archie,的,HTTP,版本,Aliweb,Aliweb,根据网站主动提交的信息建立自己的链接索引,类似于现在的,Yahoo,。,1994,年建立了,Lycos,,成为最早的真正意义上的搜索引擎。,搜索引擎最初的发展模式有多种:,Yahoo,注重网站的分类汇总服务,Alta Vista,、,Excite,等注重提供庞大的搜索数据库,走进搜索引擎,搜索引擎的分类,按照搜索引擎的工作原理不同,搜索引擎可分为三种,关键词搜索引擎:在前台提供一个搜索入口,用户通过入口提交关键词,系统返回检索结果。这类搜索引擎交互性强,通常具备二次检索功能,以便用户逐步接近检索结果。,主题分类指南:依据某种分类依据(如学科分类)建立主题树分层浏览体系,由搜索引擎抓取网上信息之后,对信息进行标引,并将标引后的信息放入浏览体系的各大类或子类下。用户层层单击,最终进入浏览树的叶子节点,找到自己需要的信息。查准率高,查全率低。,元搜索引擎,:自身不建立数据库,而是在接受用户的查询请求后,调用一个或多个独立搜索引擎的数据库,检索结果是来自独立搜索引擎的检索结果集合的综合。元搜索引擎通常引用知名的搜索引擎,查全率高,查准率低,检索功能和检索技术简单。,为什么主题分类指南搜索引擎的查准率高,查全率低?,走进搜索引擎,搜索引擎的分类,其它分类:,全文索引、目录索引、元搜索引擎,、垂直搜索引擎、集合式搜索引擎等,垂直搜索引擎:,2006,年后逐步兴起。不同于通用的网页搜索引擎,它专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、小说搜索、购物搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样,。,集合式搜索引擎:,该搜索引擎类似元搜索引擎,区别在于它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如,HotBot,在,2002,年底推出的搜索引擎。,今天的搜索引擎有何趋势,搜索引擎的发展,搜索引擎的核心逐步转变成为网络导航服务。,搜索引擎服务商之间也有了分工协作的趋势,出现了专业的技术提供商和数据库服务提供商。,智能化,智能检索:利用分词、同义词,同音词改善检索效果,进一步在知识层面或概念层面上辅助查询,通过主题词、上下位词、相关同级词检索处理形成一个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。(查询,“,计算机,”,,与,“,电脑,”,相关的信息也能检索出来),搜索引擎的发展,个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一,通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果,通过分析用户的检索历史和行为习惯推送相关信息。,来点干货,搜索引擎资源,综合性搜索引擎,百度:,https:/ Search,的全新搜索引擎服务。作为全球领先的搜索引擎之一,截至,2013,年,5,月,必应已成为北美地区第二大搜索引擎,如加上为雅虎提供的搜索技术支持,必应已占据,29.3%,的市场份额。与传统搜索引擎只是单独列出一个搜索列表不同,,Bing,搜索的最大特点是对会返回的结果加以分类。例如当用户搜索某位歌星的名字时,搜索结果会分类显示等。,搜狗:,http:/ Cache,,又称网页缓存。搜索引擎在收录网页时,对网页进行备份,存在自己的服务器缓存里,当用户在搜索引擎中点击“网页快照”链接时,搜索引擎将,Spider,系统当时所抓取并保存的网页内容展现出来,称为“网页快照”。,技巧,8,:其它,1,、天气查询,2,、度量转换,3,、文件格式转换,4,、大小写转换,搜索引擎资源,学术搜索引擎,CitseerX,http:/citeseer.ist.psu.edu,使用指南,CitseerX,的前身是,Citseer,。,Citseer,引文搜索引擎是由,NEC,公司研发的。它是利用自动引文标引系统建立的第一个科学文献数字图书馆。,CitseerX,是专注于计算机和信息科学方面的学术搜索引擎,主题包括智能代理、人工智能、硬件、软件工程、数据压缩、人机交互、操作系统、数据库、信息检索、网络技术、机器学习等。,CitseerX,如同一个图书馆,目前能检索,100,多万的文章和,300,多万的引文。,Sciseek,http:/www.,sciseek,.com,Sciseek,是一个专注于科学与自然领域的搜索工具,采取人工收集处理的方式,提供农林、工程、化学、物理和环境方面的科技期刊及其他
展开阅读全文