搜索引擎的主要问题课件

上传人:29 文档编号:241318557 上传时间:2024-06-17 格式:PPT 页数:19 大小:699.89KB
返回 下载 相关 举报
搜索引擎的主要问题课件_第1页
第1页 / 共19页
搜索引擎的主要问题课件_第2页
第2页 / 共19页
搜索引擎的主要问题课件_第3页
第3页 / 共19页
点击查看更多>>
资源描述
LOGO1搜索引擎的主要问题搜索引擎的主要问题&今后的发展今后的发展1搜索引擎的主要问题&今后的发展2搜索引擎浅识搜索引擎浅识v搜索引擎(search engine)是一种能够通过Internet接受用户的查询指令,并向用户提供符合其查询要求的信息资源网址的系统,是网络信息检索的首选工具。v搜索引擎一般有以下四部分:搜索器 索引器 检索器 用户接口2搜索引擎浅识搜索引擎(search engine)是一种3搜索引擎的分类搜索引擎的分类v全文搜索引擎。v全文搜索引擎是从由互联网上收集各个网站信息组建的数据库中检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。国外具有代表性的全文搜索引擎有Google、AltaVista等,国内著名的全文搜索引擎有百度、天网等。从搜索结果来源的角度看,全文搜索引擎又可细分为两种,一种是拥有自己的检索程序,俗称“蜘蛛”程序或“机器人”程序,并自建网页数据库,搜索结果直接从自身的数据库中调用;另一种则是租用其他引擎的数据库,并按自定的格式排列搜索结果,如Lycos(民赞网)引擎。3搜索引擎的分类全文搜索引擎。4搜索引擎的分类搜索引擎的分类v目录式搜索引擎v该搜索引擎是由人工建立和管理的网站级主题分类体系.由于目录式搜索引擎的信息分类和信息搜集有人的参与,其搜索的准确度是相当高的。但严格来讲它不是真正的搜索引擎,用户可以不用进行关键词查询,仅靠分类目录也可找到需要的信息,代表有雅虎、新浪、InfoMarket 等.4搜索引擎的分类目录式搜索引擎5搜索引擎的分类搜索引擎的分类v元搜索引擎v元搜索引擎由多个独立的搜索引擎汇集而成,没有自己的数据,在接受用户查询请求时,可以同时调用多个搜索引擎,在其他多个引擎上进行搜索,并将结果返回给用户。如万纬搜索、someta等等.5搜索引擎的分类元搜索引擎搜索引擎的分类搜索引擎的分类v垂直搜索引擎 v垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。搜索引擎的分类垂直搜索引擎 垂直搜索引擎为2006年后逐步兴7目前存在的主要问题目前存在的主要问题v(1)查准率低:多数搜索引擎的检索功能单一,信息加工深度不够,这导致信息查询的查准率不高。并且其数据库多为非全文数据库,不能提供原文,复杂高级的精确检索方式明显不足,不易于处理多词检索和限定词检索。按分类目录浏览常常检索到很多无关的信息。7目前存在的主要问题(1)查准率低:多数搜索引擎的检索功能单8目前存在的主要问题目前存在的主要问题v(2)检索效率不高:主要问题是长数据更新速度慢,查询响应时间长。由于网络资源的爆炸式增长和上网用户需求的日益增加,多数搜索引擎的日处理检索请求量很可能是上亿的,如何处理如此繁重的任务并提高处理效率,是目前搜索引擎必须要考虑的问题。8目前存在的主要问题(2)检索效率不高:主要问题是长数据更新9目前存在的主要问题目前存在的主要问题v对多媒体信息资源的处理技术还不成熟:v目前,多数搜索引擎的搜索对象主要是文本格式,主要原因是搜索引擎的自动排序软件,只能接受这种格式的网页。能够搜索多媒体信息资源的搜索引擎较少。多媒体技术的发展,对搜索引擎提出了更高的要求,搜索引擎应更好地支持动态网页,尽快解决动态网页查询的问题。9目前存在的主要问题对多媒体信息资源的处理技术还不成熟:10目前存在的主要问题目前存在的主要问题v专业性搜索引擎较少:v专业性搜索引擎是为专门收录某一行业、某一主题等的信息而建立,能够提供专题信息查询服务的搜索引擎。目前的搜索引擎大多是综合性的,收录各方面、各学科和各行业的信息,在反映专题或专业信息方面很难做到全、快、精、准。例如,科研人员对网络的需要主要表现为对专业网络信息资源的需求,但目前的搜索引擎收录信息类型众多,能够提供专题信息查询服务的专业性搜索引擎很少,用户不可能也没有必要去浏览所有的网页,这就给用户获取相关文献造成了极大的信息障碍。10目前存在的主要问题专业性搜索引擎较少:目前搜索引擎使用的主要技术目前搜索引擎使用的主要技术vPageRank(页面等级)技术vPageRank(tm)算法是由斯坦福大学的Sergey Brin和LawrencePage于1998年提出的,它借鉴了传统情报检索理论中的引文分析方法即被其它文献引用越多的文献其质量越高。PageRank(tm)算法将www上无数互相链接的页面看成是一个巨大的链接有向图,将页面看成顶点,链接看成有向边。PageRank并不计算直接链接的数量,而是将从网页A指向网页B的链接解释为由网页A对网页B所投的一票。这样,PageRank会根据网页B所收到的投票数量来评估该页的重要性。此外,PageRank还会评估每个投票网页的重要性,某些重要网页的投票被认为具有较高的价值,它所链接的网页就能获得较高的价值,从而显示在搜索结果的顶部。由于该技术是根据网页之间的链接结构对网页的重要性进行客观的分析,该技术在很大程度上避免和减少了人为因素。目前搜索引擎使用的主要技术PageRank(页面等级)技术目前搜索引擎使用的主要技术目前搜索引擎使用的主要技术v超文本匹配分析v在依据用户关键词查询数据库时,分析关键词在网页中出现的次数,分析网页的全部内容以及字体、字号及每个文字精确位置等因素,还可以分析相邻网页的全部内容,以确保返回与用户查询最相关的结果。目前搜索引擎使用的主要技术超文本匹配分析目前搜索引擎使用的主要技术目前搜索引擎使用的主要技术v中文分词技术v中文分词技术属于自然语言处理技术范畴,其处理过程就是分词算法。现有的分词算法可分为三大类:基于机械匹配的分词算法、基于统计语言模型(SLM)的分词算法和基于理解的分词算法。包括:基于机械匹配的分词算法,基于统计语言模型(SLM)的分词算法,基于理解的分词算法.目前搜索引擎使用的主要技术中文分词技术未来技术动向分析未来技术动向分析v提高检索的有效性v用户在使用搜索引擎查询信息时,关注的是返回结果是否是自己需求的信息,而不是追求返回结果的数量。解决查询结果过多的现象目前出现了几种方法:一是采用目录式结构,用户可以像浏览文件夹一样选择自己感兴趣的网页;二是对搜索结果进行聚类分析,通过无监督学习机制查找相关内容。未来技术动向分析提高检索的有效性未来技术动向分析未来技术动向分析v提供个性化服务v用户信息需求是多方面的、多层次的。譬如,一般用户希望系统更多的提供“傻瓜”式服务,专业人士则自己构造检索式,既方便又准确。可以使用信息智能代理跟踪用户检索行为,分析用户模型,从而提供个性化的服务。未来技术动向分析提供个性化服务未来技术动向分析未来技术动向分析v提供多通道输入v用户可以通过声音、图像、视频等作为查询的输入,查询的时,应对用户名、密码等关键信息进行加密传输。在运营过程中,设备也可以随时要求客户重新进行验证。支持端口验证的设备应满足如下要求:识别并支持源、目的地址确定,VLAN TAG要求等;支持受控端口与非受控端口,并根据数据帧类型送入不同的端口;支持受控端口在端口控制参数下的行为;支持Radius验证。未来技术动向分析提供多通道输入未来技术动向分析未来技术动向分析v设备安全防护v口令管理:为防止对系统未经授权的访问,系统必须具有完善的密码管理功能。虽然几乎所有数据通信设备都具有RADIUS或TACACS认证服务器进行口令管理的能力,但在设备本地进行密码分配和管理仍是设备本身应具有的安全特性。这里只描述本地密码管理。口令的密文显示:若系统的配置文件以文本方式进行保存,则在配置文件中,所有的口令都必须以密文方式显示和保存。未来技术动向分析设备安全防护参考文献参考文献&引用文献引用文献v搜索引擎存在的问题与发展趋势,包燕晗,2006,6v搜索引擎中的软件技术浅析,黄美军,信息科技报,2010,7,下v搜索引擎关键技术的分析与研究,冯翠丽,信息与电脑,2010,6v搜索引擎优化策略研,焦丽,路波,生产力研究,2010,7参考文献&引用文献搜索引擎存在的问题与发展趋势,包燕晗,20LOGO1919Thank You!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!