搜索引擎基础原理课件

上传人:2127513****773577... 文档编号:240949924 上传时间:2024-05-20 格式:PPT 页数:21 大小:447.90KB
返回 下载 相关 举报
搜索引擎基础原理课件_第1页
第1页 / 共21页
搜索引擎基础原理课件_第2页
第2页 / 共21页
搜索引擎基础原理课件_第3页
第3页 / 共21页
点击查看更多>>
资源描述
搜索引擎基础搜索引擎基础搜索引擎基础搜索引擎工作原理搜索引擎工作原理搜索引擎工作主要分为:搜索引擎工作主要分为:页面抓取(信息收集)页面抓取(信息收集)页面分析(预处理)页面分析(预处理)建立索引(预处理)建立索引(预处理)页面排序(排名)页面排序(排名)搜索引擎工作原理搜索引擎工作主要分为:1 抓取页面(信息收集)抓取页面(信息收集)这个工作主要由叫做这个工作主要由叫做“机器人(机器人(robot)”、“爬虫爬虫(crawler)”或者或者“蜘蛛(蜘蛛(spider)”的程序,根据一定的程序,根据一定规则扫描存在于互联网上的网站,并沿着网页上的链接从规则扫描存在于互联网上的网站,并沿着网页上的链接从一个网页到另一个网页,从一个网站到另一个网站。一个网页到另一个网页,从一个网站到另一个网站。为保证采集的资料最新,它还会回访已抓取过的网页。为保证采集的资料最新,它还会回访已抓取过的网页。这个工作是搜索引擎所有工作的基础这个工作是搜索引擎所有工作的基础1 抓取页面(信息收集)这个工作主要由叫做“机器人(robo页面抓取的两种方式页面抓取的两种方式页面抓取的两种方式吸引蜘蛛吸引蜘蛛网站的权重和网站的权重和PR值值网站的更新频率网站的更新频率页面的质量度页面的质量度页面的连接数页面的连接数吸引蜘蛛网站的权重和PR值页面存储页面存储搜索引擎在存储原始页面时,不单只存储原始页搜索引擎在存储原始页面时,不单只存储原始页面,还会存储其他的附加信息,例如:文件类型、面,还会存储其他的附加信息,例如:文件类型、文件大小、最后修改时间、文件大小、最后修改时间、URL、IP地址、抓取地址、抓取时间等时间等页面存储搜索引擎在存储原始页面时,不单只存储原始页面,还会存页面收录原理页面收录原理URL列表列表抓取页面抓取页面提取提取URL存储原始页面存储原始页面页面收录原理URL列表抓取页面提取URL存储原始页面用户提交用户提交搜索引擎还允许用户自己提交网站(一般只需要提交首页或者网站域名即可)百度:搜狗:360:SOSO:Google:Google英文:http:/?continue=/addurl用户提交搜索引擎还允许用户自己提交网站(一般只需要提交首页或2.1 页面分析(预处理)页面分析(预处理)对页面内容进行分析,提取相关网页信息(包括网对页面内容进行分析,提取相关网页信息(包括网页所在页所在URL、编码类型、页面内容包含的所有关、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其它网页键词、关键词位置、生成时间、大小、与其它网页的链接关系等)。主要就是提取用于排名处理的网的链接关系等)。主要就是提取用于排名处理的网页文字。页文字。对页面正文内容进行对页面正文内容进行“切词切词”,为这些词建立索引,为这些词建立索引,得到页面和关键字之间的对应关系得到页面和关键字之间的对应关系2.1 页面分析(预处理)对页面内容进行分析,提取相关网页信页面分析(预处理)页面分析(预处理)页面分析主要包括:页面分析主要包括:正文信息提取:主要是对标签和注释等信息的过滤正文信息提取:主要是对标签和注释等信息的过滤切词切词/分词:对页面内容进行切分,形成与用户查询条件相分词:对页面内容进行切分,形成与用户查询条件相匹配的关键字为单位的信息列表匹配的关键字为单位的信息列表匹配分词:和预设的海量词汇的匹配分词:和预设的海量词汇的“辞典辞典”中的词比较,中的词比较,如果有匹配的词,则为命中。如果有匹配的词,则为命中。统计分词:根据相邻的统计分词:根据相邻的2个或者多个字(词)出现的概个或者多个字(词)出现的概率判断这率判断这2个字(词)是否会形成一个词。个字(词)是否会形成一个词。页面分析(预处理)页面分析主要包括:2.2 建立索引(预处理)建立索引(预处理)关键字索引:在切词处理后,形成了关键字列表。关键字关键字索引:在切词处理后,形成了关键字列表。关键字列表的每条记录包含:关键字、关键字编号、出现次数、列表的每条记录包含:关键字、关键字编号、出现次数、在网页中的位置信息等。在网页中的位置信息等。根据一定的相关度算法进行大量复杂计算,得到每一个网根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链中每一个关键词的相关度(或重页针对页面文字中及超链中每一个关键词的相关度(或重要性),然后用这些相关信息建立网页索引数据库要性),然后用这些相关信息建立网页索引数据库对抓取回来的网页建立索引,以实现对页面的快速定位;对抓取回来的网页建立索引,以实现对页面的快速定位;2.2 建立索引(预处理)关键字索引:在切词处理后,形成了关建立索引(预处理)建立索引(预处理)建立索引(预处理)3 页面排序(排名)页面排序(排名)结合页面的内外因素,计算出页面与某个关结合页面的内外因素,计算出页面与某个关键字的相关程度,从而得到与该关键字相关键字的相关程度,从而得到与该关键字相关的页面索引列表,从而确定搜索排名。的页面索引列表,从而确定搜索排名。3 页面排序(排名)结合页面的内外因素,计算出页面与某个关键3 页面排序(排名)页面排序(排名)用户在搜索引擎中输入查询条件后,搜索引擎就在数据库用户在搜索引擎中输入查询条件后,搜索引擎就在数据库中检索相关的信息,并将检索结果返回给用户。中检索相关的信息,并将检索结果返回给用户。(对搜索(对搜索词进行处理)词进行处理)搜索引擎在往用户端返回数据的时候,并不是随机的,而搜索引擎在往用户端返回数据的时候,并不是随机的,而是按照一定的计算方法进行排序的是按照一定的计算方法进行排序的(搜索匹配,相关性计(搜索匹配,相关性计算)算)涉及到排序的因素主要有:涉及到排序的因素主要有:页面相关性页面相关性链接权重链接权重用户行为用户行为3 页面排序(排名)用户在搜索引擎中输入查询条件后,搜索引擎3.1 页面相关性页面相关性页面相关性页面相关性通过对检索结果进行相关性排序,搜索引擎的最终目的通过对检索结果进行相关性排序,搜索引擎的最终目的是将最相关的网络信息尽可能地优先显示在搜索结果的是将最相关的网络信息尽可能地优先显示在搜索结果的前面部分,以改进搜索结果的输出。前面部分,以改进搜索结果的输出。虽然各个搜索引擎中相关度排序的具体实现各不相同,虽然各个搜索引擎中相关度排序的具体实现各不相同,但基本上都采用了基于网站内容的分析方法,即考虑用但基本上都采用了基于网站内容的分析方法,即考虑用户所查询的关键词在文档网页中的出现情况,包括户所查询的关键词在文档网页中的出现情况,包括关键关键字匹配度、关键词密度、关键词位置、关键字的权重标字匹配度、关键词密度、关键词位置、关键字的权重标签签等因素。等因素。3.1 页面相关性页面相关性3.1 页面相关性页面相关性关键字匹配度:是指网页中的内容与用户所查询的关键关键字匹配度:是指网页中的内容与用户所查询的关键字之间的匹配程度,主要是字之间的匹配程度,主要是2个因素:个因素:页面中是否包含关键字页面中是否包含关键字关键字在页面中出现的次数关键字在页面中出现的次数关键字密度:关键字密度:关键字出现的次数与该网页总词汇量的比例关键字出现的次数与该网页总词汇量的比例.一般是一般是3%-8%3.1 页面相关性关键字匹配度:是指网页中的内容与用户所查询3.1 页面相关性页面相关性关键字分布关键字分布:关键字在网页中出现的位置关键字在网页中出现的位置会影响到关键字的分布值关键字的权重标签关键字的权重标签关键字是否使用了HTML标签实现了不同的视觉效果(如加粗、颜色变换等)页面相关性计算公式:R(relevance)=M(match)+D(density)+P(position)+T(html Tag)3.1 页面相关性关键字分布:3.2 链接权重链接权重什么叫做链接?什么叫做链接?链接的原理作用?链接的原理作用?3.2 链接权重什么叫做链接?3.2 链接权重链接权重页面之间的超链接反映了页面之间的引用关系页面之间的超链接反映了页面之间的引用关系(内(内链)页面的相关程度,链)页面的相关程度,页面被其他站点或其他网页页面被其他站点或其他网页引用的次数引用的次数(外链)(外链)基本上也反映了该网页的受欢基本上也反映了该网页的受欢迎程度或重要性。迎程度或重要性。影响一个网站排名的三个要素。影响一个网站排名的三个要素。内部优化内部优化外部优化(链接)外部优化(链接)对新网站和新网页链接的权重补偿(一个月以内)对新网站和新网页链接的权重补偿(一个月以内)3.2 链接权重页面之间的超链接反映了页面之间的引用关系(内3.3 用户行为用户行为用户行为主要包括:用户行为主要包括:搜索:用户获得信息的过程,搜索:用户获得信息的过程,通过这个用户行为,学习新通过这个用户行为,学习新词汇,丰富辞典词汇,丰富辞典 点击:用户对搜索结果的反点击:用户对搜索结果的反应,被点击的次数越多,说应,被点击的次数越多,说明越重要,权重越高明越重要,权重越高 为避免马太效应为避免马太效应(好的越好坏好的越好坏的越坏的越坏),对排在后面的链接,对排在后面的链接的点击的权重补偿的点击的权重补偿3.3 用户行为用户行为主要包括:3.3 用户行为用户行为 用户的体验用户的体验 1.页面的质量度,能否切实解决用户的需求,满足页面的质量度,能否切实解决用户的需求,满足用户的搜索目的。用户的搜索目的。2.用户浏览的用户浏览的UI体验,包含视觉效果、页面速度、体验,包含视觉效果、页面速度、目标页面的寻找。目标页面的寻找。3.用户的浏览量以及跳出率。用户的浏览量以及跳出率。3.3 用户行为 用户的体验
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!