《搜索引擎教程》PPT课件.ppt

上传人:jun****875 文档编号:8015363 上传时间:2020-03-26 格式:PPT 页数:98 大小:9.55MB
返回 下载 相关 举报
《搜索引擎教程》PPT课件.ppt_第1页
第1页 / 共98页
《搜索引擎教程》PPT课件.ppt_第2页
第2页 / 共98页
《搜索引擎教程》PPT课件.ppt_第3页
第3页 / 共98页
点击查看更多>>
资源描述
搜索引擎 提纲 搜索引擎的发展简史搜索引擎的分类使用搜索引擎搜索引擎的基本原理第一次上机总结搜索经济搜索引擎的未来发展趋势 1搜索引擎的发展简史 搜索引擎的鼻祖 Archie 1990年由Montreal的McGillUniversity 麦吉尔大学 学生AlanEmtage PeterDeutsch BillWheelan发明的Archie ArchieFAQ 实际上是一个可搜索的FTP文件名列表 现代搜索引擎的起源 Wanderer 1993年MIT的学生MatthewGray开发了WorldWideWebWanderer 它是世界上第一个利用网页之间的链接关系来监测Web发展规模的机器人 Robot 程序 最开始只是用来统计互联网上的服务器数量 之后发展为也能捕获网址 Yahoo 1994 4美籍华人JerryYang 杨致远 和DavidFilo完成了一套搜索软件 最初Yahoo的数据是手工输入的 实际上只是一个可搜索的目录 1995年1月 正式成立Yahoo网站 第一个现代意义上的搜索引擎 Lycos 1994 7CarnegieMellonUniversity的MichaelMauldin将JohnLeavitt的蜘蛛程序接入到其索引程序中 创建了Lycos 提供了前缀匹配和字符相近限制 网页自动摘要 数据量相对较大 Infoseek 1994年底 Infoseek推出 沿袭Yahoo 和Lycos的概念 友善的用户界面 大量附加服务使其后来者居上 1995 12与Netscape的战略性协议使它变得很强势2001年2月 Infoseek改用Overture的搜索结果 第一个元搜索引擎 Metacrawler 元搜索引擎 AMetaSearchEngineRoundup 用户提交搜索后 由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎 并将从各独立搜索引擎返回的所有查询结果 集中起来处理后再返回给用户 第一个元搜索引擎 是Washington大学硕士生EricSelberg和OrenEtzioni开发的Metacrawler 第一个支持自然语言搜索的搜索引擎 AltaVista 1995年12月出现 AltaVistaPublicBetaPressRelease AltaVista是第一个支持自然语言搜索的搜索引擎 2003年AltaVista被Overture收购 后者是Yahoo的子公司 搜索引擎的后来之王 Google 1995年 佩奇来到斯坦福读博士 开始网络链接结构方面的研究项目BackRub 之后 他和布林提出了PageRank技术 用于对网页评级之后用于搜索引擎 改写了搜索引擎的定义 建立了Google 搜索引擎的后来之王 Google Google在斯坦福引起了人们的关注 佩奇开始准备出售该技术 但是没有成功 Sun公司创始人的投资 随后成立公司 2000年和Yahoo合作 一飞冲天 2004年7月上市 市值250亿 增长速度超过微软 Google之特点 专注 进取 朴素 低调 神话般的创业故事 中文搜索引擎老大 百度 2000 1李彦宏创立了百度 2001 8发布百度测试版 目前是最大的中文搜索引擎MP3搜索特色 百度的特点 专注于技术专注于中文搜索 2搜索引擎的分类 目录搜索引擎 以人工方式或半自动方式搜集信息信息准确 导航质量缺点是需要人工介入 维护量大 信息量少 信息更新不及时 机器人搜索引擎 由一个称为蜘蛛 Spider 的机器人程序自动搜索信息优点 信息量大 更新及时 无需人工干预缺点 返回信息过多 有很多无用信息 元搜索引擎 利用其他搜索引擎返回统一的搜索结果 返回信息量更大 更全 缺点是不能充分使用所有搜索引擎的功能 其他搜索产品 建站时间1999 5世界排名20站长年龄22岁收购前月收入100万收购价格 号称5000万 实际可能1000万 3使用搜索引擎 Google主页 Google的含义 Googol 是一个数学名词 表示10的100次方 巨大的数字 Google使用这一术语体现了该公司整合网上海量信息的远大目标 Google基本搜索 基本搜索方法 逻辑 与 非 或 即 OR1 与操作 搜索结果要求包括两个及两个以上关键字 关键字之间用空格 2 非操作 搜索结果要求不包含某些特定信息 在排除的关键词前加 英文字符 号前空格 后面不能有空格 3 或操作 搜索结果至少包含多个关键字中的任意一个关键字之间用 OR 表示 OR必须用大写 GOOGLE不支持通配符 关键字中的 或 会被忽略 GOOGLE对英文字符大小写不敏感 GOOGLE用句子做关键字 必须加英文引号 google强制搜索 Google对一些网路上出现频率极高的英文单词 如 i com www 等 以及一些符号如 等 作忽略处理 搜索 www的历史internet结果 因为使用过于频繁 没有被列入搜索范围 www的对忽略的关键字进行强制搜索 在该关键字前加上 号 搜索 www 的历史internet结果 已搜索有关 www 的历史internet的网页 另一个强制搜索的方法是把关键字用英文双引号引起来 搜索 www的历史 internet 结果 已搜索有关 www的历史 internet的网页 注意 大部分常用英文符号 如问号 句号 逗号等 无法成为搜索关键字 加强制也不行 Google限定搜索 Site 表示搜索结果局限于某个具体网站或者网站频道Link 返回所有链接到某个URL地址的网页Inurl 返回的网页链接中包含第一个关键字 后面的关键字则出现在链接中或者网页文档中 Allinurl 返回的网页的链接中包含所有查询关键字Intitle 语法返回的网页标题中包含第一个关键词 后面的关键词则出现在链接中或者网页文档中 Allintitle 返回的网页的链接中包含所有查询关键字filetype 在某一类文件中查找信息 Google高级搜索 Google的高级搜索页 命令的文字界面形式 将搜索范围限制在某个特定的网站中排除某个特定网站的网页将搜索限制于某种指定的语言查找链接到某个指定网页的所有网页查找与指定网页相关的网页可以比较直观地在搜索中应用这些功能 Google工具栏 4搜索引擎的基本原理 搜索引擎工作原理 搜索引擎三段式工作流程 搜集批量搜集 增量式搜集 搜集目标 搜集策略预处理关键词提取 重复网页消除 链接分析 索引服务查询方式和匹配 结果排序 文档摘要 搜集 整理 服务 搜索引擎系统的体系结构 网页搜集 网页数据库的基本策略 1 定期搜集 2 增量搜集 网页的抓取策略 1 爬取 策略 2 维护URL 爬取 策略 将Web看作是一个有向图 搜集过程从给定的起始url集合S开始 沿着网页中的链接 按照一定的策略 先深 先宽 others 遍历 这个过程象蜘蛛 spider 在蜘蛛网 Web 上爬行 维护URL 系统进行第一次全面的网页搜集之后 维护相应的URL集合 以后的搜索基于此集合 每搜到一个网页 如果它发生变化并有新的URL 就将新URL也放到集合中 人工添加 网站拥有者主动向搜索引擎提交自己的网址系统在一定时间内定向向那些网站派出 蜘蛛 程序 扫描并收集有关信息 存储网页 搜集到的网页将存储到知识库 repository 中 知识库包含每个网页的docID 长度 URL以及网页的全部HTML 由于网页数量会很多 所以 网页在存入知识库时要进行压缩处理 预处理 关键词的提取重复或转载网页的消除链接分析网页重要程度的计算 关键词的提取 什么是倒排文件 invertedfile 需要从网页源文件中提取出能够代表它的内容的一些特征 而关键词就是这种特征最好的代表 其中涉及到英文的分词和中文的分词 对一篇网页来说 有效的词语数量一般是200左右 链接分析 链接是分析网页重要的信息1 链接描述文字准确的反映了网页的内容2 网页之间的链接关系 反映了网页的重要程度 PageRankGoogle 网页重要程度计算 PageRank Google 指向一个网页的链接越多 说明这个网页越重要 把整个web结构看作一个矩阵 N个网页就形成一个n n的矩阵 查询服务 查询方式和匹配结果排序文档摘要 查询方式和匹配 查询方式指的是系统允许用户提交查询的方式 查询短语分词对查询短语进行分词匹配将查询关键词与倒排文件的索引词进行匹配 结果排序 按照某种评价方式 将搜索结果以某种顺序显示出来 评价方式相关性早期采用基于词汇出现频度的方法词在不同文档中出现的频率PageRank在预处理阶段形成重要性指标 和查询阶段的相关性指标相结合 文档摘要 静态生成方式预处理阶段生成 如取网页的前512个字节 或者取每一段的第一句话 动态生成方式在查询时 根据查询关键词的位置动态生成 5第一次上机总结 从用户的角度看搜索引擎 搜的快 搜的全 搜的准功能多 好用 好看 搜的快 搜的全 功能多 好用 好看 北大天网 6搜索经济的诞生 中国互联网络发展状况统计报告 截至2008年底 中国网民规模达到2 98亿人 互联网普及率达到22 6 中国的网站数 即域名注册者在中国境内的网站数 包括在境内接入和境外接入 达到287 8万个 网页总数超过160亿个 2008年网络媒体的使用率78 5 达到23400万人 搜索引擎的使用率为68 0 在各互联网应用中位列第四 网络购物用户人数已经达到7400万人 网络售物网民数已经达到1100万人 通过网络进行旅行预订的网民数达到1700万人 网上教育的使用率为16 5 基本与2007年持平 互联网的重心发展历程 注意力经济 眼球经济 提供网上图片等各种信息注重提供免费信箱 聊天室等各种服务吸引人来 注重会员数 从眼球经济到拇指经济 被动 主动 搜索力经济 拇指变成了十指 被动变成了主动搜索成了网络经济的引擎和发动机 搜索引擎的盈利模式 搜索引擎最初并没有显示出价值 只是一个免费的附加服务 PageRank算法的诞生 使得网络盈利成为可能根据搜索结果显示相应的广告 这是网络广告的真正创新 搜索引擎的盈利模式 竞价排名1998年Overture推出收费竞价排名服务 谁出的钱多 谁排前面 搜索引擎成了摇钱树 搜索与购物网站绑定 时长竞价排名 按天竞价消除恶意点击 搜索等于搜钱 2007年中国搜索引擎市场规模达29 0亿元 比上一年增长108 3 艾瑞咨询 中国搜索引擎市场份额 中美日市场规模对比 重构搜索力 2003年8月 搜索引擎重新回到Yahoo首页的突出位置 并不完全是搜索引擎可以赚钱了关键是它还可以整合其现有的业务资源2004年8月 搜狐推出了搜索引擎搜狗 2003年开始 微软重组MSN部门 并希望在下一代操作系统中集成搜索 亚马逊推出了A9网站 专注于购物搜索 搜索引擎大战 微软数次提出要收购Google 结果被Google挖走李开复IBM也推出了自己的搜索技术搜索引擎和门户网站之争养虎为患不得不养复杂的竞争合作关系 中国搜索用户的首选 中国高端搜索用户的首选 百度 视频 Google 视频 群狼共舞 搜索鸟 网络世界的未来统治者 目前 Google是当之无愧的世界老大 但是未来呢 Google在中国呢 搜索引擎的未来发展趋势 搜索引擎自身的发展趋势 专业化主题化垂直搜索引擎个性化搜索工具条桌面搜索智能化本地化基于位置的搜索服务 技术更复杂 应用更简单 搜索引擎所引发的互联网变化 搜索引擎的革命引发互联网应用模式 商务模式和业务形态的革命搜索将成为一个网站的必备配置搜索引擎的综合化基于搜索引擎的信息增值业务 竞争情报系统 商务搜索 8848的购物搜索 Google信箱 搜索引擎的重要性 从内容为王到搜索为王从搜索服务到搜索平台基于搜索平台的搜索增值服务 Google向Microsoft发出挑战 MicrosoftPKGooglePC时代PKInternet时代 产品竞争 人才竞争 历史事件回放 2005年7月18日 微软全球副总裁李开复跳槽Google 担任中国区总裁 Microsoft与Google的竞争 代表两个时代的竞争PC时代vs互联网时代李开复跳槽事件已经超出了微软与Google两家公司对一位技术人才的争夺本身 这是一场PC时代巨人和互联网时代巨人对于未来霸主地位的争夺预言 以微软为代表的PC时代正在加速没落 而Google正在显示一个新时代引领者的形象 回首PC时代 美国Microsoft IBM Intel 中国Lenovo Founder 面对机遇 展望Internet时代 美国Google Yahoo Ebay 中国Baidu NetEase Alibaba 美国模式和中国模式 美国模式 技术 机遇 管理重视技术开发 重视研发投入Microsoft BillGates PCYahoo 杨致远 DavidFilo InternetGoogle LarryPage SergeyBrin Internet 中国模式 管理 技术 机遇薄利多销 巨大市场带来的消极影响不重视技术开发和研发经费投入短视行为 跟进行为 DVD VCD行业的教训 谢谢大家
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!