《eo课程搜索引擎》PPT课件.ppt

上传人:sh****n 文档编号:7427413 上传时间:2020-03-21 格式:PPT 页数:83 大小:7.72MB
返回 下载 相关 举报
《eo课程搜索引擎》PPT课件.ppt_第1页
第1页 / 共83页
《eo课程搜索引擎》PPT课件.ppt_第2页
第2页 / 共83页
《eo课程搜索引擎》PPT课件.ppt_第3页
第3页 / 共83页
点击查看更多>>
资源描述
搜索引擎 提纲 搜索引擎的发展简史搜索引擎的分类使用搜索引擎搜索引擎的基本原理第一次上机总结搜索经济搜索引擎的未来发展趋势 回顾 搜索引擎分类搜索引擎使用与或非强制搜索 目录搜索引擎 以人工方式或半自动方式搜集信息信息准确 导航质量缺点是需要人工介入 维护量大 信息量少 信息更新不及时 机器人搜索引擎 由一个称为蜘蛛 Spider 的机器人程序自动搜索信息优点 信息量大 更新及时 无需人工干预缺点 返回信息过多 有很多无用信息 元搜索引擎 利用其他搜索引擎返回统一的搜索结果 返回信息量更大 更全 缺点是不能充分使用所有搜索引擎的功能 Google基本搜索 基本搜索方法 逻辑 与 非 或 即 OR1 与操作 搜索结果要求包括两个及两个以上关键字 关键字之间用空格 2 非操作 搜索结果要求不包含某些特定信息 在排除的关键词前加 英文字符 号前空格 后面不能有空格 3 或操作 搜索结果至少包含多个关键字中的任意一个关键字之间用 OR 表示 OR必须用大写 GOOGLE不支持通配符 关键字中的 或 会被忽略 GOOGLE对英文字符大小写不敏感 GOOGLE用句子做关键字 必须加英文引号 google强制搜索 Google对一些网路上出现频率极高的英文单词 如 i com www 等 以及一些符号如 等 作忽略处理 搜索 www的历史internet结果 因为使用过于频繁 没有被列入搜索范围 www的强制搜索的方法是把关键字用英文双引号引起来 搜索 www的历史 internet 结果 已搜索有关 www的历史 internet的网页 注意 大部分常用英文符号 如问号 句号 逗号等 无法成为搜索关键字 加强制也不行 Google限定搜索 Site 表示搜索结果局限于某个具体网站或者网站频道Link 返回所有链接到某个URL地址的网页Inurl 返回的网页链接中包含第一个关键字 后面的关键字则出现在链接中或者网页文档中 Intitle 语法返回的网页标题中包含第一个关键词 后面的关键词则出现在链接中或者网页文档中 filetype 在某一类文件中查找信息 作业情况 从用户的角度看搜索引擎 搜的快 搜的全 搜的准功能多 好用 好看 搜的快 搜的全 功能多 好用 好看 北大天网 4搜索引擎的基本原理 搜索引擎工作原理 搜索引擎三段式工作流程 搜集批量搜集 增量式搜集 搜集目标 搜集策略预处理关键词提取 重复网页消除 链接分析 索引服务查询方式和匹配 结果排序 文档摘要 搜集 整理 服务 搜索引擎系统的体系结构 网页搜集 网页数据库的基本策略 1 定期搜集 2 增量搜集 网页的抓取策略 1 爬取 策略 2 维护URL 爬取 策略 将Web看作是一个有向图 搜集过程从给定的起始url集合S开始 沿着网页中的链接 按照一定的策略 先深 先宽 others 遍历 这个过程象蜘蛛 spider 在蜘蛛网 Web 上爬行 维护URL 系统进行第一次全面的网页搜集之后 维护相应的URL集合 以后的搜索基于此集合 每搜到一个网页 如果它发生变化并有新的URL 就将新URL也放到集合中 人工添加 网站拥有者主动向搜索引擎提交自己的网址系统在一定时间内定向向那些网站派出 蜘蛛 程序 扫描并收集有关信息 存储网页 搜集到的网页将存储到知识库 repository 中 知识库包含每个网页的docID 长度 URL以及网页的全部HTML 由于网页数量会很多 所以 网页在存入知识库时要进行压缩处理 预处理 关键词的提取重复或转载网页的消除链接分析网页重要程度的计算 关键词的提取 什么是倒排文件 invertedfile 需要从网页源文件中提取出能够代表它的内容的一些特征 而关键词就是这种特征最好的代表 其中涉及到英文的分词和中文的分词 对一篇网页来说 有效的词语数量一般是200左右 链接分析 链接是分析网页重要的信息1 链接描述文字准确的反映了网页的内容2 网页之间的链接关系 反映了网页的重要程度 PageRankGoogle 网页重要程度计算 PageRank Google 指向一个网页的链接越多 说明这个网页越重要 把整个web结构看作一个矩阵 N个网页就形成一个n n的矩阵 查询服务 查询方式和匹配结果排序文档摘要 查询方式和匹配 查询方式指的是系统允许用户提交查询的方式 查询短语分词对查询短语进行分词匹配将查询关键词与倒排文件的索引词进行匹配 结果排序 按照某种评价方式 将搜索结果以某种顺序显示出来 评价方式相关性早期采用基于词汇出现频度的方法词在不同文档中出现的频率PageRank在预处理阶段形成重要性指标 和查询阶段的相关性指标相结合 文档摘要 静态生成方式预处理阶段生成 如取网页的前512个字节 或者取每一段的第一句话 动态生成方式在查询时 根据查询关键词的位置动态生成 6搜索经济的诞生 中国互联网络发展状况统计报告 2010年7月15日 中国互联网络信息中心 CNNIC 在京发布了 第26次中国互联网络发展状况统计报告 以下简称 报告 报告 显示 截至2010年6月底 我国网民规模达4 2亿人 互联网普及率持续上升增至31 8 手机网民成为拉动中国总体网民规模攀升的主要动力 半年内新增4334万 达到2 77亿人 增幅为18 6 值得关注的是 互联网商务化程度迅速提高 全国网络购物用户达到1 4亿 网上支付 网络购物和网上银行半年用户增长率均在30 左右 远远超过其他类网络应用 互联网的重心发展历程 注意力经济 眼球经济 提供网上图片等各种信息注重提供免费信箱 聊天室等各种服务吸引人来 注重会员数 从眼球经济到拇指经济 被动 主动 搜索力经济 拇指变成了十指 被动变成了主动搜索成了网络经济的引擎和发动机 搜索引擎的盈利模式 搜索引擎最初并没有显示出价值 只是一个免费的附加服务 PageRank算法的诞生 使得网络盈利成为可能根据搜索结果显示相应的广告 这是网络广告的真正创新 搜索引擎的盈利模式 竞价排名1998年Overture推出收费竞价排名服务 谁出的钱多 谁排前面 搜索引擎成了摇钱树 搜索与购物网站绑定 时长竞价排名 按天竞价消除恶意点击 搜索等于搜钱 2007年中国搜索引擎市场规模达29 0亿元 比上一年增长108 3 艾瑞咨询 中国搜索引擎市场份额 中美日市场规模对比 重构搜索力 2003年8月 搜索引擎重新回到Yahoo首页的突出位置 并不完全是搜索引擎可以赚钱了关键是它还可以整合其现有的业务资源2004年8月 搜狐推出了搜索引擎搜狗 2003年开始 微软重组MSN部门 并希望在下一代操作系统中集成搜索 亚马逊推出了A9网站 专注于购物搜索 搜索引擎大战 微软数次提出要收购Google 结果被Google挖走李开复IBM也推出了自己的搜索技术搜索引擎和门户网站之争养虎为患不得不养复杂的竞争合作关系 中国搜索用户的首选 中国高端搜索用户的首选 群狼共舞 搜索鸟 网络世界的未来统治者 目前 Google是当之无愧的世界老大 但是未来呢 Google在中国呢 搜索引擎的未来发展趋势 搜索引擎自身的发展趋势 专业化主题化垂直搜索引擎个性化搜索工具条桌面搜索智能化本地化基于位置的搜索服务 技术更复杂 应用更简单 搜索引擎所引发的互联网变化 搜索引擎的革命引发互联网应用模式 商务模式和业务形态的革命搜索将成为一个网站的必备配置搜索引擎的综合化基于搜索引擎的信息增值业务 竞争情报系统 商务搜索 8848的购物搜索 Google信箱 搜索引擎的重要性 从内容为王到搜索为王从搜索服务到搜索平台基于搜索平台的搜索增值服务 Google向Microsoft发出挑战 MicrosoftPKGooglePC时代PKInternet时代 产品竞争 人才竞争 历史事件回放 2005年7月18日 微软全球副总裁李开复跳槽Google 担任中国区总裁 Microsoft与Google的竞争 代表两个时代的竞争PC时代vs互联网时代李开复跳槽事件已经超出了微软与Google两家公司对一位技术人才的争夺本身 这是一场PC时代巨人和互联网时代巨人对于未来霸主地位的争夺预言 以微软为代表的PC时代正在加速没落 而Google正在显示一个新时代引领者的形象 回首PC时代 美国Microsoft IBM Intel 中国Lenovo Founder 面对机遇 展望Internet时代 美国Google Yahoo Ebay 中国Baidu NetEase Alibaba 美国模式和中国模式 美国模式 技术 机遇 管理重视技术开发 重视研发投入Microsoft BillGates PCYahoo 杨致远 DavidFilo InternetGoogle LarryPage SergeyBrin Internet 中国模式 管理 技术 机遇薄利多销 巨大市场带来的消极影响不重视技术开发和研发经费投入短视行为 跟进行为 DVD VCD行业的教训 谢谢大家
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!