chapter1绪论_搜索引擎

上传人:t****d 文档编号:243065238 上传时间:2024-09-14 格式:PPT 页数:105 大小:5.35MB
返回 下载 相关 举报
chapter1绪论_搜索引擎_第1页
第1页 / 共105页
chapter1绪论_搜索引擎_第2页
第2页 / 共105页
chapter1绪论_搜索引擎_第3页
第3页 / 共105页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,信息检索,1,教学目录,绪论,lucene框架基础,经典搜索算法,lucene应用实例,发展前沿,2,从课程中能得到什么?,了解搜索引擎运行原理,了解lucene框架的核心类,快速的在信息系统中创建搜索模块,3,Chapter1 绪论-目录,搜索引擎的产生,搜索引擎的概念,搜索引擎工作原理,搜索技术的分类,开源的搜索引擎介绍,4,搜索引擎的产生,5,搜索引擎的概念,搜索引擎(search engines)是www环境下一种信息检索的工具。它利用某种软件(如网络“蜘蛛”spiders)对互联网上的信息进行自动跟踪和发掘,把收集到的所有网页进行分类存储和标引,并向用户提供查询入口。用户通过这个查询入口在浩如烟海的信息海洋中找到自己所需的信息。,6,搜索引擎工作原理,我的世界你不懂!,7,搜索引擎的分类(1),根据信息覆盖范围及适用用户群分类,综合性搜索引擎,如:Baidu、Google、Yahoo、AltaViasta、Infoseek,专用性搜索引擎,如:Scirus科学搜索引擎、Softseek提供软件查找,MapBlast查找地图信息。,8,搜索引擎的分类(2),按组织信息方式分类,目录式搜索引擎,如:Yahoo、搜狐、 About,、,Looksmart,全文搜索引擎,如:AltaVista、百度、InfoSeek、 Lycos,智能搜索引擎,如:,FSA,、,Eloise,和,FAQFinder,。,9,搜索引擎的分类(3),按搜索范围分类,独立搜索引擎,如:百度、Google、Yahoo、Altavista,元搜索引擎,如:DogPile、 MetaCrawler、 Mamma,10,开源的搜索引擎介绍(1),11,开源的搜索引擎介绍(2),中文常用搜索引擎,_综合搜索引擎中文,百度中文搜索引擎:,Google中文搜索引擎:,搜狐搜狗搜索:,雅虎:,新浪:,网易 :,TOM搜索:,北大天网搜索引擎:,奇虎,12,开源的搜索引擎介绍(3),国外英文常用搜索引擎,_综合搜索引擎英文,Google, 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。,Fast/AllTheWeb, 总部位于挪威的搜索引擎后起之秀,风头直逼google。,AltaVista, 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。,Overture, 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。,Lycos, 发源于西班牙的搜索引擎,网络遍布世界各地。,HotBot, 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。,13,找工作的搜索引擎:,google学术搜索:,google图书搜索:,比价购物搜索引擎:,博客与RSS搜索引擎: 中客,博客中国,八方 ,人脉搜索引擎: 交友,找工作, 商机,人物、软件 论坛搜索引擎:,14,开源的搜索引擎介绍(4),The Music Finder Singingfish(只能搜寻声音和录像) 旅行TripAdvisor 图像搜索引擎: 图像词典,商业搜索引擎,Business 生意定向搜索引擎。,DailyStocks 可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其他数据。,FMLX,英国定向的关于公司,存货数据,分析和研究的搜索引擎。,eBizSearch,关于电子商务的文章和报告。,15,开源的搜索引擎介绍(5),RSS源RSS feed搜索引擎,单个站点:,新华网:,天极网:,计世网:,网典:,搜索引擎:,中文RSS搜索引擎: 八方搜索引擎 博客中国 feed,订阅数据源和单篇看天下 feed,订阅数据源看天下搜索引擎: 单篇RSS Search Engine,周博通RSS导航,16,开源的搜索引擎介绍(6),新闻类检索工具,Google,资讯中国版,百度新闻搜索,中搜新闻搜索,雅虎资讯,搜狗新闻搜索,爱问新闻搜索,网易新闻搜索,新华网搜索,搜网综合新闻搜索,17,开源的搜索引擎介绍(7),图片类检索工具,百度图片搜索,Google图片搜索,雅虎图片搜索,中搜图片搜索,搜狗图片搜索,图像词典,网图,Virage(,18,开源的搜索引擎介绍(8),地图搜索引擎,搜狗地图,百度地图,爱问本地搜索,中搜地图,我要地图网,Google地图,图行天下,网上电子地图,MapBlast(,Topozone(,http,:/,19,开源的搜索引擎介绍(9),音乐搜索引擎,百度MP3搜索,雅虎MP3搜索,中搜Mp3搜索,搜狗音乐搜索,SoGua,搜网MP3强力音乐大搜索,其他:各种音乐网站,20,开源的搜索引擎介绍(10),论坛搜索引擎,Google网上论坛,奇虎论坛社区搜索,Teein 中文论坛搜索引擎,中搜论坛-全球中文论坛门户,Chinabbs.Com 帖子搜索(非全文),SOSO论坛搜索,21,开源的搜索引擎介绍(11),FTP资源搜索引擎,天网,星空搜索,22,开源的搜索引擎介绍(12),邮件列表搜索引擎,万维网联盟邮件列表检索服务,Catalist,Title,23,开源的搜索引擎介绍(13),BT搜索引擎,BT特工,BT China 联盟,飞客BT搜索引擎,贪婪大陆-动漫搜索频道,BT下载工具:,BT资源:,BT China 联盟搜索引擎:,射手网(字幕下载),电骡emule,24,开源的搜索引擎介绍(14),BLOG搜索引擎,FeedSearch,Grassland,Souyo,利用其他搜索引擎,例如Google,Baidu等等, keyword inurl:blog ,25,开源的搜索引擎介绍(15),元搜索引擎,MetaCrawler (),Profusion(),Mamma(),Dogpile(),Vivisimo,(),Search,(,26,开源的搜索引擎介绍(16),PK,27,开源的搜索引擎介绍-,百度(1),百度(),百度,全球最大的中文搜索引擎、最大的中文网站。,2000,年,1,月创立于北京中关村。百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点。,28,开源的搜索引擎介绍-,百度(2),Baidu 的简单搜索技巧,以空格表示逻辑“与”,在百度查询时不需要使用符号“AND”或“+”,百度会在多个以空格隔开的词语之间自动添加“+”。如:“,云南 旱灾 图片”,以“-”表示逻辑“非”,百度支持“,-”,功能,用于有目的地删除某些无关网页,但减号之前必须留一空格。,例如:图书馆,公共图书馆,29,30,31,开源的搜索引擎介绍-,百度(3),以“|”表示逻辑“或”,使用,“A|B”来搜索“或者包含词语A,或者包含词语B”的网页。,如:毛泽东|毛主席,32,33,34,开源的搜索引擎介绍-,百度(4),In intitle:在网页标题中搜索,在一个或几个关键词前加“intitle:”,可以限制只搜索网页标题中含有这些关键词的网页,关键词B intitle:关键词A,35,开源的搜索引擎介绍-,百度(5),利用利用intitle查找论文直接找特定论文,除了找论文网站,我们也可以直接搜索某个专题的论文。看过论文的都知道,一般的论文,都有一定的格式,除了标题、正文、附录,还需要有论文关键词,论文摘要等。其中, “关键词”和“摘要”是论文的特征词汇。而论文主题,通常会出现在网页标题中。,例:关键词 摘要 intitle:物流,36,37,开源的搜索引擎介绍-,百度(6),利用intitle语法查询别人的收藏夹,IE,浏览器的收藏夹导出后,网页的标题(,title,)是,bookmarks,。百度的,intitle,语法可以把搜索范围限定在网页标题内。所以,用,intitle,语法可以查询别人的收藏夹,结果应该都是精品,没有哪个人会把垃圾放到自己收藏夹的。,实例:,小说,intitle:bookmarks,查找小说的精彩站点,38,开源的搜索引擎介绍-,百度(7),url是Uniform Resource Locator(统一资源定位符)的缩写,简单地说,就是地址栏里的东西,格式:关键词A inurl:关键词B(关键词A与inurl之间要用空格隔开),意思是在url中含有关键词B的网页中,寻找关于关键词A的信息,这句话说的好,“网页url中的某些信息,常常有某种有价值的含义”。只要善于观察,多多使用,你就会发现inurl语法非常有用。,39,开源的搜索引擎介绍-,百度(7),例1:,找关于photoshop的使用技巧,可以这样查询:photoshop inurl:jiqiao,上面这个查询串中的“photoshop”,是可以出现在网页的任何位置,而“jiqiao”则必须出现在网页url中。,注意,inurl:语法和后面所跟的关键词,不要有空格。,40,41,42,开源的搜索引擎介绍-,百度(7),问情 inurl:mp3,搜索戏说乾隆的主题曲,inurl:liyuchun,查找李宇春的信息,第一章 inurl:lianchengjue,查询小说连城诀,43,开源的搜索引擎介绍-,百度(8),site的用法,有时候,您如果知道某个站点中有自己需要找的东西,就可以把搜索范围限定在这个站点中,提高查询效率。,注意,“site:”后面跟的站点域名,不要带“http:/”;另外,site:和站点名之间,不要带空格。,44,开源的搜索引擎介绍-,百度(8),在著名的软件下载站找软件 由于网站质量参差不齐,下载速度也快慢不一。如果我们积累了一些好用的下载站(如天空网,华军网,电脑之家等),就可以用site语法把搜索范围局限在这些网站内,以提高搜索效率。 例:,网际快车 site:,45,46,开源的搜索引擎介绍-,百度(8),cnkikw site:,在教育网内搜索cnkikw,摄影 site:,在hao123中找摄影的网站,47,开源的搜索引擎介绍-,百度(9),“开始连接”、“正在连接”搜索免费电影,网络上有很多热心人提供免费电影的下载地址。为了表明真实可靠,把下载过程也同时附上。现在最流行的下载工具是,flashget,和,迅雷,。 Flashget下载开始就是“正在连接”,迅雷则是“开始连接”。所以,可以用想找的电影名字,加上“开始连接”或者“正在连接”,来寻找免费电影。,检索式形式如:“电影名 开始连接”、电影名 正在连接”、“电影名 (开始连接 | 正在连接)”,举几个例子:,哈利波特4 开始连接,阿育王 (正在连接 | 开始连接),48,开源的搜索引擎介绍-,百度(10),Baidu的特色搜索,百度快照,百度搜索引擎已先预览各网站,拍下网页的快照,为用户贮存大量的应急网页。点击每条搜索结果后的“百度快照”,可查看该网页的快照内容。以搜索“,甲型,h1n1,流感,”为例。,49,50,开源的搜索引擎介绍-,百度(11),专业文档搜索(),百度支持对Office文档(包括Word、Excel、Powerpoint)、Adobe PDF文档、RTF文档进行了全文搜索。,要搜索这类文档,在普通的查询词后面,加一个“:” 。“:”后可以跟以下文件格式:DOC、XLS、PPT、PDF、RTF、ALL。其中,ALL表示搜索所有这些文件类型,51,开源的搜索引擎介绍-,百度(11),例: 查找关于网络技术的课件,格式: 网络技术,52,53,开源的搜索引擎介绍-,百度(12),精确匹配双引号和书名号,如果输入的查询词很长,百度在经过分析后,给出的搜索结果中的查询词,可能是拆分的,给查询词加上双引号,就可以达到这种效果。,例如,搜索京师范大学研究生院,加上双引号后,输入,“北京师范大学研究生院”,,,获得的结果就全是符合要求的了。,54,55,开源的搜索引擎介绍-,百度(12),书名号是百度独有的一个特殊查询语法。加上书名号的查询词,有两层特殊功能:,一是书名号会出现在搜索结果中;,二是被书名号扩起来的内容,不会被拆分。,例如;查电影“手机”,如果不加书名号,很多情况下出来的是通讯工具手机,而加上书名号后,手机结果就都是关于电影方面的了。,56,57,开源的搜索引擎介绍-,百度(13),百度国学(),是百度与国学公司合作推出的针对中国传统文化方面的专业搜索,提供了大量的丰富的古典名著、历史资料、人名书名等,所有在线资源都是免费的。,提供上起先秦,下至清末历代文化典籍的检索和阅读;,包括经、史、子、集、蒙学及其他。,58,59,60,开源的搜索引擎介绍-,百度(14),Baidu的高级检索,61,62,63,开源的搜索引擎介绍-,百度(15),百度其他常用搜索功能,新闻搜索,贴吧搜索,MP3,搜索,百度知道,百度百科,视频搜索,图片搜索,64,开源的搜索引擎介绍-,谷歌(1),二、Google(,),特点:世界上第一大的网络搜索引擎;有庞大的数据库;用户界面相当好;并且具有一定的大写、名词识别能力的快速搜索引擎。,口号:确解用户之意,切返用户之需,65,开源的搜索引擎介绍-,谷歌(2),基本检索,Google用空格来表示逻辑“与”的操,Google,自动使用“and”进行查询。如果您想缩小搜索范围,只需输入更多的关键词,只要在关键词中间留空格就行。,奥运会 中国 金牌,66,67,开源的搜索引擎介绍-,谷歌(3),Google用大写的“OR” 来表示逻辑“或”操作,例如:想搜集“二氧化钛” 文献方面的资料,可以在检索框里输入“二氧化钛 OR TiO2”。,68,69,开源的搜索引擎介绍-,谷歌(4),Google用“-”表示“非”操作,用于有目的地删除某些无关网页,但减号之前必须留一空格。,例如:搜索郑州的相关信息(除河南财经政法大学以外),检索式:郑州 河南财经政法大学OR河南财大,70,开源的搜索引擎介绍-,谷歌(5),“.”数字范围搜索,想要查找数字?通过数字范围可以搜索包含指定范围内的数字的结果。只需在搜索框内向搜索字词后面添加两个数字,并将其用两个英文句号分开(无空格)即可。您可以使用“数字范围”设置从日期 (Willie Mays 1950.1960) 到重量( 5000.10000 kg 卡车)的各种范围。不过,请务必指定度量单位或其他一些说明数字范围含义的指示符。,例如,要搜索关于2008-2009的政府信息公开的信息,71,72,73,开源的搜索引擎介绍-,谷歌(6),不区分英文字母大小写,Google 搜索不区分英文字母大小写。所有的字母均当做小写处理。,例如:搜索“google”、“GOOGLE”或“GoOgLe”,得到的结果都一样。,74,开源的搜索引擎介绍-,谷歌(7),短语搜索,在 Google 中,可以通过添加英文双引号来搜索短语。双引号中的词语在查询到的文档中将作为一个整体出现。,这一方法在查找名言警句或专有名词、搜索文章时显得格外有用。一些字符可以作为短语连接符。Google 将“-”、“”、“.”、“=”等标点符号识别为短语连接符。,这里的“”是半角符号,也就是英文的引号,例:“冬天来了,春天还会远吗”,75,76,检索结果页面,77,开源的搜索引擎介绍-,谷歌(8),定义:查看字词或词组的定义,举例:,输入:定义 纳米 输入: Define:www,78,开源的搜索引擎介绍-,谷歌(9),查找某类型的文件,Google已经可以支持13种非HTML文件的搜索。除了PDF文档,Google现在还可以搜索Microsoft Office (doc, ppt, xls, rtf) 、 Shockwave Flash (swf)、PostScript (ps)和其它类型文档。,例如:如果您只想查找 关于元数据规范的PDF文件,而不要一般网页,只需搜索“元数据规范 ”。,元数据规范,79,80,算符,用途,用法,Allinanchor:,限制搜索的词语是网页中链接内包含的关键词(可使用多个关键词),allinanchor:,keyword1 keyword2,allintext:,限制搜索的词语是网页内文包含的关键词(可使用多个关键词),allintext:,keyword1 keyword2,allintitle:,限制搜索的词语是网页标题中包含的关键词(可使用多个关键词),allintitle:,keyword1 keyword2,allinurl:,限制搜索的词语是网页网址中包含的关键词(可使用多个关键词),inurl:,keyword1 keyword2,:,限制所搜索的文件一个特定的格式,:,extension,inanchor:,限制搜索的词语是网页中链接内包含的关键词,inanchor:,keyword,intext:,限制搜索的词语是网页内文包含的关键词,intext:,keyword,intitle:,限制搜索的词语是网页标题中包含的关键词,intitle:,keyword,inurl:,限制搜索的网页的地址,inurl:,keyword,Site:,限制所进行的搜索在指定的域名或网站内,site:,domain,其,他,搜,索,符,号,81,开源的搜索引擎介绍-,谷歌(10),82,可以看出, 利用Google的“高级搜索”,可以做到:将搜索范围限制在某个特定的;网站中排除某个定网站的网页;将搜索限制于某种指定的语言; 查找链接到某个指定网页的所有网页;查找与指定网页相关的网页等。,83,开源的搜索引擎介绍-,谷歌(10),信息需求类型:直接查找具体数值;查找相关专业的重要网站,例如:查找与化学科学信息门户相类似的网页(),84,85,86,开源的搜索引擎介绍-,谷歌(11),特色搜索-,类似网页,单击“类似网页”时,,Google,侦察兵便开始寻找与这一网页相关的网页。,Google,侦察兵可以“一兵多用”。,如果您对某一网站的内容很感兴趣,但又嫌资料不够,,Google,侦察兵会帮您找到其他有类似资料的网站,87,88,开源的搜索引擎介绍-,谷歌(12),翻译功能,你懂英文,但是你不见得就懂德文、法文、拉丁文。Google提供了网页翻译功能。,如果你安装了“google工具条” ,翻译功能的使用更好。可以屏幕取词翻译。,89,屏幕取词划译,GOOGLE工具条,90,翻译网页,91,92,开源的搜索引擎介绍-,谷歌(13),学术搜索,定位:专门面向学术资源的免费搜索工具,搜索结果:论文、图书、预印本、摘要、技术报告等。,信息来源:合作伙伴(ACM、IEEE、Nature、 OCLC等);互联网,93,开源的搜索引擎介绍-,谷歌(13),2006年1月11日,Google公司宣布将(Google Scholar)扩展至中文学术文献领域,推出面向中文的Google学术搜索服务,搜索结果:论文、图书、预印本、摘要、技术报告等。,信息来源:合作伙伴(万方、维普等); 互联网,94,95,96,97,开源的搜索引擎介绍-,谷歌(13),利用学术搜索查询免费学术论文,格式:关键词: pdf,例如:查找关于机械制造方面的论文,机械制造 : pdf,98,检索结果太多,调整检索策略,99,100,开源的搜索引擎介绍-,谷歌(14),利用google搜密码,password=welcome+(X),password+journal,x可以为任何一个文献数据库的名称,101,password=welcome+ProQuest,102,密码=welcome+CNKI 2010,103,开源的搜索引擎介绍-,谷歌(15),其他搜索功能,图片搜索,新闻搜索,论坛搜索,网页目录搜索,地图搜索,购物搜索,视频搜索,.,104,搜索引擎的未来,105,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!