专题网络检索工具

上传人:小**** 文档编号:243480673 上传时间:2024-09-24 格式:PPT 页数:87 大小:2.96MB
返回 下载 相关 举报
专题网络检索工具_第1页
第1页 / 共87页
专题网络检索工具_第2页
第2页 / 共87页
专题网络检索工具_第3页
第3页 / 共87页
点击查看更多>>
资源描述
*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,南京工业大学朱晓峰,网络检索工具,9/24/2024,1,网络检索工具,因特网基础知识,网络检索工具基础,通用搜索引擎实例:,Google,医学搜索引擎,9/24/2024,2,1.,因特网基础知识,9/24/2024,3,CNNIC,最新统计:,(2006/6/30),5450,万台上网计算机,12,3,00,万网民(每周平均上网,1,小时的网民),1.1,我国因特网的发展,9/24/2024,4,CNNIC,历次调查我国网民总数,9/24/2024,5,TCP/IP,协议,通信的保证机制,IP,地址,地址的标识技术,客户机,/,服务器系统,运作的基本模式,1.2,因特网的互联原理,9/24/2024,6,TCP/IP,协议,是通信的保证机制,全称:,Transmission Control Protocol /Internet Protocol,传输控制,/,交互网络协议,由,“,因特网之父,”,文顿,瑟夫确立,因特网的基础和核心,是基本协议。,保证各种不同类型的计算机网络实现相互通信一套规则或协议。,TCP:,传输控制协议。规定传输信息怎样分层、分组和在线路上传输。,IP:Internet,协议。定义,Internet,上计算机之间的路由选择,把不同网络的物理地址转换为,Internet,地址。,9/24/2024,7,地址的标识技术,IP,地址,识别主机的身份证,唯一性,形式:四组小于,256,的十进制表示。,如:,202.38.185.67,北京邮电大学图书馆技术部一台主机。,字符型的,IP,地址,即域名(,DN),域名的地址格式为:,lib.,shmu,.,edu,.,cn,主机名 机构名 网络类型 最高域名,注,需申请注册,9/24/2024,8,常用网络类型代码,com,商业机构,org,非营利组织,edu,教育机构,gov,政府部门,net,网管组织,int,国际组织,mil,军事部门,info,信息机构,其他:,.,museum .coop .aero .pro,9/24/2024,9,客户机,/,服务器系统,客户机,/,服务器系统,(,Client/Server System),因特网运作的基本模式,服务器:提供资源和服务的计算机,客户机:使用资源和服务的计算机,9/24/2024,10,1.3,因特网提供的主要,服务,环球网,(,WWW/Web),电子邮件,(,E-Mail),远程登录,(,Telnet),文件传输,(,FTP),等,网格,9/24/2024,11,1990,年诞生于瑞士全欧原子物理研究室。,是通过超文本(,Hypertext),方式来进行互联网上信息查询的网络工具。,超级链接:通过网页上的关键字、图片等元素在网页、多媒体信息间建立起网状链接,超文本:一种文件格式,将分散于各机器上的文本、图像、声音等文件通过超级链接链接起来。,基于超文本传输协议:,http(Hypertext Transfer Protocol),环球网(,World Wide Web,),9/24/2024,12,统一资源定位器(,URL,,网址),是信息在网上的地址,用来定位和检索,WWW,上的文档。,由三部分组成,web,服务器域名、文件路径、文件名,例如:,http:/www.,shmu,.,edu,.,cn,/library/ content.,htm,环球网(,World Wide Web),9/24/2024,13,HTML,超文本标记语言,用于编辑,Web,网页文件,需用,Web,浏览器显示,可用记事本等编辑。,环球网(,World Wide Web),9/24/2024,14,Web 2.0,让互联网找回,Internet,的真正含义:平等、交互、去中心化。,可以读写的互联网。,Web1.0,我们网上冲浪,,Web2.0,我们是波浪制造者,个人媒体崛起:,Blog,(,网志、博客)走进大众传媒,是以时间为顺序更新的个人主页。,9/24/2024,15,Web 2.0,Blog,与,BBS,的区别,Blog,集原创文章、评价、链接、网友跟进于一体,BBS,没有上下文概念,反复围绕一个问题,但人们经常忘了以前说过什么。,9/24/2024,16,网志你的网络日记,9/24/2024,17,网格:,Gird,是把整个互联网整合成一台巨大的超级计算机,实现计算资源、存储资源、数据资源、信息资源、知识资源、专家资源的全面共享。,地区性的网格:如中关村科技园区网格、企事业内部网格、局域网网格、甚至家庭网格和个人网格。网格的根本特征并不一定是它的规模,而是资源共享,消除了资源孤岛,9/24/2024,18,2,.,网络,检索工具基础,9/24/2024,19,且慢,让我先,Google,一下,我们若能更妥善地搜寻资料,实在已经改变世界,9/24/2024,20,一,.,网络检索工具的原理及类型,网络检索工具泛指因特网上提供网页信息资源检索和网站导航服务的站点,主要面向互联网信息检索,并通过,Internet,来提供服务,通常又称搜索引擎。,9/24/2024,21,网络检索工具的原理,主要由五部分构成:,数据采集(,robot/spider):,负责按照一定的方式和要求对网络资源进行搜集,并将搜集到的网页信息经网络传输,存储到搜索引擎的临时数据库中,数据分析与标引(,indexer):,负责对收集到的网页信息进行分析,从中提取有检索或查询价值的内容,网页关键词、网页的分类类别等,并对关键词进行权值计算;,9/24/2024,22,网络检索工具的原理,数据组织:负责形成规范的索引数据库或便于浏览的层次型分类目录结构,数据检索:负责帮助用户用一定的方式检索索引数据库,获取符合用户需要,WWW,信息,信息挖掘:负责提取用户相关信息,利用这些信息来提高检索服务的质量。根据用户以前检索行为的学习统计及其登记的信息,信息挖掘模块在个性化服务中起到关键作用,9/24/2024,23,按工作原理划分,独立检索工具,主题指南,/,目录,/,网站查询(,Directory),由人工采集网站并进行分类,建成树状等级目录,.,保证了查准率,但查全率降低。,如:,ODP(Open Directory Project) 、 Yahoo!,搜索引擎,/,网页搜索,通过,Robot,自动跟踪标引软件搜寻网页,自动进行关键词标引,它不需要人工干涉,查全率较高。,如:,Google,All the Web,9/24/2024,24,独立检索工具,搜索引擎工作原理,9/24/2024,25,按工作原理划分,元搜索引擎(集成搜索引擎),自身不采集信息,没有信息库,同时检索多个独立搜索引擎,以统一格式输出结果。信息量大,用时短。,Vivisimo,、,Ixquick,、,MetaCrawler,、,搜星、万纬搜索等。,9/24/2024,26,元搜索引擎工作原理,9/24/2024,27,按检索内容划分,通用检索工具,是综合性的信息检索系统,它往往基于检索词去匹配相关的内容。时常也会因检出内容太泛而无法一一过目。,如:,Google、,Altavista,、ODP、Yahoo!、,百度,专业检索工具,是专业信息机构根据专业需求,将,Internet,上资源进行筛选整理、重新组织而形成专业信息检索系统,专业针对性较强。,如:,Medical Matrix、,HealthWeb,、BIOMED,9/24/2024,28,CNNIC,中国搜索引擎市场调查报告(,2006,),北京、上海和广州三地搜索引擎总体市场份额:,百度,64.5%(+13%,);,Google 20.6%(-12.3%),雅虎,5.4%(+1.7%,); 新浪,3.5%(-0.5%,),搜狐,3.4%(-1.2%,),Google,用户具备比百度更早的上网经历、更多的搜索引擎使用经验、对搜索引擎的依赖度更强、对首选搜索引擎的满意度更高、更多地搜索与工作或职业相关的内容。,百度在学生用户中的市场份额远远高于其在非学生用户中的市场份额。百度用户搜索音乐(,Mp3),等娱乐内容的使用率相对较高;,Google,用户搜索网站(网页)、企业产品、商情、交通旅游等内容的使用率相对较高。,9/24/2024,29,3.,通用搜索引擎实例,9/24/2024,30,3.,通用搜索引擎实例:,Google,3.1,Google,的概况,3.2,Google,的特色,3.3,Google,的搜索模块,3.4,Google,的关键词检索规则,3.5,Google,的网页目录查询,3.6,Google,学者,Scholar,3.7 Google,使用偏好设置,3.8,其他检索引擎,9/24/2024,31,Google,主页,(http:/,),9/24/2024,32,Google,与数字图书馆,Google,源自,DLI1(Digital Library Initiative 1),美国数字图书馆先导研究计划的一个项目。,1994,年在读研究生,Larry Page,和,Sergey,Brin,参与了斯坦福大学主持的,Infobus,项目,这个项目以解决异构系统互操作为主要目标,他们开发了一项名为,“,BackRub,”,的搜索技术,其核心就是,Pagerank,技术,这就是,Google,的前身。,1997,年他们发表了论文并建立了试验性搜索网站,,次年,Google,公司宣告正式成立。,当年,Altavista,,,Infoseek,,,Exite,甚至包括,Yahoo!(,当时,Yahoo!,搜索引擎还用的是,Inktomi,),风靡互联网的时候,曾有人宣告搜索引擎技术不可能有什么发展了,已经到头了。,没有,DLI1,计划,就不会有,Google。,1,9/24/2024,33,3.1,Google,的概况,搜索的网页:,80 亿+,;图片:,10 亿+ ;,Usenet,信息:,10 亿+,拥有,100,多种界面语言和国际域名,员工数超过,3400,人,大部分是技术人员和工程师,在搜索引擎市场占有,56%,的份额,广告客户数量达数千家,在世界各地拥有,20,个办事机构,股票面值近,300,美元,总市值超,800,亿美元!,2006年4月12日,Google,将中文名,“,科高,”,改为谷歌,意为山谷之歌。,(截止,2006年4,月),2,9/24/2024,34,3.2,Google,的特色,检索响应速度极快,,0.5,秒内应答,PageRank,专利网页级别技术与超文本匹配分析,,客观评价,网页的重要性,以提供相关性较高的搜索结果,智能化的,“,手气不错,”,功能,直接连接到可能最符合要求的网页,“,网页快照,”,从服务器里直接取出缓存的网页。用不同颜色标记检索词,很醒目。,百度,最好用的图像搜索工具。,主页检索框右侧,可设定,“,Preference(,使用偏好,),”,,,将检索界面设为中文,9/24/2024,35,3.3 Google,的搜索模块,9/24/2024,36,3.3,Google,的搜索模块,Google,服务,:,网页搜索,新闻搜索:阅读搜索新闻,新闻快讯:定制实时新闻,直接发至邮箱,论坛搜索,网页目录:按主题学科分类浏览网站,图,片搜索,网页搜索特色:计算器、股票查询、英汉互译等小窍门,9/24/2024,37,Google,服务,:,本地搜索:查找本地公司与服务,大学搜索:搜索特定大学的网站,学术搜索:搜索学术文献,Google,实验室,Google,工具,:,工具栏,翻译,桌面搜索,3.3,Google,的搜索模块,9/24/2024,38,3.4,Google,关键词检索规则,必须检索:无需,and,,两词间空格默认,and,匹配。,例:,aspirin stroke;,白血病 骨髓移植,或者检索:,OR,必须大写。,例:,mri,OR magnetic resonance imaging,排除检索:用,-,表示,但减号之前必须留一空格。,例:,hepatitis -animal(,不能用,NOT),短语检索:,“,penicillin was invented by,”,对大小写不敏感,9/24/2024,39,检索词出现位置限定:,标题:,allintitle,;,网址:,allinurl,;,内文:,allintext,链接:,allinanchor,例:,allinurl,:,ncbi,搜索网址内含单词,ncbi,的网页,文件类型限定:,filetype,:,文件名后缀,支持,13,种非,HTML,文件的搜索:,pdf, doc, rtf,ppt,xls,swf,ps,等,例:,chronic low back pain,filetype,:,pdf,3.4,Google,关键词检索规则,9/24/2024,40,禁用词,(,Stop Words):,最常用的字符以及数字和单个字母等高频词,在检索时系统自动忽略不作检索。如果必须检索禁用词时可用,+,,或,“,”,如:,of, is, by, i,的, 为,“,http,”,“,.com,”,3,等,例:,“,diabetes i,”,3.4,Google,关键词检索规则,9/24/2024,41,Google,关键词检索实例:,例:查找有关,“,2,型糖尿病眼部并发症研究的网页,”,diabetes 2 OR type 2 diabetes OR diabetes ii OR type ii diabetes eye complications,信息需求类型:广泛了解课题研究的动向,9/24/2024,42,Google,关键词检索结果,检出网页总数,检索式,网页标题,文件类型,网页摘录,网页网址,9/24/2024,43,Google,高级检索,9/24/2024,44,例:高级检索查找我国百白破疫苗接种率,包含全部字词:,我国 百白破疫苗,包含以下完整字句:,接种率为,搜索网页语言:,中文简体,网页更新日期:,过去一年,网域,:,仅,.,moh,.,gov,.,cn,(,仅在卫生部网站中搜索),信息需求类型:直接查找具体数值,并需求权威发布源,Google,高级检索实例,9/24/2024,45,Google,网页高级搜索界面,9/24/2024,46,Google,网页高级检索结果,9/24/2024,47,例:查找与美国国立卫生研究院类似的网站(,http:/www.,nih,.,gov,)。,在,Search by URL,区域,,Find web pages similar to,后输入,www.,nih,.,gov,。,点击右侧,search by URL,按钮。,例:查找网页中含有美国国立卫生研究院链接的网页。,在,Search by URL,区域,,Find web pages that link to,后输入,www.,nih,.,gov,。,点击右侧,search by URL,按钮。,信息需求:查找相关专业的重要网站,Google,高级检索实例,9/24/2024,48,Google,网页高级检索结果,翻译网页,网页字节数,9/24/2024,49,Google,网上论坛检索,信息需求:查找零次文献,9/24/2024,50,与,Open Directory Project,链接,采用其分类目录,3.5 Google,的网页目录查询,9/24/2024,51,3.5,网页目录查询,网站:一个机构,/,个人在网上提供浏览或服务的站点,一个网站包括多个页面,/,网页,Open Directory Project,可按学科主题浏览相关网站,例:查找免疫学研究中心的网站,依次点击类目:,Medicine、Basic Science、immunology、Institute、Research Center,,可得相关网站,9/24/2024,52,3.5,网页目录查询,9/24/2024,53,3.5,网页目录查询,链接至网页目录查询,9/24/2024,54,3.5,网页目录查询,9/24/2024,55,3.5,网页目录查询,9/24/2024,56,3.5,网页目录查询,9/24/2024,57,3.5,网页目录查询,9/24/2024,58,9/24/2024,59,3.5,网页目录查询,用目录与关键词结合检索方法,查找有关癌症免疫学的网站。,依次点击类目:,Health、Medicine、 Basic Science、Immunology,输入:,cancer,选,just this category,9/24/2024,60,3.5,Google,的网页目录查询,9/24/2024,61,3.5,Google,的网页目录查询,9/24/2024,62,关键词检索:目标明确、主题较狭窄、知识点、事实数据、文献等网页查找。,目录检索:目标模糊、主题较宽泛、查某专业重要网站。,关键词检索、目录比较,9/24/2024,63,3.6,Google,Scholar,学术搜索,含期刊论文、学位论文、图书、预印本、文摘、技术报告等学术文献,文献源自学术出版物、专业学会、预印本库、大学及网上学术论文。,按相关度排序,考虑全文、作者、出版物及被引情况。采取自动分析与抽取引文的方法,了解有关某一领域的学术文献,;,某一作者的著述,并提供书目信息,9/24/2024,64,例:检索有关腰脊柱(,lumbar spine),的,MRI,介入,(,interventional),研究的文献,包含全部字词:,mri,包含确切词语:,lumbar spine,包含任何一个字:,intervention interventional,3.6,Google,Scholar,学术搜索,9/24/2024,65,3.6,Google,Scholar,学术高级搜索,9/24/2024,66,中文版搜索结果,相关网页检索,该文献多个原文链接网址,被引用次数,复旦,SFX,链接查找全文,仅显示近期发表的文章,文献出处及全文网址,9/24/2024,67,全文其它网址,获取全文,9/24/2024,68,链出,OVID,数据库中的全文,9/24/2024,69,相关网页检索,英国图书馆原文获取服务链接,全文链接网址,英文版,Scholar,搜索结果,相关论文检索,文献被引次数,命中文献按作者聚类,9/24/2024,70,9/24/2024,71,9/24/2024,72,PDF,全文下载,9/24/2024,73,3.7,Google,使用偏好设置,9/24/2024,74,3.8,其他搜索引擎,亚马逊书店的,“,杀手锏,”,,图书、网页、黄页和地图服务,检索、对搜索结果自动进行分类功能,http:/,/,中国人自己的搜索引擎,中文搜索之王。,http:/,科学搜索引擎,,Elsevier,公司提供,免费查询因特网和,ScienceDirect,资料。,http:/,9/24/2024,75,新浪爱问,iASK,9/24/2024,76,其他搜索引擎,Yahoo!,Altavista,http:/www.,altavista,.com,新浪,http:/www.,sina,.com,搜狐,http:/www.,sohu,.com,雅虎中文,9/24/2024,77,4.,医学搜索引擎,9/24/2024,78,1994,年美国中西部地区医学图书馆合作开发,目录型检索工具,信息准确性较高。,曾被美国医学图书馆协会评为健康消费者十大最有价值网站。,HealthWeb,http:/www.healthweb.org,9/24/2024,79,9/24/2024,80,HealthWeb,关键词检索,运算符:,AND OR NOT,截词符:*,自动单复数截词,精确匹配:,“,”,如:,“,computer,”,检索结果按相关性排列,例:,biotechnology AND,pharmac,*,9/24/2024,81,9/24/2024,82,HealthWeb,分类目录,68,个学科大类,每个大类下有资源类型分类、为不同对象设立的特色主题,在每个资源类型或特色主题下可选择下级分类,关键词结合检索,9/24/2024,83,9/24/2024,84,9/24/2024,85,其它医学检索工具,BIOME,http:/biome.ac.,uk,HON,http:/www.hon.,ch,Healthlinks,http:/www.,healthlinks,.net,Healthfinder,http:/www.,healthfinder,.,gov,37,医学网,医搜,9/24/2024,86,参考文献,1,刘炜,.,Google,与数字图书馆,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!