资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,*,*,*,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,网络信息的检索,11/15/2024,1,第一页,共34页。,Internet,的基本概念,TCP/IP协议:TCP/IP是由 国防部高级计划局资助的Internet技术和方法,也称为传输控制/网间协议,是一个标准协议集合,专门适用于广域网(WAN)。,WWW:WWW的含义是“环球网”,是超文本方式的信息查询工具。WWW基于HTTP协议,用HTML语言将多媒体信息组织成超文本,并通过这种方式将全世界Internet上的不同地点的相关信息有机结合起来。,11/15/2024,2,第二页,共34页。,HTTP,超文本传输协议,HTTP,是基于,TCP/IP,之上的协议,是用于分布式协作超媒体信息系统的快速实用协议。它不仅需要保证正确传送超文本文档,还必须能够确定传送文档中的某一部分,以及哪部分内容首先显示。,11/15/2024,3,第三页,共34页。,HTML,(超文本标识语言),在HTML中,可以嵌入图像、声音等,可通过超链接无缝引用其他WWW 资源。用HTML组织起来的信息文档称为页面,由浏览器进行解释、执行和显示输出。,HOMEPAGE:又称为主页,是WWW服务的起始信息页。,Browser:又称为浏览器,是用来阅读HTML文件的专用软件系统,可通过FTP、NNTP、Gopher等许多方式来获取信息。,11/15/2024,4,第四页,共34页。,URL,(统一资源定位器),URL可以将世界上所有的联机信息资源组织成有序结构。它的格式有三部分组成:,第一部分是协议(或称服务方式),大部分Internet文档用 ,其他常用的协议有fp、news、gopher、telnet等;,第二部分是存有该资源的主机IP地址;,第三部分是主机资源的具体地址。,11/15/2024,5,第五页,共34页。,IP,地址和域名,Internet,上的众多计算机和信息资源必须通过名字和地址来进行识别。接入,Internet,的计算机或节点被赋予一个惟一的数字作为地址,称为,IP,地址,用小数点隔开的四组数字组成。,IP,地址通常由,Internet,服务机构从,Internet,网络信息中心注册申请,(,例如:中央财经大学图书馆的,IP,地址为,202.205.213.101),。,IP,是网络中的重要资源,有多少个,IP,地址就意味着有多少台计算机能够连入,Internet,。,11/15/2024,6,第六页,共34页。,由于,IP,地址由四组数字构成,不易记忆,所以,Internet,采用域名系统(,DNS,),作为表示,Internet,上特定主机的助记名称。,Internet,中每台计算机的域名结构为:主机名、机构名、网络名、最高层域名。,域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。,常见的标准域名结构为:,主机名、机构名、网络名、最高层域名。,在Internet的域名系统中最高层域名有三种:,11/15/2024,7,第七页,共34页。,第一类为国别域名,由两个英文字母组成,如:“.CN(中国)”、“.JP()”、“.US()”、“.UK(英国)”、“.CA(加拿大)”。第二类为国际域名,现只有一个“.INT”代表国际组织。第三类为通用域名,目前用到的有13个:,.net网络服务机构;.edu教育部门;.webweb服务机构;,.arts文化娱乐部门;.info信息部门;.rec娱乐机构;,.org非赢利机构;.Store销售部门 .Firm公司企业;,.gov政府部门;.商业机构 .mil军事部门;,.nom个人。,中国的域名注册由国务院信息化工作领导小组办公室授权中国互联网络信息中心(CNNIC)负责办理。,11/15/2024,8,第八页,共34页。,Internet,可提供的信息服务,1,E-mail,(电子邮件):每个网络用户可以申请一个电子邮箱,用于接送电子邮件。用户可以脱机处理邮件。,2,Telnet,(远程登录):允许用户从一台计算机登录到远程的另一台计算机上并使用其资源。,3,FTP,(文件传输协议):它允许用户把一台计算机上的文件传到另一台计算机上。可以大大节省用户的联机通讯费用。,11/15/2024,9,第九页,共34页。,Internet,可提供的信息服务,4,Usenet,(新闻组)、,Listserv,(讨论组)、,Mailing List,(用户组):这几种工具主要用于信息交流。用户可以利用这些工具在网络中参与自己感兴趣的主题讨论。,5,WAIS,(文档检索):这是一种基于关键词的文档检索工具。通过将网络上的文献、数据做成索引,用户只要在,WAIS,给出的信息资源列表中用光标选取希望查询的信息资源名称并键入关键字,系统就能自动进行远程查询。,11/15/2024,10,第十页,共34页。,Internet,可提供的信息服务,6,BBS,电子公告牌:,BBS,规模较小,大都是地区性的,仅提供一个信息交流、经验交流的园地。每个讨论主题称为一个公告牌。目前国内各大专院校几乎都有自己的,BBS,站,可从这些,BBS,站获得一些校园信息、公告事项、马路消息、电脑知识等。,7,IRC,网络聊天:是国际性的多人聊天系统,有成百上千个不同主题的频道。进入感兴趣的频道以后,从屏幕上可以看到来自各地的网络用户热烈地聊天。,11/15/2024,11,第十一页,共34页。,在因特网上可以做些什么?,访问虚拟图书馆和虚拟博物馆,查检图书馆联机目录,获取电子出版物,获取科研、学习资料(访问各种数据库),咨询各方面专家,接受远程教育,获取全球最新政治、财经、商业、教育、科技消息,购书、预订机票和车票,查找旅游、度假等资料,上网聊天、玩网络游戏、发电子邮件及贺卡等,11/15/2024,12,第十二页,共34页。,网络资源检索方法,利用URL(统一定位器)直接访问:URL是各种专门的计算机和文献资源在因特网上的“地址”。一般格式为:,通讯协议:/主机IP地址或域名/路径/文件名,其中,以“:/”开头表示超文本传输协议。,WWW的全称为“World Wide Web”。其含义是“环球网”,也叫“万维网、全球网”,是超文本方式的信息查询工具,利用搜索工具:与普通网站不同,搜索引擎网站的主要资源是索引数据库。它的工作原理是通过搜索引擎数据库的采集、调用来实现它的导航功能。,利用已知站点的引导与链接。,11/15/2024,13,第十三页,共34页。,“”限定关键字串一定不要出现在结果中。,百度():百度搜索引擎是目前最有影响的中文网络信息检索系统。,示例:搜索电子商务软件环境的专题资料。,HTTP是基于TCP/IP之上的协议,是用于分布式协作超媒体信息系统的快速实用协议。,多元搜索引擎:也称为集合型搜索引擎。,系统支持的运算功能与运算符主要有4种:AND,+;,Browser:又称为浏览器,是用来阅读HTML文件的专用软件系统,可通过FTP、NNTP、Gopher等许多方式来获取信息。,1994年4月,因特网上的第一个搜索引擎WebCrawler问世后,网络信息搜索技术突飞猛进,因特网上出现了数以千计的搜索工具。,第二十七页,共34页。,域名是由有规律的英文单词组成的,非常便于记忆,而且还可以根据域名组成的规律,猜测某一个站点的域名。,学位论文:中国学术期刊网和万方数据资源系统的学位论文数据库、高校学位论文数据库、PQDD数据库()。,检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。,URL可以将世界上所有的联机信息资源组织成有序结构。,Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索,且逻辑“与”不用算符,词与词之间留一空格,逻辑“或(|)”和“非(-)”算符前必须留一空格。,会议文献:中国科学院学术会公告、学界动态、IEEE学术会议数据库、万方学术会议文献数据库、中国重要会议论文集全文数据库、国内专业会议资料数据库、OCLC的会议文献数据库、科学信息研究所(ISI)会议数据库。,许多中文网站都以“dzsw”作为,因特网信息检索,信息检索具有广义何狭义两重含义。广义地讲,信息检索包含信息储存何信息查找两个过程。,直到,20,世纪,40,年代以前,检索工具的主要形式就是各种检索期刊和检索工具书。从,20,世纪,50,年代起,信息检索经历了脱机检索、联机检索、光盘检索和网络检索三个阶段。,1994,年,4,月,因特网上的第一个搜索引擎,WebCrawler,问世后,网络信息搜索技术突飞猛进,因特网上出现了数以千计的搜索工具。第四代搜索引擎以,Google,和百度为代表,它们在数据处理能力方面有了很大突破,使人们能以分秒时间查询数十亿级的海量数据库。,11/15/2024,14,第十四页,共34页。,搜索引擎简介,搜索引擎是采用信息自动跟踪标引等技术、建立在因特网上专门提供网络信息资源导航服务检索工具。,搜索引擎的检索系统由以下几部分组成:,搜索器、分析器、索引器、检索器和用户接口。,同检索数据库一样,利用搜索工具检索,也需要用户能够将自己的检索需求编制成合适的检索策略,并且需要一定的检索技巧。,搜索引擎采用的检索词和信息标识词匹配运算的主要方法有:布尔逻辑检索、截词检索、限制检索、加权检索、词位置检索和全文检索等。,11/15/2024,15,第十五页,共34页。,搜索引擎分类,检索型搜索引擎:它使用自动索引软件来发现、收集并标引网页,建立数据库,并以Web形式让用户找到所需信息资源。比较著名的有:AltaVista、Google、天网、百度、悠游等。,目录型搜索引擎:这类引擎将信息系统地分门归类,经过人工整理后形成庞大而有序的分类目录体系,用户可以在目录体系的导引下通过逐级浏览,发现、检索到有关的信息。雅虎就是以卓越的分类目录型导航服务而称誉全球。,混合型搜索引擎:它兼有检索型和目录型两种方式。如:新浪、搜狐、网易、中华等门户网站。,多元搜索引擎:也称为集合型搜索引擎。它是将多个搜索引擎集成在一起,通过统一的检索界面进行网络信息多元搜索 的检索工具。按照工作方式的不同可分为并行处理式和串行处理式两大类。著名的有:Dogpile、Mamma和万维搜索(Http:/widewaysearch )等。,11/15/2024,16,第十六页,共34页。,国外综合型检索工具,目前有记录可查的国外的搜索引擎数量已达到2500个,其中有不少优秀的综合型搜索引擎,如:Yahoo!、AltaVista、Excite、Infoseek、Lycos、HotBot、Google、OpenText等。,访问AltaVista(:/altavista )的次数超过1亿次。,HotBot(:/hotbot )是 享有盛誉的综合型、混合型搜索引擎。,11/15/2024,17,第十七页,共34页。,著名综合型检索工具,Google,Google(:/google ):是目前世界上最大的搜索引擎,它提供70多种界面语言和35种检索语言,有分类查询和关键词检索两种检索功能。,Google不支持“词干法”和“通配符”,但可使用布尔逻辑检索,且逻辑“与”不用算符,词与词之间留一空格,逻辑“或(|)”和“非(-)”算符前必须留一空格。,简单检索可直接使用字段限定检索。,site:限定在某个特定的域或站点中进行检索。,命令格式:检索词 site:域名,示例:要搜索北京大学山鹰社的信息。检索式:山鹰社,inurl:表示限定搜索结果网页的URL必须包含所规定的字符串。,命令格式:inurl:限定的
展开阅读全文