《计算机信息检索》PPT课件.ppt

上传人:sh****n 文档编号:11494843 上传时间:2020-04-25 格式:PPT 页数:80 大小:8.10MB
返回 下载 相关 举报
《计算机信息检索》PPT课件.ppt_第1页
第1页 / 共80页
《计算机信息检索》PPT课件.ppt_第2页
第2页 / 共80页
《计算机信息检索》PPT课件.ppt_第3页
第3页 / 共80页
点击查看更多>>
资源描述
计算机信息检索,第一节计算机检索基础知识,概述:20世纪90年代以来,随着Internet的发展,Internet上出现了庞大的信息资源。各种信息库、文献数据库、事实数据库应有尽有,渗入到各个领域。美国报道生活新方式的期刊POV将互联网检索专家作为未来十大热门职业之一。,如何在茫茫的信息海洋中找到对你有用的信息?,?,一.脱机批处理检索阶段(19541964年)(off-lineretrieval)单机检索,以批处理进行的。二.联机检索阶段(19651971)(on-lineretrieval)终端机从主机获取信息,人机对话,检索是以命令的形式进行的。三.光盘检索阶段(1978-)在发达国家,光盘检索是联机检索的支持和补充,但在通信技术不太发达的国家,由于它自身的优点,却是用户获取信息的一个十分重要的手段四.网络信息检索阶段(1990)又叫混合型检索,指Internet,具全球性的,知道网址就可以随时随地访问。,发展概况p328,我发展的很快啊,1.光盘检索:以菜单形式检索.a.光盘单机检索-(CD-ROM)只读式光盘检索.b.光盘联机检索-局域网内的检索.2.网络检索a.局域网检索b.互联网检索,计算机检索分类,计算机信息检索原理,计算机信息检索:以计算机为基础的信息的存储与检索。计算机检索系统:计算机硬件(服务器、检索中端)、软件(系统软件和应用软件)、通讯网络和数据库(文献书目、事实型、数值型、全文、多媒体、超文档)原理:,计算机检索的实质:“匹配运算”。检索者以人机对话的形式把检索提问变成机器能识别的检索命令输入计算机中,由计算机自动对数据库中的记录进行匹配后输出检索结果。逻辑提问式:用逻辑符号(与、或、非)将提问特征(主题词、分类号、自由词、作者等)连接起来的式子。,计算机检索的过程(基本步骤),选择检索词编写检索提问逻辑式;用户提问逻辑式同数据库匹配;输出检索结果;对检索结果进行评价。,计算机信息检索方法,基本方法:1、分类目录检索2、关键词检索3、基于内容的检索搜索引擎的检索功能(具体方法)1、布尔逻辑检索2、截词检索3、词位置检索4、加权检索5、限制检索6、全文检索,1.布尔逻辑检索(复合检索),布尔逻辑是表达不同概念之间关系的符号逻辑系统。常用的布尔逻辑运算符有:与(AND、*)(逻辑乘).或(OR、+)(逻辑加).非(NOT、)(逻辑减).AandB(A*B):表示提问要求命中文献同时包含A、B两个特征;AorB(A+B):表示提问要求命中文献包含A、B两个特征中的任何一个即可;AnotB(AB):表示提问要求命中文献包含特征A,但不能包含特征B。法定数检索:(是布尔逻辑检索的一种改进)A*B*C*D,截词检索就是在检索词中保留相同的部分(即词干),用相反的截词符(常用的有?、$、*)等代替可变化部分并代表许多相同词干检索用词的一种检索方法。截词方式:左截断、右截断、中截断、左右截断右截词:前端一致.如:chemi*表示查找结果含有chemical,chemist,等左截词:后端一致。如:*physics-physics,biophysics,chemophysics等中间截词:wom*n-woman,women.左右截断:中间一致*relation*可以查找relation,relations,或者interrelation,interrelationship等。,2.截词检索:提高查全率,nW关系:要求所连接的两个检索词在结果中相互距离不超过n个词或字,而且前后顺序不能颠倒。nN关系:前后顺序可以颠倒。例如:A(2W)B;A(2N)B,3.词位置检索P335,4.限制检索,字段限定检索:将检索词限定在特定的字段中用来缩小查找范围的检索方法。分为主题因素限定和非主题因素限定。范围限制检索:主要用于出版年、记录号、专利号等数字型字段限定检索。常用的比较关系GT(greaterThan)(大于)LT(lessthan)(小于)EQ(equal)(等于)NE(notequal)(不等于)GE(greaterthanorequal)(大于等于)LE(lessthanorequal)(小于等于),5.加权检索:很少用,加权检索:是某些检索系统中提供的一种定量检索技术。运用加权检索可以命中核心概念文献,因此它是一种缩小检索范围提高查准率的有效方法。,第二节Internet信息检索,网络信息检索概念:对因特网信息资源进行标引和检索的检索系统机制,网络信息检索工具即因特网上提供网络信息资源导航服务的一个网站。搜索引擎(SearchEngine),是采用因特网信息自动跟踪标引等技术、建立在互联网上专门提供网络信息资源导航服务的一个网站。,网络信息检索工具的类型,按检索机制划分目录型:图书馆目录一样的分类树型结构,如yahoo.sina.sohu检索型:关键词、主题词搜索引擎混合型:兼有检索型和目录型两种检索方式。、多元型:集合型搜索引擎,检索接口工具。同时对多个搜索引擎进行并行或串行操作。按检索的内容划分综合型、专题型、专门信息检索工具,1.www(环球信息网)2.电子邮件(E-mail)3.远程登录(Telnet):本地可登录外地计算机4.文件传输协议(FTP):下载或者上传5.电子公告版(BBS)发布公告或信息:远程登录的讨论;WWW方式下讨论。6.其它:网络新闻组等,一.Inernet信息常用获取方式,(1)概念www是worldwideweb(环球信息网)的缩写。中文名称为万维网。它是在Internet环境下实现分布式超文本检索的体系。作用:WWW采用的是客户/服务器结构,整理和储存各种WWW资源,并响应客户端软件的请求,把客户所需的资源传送到WindowsUNIX或Linux等平台上。网页、网站:网站(web服务器)是由网页集合而成的,而大家通过浏览器所看到的画面就是网页,网页说具体了是一个或多个html文件,浏览器是用来解读这份文件的。,www(环球信息网),操作系统,(2)超链接与超文本用户通过浏览器观看一个网页时,会发现一些带有下划线的文字或图形图片等,当鼠标指针指向这一部分时,鼠标指针变成手形,称之为超链接。当鼠标单击超链接时,浏览器就会显示出与该超链接相关的内容。具有超链接的文本就称为超文本。,(3)统一资源定位符(URL):在www中用URL(uniformresourcelocator)定义资源所在地,URL的地址格式为:应用协议类型:/信息资源所在主机名(域名或IP地址)/路径名/文件名例:,二.Internet信息获取的常用辅助工具,1.文件下载工具:网络蚂蚁(NetAnts)网际快车Flashget(JetCar)迅雷下载等等2.文件压缩与解压工具:WinzipWinrar3.PDF文件及其阅读软件:下载安装Adobe公司开发的AcrobatReader软件(免费),即可在不同平台上阅读PDF文件。,1.概念:搜索引擎(SearchEngines)指对WWW站点资源和其他网络资源进行标引和检索的一类检索系统机制。一般包括数据采集标引机制、数据组织机制和用户检索机制。,四.Internet搜索引擎,搜索引擎基本结构图,基于菜单驱动的信息查询工具,树状结构,如图书馆,搜索引擎按其工作方式主要可分为三种,分别是:全文搜索引擎(FullTextSearchEngine)目录索引类搜索引擎(SearchIndex/Directory)元搜索引擎(MetaSearchEngine),2.搜索引擎分类,全文搜索引擎是名副其实的搜索引擎.国外具代表性的有:Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等国内著名的有百度(Baidu)。它们都是通过从互联网上提取的各个网站的信息而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,因此他们是真正的搜索引擎。,全文搜索引擎,目录索引:是按目录分类的网站链接列表,在严格意义上算不上是真正的搜索引擎。靠分类目录也可找到需要的信息。最具代表性:Yahoo雅虎。其他著名的还有OpenDirectoryProject(DMOZ)、LookSmart、About等。国内的搜狐、新浪、网易搜索也都属于这一类。,目录索引,元搜索引擎(METASearchEngine),亦称“搜索引擎之母”。是对多个独立搜索引擎的整合、调用、控制和优化利用。搜索结果优化处理后,以统一的格式在同一界面集中显示元搜索引擎是用户同时利用多引擎进行网络搜索的中介。可被利用的独立搜索引擎称为“源搜索引擎”(sourceEngine),或“搜索资源”(searcingresources)。,1、Vivisimo(调用多种搜索引擎,并对返回的结果自动分类,界面友好,简单易用。2.Infospace3.Dogpile4InfoGrid(提供与主要搜索网站的直接连结和目录检索,具有强大的元搜索和新闻搜索功能。5.MetaCrawler()支持调用12个独立搜索引擎,提供涵盖近20个主题的目录检索服务。其检索特性非常丰富,包括常规检索、高级检索、定制检索、国家或地区的资源检索等检索服务模式。6.S(),常用外文元搜索引擎,国内元搜索引擎,搜魅网(someta):集合了百度、google、搜狗、雅虎多家主流搜索引擎的结果,提供网页、资讯、网址导航等聚合查询。马虎聚搜:集合了google和百度的搜索结果,提供一些有用的热点排行。佐意综合搜索(chinazss):佐意网提供的综合搜索,结合了GoogleBaiduyahoo等知名搜索引擎,更细分了不同的搜索类别,如软件搜索,游戏搜索,视频搜索,新闻搜索,网页搜索,地图搜索,音乐搜索,企业搜索等。看似页面简单,却搜索功能却很强大。佐意综合搜索可以说是元搜索中的一个典范。该搜索引擎还可直接查询手机号码归属地,IP查询等。比比猫(bbmao):综合了百度,谷歌,搜狐,雅虎,搜狗等搜索引擎的搜索结果,并建立了自动分类,是目前最好的一款产品。速度还可以。,3.搜索引擎使用技巧,责任不在搜索引擎,而是没掌握搜索精度的技巧。如何提高信息检索效率呢?,1、关键词提炼和细化搜索条件选择最具代表性和指示性关键词-搜索技巧之母有时多输入一两个关键词效果不同-基本技巧之一。使用双引号:实现精确查询,不包含演变形式2、用好搜索逻辑命令:使用布尔命令“AND”、“OR”、“NOT”、“near”及与之对应的“*”、“+”、“-”等逻辑符号命令。使用空格:等同于AND;查询两个以上关键词时,用空格表示结果中必须同时出现这几个关键词。用圆括号:当两个关键词用另外一种操作符连在一起,而你又想把它们列为一组时用,computeradventuregame最基本的搜索方式。computer(OR)adventure(OR)games=computer+adventure+game相当于布尔逻辑检索中的ANDcomputer(AND)adventure(AND)games=computer*adventure*gamecomputer(AND)game(NOT)adventure=computer+game-adventure,比较一下下面各搜索条件的含义,4、精确匹配搜索:缩小搜索结果范围,甚至完成某些其他方式无法完成的任务。元词检索:使用通配符(*和?)区分大小写:5、特殊搜索命令:除一般搜索功能外,还提供一些特殊搜索命令,以满足高级用户的特殊需求。比如查询指向某网站的外部链接和某网站内所有相关网页的功能等等。6、附加搜索功能:搜索引擎都提供的一些方便用户搜索的定制功能。常见的有相关关键词搜索、限制地区搜索等。,元词放关键词前面,表明搜索的具体特征。例输入“title:清华大学”,可以查到网页标题中带有清华大学的网页。关键词后加上“domain:org”,可查到所有以org为后缀的网站。image:检索图片,link:检索链接到某个选定网站的页面,URL:检索地址中带有某个关键词的网页。,*表示匹配的数量不受限制;?表示匹配单个字符,主要用在英文搜索引擎中。例输入“computer*”,就可以找到“computer、computers、computerised、computerized”等单词,而输入“comp?ter”,则只能找到“computer、compater、competer”等单词。,著名搜索引擎简介,1.国外英文目录索引:Yahoo最著名的目录索引,搜索引擎开山鼻祖之一。DAskJeeves著名的自然语言搜索引擎,2002年初收购Teoma全文搜索引擎。LookSmart点击付费索引目录,2002年收购WiseNut全文搜索引擎。A有其自身特色的目录索引。2.国外英文搜索引擎:(全文搜索引擎)Google以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。Fast/AllTheWeb总部位于挪威的搜索引擎后起之秀,风头直逼google。AltaVista曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。,Overture最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。Lycos发源于西班牙的搜索引擎,网络遍布世界各地。HotBot隶属于LycosNetworks,搜索结果来自其他搜索引擎及目录索引。3.国内目录索引:搜狐(Sohu)国内三大门户之一,最早在国内推出搜索引擎收费登录服务。新浪(Sina)最大的中文门户网站,同样也推出了搜索引擎收费索引项目。网易(Netease)网易搜索是ODP的国内翻版,其目录由志愿管理员维护,是google的网页搜索用户。4.国内全文搜索引擎:百度(Baidu)国内唯一商业化的全文搜索引擎,提供搜狐、新浪、263、Tom等站点的网页搜索服务。,计算机信息检索策略,构造步骤:(例如:废水处理装置与技术)1.分析信息需求(检索课题),明确检索要求2.选择检索系统3.选择检索途径和检索方法,确定检索词或检索式4.实施信息检索5.检索策略的反馈和调整6.获取原始文献,检索策略的反馈与调节:,一.影响查全率和查准率的主要因素1.主题分析是否准确全面2.检索词选择是否准确3.检索词之间逻辑关系的配置是否合适,二.提高查全率和查准率的方法,1.提高查全率的方法(1)降低检索词的专指度(2)增加同义词近义词或相关词的逻辑或运算(3)选用截词检索(4)增加和调整检索途径,要记住啊,2.提高查准率的方法,(1)提高检索词的专指度,增加或换用下位词和专指性较强的关键词进行检索(2)用AND连接一些进一步限定主题概念的相关检索项,增加相互的制约(3)用NOT来排除一些无关的检索项(4)采用限定检索,缩小检索范围,提高查准率,百度搜索引擎,特点(1)功能完备,搜索精度高。除数据库的规模及部分特殊搜索功能外,其他方面可与领军人物Google相媲美,在中文搜索方面有些地方甚至超过了Google,是国内技术水平最高的搜索引擎。(2)为搜狐、雅虎中国、T、21CN、广州视窗等搜索引擎,以及中央电视台、外经贸部等提供后台数据搜索支持。百度目前主要提供中文(简/繁体)网页搜索服务。如无限定,默认以关键词精确匹配方式搜索。支持“-”号、“.”号、“|”号及“link:”等特殊搜索命令。在搜索结果页面,百度还设置了相关搜索功能,方便访问者查询与输入关键词有关的其他方面的信息。提供“百度快照”查询。其他搜索功能包括新闻搜索、网站网址链接、MP3搜索、图片搜索、Flash搜索等。,=OR,点更多,根据你的需要选择,Mp3,MP3,视频,具体搜索,在结果中进行二次搜索,相关搜索功能,高级搜索,在一个网址前加“site:”,可以限制只搜索某个具体网站、网站频道、或某域名内的网页。例如:电话site:表示在网站内搜索和“电话”相关的资料intelsite:表示在域名以“”结尾的网站内搜索和“intel”相关的资料;门户.cn表示在域名以“cn”结尾的网站内搜索和“门户”相关的资料.,在指定网站内搜索,搜狐搜索引擎,搜狐国内最著名的门户网站,也是国内最早提供搜索服务的站点。互联网概念在国内的普及,搜狐功不可没。在2001年年初由CNAZ(中文网站评估认证网)举办的搜索引擎网络专项功能排名调查中,搜狐名列第一。搜狐设有独立的目录索引,并采用百度搜索引擎技术,提供网站、网页、类目、新闻、黄页、中文网址、软件等多项搜索选择。搜狐搜索范围以中文网站为主,支持中文域名。搜狐是网站最重要的访问来源之一,因此是国内搜索引擎登录的首选。目前除学校、科研机构、政府单位等性质的网站仍实行免费登录外,其他网站登录均须支付一定的费用。,高级检索,搜狐检索特色,1.搜狐搜索引擎对搜索结果是按“相关性”进行排列的。相关性越高,排列位置越靠前。2.搜狐中文检索系统目前支持的运算符有:-、&、|、()、空格、not、and、or。这些运算符既可以是英文,也可以是中文(全角或半角)。a.使用空格、&、and,来指定查询串必须出现在结果中b.使用-或not,来限定-或not后的查询串不出现在结果中c.使用|或or,来指定|或or两边的查询串中有一个一定出现在结果中d.使用()或“”,来指定()或“”内的表达式是一个整体单元.例如:输入“体育-(足球篮球)”,会查询到包含“体育”,且不包含“足球”与“篮球”的所有网站3.相关检索:将输入的关键字段扩展,给出更多与之有关的搜索关键字4.信息的分类比较好,按照其分类表查找效果比用关键词理想,新浪搜索引擎,新浪是全球范围内最大的华语门户网站之一。新浪是国内网民最常访问的网站,是最常用的中文搜索引擎。新浪自建独立的目录索引。共设16大类目录,10,000多个子目,收录网站达20余万,是规模最大的中文搜索引擎。新浪网推出中国第一家可对多个数据库查询的综合搜索引擎。在关键词的查询结果中,在同一页面上包含目录、网站、新闻标题、新闻全文、频道内容、网页、商品信息、消费场所、中文网址、沪深行情、软件、游戏等各类信息的综合搜索结果,这在国内尚属唯一。搜索规则:默认综合搜索,涉及网站、网页、新闻等内容。网站搜索仅限于自身目录中的注册网站。目前除学校、政府机构、科研单位的网站外,其他类型网站都须支付一定的费用。,输入关键词查询,雅虎搜索引擎,Yahoo!搜索引擎之王,世界最大的门户网站,最早的目录索引之一,也是目前最重要的搜索服务网站。除主站(MotherYahoo)外,还设有美国都会城市分站(YahooCities,如芝加哥分站)、国别分站(如雅虎中国)和国际地区分站(如YahooAsia)。其数据库中的注册网站无论是在形式上还是内容上质量都非常高。Yahoo属于目录索引类搜索引擎,可以通过两种方式在上面查找信息,一是通常的关键词搜索,一是按分类目录逐层查找。由于Yahoo靠人工操作甄选网站,且评判标准十分严格,因此是公认最难登录的搜索引擎。但它对我们网络营销的作用举足轻重,尤其是对商业网站而言,因为Yahoo不仅是全球范围内最著名的互联网品牌,而且也是最具影响力的企业资料库。,输入关键词,可以查找你要的内容:网页、图片等,Google搜索引擎,Google于1998年美国上市,几年间迅速发展成为目前规模最大的搜索引擎。目前每天需要处理2亿次搜索请求,数据库存有30亿个WEB文件。Google提供常规及高级搜索功能。还提供特别主题搜索,如:AppleMacintosh,BSDUnix,Linux和大学院校搜索等。Google允许以多种语言进行搜索,在操作界面中提供多达余种语言选择,同时还可以在多达多个国别专属引擎中进行选择。,导航,高级搜索,1、Google无需用明文的“+”来表示逻辑“与”操作,只要空格就可以了。2、Google用减号“-”表示逻辑“非”操作。示例:搜索所有包含“专题讲座”而不含“计算机”的中文网页搜索式:专题讲座-计算机3、Google用大写的“OR”表示逻辑“或”操作注意:小写的“or”,在查询的时候将被忽略;这样上述的操作实际上变成了一次“与”查询)。4、搜索某一类型文件,可用“filetype”来搜索。示例:搜索文献综述的PDF文件搜索式:文献综述filetype:pdf,检索语法:+、-、OR、filetype,1、site:表示搜索结果局限于某个具体网站或者网站频道(如site:),或者是某个域名(如site:com)。如果是要排除某网站或者域名范围内的页面,只需用“-网站/域名”(如site:-com)。示例:搜索中文教育科研网站()上所有包含“文献综述”的页面。搜索式:文献综述site:2、link:搜索所有链接到某个URL地址的网页。示例:搜索所有含指向华军软件园“”链接的网页。搜索式:link:注意:“link”不能与其他语法相混合操作,所以“link:”后面即使有空格,也将被Google忽略,高级搜索语法:site,link,inurl,allinurl,intitle,allintitle,3、inurl:返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。有很多网站把某一类具有相同属性的资源名称显示在目录名称或者网页名称中,比如“MP3”、“GALLARY”等,于是,就可以用INURL语法找到这些相关资源链接,然后,用第二个关键词确定是否有某项具体资料。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。示例:查找MIDI曲“沧海一声笑”。搜索式:inurl:midi沧海一声笑注意:“inurl:”后面不能有空格,4、allinurl:返回的网页链接中包含所有查询关键字,这个查询的对象只集中于网页的链接字符串。5、allintitle、intitle:用法类似于上面的allinurl和inurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。网页标题,就是HTML标记语言title中之间的部分。示例:苏东坡作品集搜索式:intitle:苏东坡作品,谢谢!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!