资源描述
,*,课题二 信息检索基础理论,课题二 信息检索基础理论,1,主要内容,信息检索的概念和类型,信息检索的基本原理,信息检索语言的概念和类型,信息检索系统的概念和基本类型,信息检索的方法、途径和评价,信息检索的步骤,主要内容信息检索的概念和类型,2,第1节信息检索概述,一、信息检索含义,1950年,美国数学家莫尔斯(Calvin N.Mooers)首次提出“信息检索(Information Retrieval)”一词。,广义理解:,存储 查找,狭义理解:,查找,本章所讲的主要是狭义的信息检索,即信息的查找过程。,第1节信息检索概述一、信息检索含义广义理解:存储 查找,3,1、检索的意义,信息具有共享性,信息资源共享(information resource sharing)是当今社会的一个热点问题。为了分享人类共同的知识财富、研究成果,人们必须通过一种科学的方法从取之不尽的信息源中去识别和获取所需要的那部分信息,这个过程就是检索(searching)。,1、检索的意义,4,信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(数据库)检索获得信息,经过处理筛选出需要的部分,在利用信息的过程中又创出新的信息,这些信息经过核准后又被标引、组织进检索工具(数据库),再提供人们使用,信息在这个循环的处理过程中不断得到扩充,它的增长是没有穷尽的。,信息的检索、利用和创造是一个循环和增值的过程,人们通过工具(,5,信息检索定义,“信息检索”:从信息集合中迅速、准确地查找出所需信息的程序和方法。,信息检索定义,6,信息检索特性,信息检索的相关性,相关性表明用户是否认为一文献与一提问吻合。,信息检索的不确定性,标引和检索词选用存在不确定性,信息检索的逻辑性,信息检索特性 信息检索的相关性,7,信息检索的类型,按照检索对象的内容可分为,数据信息检索、事实信息检索及文献信息检索。,设计人行天桥的参考文献有哪些 属于文献检索,“世界上最长的斜拉桥是哪座?该桥位于什么地方?何时建成?”属于事实检索,某一新型载货汽车的载重量是多少?百公里油耗是多少 就属于数据检索.,信息检索的类型按照检索对象的内容可分为数据信息检索、事实信,8,信息检索的类型,2.按照存贮载体及检索手段方式可分为,手工检索、机械检索及自动化检索,。,手工检索多以书本式或卡片式检索工具为主,手工检索需要了解标引规则,检索者根据文献标引规则查阅有关文献。,计算机检索就是将大量的文献资料或数据进行加工整理,按一定格式存贮在机读载体上,建成机读数据库,利用计算机对数据库进行检索的信息检索方式。,信息检索的类型2.按照存贮载体及检索手段方式可分为手工检索、,9,信息检索的类型,3、按照按系统中信息的组织方式划分,全文检索、超文本检索、超媒体检索,全文检索是指检索系统中存储的是整篇文章乃至整本书。,超文本检索是对每个节点中所存的信息以及信息链构成的网络中信息的检索。,超媒体检索是对存储的文本、图像、声音等多种媒体信息的检索。,信息检索的类型3、按照按系统中信息的组织方式划分全文检索、超,10,信息检索的作用,有利于减少课题的重复研究、提高科研成功率,有助于节约时间、提高科研效率,有利于培养复合型、开拓型人才,信息检索的作用 有利于减少课题的重复研究、提高科研成功率,11,信息检索的基本原理,信息检索的基本原理,:,即检索者的检索提问词与存储在检索系统中的检索标引词进行匹配对比、取得一致,即为检索命中,命中结果可从检索系统中以各种方式输出。,信息检索的基本原理信息检索的基本原理:即检索者的检索提问词与,12,信息检索原理图*,一次,信息,信息,特征,检,索,语,言,信息特征,标识,检,索,结,果,信息,需求,检索,提问,检索提问,标识,分析,分析,标引,标引,输入,检索,输出,信息检索工具(系统),存储,过程,检索,过程,信息检索原理图*一次信息检信息特征检信息检索检索提问分析分析,13,第2节 信息检索语言,一、检索语言及特征,1.检索语言含义,检索语言,一般指文献标引和检索所使用的一种专门语言,是用以表达概括文献特征和检索课题内容特征的概念及其相互关系的一种概念标识系统。,即在存储时用以描述文献信息的内容和外部特征,而在检索时则用以表达提问的语言。,第2节 信息检索语言一、检索语言及特征,14,分类语言,类,性质上彼此相同的事物,物以类聚,人以群分,分类语言也称分类法,它是用分类号表达主题概念,依据知识分类将各主题概念按学科性质进行分类和系统排列成类目体系的标引语言。,分类语言类性质上彼此相同的事物物以类聚,人以群分,15,等级体系分类语言,是直接体现知识分类等级概念的表示系统。,科学分类,基 础,对 象,文献内容的学科性质,按照知识门类的逻辑次序,知识,类1,类2,类3,类21,类22,类23,上位类,同位类,下位类,等级体系分类语言 是直接体现知识分类等级概念的表示系统,16,等级体系分类语言,等级体系分类语言是一种直接体现,分类等级,概念的标识系统。,体系分类语言根据一定的观点,以学科分类为基础以文献内容的科学性为对象,运用概念的划分(缩小)与概括(扩大)方法按照知识门类的逻辑次序,从总到分,从简单到复杂,进行概念的层层划分。,每划分一次,就产生一些类目,逐级划分,就产生许多不同级别的类目。,中国图书馆分类法是典型的等级体系分类语言。,等级体系分类语言等级体系分类语言是一种直接体现分类等级概念的,17,中国图书馆分类法体系结构,信息检索语言,基本部类(5个)基本大类(22个),1、马列、毛泽东思想,A马列、毛泽东思想、邓小平理论;,2、哲学,B 哲学、宗教;,3、社会科学,C社会科学总论;D政治、法律;E 军事;F 经济;,G文化、科学、教育、体育;H 语言、文字;,I文学;J艺术;K历史、地理;,4、自然科学,N自然科学总论;O数理科学和化学;,P 天文学、地球科学;Q生物科学;R医学、卫生;S农业科学;T工业技术;U交通运输;,V航空、航天;,X 环境科学、劳动保护科学(安全科学);,5、综合性图书,Z综合性图书。,中国图书馆分类法体系结构信息检索语言基本部类(5个),18,中国图书馆分类法体系结构,中图法22大类是基础,每一大类下,根据学科的具体内容层层细分为二级、三级、四级类目,这样逐级划分下去,就形成了等级分明的科学系统。,O,数、理、化,一级类目,O1,O3,O4,O6,O7,数学,力学,物理,化学,晶体,二级类目,O11,古典数学,O12,初等数学,O13,高等数学,三级类目,O121,算 术,O122,初等代数,O123,初等几何,四级类目,O124,三 角,中国图书馆分类法体系结构中图法22大类是基础,每一大,19,C 社会科学总论,C8 统计学,C91 社会学,C92 人口学,C93 管理学,931管理技术方法,.1 管理数学,.2 管理的方式方法,933 领导学,934 决策学,935 管理计划和控制,936 管理组织学,939 应用管理学,C 社会科学总论,20,TP 自动化技术、计算技术,TP1,自动化基础理论,TP2 自动化技术及设备,TP3 计算技术、计算机,TP31计算机软件,TP311 程序设计、软件工程,TP312 程序语言、算法语言,TP313 汇编语言,TP316 操作系统,TP316.1 分时操作系统,TP316.2 实时操作系统,TP316.3 批处理,一般性问题,2自动化元件、部件,自动化装置与设备,机器人技术,自动化系统,自动化技术在各方面的应用,TP 自动化技术、计算技术 TP1 自动化基础理论TP,21,中国图书馆图书分类法,中国图书馆图书分类法,22,书刊的排架,图书馆书刊排架按索书号排列,索书号由分类号和著者号构成,索书号的构成(,分类号+著者号),信息检索概论祁延莉编.,G252.7/Q231,2005建筑制图曾维富,陈良,等编著.,TU204-39/Z053,台球速成:新编张宝荣编著,G893/Z107,书刊的排架图书馆书刊排架按索书号排列,索书号由分类号和著者号,23,医学信息检索课件,24,主题语言,(1)关键词语言,关键词是指出现在文献标题、文摘、正文中,对表征文献主题内容具有实质意义的语词,对揭示和描述文献主题内容是重要的、关键性的语词。,以关键词作为文献内容标识和检索入口的检索语言就叫作关键词语言。关键词不受词表控制,适合于计算机自动编制各种类型的关键词索引。,主题语言(1)关键词语言,25,主题语言,(2)纯自然语言,纯自然语言完全使用自然语言,即对一条完整的信息中任何词汇都可以进行检索。它采用全文匹配法检索,主要运用于计算机全文数据库和网络信息检索。,主题语言(2)纯自然语言,26,第三节 信息检索系统,一、检索系统的概念,检索系统,是用以存储和检索文献线索或报道、累积和查找文献线索的工具,它是在一次文献的基础上经过加工、整理、编辑形成的二次文献。,第三节 信息检索系统一、检索系统的概念,27,按正文的内容性质划分,信息检索系统的基本类型有目录、题录、索引、文摘等类型。,检索系统的基本类型,按正文的内容性质划分,信息检索系统的基本类型有目录、题录、索,28,目录,(Bibliography,Catalogue),目录(Bibliography,Catalogue),29,题录,(1)高职课程体系创新与人才培养.肖亚明(武汉船舶职业技术学院).江汉石油学院学报:社会科学版,2003(22):55-56.,(2)基于ANSYS水火弯板温度场的数值分析.韩华(武汉船舶职业技术学院).武汉船舶职业技术学院学报,2005(3):13-17.,题录(1)高职课程体系创新与人才培养.肖亚明(武汉船舶职业技,30,文摘(,Abstract,),(1)高职课程体系创新与人才培养.肖亚明(武汉船舶职业技术学院).江汉石油学院学报:社会科学版,2003(22):55-56,从高等职业教育的现状出发,分析了高职教育存在的问题,指出了高职课程体系创新的基本理念和目标;强调高职课程体系必须坚持社会主义方向不动摇,以技能优先、以理论够用为原则,强调课程的综合化是高职课程体系改革的方向,旨在全面提高学生的素质,培养出社会需要的综合型人才。,(2)基于ANSYS水火弯板温度场的数值分析.韩华(武汉船舶职业技术学院).武汉船舶职业技术学院学报,2005(3):13-17.,本文根据传热学理论,运用ANSYS有限元分析软件,对水火弯板的温度场进行了数值模拟,并给出了水火弯板数值分析的边界条件。通过与试验结果对比,发现该数值模拟可靠,反映了水火弯板温度场分布的基本规律。,文摘(Abstract)(1)高职课程体系创新与人才培养.肖,31,医学信息检索课件,32,索引(Index),索引(Index)是揭示具有重要检索意义的内容特征标识或外部特征标识,按照一定顺序排列,并注明文献条目线索的检索工具。,索引常常附于检索工具的后部,但也有的工具本身全部是由索引构成。,索引(Index)索引(Index)是揭示具有重要检索意,33,医学信息检索课件,34,思考:目录与题录区别,思考:目录与题录区别,35,思考:目录与题录区别,区别:目录的著录对象是整部文献,题录是文献中的论文或部分内容,思考:目录与题录区别,36,第4节 信息检索的方法、途径及评价,一、检索方法,1.常用法,顺查法。,倒查法。,抽查法。,2、,回溯方式(引文法),3.循环法(分段法),第4节 信息检索的方法、途径及评价一、检索方法,37,二、检索途径,1.分类途径,2.主题途径,3.著者途径,4.其它途径,篇名途径。篇名途径包括书名、刊名和篇名等途径。,序号途径。,分子式途径。,二、检索途径,38,三、信息检索效果的评价,1.信息检索效果评价的指标,查全率,查准率,漏检率,误检率,三、信息检索效果的评价,39,第5节 信息检索的步骤,信息检索是从确立检索需求到信息满足的过程。,其检索的全过程大致可分为分析课题与确定检索要求、选择检索方式与检索工具、确定检索途径与方法、优化检
展开阅读全文