资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学信息检索概论,军事医学科学院医学信息检索教研室,刘传和,2010/9,主要内容,信息检索的定义与类型,信息、知识、情报,、,文献,及其,关系,信息检索工具,信息检索语言,信息检索途径,计算机信息检索,检索结果的鉴别与整理,检索效果的评价,因特网信息资源评价,什么是信息检索,广义,:,包括信息的存贮和查找两个方面。,狭义,:,查找信息。即根据特定的信息需求,从大量的信息中迅速、准确而且无重大遗漏地查找所需信息的过程。,信息检索的种类,按检索手段划分:手工检索;计算机检索,按检索对象划分:文献、事实与数值检索,按检索途径划分:题名、著者、主题、分类、关键词检索等。,按检索结果的详细程度划分:题录、文摘、全文检索。,第一节,信息、知识、情报与文献,信息,的定义,广义,:,客观世界一切事物(物质的和精神的)的运动状态和运动方式,包括事物内部结构的状态和方式以及外部联系的状态和方式。,狭义,:,人们通过感觉器官和大脑对客观事物运动状态和运动方式的认识或反映。,这种信息可以通过语言、文字、图像、声音等思想交流工具在人与人之间传递。,信息的类型,按信息传递的途径不同,:,网络信息,:,是对电子计算机网络上存在的信息的总称;,广播电视信息,:,通过广播和电视发布的信息;,口头信息,:,人际间直接用语言传递的信息;,文献,:,文献是记录着知识的一切载体。,知识的定义,人类通过社会实践(包括工作、学习、生活和娱乐等活动)获得和在社会实践中运用的,关于客观事物及其运动、变化、发展规律的,经过社会实践验证为正确的认识和经验。,知识的分类,显性知识:,以语言、文字、声音、图像、图表、数学公式等规范化和系统化的符号存储在书本、档案、文件等纸质载体以及磁盘、光盘、数据库等新型载体中的知识,是编码化知识。,隐性知识:,难以用语言、文字、声音、图像、图表、数学公式等规范化和系统化的符号表达的知识。它主要是以个人经验、技能、判断力、思维能力、价值观以及组织的技术诀窍、组织文化等形式存在。,显性知识与隐性知识的关系,就人类知识的总体而言,隐性知识是显性知识之源。如果把显性知识比作海洋,那么隐性知识就是成千上万条河流的无数源头。,就个体知识而言,隐性知识和显性知识是相辅相成的。,从知识的总量来看,如果把全部知识比作一座漂浮在海面上的冰山,那么,显性知识仅仅是露出海面的 “冰山的尖端”,隐性知识是淹没在海水中的巨大山体。,情报的定义与特性,情报是指传递着的有特定效用的信息或知识。,情报的特性,知识信息性:,情报的本质是知识或信息,传递性:,信息或知识要变成情报,必须经过传递,效用性:,只有那些能满足特定需求的传递着的信息或知识才可称之为情报。情报的效用性表现为启迪思想、开阔眼界、增进知识、改变人们的知识结构、提高人们的认识能力、帮助人们去认识和改造世界。,文献的定义及构成要素,文献是记录着知识的一切载体,。,文献,4,要素:,所记录的知识;,记录知识的符号;,用于记录知识的载体;,记录的方式或手段。,文献的类型,按载体划分:,纸型文献;机读型文献 ;缩微型文献;视听型文献 。,按出版形式划分:,图书;期刊;特种文献。,按加工程度划分:,零次文献;一、二、三次文献。,信息、知识、情报与文献的关系,信息,知识,情,报,文献,第二节 信息检索工具,信息检索工具的定义与职能,定义:,用来报道、存贮和查找信息的工具。,基本职能:,一是把相关信息的特征著录(记录)下来,形成一条条信息线索,并将这些信息线索系统地组织与排列;,二是提供一定的检索手段,使人们能按一定的检索方法和途径查找到所需的信息。,信息检索工具的种类,按形式划分:,卡片式、书本式、机读式、网络检索工具。,按检索结果的详细程度划分:,题录型、索引型、文摘型、全文型。,第三节 信息检索语言,信息检索语言的概念与作用,根据信息检索的需要而创造的专门供信息标引和信息检索使用的一种人工语言。,信息检索语言是信息标引者和检索者信息交流与沟通的桥梁。可以使杂乱无章的信息有序化,使相同学科门类或主题内容、同一著者或出处的信息聚集在一起,内容相关的信息联系起来,并使全部信息按其不同的特征排列成为适于检索的系统。,信息检索语言的类型,外表特征检索语言:题(篇)名、作者姓名、信息出处、顺序号等作为信息标引和检索的依据而设计的检索语言。,内容特征检索语言:分类语言,(,分类法,),、主题语言,(,主题词表,),两大类。,分类法,将信息根据其所属的学科内容分门别类地系统化组织起来。,体系分类法(列举式分类法)和组配分类法(分面分类法)两种。其中,应用最多的是体系分类法。,中国图书馆图书分类法,中国图书资料分类法,杜威十进分类法,国际十进分类法,冒号分类法,中国图书馆图书分类法,R,类示例,R 1,预防医学、卫生学,2,中国医学,3,基础医学,R61,外科手术学,4,临床医学,62,整形外科学,R651,头部及神经外科学,5,内科学,63,外科感染,653,颈部外科学,6,外科学,64,创伤外科学,654,心脏血管和淋巴系外科学,71,妇产科学,65,外科学各论,655,胸部外科学,72,儿科学,68,骨科学,656,腹部外科学,R658.1,断肢断指再植手术,73,肿瘤学,69,泌尿科学,658,四肢外科学,658.2,上肢,R,医药卫生,74,神经病学与精神病学,659,其他外科学,658.3,下肢,75,皮肤病学与性病学,76,耳鼻咽喉科学,77,眼科学,R91,药物基础科学,78,口腔科学,92,药典、药方集,(,处方集,),、药物鉴定,79,外国民族医学,93,生药学,R961,药物的性质和作用,8,特种医学,94,药剂学,962,化学药理学,9,药学,95,药事组织,963,生化药理学,96,药理学,964,精神药理学,R965.1,药物筛选和实验模型,97,药品,965,实验药理学,965.2,药理的实验方法与技术,99,毒物学,966,分子药理学,965.3,药物的安全试验,967,免疫药理学,968,遗传药理学,969,临床药理学,主题语言,以语言文字为基础,借助于自然语言的形式,用于标引和检索信息主题内容的词语标识系统。,叙词语言、关键词语言和标题词语言三种。其中,应用最多的是叙词语言和关键词语言。,MeSH,表,中国中医药学主题词表,汉语主题词表,MeSH,(,Medical Subject Headings,),美国国立医学图书馆编制,世界上最具代表性和使用最广泛的一种主题词,(,叙词,),表。,专门用于医学信息的标引和检索。,中文译本:,医学主题词表,MeSH,表的结构,字顺表、树状结构表(范畴表)、副主题词表。,字顺表:是,MeSH,的核心,将主题词,(2.4,万,),、非主题词,(,入口词,/,款目词,9.7,万,),、副主题词,(83,个,),全部按字母顺序排列,附以注释和参照。,树状结构表,(Tree Structures),是一种分类表,将字顺表中的主题词和类目词按照每个词的词义范畴及学科属性,分别归入,16,个大类。每个大类又根据从总到分、从一般到具体的原则分为若干一级类、二级类,,最多分至九级。,树状结构表大类,1. Anatomy,A,2.,Organisms B,3.,Diseases C,4.,Chemicals and Drugs D,5.,Analytical, Diagnostic and Therapeutic Techniques and Equipment E,6.,Psychiatry and Psychology F,7.,Biological Sciences G,8.,Natural Sciences H,9.,Anthropology, Education, Sociology and Social Phenomena I,10.,Technology, Industry, Agriculture J,11.,Humanities K,12.,Information Science L,13.,Named Groups M,14.,Health Care N,15.,Publication Characteristics V,16.,Geographicals,Z,树状结构表举例,Digestive System Diseases,Liver Diseases,Hepatitis,Hepatitis, Chronic,Hepatitis, Autoimmune,Hepatitis B, Chronic,Hepatitis C, Chronic,Hepatitis, Chronic, Drug-Induced,Hepatitis D, Chronic,副主题词表,作用,:,与主题词合用,限定主题的不同研究方面,使检索更具专指性。,共有,83,个副主题词。,包括疾病的病因、诊断、治疗、预后、遗传学、免疫学、流行病学等;,药物的副作用、毒性、,化学与生物合成、药理学、药代动力学、,拮抗剂和抑制剂等;人体各器官和部,位的生理学、细胞学、异常等。,关键词语言,关键词是指出现在信息的题名、文摘或全文中具有检索意义,并能表达信息实质内容的名词和术语。,为适应计算机自动编制索引的需要而产生的一种检索语言。,一篇文献的篇名:“癌基因在肝癌中,表达的研究进展”,其中“癌基因”、,“肝癌”、 “表达”具检索意义,,是关键词。,第四节 信息检索途径,信息检索途径的类型,检索途径与检索语言是信息检索中密不可分的两个方面。检索语言是信息的标引者和检索者都必须遵守的规则。,两大类:从信息的外表特征进行检索;从信息的内容特征进行检索,。,外表特征检索途径,题名途径,:,通过书名、刊名、篇名查找信息的途径,著者途径,:,通过文献的责任者检索的途径。,序号途径:,通过文献的顺序编号检索信息的途径。,专利号、技术标准号,化学文摘号、科技报告号,内容特征检索途径,分类途径,主题词途径,关键词途径,其他途径:,分子式索引、属类索引,生物系统索引,第五节 计算机信息检索,计算机信息检索的含义与方式,含义:,利用电子计算机对数据高速处理的能力来存贮数据,建立数据库,并从中查找所需数据的过程。,方式:,光盘检索(单机和局域网),因特网检索 :检索因特网上的数据库,数据库的定义及结构,定义:,至少由一个文档构成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。,结构:,文档,:记录的集合,记录:,数据库的基本单元,字段:,组成记录的数据项,数据库的类型,书目数据库:,又称题录文摘数据库,存贮文献的题录、文摘,全文数据库:,存贮和查找原始文献的全文,数值型数据库:,包括各种统计数据、实验数据、科学测量数据等,事实型数据库:,知识、经验、规则等事实的集合,检索运算符及其种类,指计算机检索系统规定的供编制检索式和进行组配检索使用的词或符号。,种类:逻辑运算符、优先运算符、位置运算符、截词符、限定符、时间范围运算符,逻辑运算符及其作用,OR,或:,扩大检索范围,提高查全率,AND,或*:,缩小检索范围,提高查准率,NOT,或,-,:,也用于缩小检索范围,运算次序及优先运算符,一个检索式中若含有两个或两个以上的逻辑运算符,计算机则按照,NOTANDOR,的次序运算,即先算,NOT,,再算,AND,,最后算,OR,。,如果要改变这种次序,一般是用圆括号把需要最先运算的部分括起来,如:,A NOT,(,B AND,(,C OR D,)。,“()”称为优先运算符,。一个检索式中有多重圆括号时,优先顺序由内而外进行。,位置运算符,又称邻近运算符,用于表达检索词之间的邻近关系,缩小检索范围,提高查准率。许多检索系统采用的位置运算符不同,使用时应分别对待。,MEDLINE,数据库中的位置运算符有“,NEAR,”,和“,WITH,”,。如“,A NEAR B”,表示,A,和,B,在同一句子中出现;“,A WITH B”,,表示,A,和,B,在同一字段中出现。,截词符,截词是指检索时把检索词截断,只取其中一部分进行检索。截词检索是一种扩大检索范围的措施,可解决检索词的单复数、英美单词不同拼法和词干相同而词尾不同等问题。,截词方式包括右截断、左截断和中间截断。,常用的截词符有“*”、“?”、“,#”,和 “,$”,。各种检索系统的截词符有所不同。,限定符,用于字段检索(将检索限定在某个字段中进行)和短语检索。,字段检索常用的限定符是,in,和,=,。如,dementia in TI,;,LA=English,短语检索常用的限定符有双引号或圆括号。如,“,gene therapy”,;,(liver,cacinoma,),时间范围运算符,用于限定信息发表的时间范围。,常用的有:,、,、,2001,检索步骤,明确检索需求及检索目标,制定检索策略,选择数据库,分析课题,确定检索词,编制检索式,进行初步检索,修改检索策略,输出和分析检索结果,制定检索策略,制定检索策略就是对检索的全面策划,主要指数据库的选择和检索式的编制。,检索式,又称检索表达式或检索提问式,是检索人员用检索词和检索运算符编制而成的供计算机进行检索运算的式子。,选择数据库取决于现有的数据库资源,编制检索式则反映检索目标。在实际操作过程中,检索策略往往侧重检索式的制定。,第六节 检索结果的鉴别与整理,检索结果的鉴别,对检索结果进行质量鉴别,去粗求精,去伪存真,进而进行充分利用。,鉴别信息的质量主要从信息的可靠性、先进性和适用性,3,个方面进行判断。,检索结果的整理,检索结果的整理就是用科学的方法将收集到的杂乱无序的信息进行加工处理,使之有序化,以便存贮和及时提供使用。,它包括手工整理和计算机管理两种类型。,第七节 检索效果的评价,评价标准,对信息检索的效果评价主要从质量、费用和时间三方面来衡量。质量标准主要通过查全率与查准率进行评价。费用标准即检索费用,是指用户为检索课题所投入的费用。时间标准是指花费时间,包括检索准备时间、检索过程时间、获取文献时间等。,查全率和查准率是判定检索效果的主要标准。,查全率,(Recall),又称召回率,是指检索出的相关文献量占检索系统中所有相关文献总量的百分比,用来反映检索的全面性,或反映系统文献库中实有的相关文献量在多大程度上被检索出来。,公式表示如下:,R=a/(a+c)100%,a,为检出的相关文献量,,b,为检出的非相关文献量,,c,为系统中未检出的相关文献量。,查准率,(Precision),又称检索精度或相关率,是指检索出的相关文献量占所有检出文献总量的百分比,用来反映检索的准确性,或反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。,用公式表示如下:,P=a/(a+b)100%,a,为检出的相关文献量,,b,为检出的非相关文献量,,c,为系统中未检出的相关文献量。,影响查全率的因素,从信息检索实践来看:,主要有检索策略过于简单;选词和进行逻辑组配不当;检索途径和方法太少;检索人员业务不熟练和缺乏耐心;检索时不能全面地描述检索要求等。,影响查准率的因素,从信息检索实践来看:,主要有检索时所用检索词专指度不够,检索范围宽于检索要求;截词部位不当,检索式中使用逻辑“或”不当等。,第八节 因特网信息资源评价,因特网信息资源评价及其作用,采用定性和定量的方法,对因特网上的网站或网页的内容、外观及易用性进行综合评估,确定其好坏与优劣。,因特网信息资源评价对于用户选择和使用网络信息,对于网站的建设与更新维护都具有十分重大的意义和作用。,评价的指标与方法,因特网信息资源评价的指标与方法分为定性(主观)和定量(客观)两大类。,定性评价指标,网站的内容;,网页的外观;,网站的易用性。,定量评价指标,网站被知名的搜索引擎收录的情况;,网站的被点击量;,网站的被链接次数。,因特网信息资源评价的发展趋势,评价的主体从个人和各大学的文献服务机构向多元化发展。,评价对象从综合性网站向专门或专业网站发展。,评价指标与方法向定性及定量相结合的方向发展。,谢谢!,
展开阅读全文