资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,共现分析,1,科技论文共现,科技论文中的共现是指相同或不同类型特征项共同出现的现象,如多篇论文之间共同出现的主题(关键词)、共同出现的合作者、共同出现的合作机构以及论文与关键词、机构与作者共同出现等都属于共现研究的范畴。,2,共现分析,共现分析是将各种信息载体中的共现信息定量化的分析方法,以揭示信息的内容关联和特征项所隐含的寓意。,3,方法论基础,共现分析的方法论基础是心理学的,邻近联系法则,和,知识结构及映射原则,。,心理学的邻近联系法则是指曾经在一起感受过的对象往往在想象中也联系在一起,以致于想起它们中的某一个的时候,其他的对象也会以曾经同时出现时的顺序想起。,4,文献计量研究中,共同出现的特征项之间一定存在着某种关联,关联程度可用共现频次来测度。,例如,两位作者共同出现在同一篇论文中,说明两位作者存在合作关系:共同出现的频次越高,说明两位作者合作的强度越高,关联程度越大;同样,一篇论文中共同出现的多个关键词在研究内容上具有相关性;作者在撰写论文时用到的关键词与作者的研究内容密切相关。,5,共现类型,相同类型特征项的共现,论文共现,关键词共现,作者共现,文献耦合,文献同被引,共篇,作者同被引,作者合作,机构、国家合作,期刊共现,不同类型特征项的共现,直接关联,如论文与论文作者,间接关联,如机构与关键词共现,研究最早、影响最大,6,引文分析,以射线箭头指向被引文献,而箭尾指向引证文献,就可以清楚地表现出科学文献之间纵向继承和横向联系的交流态势,通常将这两种相互引证的关系结构称为引文网络(Citation Network),7,8,引文分析,引文分析是20世纪20年代才出现的。1927年,P.L.K.Gross等人进行了文献学史上第一次引文分析。他们统计了化学专业的某些期刊论文的参考文献并进行了分析,的处理化学教育方面的核心期刊。,所谓引文分析(Citation Analysis),就是利用各种数学及统计学的方法和比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引证与被引证现象进行分析,以便揭示其数量特征和内在规律的一种文献计量分析方法。,9,论文共现,在文献的引证关系中,除了文献之间单一的相互引证关系之外,还存在两篇或两篇以上文献同时引证同一篇文献,或两篇文献同时被别的文献共同引证等多种复杂各异的网络或聚类关系。,BACK,10,文献耦合,在科技文献的被引文献中,人们经常可以看到不同文章的作者不约而同地引证某篇或某几篇完全相同的文献。,针对这一现象,美国麻省理工学院的教授开斯勒(M.M.Kessler)于1963年首次提出了“文献耦合”(Bibliographic Coupling)这一术语。,开斯勒在对物理评论期刊进行引文分析研究时发现,越是学科、专业内容相近的论文,他们参考文献中相同文献的数量就越多。,于是,他把两篇(或多篇论文)同时引证一篇论文的论文称为耦合论文(Coupled papers),并把它们之间的这种关系成为文献耦合。,11,引,证,BACK,12,文献耦合,【定义】,如果A和B两篇文献共同引证了一篇或多篇参考文献,或者说它们共同具有一篇或多篇同样的参考文献,则称A和B两篇文献具有引文上的耦合关系。,13,耦合强度,具有耦合关系的论文可以认为它们必然在学科内容上存在某种联系或相关性,其耦合程度可以用“耦合强度”指标来衡量。“耦合强度”的量度单位是A和B共有的参考文献的篇数。,如上图,所示耦合强度为2,耦合程度越高,意味着两篇文献在学科内容与专业性质上越接近,文献间联系也越紧密。,引文耦合是相对而言的。随着耦合的对象不同,耦合标准而有不同,可形成具有不同特点的引文耦合群。其耦合范围可用“耦合幅度”这一指标来衡量。因此,引文耦合现象使大量科学文献分群聚类,14,“耦合”的扩展,“耦合”概念不仅仅局限于同时引证的两篇论文本身之间的关系,它揭示的是一类普遍存在的关系,及两个(或两个以上)不同主体与同一客体之间的关系。,因此,可以将开斯勒提出的“文献耦合”概念予以推广,相对于文献的学科主题、期刊、著作、语种、国别、机构、发表时间等特征对象来说,都可以发生耦合关系。,例如,如果我们不以文献为单位,而以期刊为主体,若两刊同时引证了另一期刊的论文,则称这两种期刊具有耦合关系。,扩展,15,逻辑参考文献,假若用户已有一篇相关的论文P0,通过检索系统就可以检索出于P0有耦合关系的全部论文簇GA(P0)。开斯勒将GA(P0)称作P0的逻辑参考文献。,16,特点,作为检索工具,文献耦合有以下独特的,优点,:,不依赖于任何人工检索语言和词汇,所有的处理都由计算机自动匹配计算完成,因而避免了由于语言、语法、词汇习惯不一致所造成的种种困难,提高了检索率和质量。,与其他类型的引文索引检索一样,文献耦合不需要专家阅读或判断,这给图书情报部门检索管理带来很大便利。,文献耦合作为检索工具,可以突破传统静态分类的限制,同时,基础论文P0继续的被别人引证,逻辑参考文献簇,GA(P0),也会不断的扩大,论文数量不断增加,反映出科学研究新的变化和方向。,BACK,17,文献同被引,在分析文献的引证关系时,不仅可以从论文具有相同参考文献的角度来看,而且还可以从一篇论文被后来的文献共同引证的角度来研究文献结构的动态规律。,1973年,美国情报学家亨利斯莫尔(Henry Small)和前苏联情报学家依林娜玛莎科娃(Irina Marshakova)分别在研究文献的引证结构和文献分类时,同时首次提出了文献“同被引”(Co-citation)的概念,作为测度文献间关系程度的另一种方法,18,引,证,19,文献同被引,定义:,指两篇(或多篇)论文同时被后来的一篇或多篇论文所引证,则称这两篇论文(被引证论文)具有“同被引”关系。,换言之,如果A和B两篇(或多篇)文献,不管其发表的时间如何,只要同时被后来一篇或多篇论文引证,则称A和B两篇文献具有“同被引”关系。,20,同被引强度,以引证它们的论文(引证文献的数量)多少来测度其同被引程度,,同时引证这两篇论文的论文篇数为同被引强度(Co-citation Strength)或同被引频率(Co-citation Frequency)。,如上图,同被引强度为3,若同时引证这两篇论文的文章越多,则它们的同被引频率越高,说明它们之间的关系越密切。,同时,文献的同被引相关簇的跨度可用“同被引幅度”指标来衡量,若簇内的同被引文献文献越多,则其“同被引幅度”就越大。,21,同被引的扩展,与文献耦合的概念相类似,同样可以将“同被引”的概念推广到与文献相关的各种特征对象方面,从而形成各种类型的“同被引”概念,例如期刊同被引,著者同被引,主题同被引等,扩展,22,引文耦合与同被引的异同,相同:,都是指两篇论文通过另外一篇或多篇论文建立起来的关系,所以都可以反映出文献之间的联系程度和结构关系,在引文分析中属于同一种类型:及以文献之间的联系程度作为计量单位的网络结构分析,从引文角度揭示论文的主题相似性,以及相互之间作用和联系。,都可以用于研究文献关系,进行文献检索和揭示学科结构等。,23,区别:,BACK,24,文献耦合推广,因为文献耦合所揭示的是一类普遍存在的主客体之间的引证与被引证关系,因此可以将“文献耦合”的概念予以推广,利用耦合概念反映诸如学科、期刊、著者、语种、国别、机构、时期等多种特征对象的相似耦合关系。,25,耦合分析,(1)文献耦合,(2)期刊耦合,(3)著者耦合,(4)学科耦合,此外,还有文献所属的国别耦合、地区耦合、机构耦合、语种耦合等,利用这些耦合关系都可以进行相应的分析,还可得出许多有益的结论。,26,期刊耦合,以每种期刊为统计单元进行的耦合。,具体地讲,就是n种(n2)期刊同时引证其他期刊论文时,则称这n种期刊之间的关系为“期刊耦合”。,其耦合强度以同时被引证的期刊之间种数(或次数)来衡量,称之为期刊耦合频率或期刊耦合强度。,27,期刊耦合,期刊耦合现象在客观上把众多的期刊按照引证关系结合为一个有序的的相关群,在一定程度上揭示出期刊之间的相互关系,为研究文献情报流的结构和规律以及学科之间的联系提供了客观的基础和条件。,28,著者耦合,以一个个著者(含团体著者)作为基本单元进行的耦合。,具体的说,就是n个著者(n2)在文献中同时引证了某一个(或多个)著者所发表文献的情况,则称这n个著者具有耦合关系。,这种耦合的媒介是被引证文献的作者,其耦合强度以同时被引证著者的数量来衡量。这种测度称为著者耦合强度或著者耦合频率。,29,著者耦合,著者耦合分析反映了著者之间的客观联系,在一定程度上揭示了学科专业人员的组织结构,这种分析方法在图书情报学、科学学和人才学领域都有广泛的应用。,30,学科耦合,所谓学科(或专业)耦合是指以学科为基本单位进行的耦合。,具体地讲,就是属于某n(n2)个学科(或专业)的文献共同引证了别的学科(或专业)的文献时,称这n个学科具有耦合关系。,其耦合程度以被引证的学科数量多少来测度。这种测度指标称为耦合强度或学科耦合频率。,31,学科耦合,通过学科耦合分析,可以判断学科之间的关系和联系程度、分支层次关系,及其交叉渗透趋势;同时,也可以从学科耦合关系的变化了解学科发展的状况和变化规律,进一步预测学科分化组合的发展趋势。,BACK,32,文献同被引推广,(1)文献同被引,(2)期刊同被引,(3)著者同被引,(4)学科同被引,33,期刊同被引,以期刊为基本单元而建立的同被引关系。,具体的说,就是n种(n2)期刊的论文被其他期刊同时引证时,则称这n种期刊具有“同被引”关系。,其同被引程度以引证它们的期刊(引证期刊)种数(或次数)多少来衡量,这个测度指标称为期刊同被引强度或期刊同被引频率。,期刊同被引关系把数量众多的期刊按被引证关系联系起来,进而从利用的角度揭示了各学科之间的相互关系和结构特征。,34,著者同被引,以著者作为同被引分析的计量单位,研究n个(n2)著者发表的文献同时被其他文献著者引证的情况,其同时被引强度以引证文献的著者的数量来衡量。,通过同被引文献的著者建立同被引关系,使众多的著者按照同被引关系形成一个著者相关群,揭示出学科专业人员的组织结构、联系程度,并进而反映出学科专业之间的联系及其发展变化情况,35,学科同被引,以学科作为基本单元而建立的同被引关系。学科同被引分析以学科作为同被引分析的统计单位,研究n(n2)个学科的文献被其他学科文献同时引证的情况,其同引强度以引证它们的学科的数量来衡量。,通过学科同被引分析,可以宏观逻辑科学体系的学科构成和结构特征,推测学科发展趋势,了解科学知识与信息的交流规律。,BACK,36,共篇(Co-text),共篇分析属于论文关系研究,论文之间基于相同关键词会产生关联,认为两篇论文共同拥有(出现)相同关键词的数量越多,两篇论文的内容相关性越强。,文献A,文献B,关键词1,关键词2,关键词3,关键词4,出,现,出现,BACK,37,共词分析-起源,共词分析的思路最初时在20世纪70年代由法国文献计量学家提出的,1986年,法国科研中心(CNRS)的M.Callon、J.Law和A.Rip出版了Mapping the Dynamics of Science and Technology,当时被称作“Leximappe”(法语:关键词),关键词A,关键词B,文献1,文献2,文献3,文献4,出现,出现,38,共词分析原理,共词分析法利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系。,一般认为,词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可以反映主题内容的亲疏关系。,39,共词分析过程,确定分析的问题:,研究热点,学科发展过程,确定分析单元:,最好是受控的,被统一标引的主题词。,结合研究者的经验在选词个数和词频高度上平衡-主观,结合齐普夫第二定律辅助判定高频词的界限,高频词的选定,:,共词出现频率,共词分析中统计方法:,聚类法、关联法、词频法、突发词监测法等,对共词结果的分析:,结合相关学科知识对统计的结果进行科学分析,40,共词出现频率,为反映高频词之间的关系,两两统计它们在同一篇文献中出现的次数,如果两个主题词在众多的文献中出现频率高,则说明它们之间的关系密切。对于,N,个高频词的共词分析,便形成一个,N,N,的共词矩阵。,包容化处理的结果能反映出,两词间的紧密联系,的程度,对词对频率包容处理的公式有以下三种:,【包容指数法】:,主要用来计算主题领域的层次重要研究主题,【,临近指数法】:,与包容指数相反,它能反映词对出现频率相对较低的主题词规模较小、容易淹没的研究主题,【,相互包容系数法】,测度聚类簇之间、簇内部联系程度,“战略坐标”对聚类结果进一步描述和分析,41,共词分析不足,共词分析对词的选择非常敏感,作者的取词习惯、未经规范的关键词、关键词在表征论文内容的完整性及其它原因都会造成结论的模糊、晦涩。,一些研究认为共词分析存在随意性较大、不确定性的缺陷。,BACK,42,作者、机构、国家合作,作者共同署名,及不同作者姓名共同出现,机构名称共同出现、国家共现,是科学合作在不同层次和规模水平上的表达形式。,作者A,作者B,文献1,文献2,文献3,文献4,创作,创作,BACK,43,不同类型特征项的共现,更普遍地存在,关注少、研究深度不够,44,科技论文主要共现类型,序号,特征项一,特征项二,特征项一、二之间关系,共现类型,1,论文,关键词,论文中使用了关键词,异共现,2,论文,期刊,论文发表的期刊,异共现,3,论文,作者,作者撰写了论文,异共现,4,论文,引文,论文引用了引文,异共现,5,作者,作者机构,作者与作者所隶属的机构,异共现,6,引文,引文作者,引文作者撰写了引文,异共现,7,引文,引文期刊,引文发表的期刊,异共现,8,引文,引文,引文之间的关联(论文同被引),同共现,9,论文,论文,论文之间的关联(文献耦合),同共现,10,作者,作者,作者之间的关联(作者合作),同共现,11,引文作者,引文作者,引文作者之间的关联(作者同被引),同共现,12,关键词,关键词,内容相关的关键词,同共现,13,关键词,作者机构,机构论文涉及的研究词汇,异共现,14,关键词,期刊,期刊论文涉及的研究词汇,异共现,45,研究现状,国内外两条不同的认知路线:,1、从挖掘个性特质入手,对各种不同类型的共现研究展开分析,如论文共现、关键词共现等,研究者通过论文共引、论文耦合、共词等分析,考察隐藏在论文数据中的科学活动规律应用研究路线,2、分析各种共现现象的共性特点,从技术的角度探讨如何对共现现象实现定量分析、信息挖掘技术研究路线,相辅相成,互相促进,46,存在问题和不足,缺乏对共现现象的整体性认识,不利于全面完整的揭示共现现象,缺乏对共现现象共性特征的研究,不利于考察各种共现现象的关联,缺乏高度综合的普适性理论研究,不利于实现对共现现象的数据挖掘,47,
展开阅读全文