谈论引文分析方法的网络化发展和应用

上传人:卢** 文档编号:120777813 上传时间:2022-07-18 格式:DOC 页数:5 大小:23.50KB
返回 下载 相关 举报
谈论引文分析方法的网络化发展和应用_第1页
第1页 / 共5页
谈论引文分析方法的网络化发展和应用_第2页
第2页 / 共5页
谈论引文分析方法的网络化发展和应用_第3页
第3页 / 共5页
点击查看更多>>
资源描述
议论引文分析方法的网络化开展和应用 引文分析网络信息计量网络链接分析 引文分析是传统文献计量学和科学计量学的一种独特研究方法。主要从网络链接分析研究、基于网页链接分析的搜索引擎排序算法研制和新型网络引文索引工具的编制等方面,分析阐述引文分析方法在网络环境下的开展和应用,以期形成对引文分析方法及其价值的合理认知和评价。 1、引 言 所谓“引文分析(citation analysis),是指利用各种数学和统计学的方法,以及比拟、归纳、抽象、概括等逻辑方法,对学术、论文、著者等各种对象的引用与被引用现象进展分析研究,以便提醒其数量分布特征和内在关联规律的一种文献计量研究方法。 追溯引文分析思想的渊源,最初的相关活动都出如今法学领域。特别是1873年美国出版的专供律师查阅法律判例的检索工具“shepards citations,对后来引文分析工具的研制产生了直接而重要的影响。1927年,美国的gross夫妇对化学专业论文的参考文献进展统计分析,得出了化学教育方面的表,成为文献工作中的第一次引文分析理论。1961年,e,garfield经过多年考虑和苦心钻研,开场编制并出版“science citation index(简称sci),为文献引文分析研究活动的广泛开展提供了强有力的工具保障和数据来源。随后,social science citation index(简称ssci)(1973年)、artshumanities citation index(简称ahci)(1978年)、journal citation reports(简称jcr)(1975年)、essential science indicators(简称esi)(2001年)等系列工具的不断问世,更极大地促进了引文分析研究活动的大规模开展。lOCAlHOSt 作为传统文献计量学和科学计量学中一种独具特色的研究方法,自20世纪60年代以后,引文分析方法逐渐开展成熟,并形成比拟完备的研究体系,在指标设置、工具开发和应用理论等方面也都获得了丰硕成果。1997年,丹麦学者t.c.almind和p.ingwersen首次提出“网络信息计量学(webometfics)这一概念。随后各种面向网络信息的计量分析研究活动迅速展开,引文分析的思想和方法在新兴的网络信息计量学领域获得了进一步的开展,并获得了一系列新的理论和应用进展。本文尝试从3个不同方面对引文分析方法的网络化拓展及应用进展分析和阐述。 2、新研究领域的开拓网络链接分析 网络链接不仅是互联网的根本构成要素,也是其最显著的特征。由于网络链接关系普遍存在于网站与网站、网站与网页、网页与网页等之间,它们与传统学术文献之间的引用关系具有一种天然的相似性,于是,研究人员便从这种天然的相似性出发,将引文分析方法广泛应用在网络信息计量研究中,并由此创始、形成了网络信息计量学的一个特色研究领域网络链接分析(web link analysis)。 10年来的研究理论证明,在成功借鉴引文分析方法的一系列根本思想、概念、指标等根底上,网络链接分析已成为促进网络信息计量学不断深化开展的重要动力。目前,国内外大量的网络链接分析研究活动,都带有鲜明的“引文分析烙印。 首先从计量指标的设计和使用上来看。早在1996年,美国图书馆员g.mckieman就根据引文分析中“citation概念的含义,提出使用“sition一词来描绘网站(site)之间互相链接的行为,即sitation=citedsites。此后,“sitation一词逐渐在研究同行中得到使用。1998年,p.ingwemen受引文分析中“影响因子概念的启发,提出了“网络影响因子(web impactfactor)的概念,用它来分析一定时期内某特定网站或网页的平均链接强度,并以此来评价网站在网络中的影响力。随后,以“文献耦合、“共引、“自引等引文分析的重要概念为根底,“web coupling、“co-sitation、“co-link、“co-authorship、“co-usage、“self-linking、“self-linked等网络计量概念和指标也陆续被提出。 其次从网络链接分析领域开展的主要研究工作上观察,“引文分析的烙印也是明晰可见。目前,网络链接分析的研究进展主要集中在以下几方面。:网络链接分析与引文分析的理论比拟;网络链接目的、类型及其特殊性分析;学术性网站与电子的网络影响因子研究;核心网站的测定;网络链接分析的工具开发;基于网络计量的学术性机构科研才能评价;搜索引擎检索质量的改良等。从中不难看出,除搜索引擎议题外,其他广受关注的网络链接研究选题与传统的引文分析研究呈现出了较大的相似性。 应该说,传统的引文分析思想为网络环境下链接分析研究工作的开展奠定了必要的学术根底,并发挥了重要的影响力。尤其是把引文聚类分析等方法应用到网站或网页的链接分析中,以此观察web网页与网站内容之间的关系,对讨论、解决网络空间(cyber-space)的知识构造以及识别相关站点群落等都具有很大的价值。不过,从目前的研究现状来看,由于传统引文分析思想的局限性及网络链接自身的特殊性和复杂性,网络链接分析的深化研究还面临着很多难题。例如,对搜索引擎的过分依赖,缺乏适用的专门工具;由于(动态)网页开发语言不断增多,链接信息的解析与数据获取越来越复杂;指标设计和研究方法不够完善,无法完全满足网络信息计量和链接分析的需要;研究思路不够开阔,选题过分局限于教育、科研等学术性领域,难以应对当前网络开展对社会的全方位影响和浸透场面。 3、基于网 【1】【2】【3】页链接分析的搜索排序算法 假如把网络链接分析看作是引文分析思想在网络环境下的一种理论创新和开展,那么,已在搜索引擎中得到广泛使用的各种基于网页链接分析的搜索排序算法的研制,那么可以看作是引文分析方法的一种新型网络应用。 由于网络搜索技术的局限性,搜索结果排序算法一直是各类搜索引擎关注的核心问题。受传统引文分析研究思想的影响和启发,目前在搜索结果排序方面已产生了一系列基于网页链接分析的有效而成功的算法,其中尤以搜索引擎google1998年开发的pagerank算法最具影响力。 传统的搜索结果排序算法主要建立在网页内容与用户搜索恳求相关性判断的根底上,这种方法深受网页关键词作弊的危害。作为一种新型的排序算法,pagerank的研制直承受到了传统文献计量学引文分析研究思想的影响和启发,两者具有明显的相似之处。 引文分析研究的根本前提假设之一是:一篇文献的学术程度、(或质量)可由它被其他文献引用的次数来评定,被引用的次数越多,那么它的学术程度(或质量)就越高。于是,pagerank算法将这种思想推广、应用到了网页链接分析中。pagerank的根本算法思想可以概括为以下三点:假如一个页面被屡次引用(或链接),那么这个页面很可能是重要的;假如一个页面尽管没有被屡次引用,但却被一个重要的页面引用,那么这个页面很可能是重要的;一个页面的重要性被均分,并传递到它所引用(或链接)的页面。据此,对网络中每个web页面的链接状况进展全面分析并赋予它们不同的pagerank值(即重要性值),便可以应用于网页搜索的结果排序。 由于这种排序思想主要建立在网页链接分析的根底上,不仅独立于网页的语言和内容,而且不需要人工干预就能自动发现web上的重要资源,因此提供了一种衡量网页质量的有效方法。 pagerank算法的研制和应用不仅为coogle赢得了宏大的成功,而且迅速催生了一系列类似的排序算法,例如用于博客搜索结果的peoplerank算法、在网络自由分类法使用过程中的userrank算法、tagrank算法和folkrank算法等。其中,peoplerank算法主要基于博客用户之间的联络(详细联络方式包括好友链接或朋友列表、博文阅读、回复与评论等)来自动发现重要的博客用户,并依此作为博客搜索结果排序的一个重要因素;userrank算法的提出,主要用在基于自由分类法的检索结果显示时,要求按照提出被认可标签的数量多少对用户进展排序;而tagrank算法那么是基于userrank的标签排序;至于folkrank算法的排序机制,那么又整合了userrank和tagrank,认为由重要用户标注的重要标签下的资源是重要的(且用户和标签拥有同等地位),并以此作为自由分类法检索结果的排序根据。所有这些衍生的排序算法,其根本思想(或出发点)都与pagerank算法是一致的,只不过应用场合不同,链接分析的对象也由网页换成了博客用户、标签用户、标签等。 4、网络引文索引工具的研制与使用 随着学术研究、信息交流与传播等活动的日益网络化,传统的引文索引工具已无法适应e-science时代引文分析的研究需求。为此,各种网络化引文索引工具的编制逐渐被提到议事日程,并在当前的引文分析研究工作中逐步获得应用。 1998年,第一个网络引文索引citeseer开场研制,并于1999年正式投入使用。2022年,citeseer更名为citeseer.ist。作为一个主要面向计算机和信息科学领域学术资源的网络引文索引与检索工具,citeseer主要基于自动引文索引(autonomous citation indefing,简称aci)技术编制而成。其主要编制步骤是:使用多个搜索引擎,基于关键词对网络中的学术性文献资源(主要是postscript和pdf 2种格式的学术论文)进展自动搜索和下载,并通过检查是否存在参考文献或书目来确认其是否为学术性文献;如是学术性文献,那么对其进展文本转换和识别,建立全文索引。从文献中自动识别、抽取引文信息,包括引文环境(即上下文)、引文子字段等,特别是对以不同格式标注的一样引文进展归类处理。采用多种文献相似性测度方法,对相关文献和相似文献进展自动识别。在运用aci先进技术的过程中,citeseer的编制还充分借鉴、结合了传统引文分析研究中对文献之间引用和被引用关系的提醒方法,因此在为网络用户提供免费访问和检索使用时,citeseer不仅可以返回一个与检索恳求相匹配的结果文献列表,而且对列表文献中包含的引证与被引证关系建立了全面的关联链接,以方便用户对检索结果以及文献引用与被引用数据的查看和跟踪。 针对网络学术论文的特点,citeseer主要提供以下3项特色的文献引文效劳功能:引文上下文(context)信息显示,把文献中引文出现位置前后的假设干词组或句子以粗体字标注出来,使用户不需阅读原文就能直接获知引文被引用的上下文环境。相关文献提醒,详细包括基于语句分析的相似文献、基于文本分析的相似文献、动态相关文献书目(active bibliogra.phy)和基于共引关系的相关文献(related documentsfrom co-citation)等不同方式。引文图,以图形方式直观地显示文献被引用的时间分布状况。 目前,citeseer可在线查询和获取的学术资源数量已接近100万。与sci、ssci等传统引文索引数据库相比,citeseer在全文可获得性、全面性、及时性、费用等方面都具有明显优势。例如,一旦有学术性文献在网络上出现,就能自动进展搜索和索引,并把包括预印本、技术报告、会议录等不同类型学术文献的引证关系考虑进来;提供免费的网上效劳,极大地发挥了引文索引的文献检索和评价功能;一些附加的网络效劳(如论文修正(correet)链接功能等)可以链接到 【1】【2】【3】讨论区,及时查看相关的评论、综述以及新的研究成果等。 除了秉承e,garfield博士引文分析思想编制的citeseer引文索引工具外,2022年由著名搜索引擎coode推出的学术搜索效劳coogle scholar,也成功引入了引文分析方法。其中,它提供的一大功能亮点引文链接效劳,就主要建立在引文分析根底上:通过自动分析和摘录学术文献的引文信息,并将它们作为搜索结果的一局部单独组织;当用户查看搜索结果中的相关文献记录时,点击“cited by功能即可搜索到其所有的引用文献信息,而且这些引用文献信息不仅来自各种数据库的存储内容,还包含了在图书和各类非联机出版物中的引用文献信息。 与传统的引文索引数据库系统(sci、ssci等)相比,coogle scholar在多个方面拥有创新性功能。首先,在收录范围与文献类型方面,它不仅收录普通网页中的学术论文,还广泛包括来自学术出版商、专业学会网站、预印本库、机构库等提供的同行评议论文、学位论文、图书、预印本、文摘、技术报告等多种文献,内容覆盖医学、物理学、经济学、计算机科学等多个学术领域。此外,open archives initiative中oaister所包含的上百万篇论文也可通过google,sic scholar进展查询,并可提供crossref链接效劳。其次,在学术文献引用与被引用关系的提醒方面,google scholar不仅能反映学术文献之间的互相引用关系,还能广泛反映学术、书籍、预印本库、机构库、各类非联机出版物等多种类型文献之间的互相引用关系,使得文献互相引用关系网络覆盖的范围大大拓展。 通过上述对citeseer和google scholar的分析不难看出,在当前的网络化数字科研时代,传统的引文分析研究工作急需打破和拓展,相应地,传统的引文分析工具也亟待完善。根据国内学者以web of science(sci、ssci和ahci的集成系统)和google scholar分别作为引文分析工具进展的实证研究和结果对照,将来的引文分析研究再单纯依赖传统的web of science等工具,将越来越难以获得全面、真实的引文数据,并会导致引文分析结果的严重偏向。特别是,随着网络环境下学术交流渠道的日益多样化和开放访问运动的蓬勃开展,这样的偏向将会越来越大。因此,可以说,当前以citeseer和google scholar为代表的新型引文分析工具的出现,一方面可看作是传统引文分析思想的网络化理论与应用;另一方面它们也为将来引文分析研究工作的开展提供了新的思路和工具根底。不过,在目前的状态下,不管是citeseer还是google scholar,要完全取代web of science,或者作为一种权威性的引文分析工具来使用,都还为时尚早。它们面临的困难或障碍主要有:收录范围不明确;覆盖的学术资源领域受限;回溯年代短;各学科开放访问运动开展的不平衡;aci技术与网络搜索技术的缺陷等。所有这些困难和问题,都需假以时日不断克制或予以解决。 5、结语 本文主要从三个方面分析讨论传统引文分析方法的网络化开展和应用。这些开展和应用成果不仅充分表达了引文分析思想的研究价值,也为将来引文分析工作的深化开展提供了新的探究方向和工具根底。作为一种独具特色的研究方法,期望网络环境下的引文分析可以日益完善,并不断获得理论上的创新和应用中的打破。【1】【2】【3】
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!