资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,信息资源的描述,信息资源的描述,1,本节学习目标,信息资源组织的语言工具,SGML,HTML,XML,信息资源组织的元数据,DC,MARC,信息资源组织的数据库方法,本节学习目标信息资源组织的语言工具,2,一、信息资源组织的语言工具,信息组织,的基本目标是对信息外在特征和内容特征加以描述,实现信息有序化。,需要从内容、结构和显示三方面着手,。,针对上述三个要求,提出,标记语言,的方法。其,基本思想是给文献需要加注部分置于不同类型和名称的标签,,这些标签不仅能够标注文献的内容和结构也能标注其表现形式。,本节介绍三种标记语言:SGML、HTML、XML。,一、信息资源组织的语言工具 信息组织的,3,1.1 SGML,SGML(standard generalized markup language),标准通用标记语言,,,是所有电子文档标记语言的起源,。,SGML认为一个典型的文档由结构、内容和样式三部分组成。文献类型定义DTD为组织文档的元素提供一个框架。,SGML的缺点:SGML庞大复杂的选项虽然使其有较高的灵活性,但是导致应用程序开发困难;SGML文件不易在Web上传播,全面实现浏览器非常困难;厂商不支持。,1.1 SGML,4,1.2 HTML,HTML(hyper text markup language),超文本标记语言,,简单易用,提供一种文本结构和格式,使其在浏览器上呈现给访问的用户,它是Web上的通用语言。,HTML的主要功能为:,发布信息:出版联网文档,向全世界发布信息;,获取信息:通过超链接检索和获取信息;,交流信息:设计交易单(form),实现交互,方便及,时交流信息。,1.2 HTML,5,信息资源的描述元数据课件,6,HTML的基本结构,/文件开始标记,/文件的头部开始标记,HTML /头部,/头部结束标记,/文件的主体开始标记,Hello,HTML!,/主体结束标记,/文件结束标记,实例,HTML的基本结构实例,7,1.3 XML,XML(Extensible Markup Language)即可扩展标记语言,,XML是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,极其简单易于掌握和使用。,XML与HTML的设计区别是:,XML是用来存储数据的,重在数据本身,。而,HTML是用来定义数据的,重在数据的显示模式,。,XML的特点:灵活性与简洁性;开放性与可扩展性、实用性和高效性。,XML主要应用:多媒体信息处理、科学研究、电子商务、数字图书馆等。,1.3 XML,8,XML和HTML的不同可以归纳为3点:,XML扩展性比HTML强,XML可以创建个性化的标记语言,可以提供更多的数据操作,HTML只能局限于按一定的格式在终端显示出来。,XML的语法比HTML严格,由于XML的扩展性强,它需要稳定的基础规则来支持扩展。它的严格规则为:,1、起始和结束的标签相匹配,2、嵌套标签不能相互嵌套,3、区分大小写,XML与HTML互补,在现阶段,XML可以转化成相应的HTML,来适应当前浏览器的需求。,XML和HTML的不同可以归纳为3点:,9,XML文档结构,Hi,XML!,version XML文档所使用的版本,encoding 指明XML文档编码使用的字符集,standalone 指明XML文档有没有使用外部标记声明,yes表明是一个独立文档,no表明在其内部使用了其他文档或资源。,实例,XML文档结构实例,10,二、信息资源描述,2.1 信息资源描述,信息资源描述(Information description)是根据信息资源组织和检索的需要,依据一定的规则和标准,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。,信息资源描述的结果是一条有关该信息资源的书目数据记录,,由若干信息描述项组成。信息记录也称为元数据(Metadata)。,信息资源描述实质上是一个按照一定规则分析和选择数据的过程。,二、信息资源描述2.1 信息资源描述,11,2.2 元数据,元数据(Metadata)是描述数据的数据(data that describes data)或关于数据的数据(data about data)。它是促进数据处理和标引数据的数据,也是人们组织和发现信息资源的数据。,图书馆书目卡片,搜索引擎,图书题名,著者,出版者,分类号,主题词,ISBN号,流水号,馆藏号等,资源类型,Web页面标题,作者,主题,关键词,内容摘要等,2.2 元数据图书馆书目卡片搜索引擎图书题名资源类型,12,元数据(Metadata)的主要功能如下:,描述Internet数据内容和本质特征,存储相应的检索路径,使Internet数据便于发现,提高信息资源的查全率和查准率,提供数据之间的关系,指出相关数据的地址和存取方法,对Internet资源进行分类,有效选择用户所感兴趣的信息。,对某些缺少文本的数据(声音、图像等)进行文字说明,以便对描述对象有一个完整的描述。,元数据(Metadata)的主要功能如下:,13,示例:,National Digital Library,实例,示例:实例,14,2.3 信息资源描述的规范,信息资源的描述需要根据检索系统的要求,确定描述的成分和特征,按一定的次序和形式加以记录。,为了一致、有效地对信息资源进行描述,便于不同机构和信息系统之间信息交换,信息描述需依据一定的描述规范进行操作。,传统文献信息资源,网络信息资源,国际标准书目著录(ISBD),文献著录总则(GB 3792.1-83),文后参考文献著录规则(GB 7714-2005),都柏林核心集(Dublin Core,DC),政府信息定位服务(government information locator service,GILS),参考文献,1林豪慧,孙丽芳.信息资源检索与利用M.电子工业出版社.,2008:9,2王晨.应用型本科、高职院校信息检索课现状调查及教学模,式改革J.教育与职业.2008(5):118-120,2.3 信息资源描述的规范传统文献信息资源网络信息资源国际标,15,2.4 信息描述项目及符号,由于揭示对象不同,因而信息描述记录单元元数据的格式、项目和符号等也有所不同。,产品/商品,产品/商品名称、型号、规格、用途、性能、包装、价格、生产厂家、联系地址等,企业,法人代表姓名、企业名称、成立日期、职工总数、固定资产额、厂址、通信联络途径、主要产品或经营范围、企业所获荣誉及业绩、近期经营状况等,科研成果,科研成果名称、主持或完成者、立项时间、项目来源、完成时间、成果形式、所达到的水平、社会反响等,2.4 信息描述项目及符号产品/商品产品/商品名称、型号、规,16,三、信息资源描述的元数据,3.1 都柏林核心元数据(DC),Dublin Core(DC)是国际组织Dublin Core Metadata Initiative拟定的用于标识电子资源的一种简要目录模式。,DC是由15个Metadata系统,其主要目的是为了揭示和组织网络上的信息资源(包括文本及图像等)。,DC元数据编辑器,http:/www.ukoln.ac.uk/metadata/dcdot/,DC元数据元素集参考描述如下表所示:,三、信息资源描述的元数据3.1 都柏林核心元数据(DC),17,元素,名字,标识,定义,Title,资源名,Title,赋予资源名称,Creator,创建者,Creator,创建资源内容的主要责任者,Subject,主题和关键词,Subject,资源内容的主题描述,Description,说明,Description,对资源内容的说明,Publisher,出版者,Publisher,使资源成为可以取得和利用状态的责任者,Contributor,其它责任者,Contributor,对资源内容创建做出贡献的其他责任者,Data,日期,Data,与资源本身生命周期中的一个事件相关的日期,元素名字标识定义Title资源名Title赋予资源名称Cre,18,元素,名字,标识,定义,Type,类型,Type,资源内容的特征和类型,Format,形式,Format,资源的物理或数字化的表现形式,Identifier,资源标识符,Identifier,给定的文本环境中对资源的参照引用,Source,来源,Source,对一个资源的参照,而当前资源是源自这一参照资源,Language,语种,Language,描述资源知识内容的语种,Relation,关联,Relation,对相关资源的参照,Coverage,覆盖范围,Coverage,资源内容所涉及的外延与覆盖范围,Rights,权限管理,Rights,有关资源本身所有的或被赋予的权限信息,元素名字标识定义Type类型Type资源内容的特征和类型Fo,19,从DC的15项元数据可以看出:,15个元素大致分为三类:,对资源内容的描述:题名、主题、描述、来源、语,种、关联和覆盖范围;,对外部属性的描述:日期、类型、格式和标识;,对知识产权的描述:创建者、出版者、责任者和权,限管理。,比较全面地概括了电子资源的主要特征,涵盖了资源的重要检索点,(1、2、3)、,辅助检索点或关联检索点,(5、6、10、11、13)、,有价值的说明性信息,(4、7、8、9、12、14、15)。,简介、规范,不仅使用于电子文献目录,也适用于各类电子化的公务文档目录及产品、商品、藏品目录等,有很好的使用性。,从DC的15项元数据可以看出:,20,DC用RDF/XML对图片的描述,http:/ 资源描述框架(RDF),RDF是资源描述框架(the source description framework)的缩写,。,资源是所有Web上被命名的、具有URI(unified resource identifier,统一资源描述符)的对象(网页、XML文档中的元素等)。描述是对资源属性的陈述,表明资源的特性。框架是与被描述资源无关的通用模型。,RDF以XML(extensible markup language)语言作为其宿主语法,来推动Internet数据的开发。,RDF定义了一种通用的框架,即资源属性值的三元组,来描述Web上的各种资源。,3.2 资源描述框架(RDF),22,示例:,第一行:指定rdf命名空间的具体地址,第二行:定义DC命名空间的来源的网址,第三行:指定都柏林核心教育元数据的命名空间地址,为了方便管理交换信息资源,用元数据描述Web上的数据,由于不同元数据之间具有不同的结构,为了实现元数据之间的可互操作,采用RDF来处理不同类型的元数据集合,并使计算机可以理解。RDF的建立基于XML,两者结合解决了信息建立与信息描述的开放机制,有利于资源共享,尤其为语义网提供技术支持。,示例:,23,3.3 MARC,MARC(machine readable catalogue)是机器可读目录,的简称,是一种经过人们编辑、组织的数字化书目记录的集合。,MARC,将传统的卡片目录的内容以标准数据形式记录在光磁载体上供用户利用计算机等设备查阅,它,主要记载文献的书目信息和存储地址,记录格式统一,。具有存储载体空间小、容量大、复制速度快、易于收藏和携带,并可产生出多类型的卡片式或书本式目录,便于实现对资源的有效管理,在图书文献机构中具有相当重要的地位。,MARC书目记录的总体结构定义为记录头标区、目次区、数据区和记录分隔符四部分。,3.3 MARC,24,CNMARC格式,CNMARC是中国机读目录的缩写,用于中国国家书目机构同其他国家书目机构及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。,0XX 标识块 7XX 知识责任块,1XX 编码信息块 8XX 国际使用块,2XX 著录信息块 9XX 国内使用块,3XX 附注块,4XX 款目连接块,5XX 相关题名块,6X
展开阅读全文