信息资源的描述(元数据)

上传人:仙*** 文档编号:243869426 上传时间:2024-10-01 格式:PPT 页数:31 大小:414.50KB
返回 下载 相关 举报
信息资源的描述(元数据)_第1页
第1页 / 共31页
信息资源的描述(元数据)_第2页
第2页 / 共31页
信息资源的描述(元数据)_第3页
第3页 / 共31页
点击查看更多>>
资源描述
,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,信息资源的描述,本节学习目标,信息资源组织的语言工具,SGML,HTML,XML,信息资源组织的元数据,DC,MARC,信息资源组织的数据库方法,一、信息资源组织的语言工具,信息组织,的基本目标是对信息外在特征和内容特征加以描述,实现信息有序化。,需要从内容、结构和显示三方面着手,。,针对上述三个要求,提出,标记语言,的方法。其,基本思想是给文献需要加注部分置于不同类型和名称的标签,,这些标签不仅能够标注文献的内容和结构也能标注其表现形式。,本节介绍三种标记语言:,SGML,、,HTML,、,XML,。,1.1 SGML,SGML(standard,generalized markup language),标准通用标记语言,,,是所有电子文档标记语言的起源,。,SGML,认为一个典型的文档由结构、内容和样式三部分组成。文献类型定义,DTD,为组织文档的元素提供一个框架。,SGML,的缺点:,SGML,庞大复杂的选项虽然使其有较高的灵活性,但是导致应用程序开发困难;,SGML,文件不易在,Web,上传播,全面实现浏览器非常困难;厂商不支持。,1.2 HTML,HTML(hyper,text markup language),超文本标记语言,,简单易用,提供一种文本结构和格式,使其在浏览器上呈现给访问的用户,它是,Web,上的通用语言。,HTML,的主要功能为:,发布信息:出版联网文档,向全世界发布信息;,获取信息:通过超链接检索和获取信息;,交流信息:设计交易单,(form),,实现交互,方便及,时交流信息。,HTML,的基本结构,/,文件开始标记,/,文件的头部开始标记,HTML /,头部,/,头部结束标记,/,文件的主体开始标记,Hello,,,HTML,!,/,主体结束标记,/,文件结束标记,实例,1.3 XML,XML(Extensible,Markup Language),即可扩展标记语言,,,XML,是一种简单的数据存储语言,使用一系列简单的标记描述数据,而这些标记可以用方便的方式建立,极其简单易于掌握和使用。,XML,与,HTML,的设计区别是:,XML,是用来存储数据的,重在数据本身,。而,HTML,是用来定义数据的,重在数据的显示模式,。,XML,的特点:灵活性与简洁性;开放性与可扩展性、实用性和高效性。,XML,主要应用:多媒体信息处理、科学研究、电子商务、数字图书馆等。,XML,和,HTML,的不同可以归纳为,3,点:,XML,扩展性比,HTML,强,XML,可以创建个性化的标记语言,可以提供更多的数据操作,,HTML,只能局限于按一定的格式在终端显示出来。,XML,的语法比,HTML,严格,由于,XML,的扩展性强,它需要稳定的基础规则来支持扩展。它的严格规则为:,1,、起始和结束的标签相匹配,2,、嵌套标签不能相互嵌套,3,、区分大小写,XML,与,HTML,互补,在现阶段,,XML,可以转化成相应的,HTML,,来适应当前浏览器的需求。,XML,文档结构,Hi,XML,!,version XML,文档所使用的版本,encoding,指明,XML,文档编码使用的字符集,standalone,指明,XML,文档有没有使用外部标记声明,,yes,表明是一个独立文档,,no,表明在其内部使用了其他文档或资源。,实例,二、信息资源描述,2.1,信息资源描述,信息资源描述,(Information description),是根据信息资源组织和检索的需要,依据一定的规则和标准,对信息资源的主题内容、形式特征、物质形态等进行分析、选择、记录的活动。,信息资源描述的结果是一条有关该信息资源的书目数据记录,,由若干信息描述项组成。信息记录也称为元数据,(Metadata),。,信息资源描述实质上是一个按照一定规则分析和选择数据的过程。,2.2,元数据,元数据,(Metadata),是描述数据的数据,(data that describes data),或关于数据的数据,(data about data),。它是促进数据处理和标引数据的数据,也是人们组织和发现信息资源的数据。,图书馆书目卡片,搜索引擎,图书题名,著者,出版者,分类号,主题词,ISBN,号,流水号,馆藏号等,资源类型,Web,页面标题,作者,主题,关键词,内容摘要等,元数据,(Metadata),的主要功能如下:,描述,Internet,数据内容和本质特征,存储相应的检索路径,使,Internet,数据便于发现,提高信息资源的查全率和查准率,提供数据之间的关系,指出相关数据的地址和存取方法,对,Internet,资源进行分类,有效选择用户所感兴趣的信息。,对某些缺少文本的数据,(,声音、图像等,),进行文字说明,以便对描述对象有一个完整的描述。,示例:,National Digital Library,实例,2.3,信息资源描述的规范,信息资源的描述需要根据检索系统的要求,确定描述的成分和特征,按一定的次序和形式加以记录。,为了一致、有效地对信息资源进行描述,便于不同机构和信息系统之间信息交换,信息描述需依据一定的描述规范进行操作。,传统文献信息资源,网络信息资源,国际标准书目著录,(ISBD),文献著录总则,(GB 3792.1-83),文后参考文献著录规则,(GB 7714-2005),都柏林核心集,(Dublin Core,,,DC),政府信息定位服务,(government information locator,service,GILS,),参考文献,1,林豪慧,孙丽芳,.,信息资源检索与利用,M.,电子工业出版社,.,2008,:,9,2,王晨,.,应用型本科、高职院校信息检索课现状调查及教学模,式改革,J.,教育与职业,.2008(5),:,118-120,2.4,信息描述项目及符号,由于揭示对象不同,因而信息描述记录单元,元数据的格式、项目和符号等也有所不同。,产品,/,商品,产品,/,商品名称、型号、规格、用途、性能、包装、价格、生产厂家、联系地址等,企业,法人代表姓名、企业名称、成立日期、职工总数、固定资产额、厂址、通信联络途径、主要产品或经营范围、企业所获荣誉及业绩、近期经营状况等,科研成果,科研成果名称、主持或完成者、立项时间、项目来源、完成时间、成果形式、所达到的水平、社会反响等,三、信息资源描述的元数据,3.1,都柏林核心元数据,(DC),Dublin,Core(DC,),是国际组织,Dublin Core Metadata Initiative,拟定的用于标识电子资源的一种简要目录模式。,DC,是由,15,个,Metadata,系统,其主要目的是为了揭示和组织网络上的信息资源,(,包括文本及图像等,),。,DC,元数据编辑器,http:/www.ukoln.ac.uk/metadata/dcdot/,DC,元数据元素集参考描述如下表所示:,元素,名字,标识,定义,Title,资源名,Title,赋予资源名称,Creator,创建者,Creator,创建资源内容的主要责任者,Subject,主题和关键词,Subject,资源内容的主题描述,Description,说明,Description,对资源内容的说明,Publisher,出版者,Publisher,使资源成为可以取得和利用状态的责任者,Contributor,其它责任者,Contributor,对资源内容创建做出贡献的其他责任者,Data,日期,Data,与资源本身生命周期中的一个事件相关的日期,元素,名字,标识,定义,Type,类型,Type,资源内容的特征和类型,Format,形式,Format,资源的物理或数字化的表现形式,Identifier,资源标识符,Identifier,给定的文本环境中对资源的参照引用,Source,来源,Source,对一个资源的参照,而当前资源是源自这一参照资源,Language,语种,Language,描述资源知识内容的语种,Relation,关联,Relation,对相关资源的参照,Coverage,覆盖范围,Coverage,资源内容所涉及的外延与覆盖范围,Rights,权限管理,Rights,有关资源本身所有的或被赋予的权限信息,从,DC,的,15,项元数据可以看出:,15,个元素大致分为三类:,对资源内容的描述:题名、主题、描述、来源、语,种、关联和覆盖范围;,对外部属性的描述:日期、类型、格式和标识;,对知识产权的描述:创建者、出版者、责任者和权,限管理。,比较全面地概括了电子资源的主要特征,涵盖了资源的重要检索点,(1,、,2,、,3),、,辅助检索点或关联检索点,(5,、,6,、,10,、,11,、,13),、,有价值的说明性信息,(4,、,7,、,8,、,9,、,12,、,14,、,15),。,简介、规范,不仅使用于电子文献目录,也适用于各类电子化的公务文档目录及产品、商品、藏品目录等,有很好的使用性。,DC,用,RDF/XML,对图片的描述,http:/ source description framework),的缩写,。,资源是所有,Web,上被命名的、具有,URI(unified,resource identifier,统一资源描述符,),的对象,(,网页、,XML,文档中的元素等,),。描述是对资源属性的陈述,表明资源的特性。框架是与被描述资源无关的通用模型。,RDF,以,XML(extensible,markup language),语言作为其宿主语法,来推动,Internet,数据的开发。,RDF,定义了一种通用的框架,即资源,属性,值的三元组,来描述,Web,上的各种资源。,示例:,第一行:指定,rdf,命名空间的具体地址,第二行:定义,DC,命名空间的来源的网址,第三行:指定都柏林核心教育元数据的命名空间地址,为了方便管理交换信息资源,用元数据描述,Web,上的数据,由于不同元数据之间具有不同的结构,为了实现元数据之间的可互操作,采用,RDF,来处理不同类型的元数据集合,并使计算机可以理解。,RDF,的建立基于,XML,,两者结合解决了信息建立与信息描述的开放机制,有利于资源共享,尤其为语义网提供技术支持。,3.3 MARC,MARC(machine,readable catalogue),是机器可读目录,的简称,是一种经过人们编辑、组织的数字化书目记录的集合。,MARC,将传统的卡片目录的内容以标准数据形式记录在光磁载体上供用户利用计算机等设备查阅,它,主要记载文献的书目信息和存储地址,记录格式统一,。具有存储载体空间小、容量大、复制速度快、易于收藏和携带,并可产生出多类型的卡片式或书本式目录,便于实现对资源的有效管理,在图书文献机构中具有相当重要的地位。,MARC,书目记录的总体结构定义为记录头标区、目次区、数据区和记录分隔符四部分。,CNMARC,格式,CNMARC,是中国机读目录的缩写,用于中国国家书目机构同其他国家书目机构及中国国内图书馆与情报部门之间,以标准的计算机可读形式交换书目信息。,0XX,标识块,7XX,知识责任块,1XX,编码信息块,8XX,国际使用块,2XX,著录信息块,9XX,国内使用块,3XX,附注块,4XX,款目连接块,5XX,相关题名块,6XX,主题分析块,如图示,DC,与,MARC,的比较,著录目的不同,DC,提供给搜索引擎,,MARC,为用户检索馆藏所用,著录对象不同,DC,数字化信息资源,,MARC,描述实体的书目数据,著录格式不同,DC,由,15,个基本元素组成,有可选择性,只要确保最低限度的,7,个元素,就符合著录标准;,MARC,遵守标准记录结构,包括头标区、地址目次区、数据字段区,著录主体不同,DC,是一种结构化的元数据,支持字段查询,创建者和信息提供者无需培训就能进行资源描述;,MARC,需要专门的计算机软件系统,而且要遵循一系列规定,编制一条记
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!