学位论文元数据元数据草案课件

上传人:txadgkn****dgknqu... 文档编号:240948410 上传时间:2024-05-19 格式:PPT 页数:32 大小:292.87KB
返回 下载 相关 举报
学位论文元数据元数据草案课件_第1页
第1页 / 共32页
学位论文元数据元数据草案课件_第2页
第2页 / 共32页
学位论文元数据元数据草案课件_第3页
第3页 / 共32页
点击查看更多>>
资源描述
基于基于OAIOAI和和METSMETS远程收集数据的远程收集数据的方法和流程方法和流程 赵阳清华大学图书馆 学位论文项目组2007.09.27 南京学位论文元数据元数据草案课件1主要内容:n“CALIS学位论文全文数据库学位论文全文数据库”服务体系架构服务体系架构n基于基于OAI和和METS数据收割模式数据收割模式n基于基于OAI和和METS数据收割实施步骤数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW2“CALIS 学位论文数据库学位论文数据库”服务体系架构服务体系架构参建馆参建馆本地系统本地系统CALIS数字图书馆门户计费中心认证中心资源调度中心CALIS-OID解析中心纸本扫描加工CALISCALIS中心中心中心中心学位论文提交与发布系统DRM阅读器读者读者DRM数字版权保护浏览器CALIS高校高校学位论文数据库学位论文数据库分中心分中心“CALIS 学位论文数据库”服务体系架构参建馆CALIS数3CALIS 学位论文参建馆本地系统涉及到三个层面:学位论文参建馆本地系统涉及到三个层面:n本馆层面n满足提交、审核、编目、标准化、回溯、发布、检索、管理、存储等需求n符合相关标准、规范n开放架构nCALIS子项目(分中心)层面n纳入“CALIS高校学位论文数据库”服务体系nCALIS中心层面n纳入“CALIS高等教育数字图书馆”服务体系CALIS 学位论文参建馆本地系统涉及到三个层面:本馆层面4学位论文参建馆本地系统结构图学位论文参建馆本地系统结构图Web检索全文检索引擎专业编目文档标准化论文回溯发布管理论文元数据库论文(PDF)对象库服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM版权保护系统(PDF)纸本扫描加工系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRC OpenURL接口对象安全访问接口CALIS-OID本地解析学位论文参建馆本地系统结构图学位论文参建馆本地系统结构图1 12 23 34 45 56 67 78 8读者读者浏览器浏览器DRM阅读器阅读器Web审核Web提交学位论文参建馆本地系统结构图Web全文专业文档论文发布论文元5参建馆本地系统与参建馆本地系统与CALISCALIS子项目中心的互操作关系子项目中心的互操作关系服务接口层安全通信层MQ服务器METS接口模块OAI收割服务器CALIS-OID访问数字对象请求中心论文元数据仓库论文(前16页)对象仓库仓储层服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权数字版权保护系统保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRC OpenURL接口对象安全访问接口CALIS-OID本地解析1 12 23 34 45 56 67 78 8参建馆参建馆参建馆参建馆CALISCALIS学位论文学位论文学位论文学位论文分中心分中心分中心分中心参建馆本地系统与CALIS子项目中心的互操作关系服务安全MQ6学位论文提交与发布系统与学位论文提交与发布系统与CALIS中心的互操作关系中心的互操作关系CALISCALIS中心中心中心中心CALIS-OID解析中心认证中心计费中心资源调度中心CALIS数字图书馆服务门户服务接口层应用层存储层学位论文提交与发布系统安全通信层DRM数字版权保护系统MQ服务器METS接口模块OAI-DP服务器认证接口计费接口CLRC OpenURL接口对象安全访问接口CALIS-OID本地解析1 12 23 34 45 56 67 78 8参建馆参建馆参建馆参建馆学位论文提交与发布系统与CALIS中心的互操作关系CALIS7本地系统升级的主要接口本地系统升级的主要接口nOAI和METS数据收割接口,实现元数据和对象数据的收集;nCALIS_OID解析接口,实现数字对象的解析和获取;n数字对象安全下载接口,实现数字对象的安全下载;nCALIS ODL接口,实现CADLIS各系统之间的统一检索;nCADLIS认证/计费接口,实现认证计费。本地系统升级的主要接口OAI和METS数据收割接口,实现元数8本地系统升级的主要接口本地系统升级的主要接口本地系统升级的主要接口9主要内容:主要内容:n“CALIS学位论文全文数据库学位论文全文数据库”服务体系架构服务体系架构n基于基于OAI和和METS数据收割模式数据收割模式n基于基于OAI和和METS数据收割实施步骤数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW10基于基于OAI和和METS数据收割模式数据收割模式n模式一:模式一:OAI-DP/METS-DP+MQ联动联动n模式二:模式二:仅采用仅采用OAI-DP基于OAI和METS数据收割模式模式一:11模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -收割方式收割方式(1)n实时自动收割实时自动收割 n元数据通过元数据通过OAI-DPOAI-DP发布。发布。OAI-DPOAI-DP所发布出来的所发布出来的OAI RecordOAI Record采用采用“CALIS OAI Record V1.0CALIS OAI Record V1.0”数据格式;数据格式;n本地系统的数字对象通过本地系统的数字对象通过METS-DP+MQMETS-DP+MQ发布。发布。METS-DPMETS-DP负责将数字负责将数字对象封装成对象封装成METSMETS数据包,然后通过数据包,然后通过MQMQ服务器发布出去,数据格式服务器发布出去,数据格式记为记为“CALIS METS Record V1.0CALIS METS Record V1.0”;n元数据和数字对象之间的关系通过元数据和数字对象之间的关系通过OAI RecordOAI Record中的中的CALIS_OBJ:objInfo CALIS_OBJ:objInfo 子元素所包含的子元素所包含的MetaIDMetaID进行关联;进行关联;n学位论文中心系统接收到学位论文中心系统接收到 OAI-DPOAI-DP或或METS-DP+MQMETS-DP+MQ请求,自动收割请求,自动收割参建馆本地系统中的数据;参建馆本地系统中的数据;模式一:OAI-DP/METS-DP+MQ联动 12模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -收割方式收割方式(2)n手动收割手动收割 n用用OAIOAI数据导出工具将数据导出工具将OAI-DPOAI-DP中的元数据导出成为包含中的元数据导出成为包含OAI OAI RecordRecord数据的数据的XMLXML文件,该文件称为文件,该文件称为OAIOAI记录文件,数据格式为记录文件,数据格式为“CALIS OAI Record V1.0CALIS OAI Record V1.0”;n用用METSMETS数据导出工具将数据导出工具将METS-DPMETS-DP中的数字对象数据导出成为包含中的数字对象数据导出成为包含METS RecordMETS Record数据的数据的XMLXML文件,该文件称为文件,该文件称为METSMETS记录文件,数据记录文件,数据格式记为格式记为“CALIS METS Record V1.0CALIS METS Record V1.0”;n本地系统管理员手工将上述两类文件通过本地系统管理员手工将上述两类文件通过FTPFTP上传至上传至CALISCALIS学位学位论文中心,由其完成数据汇总、统计工作;论文中心,由其完成数据汇总、统计工作;模式一:OAI-DP/METS-DP+MQ联动 13模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -数据格式数据格式(元数据元数据)CALIS RECORD V1.0用于维护元数据与用于维护元数据与METS一致的四项信息一致的四项信息模式一:OAI-DP/METS-DP+MQ联动 14模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -数据格式数据格式(对象数据对象数据)模式一:OAI-DP/METS-DP+MQ联动 15模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试n2006.032006.03月月-2006.07-2006.07月月n学位论文和特色库项目验收前,采用学位论文和特色库项目验收前,采用模式一模式一方式收割方式收割n学位论文学位论文本地系统在部分参建馆完成升级、本地系统在部分参建馆完成升级、数据迁移和发布工作;数据迁移和发布工作;n在厂商和参建馆配合下,在厂商和参建馆配合下,CALISCALIS技术中心和学技术中心和学位论文子项目组共同进行数据收割位论文子项目组共同进行数据收割;n参加测试的学校参加测试的学校:nTPI:TPI:中国人民大学中国人民大学,中国农业大学中国农业大学nTRS:TRS:清华大学清华大学n北大方正北大方正:北京大学北京大学n杭州麦达杭州麦达:北京大学医学院北京大学医学院模式一:OAI-DP/METS-DP+MQ联动 16模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试n收割结果收割结果实时自动收割:实时自动收割:本地系统和数据都存在问题本地系统和数据都存在问题中心系统对本地系统的自动收割难以有效进行中心系统对本地系统的自动收割难以有效进行手工收割手工收割:n本地系统能顺利提交数据本地系统能顺利提交数据n但所上传的数据仍存在问题但所上传的数据仍存在问题n本地系统存在的主要问题本地系统存在的主要问题系统系统bugs数据问题数据问题模式一:OAI-DP/METS-DP+MQ联动 17模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试(系统系统bugs)nOAI-DP本身的本身的bugsn比较容易发现。但本地管理员仍缺乏有效易用的工具比较容易发现。但本地管理员仍缺乏有效易用的工具;nMETS-DP本身的本身的bug问题以及问题以及MQ配置问题配置问题n难以由本地管理员自行发现难以由本地管理员自行发现;nOAI-DP+METS-DP+MQ联动问题联动问题n厂商技术人员和本地管理员都难以测试和发现厂商技术人员和本地管理员都难以测试和发现;n其他问题其他问题著录和导入工具不完备著录和导入工具不完备;本地本地DP所在机器软硬件系统的不稳定所在机器软硬件系统的不稳定;DP本身的稳定性和可靠性问题本身的稳定性和可靠性问题;METS包传输丢包问题包传输丢包问题;模式一:OAI-DP/METS-DP+MQ联动 18模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试(数据问题数据问题)n数据不符合数据不符合scheman导出的导出的OAI和和METS包文件,其数据不符合包文件,其数据不符合scheman数据必备性问题数据必备性问题n很多数据项缺乏,不符合子项目组的数据规范性要求很多数据项缺乏,不符合子项目组的数据规范性要求nCALIS元数据元数据schema本身不支持必备性机制,而厂商本地系统也本身不支持必备性机制,而厂商本地系统也未能提供相应的必备性检测功能未能提供相应的必备性检测功能n数据内容不一致问题(尤其是数据内容不一致问题(尤其是OAI记录和记录和METS记录之间的不一致)记录之间的不一致)OAI记录中的记录中的about内容不合逻辑内容不合逻辑如:有时间戳或类型而没有如:有时间戳或类型而没有calis-oid;有;有calis-oid而没有时间而没有时间戳。戳。元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时元数据时间戳应该不小于数字对象时间戳;更新数字对象时应同时更新元数据时间戳,才能保证联动收割时对这条记录重收。更新元数据时间戳,才能保证联动收割时对这条记录重收。METS包中的时间戳应与包中的时间戳应与OAI-about中的时间戳一致等。中的时间戳一致等。数据的语义问题数据的语义问题张冠李戴张冠李戴模式一:OAI-DP/METS-DP+MQ联动 19模式一:模式一:OAI-DP/METS-DP+MQ联动联动 -实际收割测试实际收割测试(问题原因问题原因)n本地系统的著录工具问题本地系统的著录工具问题n单条入库的元数据和数字对象在必备性、一致性等方面存在问单条入库的元数据和数字对象在必备性、一致性等方面存在问题。题。n本地系统的批量导入工具问题本地系统的批量导入工具问题n批量入库的元数据和数字对象在必备性、一致性等方面存在问批量入库的元数据和数字对象在必备性、一致性等方面存在问题;题;n批量导入的数据的时间戳都为同一个时间点,这给批量导入的数据的时间戳都为同一个时间点,这给OAI-DP带带来很大压力。来很大压力。n统计结果的一致性问题统计结果的一致性问题n本地本地OAI-DP、METS-DP实际发布的记录数与本地系统的数实际发布的记录数与本地系统的数据库查询模块提供的记录数不一致,给管理员造成困惑。据库查询模块提供的记录数不一致,给管理员造成困惑。由内部检索机制不一致因素所造成。由内部检索机制不一致因素所造成。n 本地系统缺乏有效的本地系统缺乏有效的“数据质量检测工具数据质量检测工具/模块模块”n在在OAI-DP和和METS-DP发布之前,系统本身对数据没有进行发布之前,系统本身对数据没有进行这种质量检测(包括必备性、一致性等)。这种质量检测(包括必备性、一致性等)。n管理员无法自行发现上面的管理员无法自行发现上面的“数据问题数据问题”。模式一:OAI-DP/METS-DP+MQ联动 20模式二:仅采用模式二:仅采用OAI-DP收割收割 n为解决模式一收割中的系统和数据问题为解决模式一收割中的系统和数据问题,CALIS管理中心于管理中心于2006年年10月招集厂商开会月招集厂商开会,提出模式二提出模式二;n厂商依据规范要求厂商依据规范要求,改进和完善系统改进和完善系统;n模式二模式二:收割方式收割方式n实时自动收割实时自动收割n手动收割手动收割模式二:仅采用OAI-DP收割 21模式二:仅采用模式二:仅采用OAI-DP收割收割 -收割方式收割方式(1)n实时自动收割实时自动收割 元数据和数字对象元数据和数字对象仅仅通过通过OAI-DPOAI-DP发布。发布出来的发布。发布出来的OAI RecordOAI Record采用采用“CALIS OAI Record V2.0CALIS OAI Record V2.0”数据格式;数据格式;学位论文中心系统接收到学位论文中心系统接收到 OAI-DPOAI-DP或或METS-DP+MQMETS-DP+MQ请求,自动收割请求,自动收割参建馆本地系统中的数据;参建馆本地系统中的数据;模式二:仅采用OAI-DP收割 22n手动收割手动收割 n用新的用新的OAIOAI数据导出工具将本地系统中的元数据和数字对象合数据导出工具将本地系统中的元数据和数字对象合并为一条并为一条OAIOAI记录导出为记录导出为OAIOAI记录文件。该文件中的数据格式记录文件。该文件中的数据格式为为“CALIS OAI Record V2.0CALIS OAI Record V2.0”;nMETS-DPMETS-DP中的数字对象数据无需再单独导出;中的数字对象数据无需再单独导出;n本地系统管理员手工将上述两类文件通过本地系统管理员手工将上述两类文件通过FTPFTP上传至上传至CALISCALIS学学位论文中心,由其完成数据汇总、统计工作;位论文中心,由其完成数据汇总、统计工作;模式二:仅采用模式二:仅采用OAI-DP收割收割 -收割方式收割方式(2)手动收割 模式二:仅采用OAI-DP收割 23模式二:仅采用模式二:仅采用OAI-DP收割收割 -数据格式数据格式CALIS Record V1CALIS Record V2模式二:仅采用OAI-DP收割 24模式二:仅采用模式二:仅采用OAI-DP收割收割 -数据格式数据格式CALIS Record V2,无Mets模式二:仅采用OAI-DP收割 25模式二:仅采用模式二:仅采用OAI-DP收割收割 -实际收割测试实际收割测试n2007.09月月n参加测试的学校参加测试的学校:nTPI:中国农业大学中国农业大学nTRS:清华大学清华大学n北大方正北大方正:北京大学北京大学n杭州麦达杭州麦达:北京大学医学院北京大学医学院模式二:仅采用OAI-DP收割 26比较比较:模式一与模式二模式一与模式二 -在系统部署和维护方面在系统部署和维护方面类型型模式模式1 模式模式2 说明明部署内容部署内容部署部署OAI-DP服服务器器部署部署METS-DP服服务器器部署部署MQ服服务器器只需部署只需部署OAI-DP服服务器器前者部署、培前者部署、培训、管理成本都管理成本都较大大数据校数据校验和和错误排排查OAI文件文件METS文件文件OAI文件和文件和METS文件文件对应关系(如相关文件个数一致关系(如相关文件个数一致、ID一致等)一致等)OAI文件(可文件(可含含METS数据)数据)对两两类文件之文件之间的的对应关系的关系的问题,模式模式1排排查工工作量很大,排作量很大,排查难度很大度很大系系统故障故障排排查OAI-DP服服务器器METS-DP服服务器、器、MQ服服务器以上三个系器以上三个系统之之间的的联动OAI-DP服服务器器前者工作量和前者工作量和难度(尤其是系度(尤其是系统之之间联动)都很大)都很大厂商技厂商技术支支持工作量持工作量较大,当出大,当出现复复杂问题时,需,需厂商和厂商和CALIS全力配合才能全力配合才能发现大大为降低降低比较:模式一与模式二 -在系统部署27比较比较:模式一与模式二模式一与模式二 -优缺点比较优缺点比较类型类型模式模式1 模式模式2 优点优点OAI-DP无需考虑大容量数据记录的传输问无需考虑大容量数据记录的传输问题,因此,模式题,因此,模式1对对OAI-DP在性能和超时在性能和超时处理等方面的要求较低;处理等方面的要求较低;只需部署与只需部署与OAI-DP,无需部,无需部署署METS-DP和和MQ服务器;服务器;OAI记录和记录和METS记录不再分记录不再分离,一般不会出现一致性问题;离,一般不会出现一致性问题;系统出现故障或数据出现问题系统出现故障或数据出现问题时,时,管理员利用相关工具能够自管理员利用相关工具能够自己检测出来己检测出来;缺点缺点需要部署需要部署METS-DP和和MQ服务器,需要这服务器,需要这两个服务器与两个服务器与OAI-DP服务器联动;服务器联动;OAI记录和记录和METS记录之间的一致性较难维记录之间的一致性较难维护;护;特别是:特别是:当上述三个服务器联动出现故障当上述三个服务器联动出现故障或者当或者当OAI记录和记录和METS记录之间出现不一记录之间出现不一致性时,致性时,系统管理员没有有效的问题排查手系统管理员没有有效的问题排查手段段,厂商也难以为管理员开发出来这种有效厂商也难以为管理员开发出来这种有效的检测工具的检测工具;对对OAI-DP在性能方面有较高要在性能方面有较高要求,求,OAI-DP应能对超大容量的应能对超大容量的数据记录予以正确响应数据记录予以正确响应。比较:模式一与模式二 28比较比较:模式一与模式二模式一与模式二 -结论结论n“模式二模式二”是对是对”模式一模式一”的简化,相应的系统改造、升级、部署、的简化,相应的系统改造、升级、部署、维护等。维护等。工作量和难度都得大为减少工作量和难度都得大为减少,模式二模式二 的易用性和可管理性都大为提的易用性和可管理性都大为提高高;n其中其中“模式二模式二”的手动收割的手动收割,更为安全稳定更为安全稳定,CALIS特色库的大批量特色库的大批量数据收割均采用该方式数据收割均采用该方式;n学位论文本地系统的收割模块学位论文本地系统的收割模块:n TPI:支持支持模式二模式二的实时自动收割、手动收割的实时自动收割、手动收割;n 北大方正北大方正:支持支持模式二模式二的实时自动收割、手动收割的实时自动收割、手动收割;n 麦达麦达:支持支持模式二模式二的实时自动收割、手动收割的实时自动收割、手动收割;n TRS:支持支持模式二模式二的手动收割的手动收割;比较:模式一与模式二 29主要内容:n“CALIS学位论文全文数据库学位论文全文数据库”服务体系架构服务体系架构n基于基于OAI和和METS数据收割模式数据收割模式n基于基于OAI和和METS数据收割实施步骤数据收割实施步骤NOW主要内容:“CALIS学位论文全文数据库”服务体系架构NOW30基于基于OAIOAI和和METSMETS数据收割实施步骤数据收割实施步骤 -针对模式二针对模式二(手动收割手动收割)n1)现有系统升级-公司介绍n2)数据导出-公司介绍n3)数据质量检测n4)通过FTP方式提交基于OAI和METS数据收割实施步骤 -31 谢谢大家!谢谢大家!32
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!