CALIS学位论文全文数据库的建设实践赵阳.docx

上传人:jian****018 文档编号:9168205 上传时间:2020-04-03 格式:DOCX 页数:10 大小:253.88KB
返回 下载 相关 举报
CALIS学位论文全文数据库的建设实践赵阳.docx_第1页
第1页 / 共10页
CALIS学位论文全文数据库的建设实践赵阳.docx_第2页
第2页 / 共10页
CALIS学位论文全文数据库的建设实践赵阳.docx_第3页
第3页 / 共10页
点击查看更多>>
资源描述
合 作 与 共 享 “ CALIS 学位论文全文数据库”的建设实践赵阳 姜爱蓉摘要 “CA LIS 学位论文全文数据库”建设是 CA LIS“十五”期间一个重要的自建数据库项目 。 该文重点介绍了项目的发展现状 、系统架构 、相关标准规范 、参建馆本地系统建设进展和存在问题 、中心系统的平台部署和功能模块等 。关键词 学位论文 全文数据库 系统架构 协议1 背景和现状1. 1 背景“九五”期间 , “ CA LIS 学位论文文摘数据库”的建设取得了可喜的成果 , 是高校间开展文献传递的重要基础数据 库之一 。 经过“九 五” 建 设 , “ CAL IS学位论文文摘数据库” 数据量累计达 10 万余条 , 参建单位已发展到 100 余个 , 三次全国性的建库人员培训和研讨会累计培训 150 人次 。 由于学位论文具有选题新颖 , 理论性 、系统性较强 , 阐述详细 , 对后继的教学和科研活动有较高的参考价值等特点 , 单纯的文摘数据已无法满足读者需要 , 读者对电子论文全文的需求呈上升趋势 。 因此 , “十五”期间 , CAL IS将在文摘库的基础上 , 进一步建设“ CAL IS 高校学位论文全文数据库” , 为高校范围内的读者通过网络共享学位论文信息提供途径和保障 , 推动高校教学 、科研水平的交流与提高 。 2003 年 9 月 , “ CA LIS 学位论文全文数据库”项目正式启动 , 清华大学图书馆作为项目牵头单位负责项目的组织实施 。1. 2 发展现状经过几年的建设和发展 , 整个项目在参建馆规模 、软件系统平台 、标准规范 、组织管理规范化 、培训和交流活动等方面的建设都取得了很大的发展 。 截止到 2006 年 1 月 , 已有 72 家单位正式申请加入子项目建设 , 与子项目中心 签订了项目 建设协议 书 。项目牵头单位先后于 2003 年 9 月和 2004 年 4 月组织了两次全国性的项目技术培训讲座和建库经验交流会 , 2005 年 4 月为河北地区的高校举办了一次项目培训讲座 , 累计培训了约 150 所高校的 300 多人次 。 通过培训和交流 , 各参建馆明确了整个项目的48整体规划 、实施方案 、组织管理 、技术实施细则 、系统架构 、标准规范等关键性问题 , 加强了参建馆之间的交流和经验共享 , 对高校学位论文全文数据库的标准化建设起到了积极的推动和促进作用 。2 系统架构与标准规范2. 1 系统架构项目建设采用“元数据集中于项目中心 , 数字对象(论文全文)分散在参建馆”的分布式系统架构(见图 1) 。整个系统分为子项目中心系统 和参建馆本地系统二级结构 , 通过支持一系列标准的协议和接口实现中心系统和本地系统的互操作和通讯 。 子项目中心系统负责元数据和前 16 页论文全文的集中收割 、发布 、检索及管理 , 并提供一定的机制通过元数据链接到论文全文 。参建馆本地系统除完成论文提交和发布检索等基本功能外 , 通过支持标准的协议和接口 , 实现与中心系统的协同工作 , 论文全文的使用权限一般由各参建馆依据论文著者授权情况 ,通过系统设置来控制全文公开的范围(在校园网或CA LIS 成员馆之间) 。具体地说 :存储层 : 心系统集中存储和管理从参建馆收割的元数据和前 16 页全文 ; 建馆本地系统负责管理和存储本校的论文全文和元数据 。应用层 : 中心系统 , 保证对集中收集的元数据和 16 页全文的检索 、浏览 、统计等功能 ; 参建馆本地系统 , 保证提交 、审核 、编目 、文档标准化 、数字化回溯 、检索和发布等基本功能模块的正常运行 。接口层 : 现中心系统与参建馆本地系统的信息交换与互操作 。OAI 收割器(H arvest)与 OA I数据提供者(Dat a P rovider , 简称 DP)协同 , 实现收2006 年第4 期 大学图书馆学报中参对对实“ CA LIS 学位论文全文数据库” 的建设实践 图 1 CA LIS 高校学位论文服 务系统架构割元 数 据 ;M Q Serve r 和 M Q Client 协 同 , 使 用 1:ME T S interface 实 现 收 割 16 页 全 文 ;通 过 支 持OP ENU RL 协议 、P I(Persi stent Identi fier)解析 以及与参建馆本地 DRM 系统的配合 , 实现中心系统调用数字对象以及对数字对象的 DRM 控制功能 。安全通信层 : 证中心系统与参建馆本地系统之间信息交换的安全性 。2. 2 标准规范的建设在分布式环境下 , 为保障学位论文中心系统与参建馆本地系统之间的信息交换和通讯 , 同时考虑到未来与其他系统的互操作和集成 , 需要一套标准规范以保证项目的顺利实施和发展 。 项目在标准规范建设上遵循如下原则 : 量采用通用的国际标准 、行业标准 、CA LIS 数字图书馆技 术标准与规范 , 对于项目需要但无现成的标准可遵循的则自行定义 。项 目 遵 循 国 际 标 准 :OAI P MH 协 议 ,OP EN URL 协 议 , M ET S 元 数 据 编 码 和 传 输 规范等 。项目遵循 CAL IS 数字图书馆技 术标准与规范 CAL IS ODL M AP 协议 , CAL IS Web Service 安全通信规范 , CAL IS 数字 对象交换协议 , CA LIS 统一认证与计费接口调用规范等 。自定义规范 : 位论文元数据命名规范 、学位论文核心表单项 、全文文件名命名规则 、学位论文数字对象唯一标识符命名规范 、OAI 标识符命名规则 、数据质量控制标准 、学位论文本地系统功能认证规范等 。2. 2. 2 元数据规范描述型元数据标准 : 循科技部“我国数字图书馆标准规范建设”项目“专门数字对象描述元数据规范”子项目中 , 由清华大学图书馆负责制订的学492. 2. 1 技术标准规范大学图书馆学报 2006 年第4 期 保尽:学遵“ CA L IS 学位论文全文数据库” 的建设实践 位论文描述型元数据标准。管理型元数 据标准 : 照“ CAL IS 数字对象的管理元数据” , 自定义了“学位论文管理型元数据标准” 。2. 2. 3 管理规范学位论文著作权使用 : 否取得学位论文著作权人的授权 , 将很大程度上限制学位论文的后续服务和使用 。在深入研究版权法的基础上 , 结合项目组各位专家的建议和清华大学的实践经验 , 拟订了“ CA LIS 学位论文项目在论文著作权管理方面的推荐参考材料” , 供参建馆参照使用 。与各参建馆签订协议书 : 规范项目管理 , 项目牵头单位与各参建馆签订“ CA LIS 学位论文全文数据库建设协议书” , 以明确双方的权利与义务 , 保障项目顺利进行 。管理条例 : 订项目管理条例 , 供参建馆参照执行 。3 参建馆本地系统的建设3. 1 现状和功能项目牵头单位测试并推荐了四套成熟的学位论文全文 数据库 产品(T RS 、T P I 、方正 公司 、杭州 麦达)供参建单位选择使用 , 目前已有 72 家单位安装运行了本校的学位论文全文数据库系统 , 其中 98 %的高校采用项目推荐的软件 , 2 %的高校采用自行开发的软件 。参建馆本地系统在本馆层面上 , 基本上包括 : 交 、审核 、编目 、文档标准化处理 、发布与检索等基本模块 。 除了完成本馆论文的提交 、加工 、检索和发布等功能外 , 参建馆本地系统还需要支持项目制订的标准规范 , 提供开放的接口 , 以保障与 CA-LIS 学位论文子项目中心系统 、CA LIS 中心系统进行交互 。3. 2 参建馆本地系统的建设目前存在的问题和对策(1) 系统功能升级 : 括基本 功能升级与接口升级两部分 , 目前由于学位论文系统功能的不断完善 , 大部分高校面临着论文系统功能升级工作 , 而升级工作不只是简单的文件替换 , 数据库底层结构的变动 , 一些学校对系统的个性化配置和开发 , 原有数据的迁移和升级都给统一的升级工作带来困难 。 而目前要求厂商对每一家提供上门支持比较困难 。 为此 , 项目牵头单位可选取四套系统代表用户 , 总结出规范的系统升级工作流程和工作文档 , 提供其他参50建馆做参考 , 以保证整个项目的正常运行 。(2) 老数据回溯加工 : 保障每年“原生” 学位论文资源的正常收集加工的基础上 , 各参建馆都面临着原有老数据的回溯加工 , 以建立集中的学位论文仓储 , 实现对本校所有论文的集中存储 、管理和检索 。老数据回溯加工包括 : 史存留的不同格式文摘数据导入 , 印刷本论文的数字化加工 , 无文摘和题录论文的手工著录 , 以及论文全文的 PDF 转换 。 关于老数据导入 , 各参建馆也可自行编写程序实现数据导入 , 但由于数据表设计的复杂性和多表关联性 ,建议牵头单位最好制订数据导入流程 。 关于印刷本论文的数字化加工 , CA LIS 已与 CADA L 项目达成协议 , 推荐采用 CADA L 项目数字化加工标准 , 以避免资源的重复加工 。 在系统功能上 , 目前四套软件论文回溯加工模块的功能还需要进一步完善 。(3) 其他系统集成 : 分布式 、开放获取的环境中 , 图书馆的许多系统之间面临着资源内容的整合以及系统和服务集成 , 以实现集成化的服务发展方向 , 论文系统也不例外 。因此 , 论文系统需要做一定程度的 完善 , 以 满足 与第三 方系 统的 集成(比 如 :SF X /M et lab 等信息资源整合系统 , CALIS 其 他系统 , 与 OPAC 系统集成以实现馆藏电子版学位论文在 OP AC 系 统 中 的 多 途 径 检 索 及 全 文 获 取 , 与DRM 系统集成以实现对论文内容的深入保护) 。 2学位论 文 子 项 目 中心 系 统 的 开 发 工 作 始 于2005 年 7 月 , 预计于 2006 年上 半年正式运行 。 现简要介绍中心系统包括的主要功能模块 :4. 1 数据管理模块对收割的元数据和前 16 页论文全文进行格式检测 、入库 、查重 、管理 、编辑 、备份等处理 。(1) 数据格式自动检测 : 要对 OAI 和 M ET S收割的数据包进行格式检查 , 检查项目包括 : 否符合元数据 schem a 、必备的元数据项是否齐全 、一些元数据项格式(如 date 、fo rmat)是否正确等 。(2) 入库处理 : 统设正式库和临时库 , 通过数据格式检测 , 合格的数据直接进入正式库 , 不合格的数据进入临时库 。管理员可以按指定条件从临时库中导出错误数据列表 , 并将错误数据通过 em ail 自动发送给相关学校 。 正式库中的数据如有问题 , 也可根据输入条件将问题数据批量转入临时库 , 在临4 中心系统的建设2006 年第4 期 大学图书馆学报参能为制提包在历在主是系“ CA LIS 学位论文全文数据库” 的建设实践 时库中可对数据进行修改 、删除等操作 。(3) 数据查重 : 活配置查重条件 , 对入库数据进行多角度查重 。(4) 数据导入功能 : 无法通过 OAI 和 ME TS收割 的数 据 , 要求 本地 系 统通 过 f t p 方 式 手工 将OA I 和 M ET S 数据包提交到中心系统 f tp serve r 的指定位置 , 中心系统自动检查 f tp 目录是否有新的OA I 数据包和 M ET S 数据包 , 如有则执行第 2 步入库处理 。(5)与 CA LIS 一期“高校学位论文文摘数据库”中的文摘数据整合 。4. 2 用户服务模块为用户提供检索 、学科浏览 、个性化服务等功能 。(1) 检索功能 : 供简单检索和高级检索功能 ,可进行二次查询 , 也可进行智能扩展检索 。 检索字段可由管理员来配置 。 检索词之间 可进行逻 辑组配 。 中心系统配有专门的全文检索引擎 , 可自动提取前 16 页的文本 , 建立全文索引 。(2) 浏览功能 : 以按照学科 专业目录进行逐级浏览 。(3)个性化服务 : 供通告服务(包括定题通告和数据库信息通告), 保存个人检索历史等个性化服务功能 , 其中通告服务的周期 、有效期等可由系统管理员在后台管理界面灵活设定 。4. 3 系统管理模块(1)用户 管理 :用户 包括系 统直 属用 户(user-name /passw o rd 认证) 、IP 段用户 、CADLIS 统一认证用户 、系统管理员 、参建馆管理员等 。可基于角色对用户分配权限 。(2)日志与统计管理 : 不同操作记录日志 , 便于分析系统运行状况和了解系统使用数据 , 以提高服务满意度 , 对记录的日志进行统计分析 , 提供用户操作统计 、资源分布统计 、网站访问统计等多种统计功能 。(3)格式导出功能 : 持 M E TS 、ISO2709 等格式的导出 。4. 4 OAI 和 M ET S 收割服务器模块 :(1) 收割服务器注册 : 心系 统提供一个通用的注册界面 , 认证通过的参建馆可注册本馆的 OAIDP 或 M ET S DP 的信息 , 注册信息经过中心系统管理员审核通过的 OAI DP 或 M ET S DP 方能使用 。中心系统管理员可 对注册信息 进行增加 、修改 、删除 、手工 /自动导入和导出等操作 。(2) 收割服务器调度模块 : 以设 定收割服务器对系统注册的 OAI DP 或 M ET S DP 所采取的动作 。可设定 DP 的收割频度配置 、异常 情况等信息反馈 。 系统自动执行相应的收割动作 , 检测 DP 状态 , 并将错误信息自动发给子项目管理员和参建馆管理员 , 以作相应处理 。异常情况包括 OA I DP 或M ET S DP 不可访问 , DP 响应的 XM L 数据与 Sche-m a 等问题 。(3) 收割服务器的收割处理模块 : 收割服务器的核心功 能 , 模块通过向 OAI DP 或 M ET S DP发送 H T T P 或 M Q 请求(M ESSAGE Queue , 消息队列), 按照调度系统中设定好的 、在规定的时间内发送请求进行元数据收割 。(4) 收割服务器的日志处理模块 : 测收割服务器或 OAI DP 或 ME T S DP 的运行状况 , 保障收割服务的正常运行 。4. 5 网站基本服务模块(1) 新闻类功能 :能动态发布本网站相关的新闻 、各种会议通知 , 培训课程简介或通告等 。(2) 社区类功能 :能通过邮件 、留言版的形式得到用户反馈意见等 。(3) 站点帮助类功能 : 括站点 FAQ 、站点内帮助 、站点地图 、相关 Web 站点链接等 。4. 6 与第三方系统的集成接口(1) 中心系 统需支持 Z ING 协议 , 以方便 与第三方系统之间的统一检索 ;(2) 需支持 OPENU RL 协议 , 以实现与第三方系统资源的开放互链 ;(3) 需支持 OPENU RL 协议 , 中心系统可作为OAI DP , 经过合法认证的 OAI Service Provider 可收割中心系统的元数据 。(4) 需支持 CAL IS ODL - MA P 协议 , 以便与CADLIS 门户服务系统和其他 CA LIS 系统集成 , 实现资源的集成访问 。在中心系统的硬件部署方面 , 支持可扩展的集群配置 , 以保证在服务器负载较大或数据规模增加较快时 , 随时增加服务器分担负载 , 使系统性能不受影响 , 保障系统正常运行 。 3“CA LIS 高校学位论文全文数据库” 项目在“十515 预期成果与展望大学图书馆学报 2006 年第4 期 灵对提可提对支中可:是检包“ CA L IS 学位论文全文数据库” 的建设实践 五”期间预期达到 :在高校中 , 建立起规范化和标准化的学位论文网上提交与管理机制 , 实现本地学位论文的集中检索和管理 。建立 CA LIS 学位论文集中检索服务平台 , 在参建馆范围内提供学位论文元数据及前 16 页的免费检索浏览 , 通过公平共享机制提供网上学位论文全文服务 。 在参建馆之外 , 通过认证 、结算机制提供学位论文信息的检索和全文服务 。在数据量方面 : 取新增数据量 10 万条 , 新增数 据中可 提供论 文前 16 页浏览 的比 例不低 于80 %, 可提供全文服务(包括直接下载或文献传递)的比例不低于 70 %。参建馆的共同努力下 , “ CAL IS 高校学位论文 全文数据库”将为高校用户提供高质量的服务 , 实现学位论文资源共享 。参考文献1 CA LIS 管理中 心. 中国 高等教 育数 字图 书馆 技术标 准与 规范.2004. 102 CA LIS 学位论文项目 组. “ CA LIS 高校 学位论 文全文 数据库” 子项目中心系统技术规范. 2005. 053 CA LIS 学位论文项目 组. “ CA LIS 高校 学位论 文全文 数据库” 子项目第二次工作会议资料. 2004. 04作者单位 :清华大学图书馆系统部 , 北京 , 100084收稿日期 :2006 年 3 月 28 日相信在 CA LIS 管理中心的指导和协调下 , 在各The Establishment of the CALIS Thesis and Dissertations Full-text DatabaseZhao Yang , Jiang Ai rongAbst ract :T he establi shment o f CAL IS thesis and disser tati ons f ull-tex t dat abase is one o f impo rtantself-establi shment pro ject s during t he 10th 5-year plan. T his paper int roduces the current st atus of t he pro-ject and som e im po rtant i ssues such as sy stem archit ect ure , related st andard and pro to col , t he developmentand problem s of est ablishing t he local ET D sy st em s in the membe r universi ties , as w ell as the f unctions ofcent ral sy st em .Keywords :T heses and Di sser tatio ns ;F ull-tex t Database ;Sy st em A rchi tecture ;P ro tocol黑龙江八一农垦大学图书馆简介黑龙江八一农垦大学图书馆始建于 1958 年 8 月 , 王震将军(第一任校长)亲自筹集图书馆第一批图书资料 。 48 年来图书馆发生了巨大变化 , 已初步形成了以农业科学 、生物科学和农业工程文献为主体的文献保障体系 。2003 年在大庆建成的新校区图书馆四周环湖 , 景色宜人 。 建筑面积 26173 平方米 , 设计新颖 , 整体结构气势恢宏 。 现有藏书 137. 6 万册 , 阅览座位 3000 余个 , 中外文期刊 1000 多种 , 引进多种中外文大型数据库 。是联合国粮农组织定点赠书收藏馆 。馆藏文献结合中国农垦农业以及黑龙江农业生产的特点 , 具有中国农垦农业特色 。“一站式”全开放 、无隔断 、无障碍的设计与管理模式 , 使读者置身于舒适 、惬意的环境之中 , 感觉空间更宽敞 、更自由 、更开放 、更通透 。 每周开放 98 小时 , 最大限度地方便读者使用 。 其网络系统是建立在可扩展的平台上 , 支持语音 、视频 、远程教育等多种网络应用 。馆内信息点 1100 多个 , 真正实现了随时随地上网浏览 。文献采编 、流通管理 、公共查询 、参考咨询 、信息开发等业务的网络化管理 , 提高了文献资源的利用率 。“十一五”期间 , 黑龙江八一农垦大学图书馆的建设重点是文献资源建设 、个性化信息服务 、数字化建设以及文献资源共享 。52争2006 年第4 期 大学图书馆学报
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 建筑环境 > 建筑工程


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!