资源描述
分布式存储论文:Jackrabbit封装Hadoop的研究及在内容管理系统中的应用【中文摘要】论文以目前计算机科学与技术领域广泛讨论和应用的分布式存储、分布式计算和内容仓库标准接口为背景,结合内容管理系统项目,研究如何用Java内容仓库封装分布式文件系统,实现海量数据的存储与计算,并实际应用到内容管理系统中去。以Jackrabbit作为Java内容仓库的实现,对外暴露统一标准接口,屏蔽底层存储;存储层用Hadoop Distributed File System(HDFS)来存取数据,HDFS作为Hadoop的一部分,是一种分布式文件系统,google DFS的Java实现。为了解决HDFS处理小文件能力不佳的问题,引入HBase来存取小文件,HBase也是Hadoop的一部分,是一种分布式表结构,google Big Table的Java实现。通过一系列测试来确定大小文件的分界点,以使系统的存储性能趋近于最佳。封装后的系统经过性能测试,改进了原存储系统存储小文件性能较低的情况。分布式计算框架采用MapReduce, MapReduce是Hadoop的一部分,google MapReduce的Java实现,是一种简化的分布式编程模式,让程序自动分布到一个由普通机器组成的超大集群上并发执.【英文摘要】This paper will present the widely discussed and applied of distributed file system and content repository in computer science and technology field as the background, study how to build the Jackrabbit on Hadoop module. This will be an important part of the realization of the mass data storagecontent management system.The system will use Jackrabbit as the implementation of Java Content Repository, which provides standard interfaces to the upper layers, and people dont need to know what the storage laye.【关键词】分布式存储 分布式计算 Java内容仓库标准接口 内容管理系统 精准分析平台【英文关键词】HDFS(Hadoop Distributed File System) MapReduce Content Management System Precision Analysis Platform【索购全文】联系Q1:138113721 Q2:139938848【目录】Jackrabbit封装Hadoop的研究及在内容管理系统中的应用摘要4-5ABSTRACT5-6第一章 论文背景9-131.1. 内容管理系统9-101.2. 精准分析平台10-111.3. Java内容仓库标准接口11-13第二章 Jackrabbit封装Hadoop的设计与实现13-342.1. 内容仓库标准接口13-152.1.1. JSR-17013-142.1.2. Jackrabbit14-152.2. Hadoop15-192.2.1. HDFS16-182.2.2. MapReduce18-192.3. Jackrabbit对底层的封装19-202.4. Jackrabbit对HDFS的封装20-292.4.1. JCR内容结构20-212.4.2. JCR接口分析21-242.4.3. HBasePersistenceManager的实现24-262.4.4. HDFSDataStore的实现26-292.5. Jackrabbit对MapReduce的封装29-342.5.1. MapReduceManager的实现29-322.5.2. Action接口的实现32-34第三章 封装在内容管理系统中的应用34-603.1. 写入文件34-363.2. 其余文件操作36-403.2.1. 读取文件363.2.2. 删除文件363.2.3. 修改文件36-373.2.4. 搜索文件37-403.3. 内容仓库40-413.4. 内容组织结构41-433.4.1. 采集区423.4.2. 仓库区42-433.4.3. 垃圾区433.5. 系统存储性能43-443.6. 存储层提供接口44-533.6.1. 接口结构44-453.6.2. 元数据操作接口45-463.6.3. 内容操作接口463.6.4. 内容和元数据操作接口46-483.6.5. 目录树操作接口483.6.6. 产品信息操作接口48-493.6.7. SP信息文件操作接口49-503.6.8. CP信息文件操作接口503.6.9. 角色信息文件操作接口50-513.6.10. 权限信息文件操作接口513.6.11. 打包内容操作接口51-523.6.12. 分发记录文件操作接口523.6.13. 内容订单文件操作接口52-533.7. 精准分析53-593.7.1. 数据抽取模块54-553.7.2. 数据预处理模块55-593.8. Jackrabbit封装Hadoop的意义59-60第四章 总结60-614.1. 下一步工作604.2. 应用展望60-61结束语61-62参考文献62-63致谢63-64攻读学位期间发表的学术论文64
展开阅读全文