资源描述
分布式互联网爬虫及其在垂直领域的使用项目开发计划1引言11.1编写目的11.2 背景11.3定义11.4参考资料22项目概述32.1工作内容32.2主要参加人员33.3产品32.3.1程序32.3.2文件42.3.3服务42.3.4非移交的产品42.4验收标准62.5完成项目的最迟期限62.6本计划的审查者与批准者63实施总计划73.1工作任务的分解和接口人员73.2进度73.3预算93.4关键问题94支持条件104.1 计算机系统支持104.2 需由用户承担的工作114.3 由外单位提供的条件115专题计划要点115.1 开发人员培训计划115.2 测试计划115.3 质量保证计划111开发计划项目开发计划1引言1.1编写目的编写此计划的目的是为了合理安排组织成员,有效利用时间,以确保项目进度,预见项目风险等活动。使项目严格按照学院及老师要求开发流程进行,遵循正规的顺序开展。同时,项目开发成员通过此计划书明确项目目标和各自职责。它说明相关爬虫项目的开发方法,是一种计划,以指导工作之用。1.2背景大数据时代,互联网数据被认为规模最大、结果最复杂、潜在价值最高的源数据。开发一款具有较高数据质量、对新数据探测周期短、可灵活扩展的分布式互联网爬虫。项目相关人员在助教及老师指导下,在203机房开发。1.3定义MVC全名是ModelViewController是模型(model)视图(view)控制器(controller)的缩写,一种软件设计典范,用一种业务逻辑、数据、界面显示分离的方法组织代码,将业务逻辑聚集到一个部件里面,在改进和个性化定制界面及用户交互的同时,不需要重新编写业务逻辑。MVC被独特的发展起来用于映射传统的输入、处理和输出功能在一个逻辑的图形化用户界面的结构中。Eclipse是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse附带了一个标准的插件集,包括Java开发工(JavaDevelopmentKit,JDK)。MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,目前属于Oracle旗下产品oMySQL是最流行的关系型数据库管理系统之一,在WEB应用方面,MySQL是最好的RDBMS(RelationalDatabaseManagementSystem,关系数据库管理系统)应用软件。Tomcat是Apache软件基金会(ApacheSoftwareFoundation)的Jakarta项目中的一个核心项目,由Apache、Sun和其他一些公司及个人共同开发而成。1.4参考资料相关文档及网络资源2项目概述2.1工作内容数据采集模板配置工程数据采集工程媒体传播分析工程用户可视化界面2.2主要参加人员2.3产品2.3.1 程序软件名称:分布式互联网爬虫及其在垂直领域的使用编程语言:Java功能:软件操作简便、快捷,数据采集部分可以通过简单、易懂的方式配置新网站数据的采集。数据分析模块通过基关键词过滤以及统计学思想计算媒体传播排名及趋势。界面设计风格采用Web形式,用户界面简单明了,符合业务办理流程,具有人性化特点。软件设计结构模块化、程序结构化、数据格式标准化、代码统一化,各种文档资料规范化。2.3.2 文件用户操作手册:本手册详细描述软件的功能、性能和用户界面,使用户对如何使用该软件得到具体的了解,为操作人员提供该软件各种运行情况的有关知识,特别是操作方法的具体细节。软件维护手册:主要包括软件系统说明、程序模块说明、操作环境、支持软件的说明、维护过程的说明,便于软件的维护。2.3.3服务计划提供以下服务:课堂培训:以讲课形式对客户进行培训,使其能够正确使用件。免费咨询:客户可以在工作时间向技术人员提出问题并获得解答。技术支持:对于某些客户,采取上门指导的方式。软件维护:获取软件使用中的问题,提供补丁程序。升级通知:在软件新版本发布的时候,及时通知(Email或邮寄信件)注册的用户,并提供试用版本。软件升级:对于注册用户,只需较少的费用即可升级到新的版本。2.3.4非移交的产品可行性分析报告:说明该软件开发项目的实现在技术上、经济上和社会因素上的可行性,评述为了合理地达到开发目标可供选择的各种可能实施方案,说明并论证所选定实施方案的理由。项目开发计划:为软件项目实施方案制订出具体计划,应该包括各部分工作的负责人员、开发的进度、开发经费的预算、所需的硬件及软件资源等。软件需求说明书(软件规格说明书)对所开发软件的功能、性能、用户界面及运行环境等做出详细的说明。它是在用户与开发人员双方对软件需求取得共同理解并达成协议的条件下编写的,也是实施开发工作的基础。该说明书应给出数据逻辑和数据采集的各项要求,为生成和维护系统数据文件做好准备。概要设计说明书:该说明书是概要实际阶段的工作成果,它应说明功能分配、模块划分、程序的总体结构、输入输出以及接口设计、运3开发计划行设计、数据结构设计和出错处理设计等,为详细设计提供基础。详细设计说明书:着重描述每一模块是怎样实现的,包括实现算法、逻辑流程等。测试计划:为做好集成测试和验收测试,需为如何组织测试制订实施计划。计划应包括测试的内容、进度、条件、人员、测试用例的选取原则、测试结果允许的偏差范围等。测试分析报告:测试工作完成以后,应提交测试计划执行情况的说明,对测试结果加以分析,并提出测试的结论意见。开发进度月报:该月报系软件人员按月向管理部门提交的项目进展情况报告,报告应包括进度计划与实际执行情况的比较、阶段成果、遇到的问题和解决的办法以及下个月的打算等。项目开发总结报告:软件项目开发完成以后,应与项目实施计划对照,总结实际执行的情况,如进度、成果、资源利用、成本和投入的人力,此外,还需对开发工作做出评价,总结出经验和教训。软件问题报告:指出软件问题的登记情况,如日期、发现人、状态、问题所属模块等,为软件修改提供准备文档。软件修改报告:软件产品投入运行以后,发现了需对其进行修正、更改等问题,应将存在的问题、修改的考虑以及修改的影响做出详细的描述,提交审批。源程序:软件开发过程中的全部代码以及注释。2.4验收标准代码:最后在交付客户之前进行小组内评审,代码编写符合HB6465标准,与文档说明保持一致,代码书写风格统一,采用标准规范,没有下列错误:由于软件缺陷造成丢失数据,不符合设计要求,响应时间太长无法接受等问题。文档:最后在交付客户之前进行小组内评审,文档格式符合HB6465标准,功能符合与客户的合同要求,清晰易读,没有语病与歧义。服务:服务硬件达到文档说明的要求。2.5完成项目的最迟期限交付日期为2017年7月22日2.6本计划的审查者与批准者本项目批准者是学院相关领导老师3实施总计划3.1工作任务的分解和接口人员3.2进度进度安排3.3预算3.4关键问题项目风险因素风险排序风险项名称风险描述风险缓解方案1专业基础知识不牢本次项目开发过程中涉及的知识较多,给项目开发人员带来一定的困难进行相应的培训2经验欠缺成员开发经验不足,使项目质量难以保证只有通过不断的实践3软件性能的影响本次开发过程中部分软件可能容易出现死机现象选择合适的软件,搭建良好的配置开发环境4支持条件4.1计算机系统支持模板配置与数据分析应用:系统架构:MVC开发工具:Eclipse数据库:Mysql开发技术:java、bootstarp、sql、FreeChart中间件:Tomcat、jdkl.8采集工具:开发工具:Eclipse数据库:Mysql、开发技术:java、sql、线程池、MD5环境要求:CPU:1GHz以上内存:8GB以上94.2 需由用户承担的工作向本小组成员进行培训,其内容包括全文检索、httpclient等等相关技术。配备相应硬件系统,做到规范操作,备份好数据防止数据丢失,软件交付日期为软件安装测试人员提供环境。4.3由外单位提供的条件由学院提供上机环境及相关知识讲座指导。5专题计划要点5.1开发人员培训计划自项目实习之日起,项目相关人员自行安排时间学习,周末按学院要求周末听讲座知识。5.2测试计划项目周期第四周进行各种数据测试。5.3质量保证计划严格按照项目开发过程中的各项步骤,从项目立项,可行性研究报告、需求分析报告、项目开发计划等,具体实施。
展开阅读全文