金融大数据平台项目规划设计整体建设方案

上传人:d**** 文档编号:192433815 上传时间:2023-03-06 格式:DOCX 页数:23 大小:263.99KB
返回 下载 相关 举报
金融大数据平台项目规划设计整体建设方案_第1页
第1页 / 共23页
金融大数据平台项目规划设计整体建设方案_第2页
第2页 / 共23页
金融大数据平台项目规划设计整体建设方案_第3页
第3页 / 共23页
点击查看更多>>
资源描述
金融大数据服务平台项目建设方案一-项目介绍1.1项目背景银行业一直是一个数据驱动的行业,数据也一直是银行 信息化的主题词。银行的信息化进程先后经历过业务电子 化、数据集中化、管理模型化等阶段,如今随着大数据技术 的飞速发展,银行信息化也进入了新的阶段:大数据时代。目前,国内银行都积累了海量的金融数据,包括各类结 构化、半结构化、非结构化数据,数据量巨大,存储方式多 样。但是这些海量数据还没得到充分利用,显得价值含量较 低。只有经过合适的预处理、模型设计、分析挖掘后,才能 发现隐藏在其中的潜在规律。而应用大数据分析技术,可以 从海量的、不完全一致的、有噪声的、模糊的、随机的数据 中提取隐含在其中的、人们事先不知道的、但又是潜在有用 的信息和知识。银行可以利用这些信息和知识来提升金融业 务的服务效率和管理水平,银行的关键业务也能从中获得巨 大收益。银行在大数据技术应用方面具有天然优势:一方面,银 行在业务开展过程中积累了大量有价值数据,这些数据在运 用大数据技术挖掘和分析之后,将产生巨大的商业价值;另 一方面,银行在资金、设备、人才、技术上都具有极大的便 利条件,有能力采用大数据的最新技术。建立“金融大数据 服务平台”, 可以通过对金融数据的挖掘、分析,创造数 据增值价值,提供针对银行的精准营销、统一广告发布、业 务体验优化、客户综合管理、风险控制等多种金融服务。1.2业务需求目前,银行客户对数据的利用仍是以各类统计报表为 主,存在以下重大弊端:1. 对数据的分析仅按照固定项目,对业务情况进行事后 统计分析和监控。实际上没有找到隐藏在数据背后的 原因,数据深度分析和数据挖掘能力不足。2. 对数据的分析仅作为专项的统计分析结果输出,对于 数据间的因果影响、相关性分组或关联规则、聚类、 描述和可视化等工作尚未开展,数据关联分析能力不 足。3. 统计分析侧重在事后的数据汇总,难以从数据汇总中 得到客户服务事件发生的规律,以及前瞻性判断,数 据的预测性分析能力不足。针对具体的金融业务,大数据分析在以下方面有着迫切 的需求:统一广告发布:目前金融行业客户在广告方面投入大、 渠道多,但在确认真实效果、提供优化广告策略时却不能提 供确切的数据证据。亟需利用大数据技术在收集各类型、各 渠道广告发布数据的基础上,提供可靠的效果数据和优化策 略建议。精准营销:目前金融行业的营销方式基本上还是粗放式 的,调查方式粗糙,分析原因简单,对过程的控制力差,对 客户和产品的推广都缺少针对性。亟需利用大数据技术来收 集详尽数据、科学分析原因、严格控制过程、并有针对性地 面向客户和产品进行营销推广。业务系统优化:目前金融行业对其业务系统的客户体验 效果、客户转化率缺乏准确数据支持,也无法分析具体原因。 亟需利用大数据技术获得各业务、各环节的客户转化率,从 而有针对性地改进业务流程,提升服务质量。客户流失分析:对于如何稳定留存客户、降低客户流失 率,目前金融客户还无法准确分析客户流失的原因,也就无 从提出有效的改进措施。亟需利用大数据技术在分析流失客 户数据的基础上,提出改进客户关系管理效率和水平的有效 建议。风险分析:金融行业对自己客户和业务的风险分析停留 在初级阶段,缺乏全面掌握和提前预防的技术手段。亟需利 用大数据技术获得存在较高风险的客户群体及业务,作为对 其进行重点监控和提前做好预防措施的基础。通过建设金融大数据服务平台,研发基于大数据分析的统一广告发布系统、精准营销系统、业务体验优化系统、客 户流失分析系统和风险分析系统,金融客户可以提升广告发 布效果,提高营销针对性,优化服务质量,改善客户管理水 平,预防风险冲击,进而为业务发展提供决策支撑,并促进 相关领域构建新的业务模式、服务模式。二项目范围北京XXXX技术有限公司自主研发的“金融大数据服务 平台”,旨在为金融行业客户提供包括数据采集、数据存储、 数据预处理、数据挖掘、可视化展现、业务实现等全流程服 务,以帮助客户实现各种金融业务。数据采集“金融大数据服务平台”首先需要收集各种金融数据, 它们可能是结构化的,也可能是半结构化或非结构化的;既 可能来自银行内部的各业务系统,也可能由外部提供;既可 以是静态的(如属性数据),也可以是动态的(如行为数据)。 而金融数据采集产品就是根据业务需要,将这些数据采集到 “金融大数据服务平台”中。数据存储Hadoop集群通过将数据分配到多个集群节点上并进行 并行处理,因此尤为适合对大数据的存储和分析。Hadoop集 群通过添加节点数量来有效的扩展集群,因此具有极好的可 扩展性;Hadoop软件都是开源的,也不必购买昂贵的高档服 务器,因此具有很好的性价比。Hadoop集群将数据分片发送 至多个节点保存,因此具有极高的容错性。数据预处理采集到金融数据来自多种数据源,大多存在着不完整性 和不一致性,无法直接用于数据挖掘或严重影响数据挖掘的 效率。因此在进行数据挖掘之前,通过使用数据预处理工具, 灵活对原始数据的清理、变换、集成等处理,可以减少挖掘 所需数据量,缩短所需时间,并极大提高数据挖掘的质量。数据挖掘数据挖掘是通过分析数据、从大量数据中寻找其潜在规 律的技术。利用预测、关联、分类、聚类、时序分析等技术, 数据挖掘可以从海量的、不完全的、有噪声的、模糊的、随 机的数据中提取隐含在其中的、人们事先不知道的、但又是 潜在有用的信息和知识。目前,传统的数据挖掘产品在大数 据平台上还存在一些局限性,研发一套Hadoop平台下的数 据挖掘工具是一项极具挑战性的任务。可视化展现数据挖掘得到的结果,往往数据量巨大、关联关系复杂、 维度多以及双向互动需求等。可视化展现工具以适合人类思 维的图形化的方式对结果进行展示,提高了数据的直观性和 可视性。可视化展现面向各类客户,通过选择合适的可视化模型,将枯燥的数据转换为令人印象深刻的美丽图形,极大 提升了数据的利用价值。业务实现“金融大数据服务平台”的效果,最终需要集成在各类 金融业务系统中才能得以体现。目前拟建设的金融业务系统 有:精准营销系统、统一广告发布系统、业务体验优化系统、 客户流失分析系统、风险分析系统等。三项目目标实施针对银行的“金融大数据服务平台”项目,通过采 集银行内部与外部、静态与动态的各类金融数据,搭建适于 大数据存储与分析的Hadoop集群,对金融数据采取合适的 预处理方式,利用数据挖掘技术得出隐藏在海量数据后的、 有价值的潜在规律,以丰富的可视化模型向客户进行展现, 在此基础上实现精准营销、统一广告发布、业务体验优化、 客户综合管理、风险控制等金融业务应用。由此,提升金融 业务的水平和效率,推进银行业务创新,降低银行管理和运 行成本。本项目的具体技术目标包括:开发金融数据采集工具:大数据分析需要收集来自银行 内部的和外部的、静态的和动态的各种金融数据,为此开发 各类金融数据采集工具,如动态采集SDK、日志提取分析工具、外部数据导入工具等。搭建Hadoop大数据集群:搭建Hadoop大数据集群,是 建设“金融大数据服务平台”的基础。利用多台性能较为一 般的服务器,组成一套基于HDFS和Map-Reduce机制的集群, 并根据需要在其上安装Hive、HBase、Sqoop、ZooKeeper等 软件。实现分析挖掘算法:支持Hadoop的分析挖掘算法,是 “金融大数据服务平台”的一个关键组成部分。在利用传统 数据挖掘技术的基础上,实现包括抽象的数学算法(如关联 算法、分类算法、聚类算法、时序分析算法等),以及在此 基础上针对金融业务的专业算法(如客户行为特征模型、效 果分析模型等),作为进一步构建抽象模型和金融专业模型 的基础。构建分析挖掘模型:支持Hadoop的分析挖掘模型,是 “金融大数据服务平台”的另一关键组成部分。在上一步基 础上,快速构建抽象的数学模型(如神经网络模型、事物关 联模型等),以及针对金融业务的专业模型(如精准营销模 型、广告效果评估模型等)。实现ETL工具:数据预处理也是“金融大数据服务平台” 需要解决的问题之一。利用市场上已有的数据预处理成果, 研发一个支持Hadoop的ETL工具,实现包括规范化、数据 抽样、数据排序、汇总、指定因变量、属性变换、数据替换、 数据降维、数据集拆分、离散化等功能。实现可视化展现工具:“金融大数据服务平台”上的分 析结果将主要采用丰富多彩的可视化形式向用户进行可视 化展现。利用市场上已有的相关技术和产品,研发一个可视 化展现工具,可以支持:分类树图、视觉聚类图、关联图、 序列图、回归图等多种可视化形式。实现金融业务应用:将分析挖掘的结果集成到具体的银 行业务系统中,如精准营销系统、统一广告发布平台、业务 体验优化系统、客户综合管理系统、风险控制系统等。具体 方式既可以是实现某个独立的新业务系统,也可以是在现有 系统中实现一个或多个新模块,从而扩充或提升原有的功 能。本项目的具体业务目标包括:精准营销:综合分析客户行为特征信息和金融业务分类 信息,可以得到客户最有可能感兴趣的业务以及业务最有可 能的潜在客户群,以此为基础有针对性地开展营销;统一广告发布:分析广告效果分析信息,可以得到各类 型、各渠道的最佳配置或薄弱环节,以此为基础改变广告策 略、提升广告效果;业务体验优化:分析客户业务体验信息、客户流失信息, 可以得到客户在各业务、各环节的转化率,分析流失原因, 在此基础上改进业务流程、提高服务质量,以提升客户满意度;客户流失分析:综合分析客户行为特征信息、客户流失 信息及其它信息,得到客户的全方面分析结果,在此基础上 改进客户关系管理的效率和水平;风险分析:分析客户属性数据、风险分析数据,可以得 到存在较高风险可能的客户群体和业务信息,在此基础上区 分特别关注目标、制定预防措施,降低这些客户和业务可能 带来的冲击。四技术方案4.1总体架构“金融大数据服务平台”由数据采集层、数据存储层、 分析挖掘层和业务应用层组成,总体框架如下图所示:数据采集层:负责从各类数据源中提取、导入数据,主 要产品包括:动态采集SDK、日志提取分析工具、外部数据 导入工具、其它数据提取工具等。数据存储层:负责将预处理后的数据进行存储,主要由 可进行横向扩展的Hadoop集群构成,另外辅之以关系数据 库作数据中转、元数据存储、供某些软件使用等用途。分析挖掘层:负责金融数据经建模、挖掘、评估和发布, 核心是实现两类数据挖掘的算法和模型:一类是抽象的数学 算法及模型,另一类是在此基础上针对金融业务的专业算法 和模型。业务应用层:负责将分析挖掘结果的可视化展现形式, 集成到相应的金融业务系统中。另外,在数据采集层和数据存储层之间,由ETL工具负 责数据预处理任务;在分析挖掘层和业务应用层之间,由可 视化展现工具负责分析挖掘结果的可视化展现任务。4.2技术架构“金融大数据服务平台”的技术架构采用多层次形式, 如下图所示:数据源包括各类动态数据(如行为数据)、静态数据(如 属性数据)、日志文件以及其它数据等,可以是结构化的、 半结构化的和非结构化的数据。在数据采集层,各采集工具根据具体情况采用不同的技 术实现方式,如对动态数据的采集,使用C/S架构的客户端 采集SDK,对日志文件使用Map-Reduce方式的分析提取工具, 对静态数据按Sqoop方式从关系数据导入,对其它数据则使 用定制化程序,等等。ETL (数据抽取、转换、加载)将采集到的各种数据整 合成统一的数据模型,包括数据清洗、数据转换、数据规约、 数据集成等。为加快项目进度和保证项目质量,初步决定在 某个支持Hadoop的开源ETL产品(如Kettle)的基础上进 行二次开发。在数据存储层,Hadoop集群使用Hadoop技术生态圈的 诸多关键技术,包括:分布式存储HDFS系统、并行处理 Map-Reduce 机制、No-SQL 数据库 Hbase、数据仓库 Hive、 协调系统ZooKeeper等。此外,还需用到关系数据库担任数 据中转、元数据存储、供某些软件使用等用途。分析挖掘层的任务是在Hadoop集群实现各种分析挖掘 算法和分析挖掘模型。算法和模型有两类,一类是抽象的数 学算法(如聚类算法、关联分析算法)和数学模型(如神经 网络模型、事物关联模型等),另一类是此基础上构建的专 业算法(如金融客户分类算法、效果评估算法)和专业模型 (如客户行为特征模型、效果评估模型)。为加快项目进度、 保证项目质量和扩大适应范围,初步决定在SAS和R的分析 挖掘包的基础上实现算法接口,并利用算法接口构建大部分 模型,其余部分视实际情况而以自主研发方式构建。可视化展现将分析挖掘结果面向用户进行各种可视化 展现(如散点图、直方图、分布图、饼图等),分析挖掘的 质量也决定着展现的质量。为加快项目进度,初步决定在某 个可视化展现开源产品(如R的图形包)的基础上进行二次开发。在业务实现层,分析挖掘结果集成到相应的金融业务系 统中。具体方式既可以是实现某个独立的新业务系统,也可 以是在现有系统中实现一个或多个新模块,从而扩充或提升 原有的功能。4.3物理架构“金融大数据服务平台”采用集中部署方式,硬件环境 由Hadoop集群服务器和数据库集群组成,如下图所示:其中,Hadoop集群包括两个NameNode (主从方式)和 多个DataNode (最少3个,以后根据需要增加);NameNode 用于管理数据在DataNode上的分配,而DataNode用于数据 的存储。NameNode和DataNode采用相同的配置,运营环境 中建议为:CPU为2块*16核,主频22.5GHz,内存128G, 硬盘12块*2T。数据库集群包括两台数据库服务器,采用双机热备方 式。其配置建议为:CPU为2块*16核,主频22.5GHz,内 存64G,硬盘12块*2T。五.项目人员组织5.1项目组织结构各组组成及职责为:项目领导组:由公司高管、部门经理担任,负责组织、 监督、协调项目的进行;项目经理:由项目领导组任命,基本职责是确保项目目 标准时、优质地完成;大平台组:负责金融大数据服务平台的相关事务,包括 搭建Hadoop大数据集群、实现数据挖掘算法、构建业务模 型等;业务组:承担与金融业务相关的事务,包括市场调研、 对金融业务系统、功能性产品的需求分析等;系统开发组:承担对各产品及业务系统的开发任务,包 括SDK产品、ETL工具、可视化展现工具、各个金融业务系 统的开发等。5.2项目人员配置组别级别人数备注项目领导组高级管理人员1或多人由公司高管、部门经理兼任项目经理中级管理人员1大平台组系统设计员多人技术专豕实施人员多人业务组需求分析员每产品或系统1人一般由组长兼任系统设计员每产品或系统1人业务实现组系统设计员每产品或系统1人一般由组长兼任编码人员多人测试人员多人实施人员多人六、项目进度计划“金融大数据服务平台”的整体进度分项目规划、需求 调研、项目实施、推广及服务共四个阶段。项目规划阶段自2014年11月3日至2014年11月28 日,共20个工作日。需求调研阶段自2014年11月24日至2015年3月20 日,共85个工作日项目实施阶段自2014年11月10日至2015年5月29 日,共145个工作日(含元旦、春节、劳动节等法定节假日), 按SDK产品、数据采集、集群搭建、算法层研发、构建模型、 ETL工具、可视化展现工具、统一广告发布系统、精准营销 系统、业务体验优化系统、客户流失分析系统和风险分析系 统共十二个小项分别进行。推广及服务阶段,每一项功能性产品或金融业务系统完 成后,即可开始进行推广,并一直持续进行。时间进度如下图,详细请参见“金融大数据服务平台进 度xls”和“金融大数据服务平台mpp”。1 L- 3.: .;-7i=l h +热律业务陆蛤优化檀AJ招冷i忻将母 构浅网瞪分析愤_ MITI.7H1TLI具即颇方案切贫开消工号扑牛I : IE叩.| H5-I.MnrmirsjBTH%i.r -1: 同规化工且祀现二二 I.:切二十ffi-rss布辎译油设计:; =gm=北体均俏.此耒拍亮至版开发 富门茂土普有.:i::i=i-JSS?FE完金反开发K虑好折弟浜详础计:一王 1 . E推广SB1&WTF敏据系集丽期1广TT-.|gr司祕化照讥推广苏&孩刈牌【布建旬肖推广业务邮忧it据广 吾|:土工.,街芯|:心法I-日日日日I日日日日曰日目日日曰B日日日日日目1曰日日日曰目 vr tr 作 vr 乍作 tr 作 vr 乍乍 乍 vr tr 作作 tr 乍作 T 曰作 工TiTflxlII工工iT1IflTJI1I.1fT1!I1nI.1TiT1Tflx1I1I1IfliT1工日T1加15年2月址曰网屿年3月B曰43如I5坪g月比曰迎日年3毕日44网15年2月I&曰20牵月汨44ZOI晰眈月I日201通W曰却14年I?月旧网快年坨月1阳5EOlq年12月22日如14年U月网目49Efliq敏2月器曰ED扫年】月日日5D却15新月I汩2D35fe 月 27 日5LE:l.-2山并3月ST日52加15年3月3。曰M】5年4月凶日53EOI呻日HIL!由很口却15年I月I2曰30151月垢日2A加15年I月M日M】5年1月为目%即IS饪I月题曰EDIS年2月ZT日57-Mlg月27日5&皿5年3月网曰 堂M4年!I.斐月史9目的1并月溟曰却帏年3月占曰胡2014在I2月29曰zsm年】毕日9却15年I月I2曰网1牵月门日20152270M】5年3月2T目83PIILTE L月】9日201 通 4月 LII口却15年1月19曰20151月.艾1日L0网15年2月2日饵心5年3月B目eeM15年3月9日M】5年4月】。日8?ZOI弭3月骐日也IL:由”月L口却15年3月16曰2山并3月ST日LL加15年3月3。曰M】5年4月:IT日70. 4201514月叩曰EDI日年S月扫日7L2015230mu 年 SJJ?HH加15年:月的日叩15年4月3目L=154 月 13 曰r 一I n:,- sn J作目-I I j : II 一220工作日Lli 11 HVI _ |L : TJ-I顼rrL : j : II -IL工作日?l : j : ri _ ilEUI5虹5月q曰EU旧车5月23日75ZOI牌明路曰mis 年 sjj?n|-|加15年3月前曰网】5年4月3曰L3如15蛀q月13日zsm年s月】日7B.EEmi.-网1弹5月理日花NU14坪云月更旺同2015年6月1曰2a 14 IE月至曰题11年龙月2日2D却15年1月14曰EDlSl 月 14 日2&-20雄月汨於M15年3月2日部】5年3月2目W如15*3月3口曰8DI旨年3月3日E4网15年4月13曰并月13日K加15年5月比曰M】5年5月】8日72EDIEG 月1曰的日与5月日7E.|=或.|-,1已80咬站月日注:市场推广和服务的结束时间实为“持续”。七财务及设备计划暂无。八风险管理软件项目开发具有连续性、复杂性、少参照性、无规范 标准等特点,风险程度较高。对于“金融大数据服务平台”, 不但涵盖范围广,包含产品多,而且技术要求高,业务需求 复杂,因此尤其需要重视各种风险。以下是“金融大数据服务平台”可能遇到的风险及其防 预措施:合同风险:与客户签订的合同不科学、不严谨,与客 户在项目边界和各方面责任界定不清等是影响项目成败的 重大因素之一。预防措施是项目建设之初,要全面准确地了 解合同各条款的内容、尽早就模糊或不明确的条款签订补充 协议。需求变更风险:这是软件项目经常发生的事情。一个 看来很有利可图的项目,往往由于无限度的需求变更而让开 发方苦不堪言,甚至最终亏损。预防措施是项目建设之初, 就和客户书面约定好需求变更控制流程、记录并归档客户的 需求变更申请。沟通不良风险:项目组与项目各干系方沟通不良,是 影响项目顺利进展的一个非常重要的因素。预防措施是项目 建设之初就和项目各干系方约定好沟通的渠道和方式、项目 建设过程中多和项目各干系方交流和沟通、注意培养和锻炼 自身的沟通技巧。缺乏支持风险:上级领导的支持是项目获得资源(包 括人力资源、财力资源和物料资源等)的有效保障,也是项 目遇到困难时项目组最强有力的“后台支撑”。预防措施是 主动争取上级对项目的重视、确保和上级领导的沟通渠道畅 通、经常向上级领导汇报工作进展。进度风险:所有项目都对进度有着严格要求,项目进 度的延迟意味着违约或市场机会的错失。预防措施一般是分 阶段交付产品、增加项目监控的频度和力度、多运用可行的 办法保证工作质量避免返工。质量风险:项目对软件质量也都有很高要求,需要密 切关注项目的质量风险。预防措施一般是经常互相交流工作 成果、采用符合要求的开发流程、认真组织对产出物的检查 和评审、计划和组织严格的独立测试等。系统性能风险:一般情况下,项目对性能要求也很高, 这时项目组就需要关注项目的性能风险。预防措施一般是在 进行项目开发之前先设计和搭建出系统的基础架构并进行性能测试,确保架构符合性能指标后再进行后续工作。工具风险:软件项目开发和实施过程,所必须用到的 管理工具、开发工具、测试工具等是否能及时到位、到位的 工具版本是否符合项目要求等,是项目组需要考虑的风险因 素。预防措施一般是事先落实好各项工具的来源或可能的替 代工具,在工具使用之前跟踪并落实工具的到位事宜。技术风险:在整个项目建设过程中,技术因素始终非 常重要。一定要本着项目的实际要求,选用合适、成熟的技 术,千万不要无视实际情况而选用一些虽然先进但并非所必 须且自己又不熟悉的技术。如果项目所要求的技术项目成员 不具备或掌握不够,则更要重点关注该风险因素。预防措施 是选用项目所必须的技术、在技术应用之前,针对相关人员 开展好技术培训工作。团队成员能力和素质风险:团队成员的能力(包括业 务能力和技术能力)和素质,对项目的进展、项目的质量具 有很大的影响,在项目的建设过程需要始终关注该因素。预 防措施是在用人之前先选对人、开展有针对性的培训、将合 适的人安排到合适的岗位上。团队成员协作风险:团队成员是否能齐心协力为项目 的共同目标服务,生产管理是影响进度和质量的关键因素。 预防措施是项目在建设之初,项目经理就需要将项目目标、 工作任务等和项目成员沟通清楚,采用公平、公正、公开的 绩效考评制度,倡导团结互助的工作风尚等。人员流动风险:项目成员特别是核心成员的流动给项 目造成的影响是非常可怕的人力资源。人员的流动轻则影响 项目进度,重则导致项目无法继续甚至被迫夭折。预防措施 是尽可能将项目的核心工作不集中在个别人身上,同时加强 同类型人才的培养和储备。系统运行环境风险:软件系统赖以运行的硬件环境和 网络环境的建设进度,也对软件系统是否能顺利实施具有相 当大的影响。预防措施是和环境提供方签订相关的协议、跟 进系统集成部分的实施进度、及时提醒客户等。除了以上列举的可预见风险,还可能会出现一些没有列 举甚至是事先无法预期的风险,需要项目管理者尽早地去识 别它们、评估风险出现的概率和影响面,从而保证项目如期、 保质完成。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!