大数据治理解决方案课件

上传人:94****0 文档编号:242624638 上传时间:2024-08-29 格式:PPTX 页数:24 大小:592.35KB
返回 下载 相关 举报
大数据治理解决方案课件_第1页
第1页 / 共24页
大数据治理解决方案课件_第2页
第2页 / 共24页
大数据治理解决方案课件_第3页
第3页 / 共24页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,#,1,大数据,治理,体系与数据,治理,体系的联系与区别,大数据,治理是,一项系统工程,大到大数据技术平台的搭建、组织的变革、政策的制定、流程的重组,小到元数据的管理、主数据的整合、各种类型大数据的个性化治理和大数据的行业应用。,组织必须治理全部大数据,,将,大数据治理定义如下:,大,数据治理是,广义数据治理,计划的一部分,即制定与大数据有关的数据优化、隐私保护与数据变现的政策。,将,上述大数据治理的定义分解为以下部分:,1,大数据是,广义,数据,治理,计划的,一部分,数据,治理,机构必须采取以下措施,以将大数据整合到既有,的,数据,治理,框架中: 扩展数据治理宪章的外延,将大数据治理纳入其中; 拓宽数据治理委员会成员的范围,将数据科学家等大数据的超级用户吸纳进来; 任命处理社交媒体等特定大数据的主管; 将大数据与元数据、隐私、数据质量和主数据等数据治理准则结合。,大数据治理关乎政策,制定,政策包括人们在特定情形下如何作为的成文和非成文的宣告。譬如,大数据治理政策可能申明,未经顾客知情并同意,组织不得将顾客的,Facebook,资料整合到其主数据记录中。,大数据必须,优化,考虑一下组织是如何将现实世界的准则应用到大数据治理中的。公司设计了精致的企业资产管理计划,对机器、飞机、交通工具和其他资产进行妥善管理。与对实物资产进行登记类似,组织必须对大数据进行如下优化: 元数据,建立大数据类别,信息;,数据质量管理,像公司对实物资产进行定期检修一样,定期净化大,数据,;信息生命周期管理,对大数据进行存档,并在没必要继续保存某些数据时,将其删除。,大数据隐私至关重要,组织同样必须建立旨在防止大数据误用的适当政策。组织在处理社交媒体、地理定位、生物计量学和其他形式的个人可识别信息,(PII),时,必须考虑涉及的声誉、规制和法律风险。,大数据必须变现,所谓变现,就是将数据等资产转化为现金的过程,变现的方式可以是将数据卖给第三方,也可以是利用数据开发新的服务,。,在,当下,公司意识到,必须将大数据视为具有财务价值的企业资产。例如,运营部门可以通过传感器数据,根据定期检修计划,提高设备正常运行时间。呼叫中心可以分析客户代表的记录,通过了解顾客呼叫的原因,降低呼叫量。此外,零售商可以使用主数据激活,Facebook,的应用程序,提升顾客忠诚度。,1大数据治理体系与数据治理体系的联系与区别大数据治理是一项系,2.1,大数据治理框架,大,数据治理框架由三大部分组成:大数据类型、大数据治理领域、行业与功能,2,产业和功能场景,保险业,电信业,零售业,公共事业,医疗保健业,组织,元数据,隐私,数据质量,大数据类型,web,和社交媒体数据,机器对机器的数据,生物计量学数据,大体量交易数据,人工生成的数据,信息治理,大数据治理需要高度聚焦于数据本身。,传统的数据治理领域同样适用于大数据,大数据分析受用例驱动,用例的具体情况因产业和功能而异。,客户服务,IT,业务流程整合,情绪分析,Facebook,忠诚度计划,客户流失分析,索赔调查,IT,日志分析,车载通信技术,位置服务,索赔欺诈分析,智能仪表,患者监测,索赔分析,客户流失分析,通话质量保证,基因测试,人脸识别,承保,电子病历,RFI,日志,2.1大数据治理框架大数据治理框架由三大部分组成:大数据类型,3.1,大数据治理成熟度模型,实施,大,数据治理的第一步,是评估大数据治理成熟度的当前状态和期望的未来状态。现将某信息治理委员会的成熟度模型用于成熟度评估。该模型设立了,4,个领域的,11,个大数据治理成熟度指标。,3,支持准则,数据架构,数据标准,审计信息日志和报告,核心,准则,数据质量管理,信息生命周期管理,信息安全与隐私,支持要素,管理人员,数据风险管理,政策,目标,业务成果,要求,支持,增强,组织机构和认识,元数据,3.1大数据治理成熟度模型实施大数据治理的第一步,是评估大数,3.1.1,大数据治理成熟度模型介绍及问题示例,4,目标,目标指信息治理计划的预期结果。目标倾向于关注降低风险与提升价值,这反过来又受降低成本和提高收入的驱动。,业务成果:代表信息治理计划的目标和目的。,业务成果:,A,是否已经确定了大数据治理计划的关键业务关联方?,B,是否对大数据治理可带来的财务收益进行了量化?,支持要素,核心准则,支持,准则,组织结构和认识:指业务部门和,IT,部门间的相互责任,以及对治理不同管理层次中数据的信托责任的认识。,管理人员:旨在保证数据监护,实现资产增值、风险消解和组织控制的质量控制准则。,数据风险管理:据以识别、保留、量化、规避、接受、消解和转嫁风险的方法论。,政策:期望得到落实的组织行为的书面表达。,数据结构和认识:,如,关键角色的职位说明中,是否包含大数据治理,如配备首席数据官和信息治理官?,管理人员:是否已经建立了责任分配(,RACI,)矩阵,以定义针对大数据关键属性的角色和责任?,数据风险管理:是否在大数据治理与风险治理之间建立了联系?,政策:是否已经归档了一组大数据治理政策?,数据质量管理:指测量、提高和保证产品数据、测试数据和归档数据的质量和集成性的方法。,信息生命周期管理:有关信息采集、使用、保留和删除的系统化的、基于策略的方法。,信息安全与隐私:组织用于消解风险和保护数据资产的策略、实践和控制手段。,数据质量管理:对于与大数据相关的质量问题(数据价值不高或不显著),是否达成了一致意见?,信息生命周期管理:是否制定了流程,根据法律和业务要求合法处理不再需要的大数据?,信息安全和隐私:首席信息安全官是否是大数据治理计划的关键支持者?,数据架构:结构化和非结构化数据系统及应用的架构式设计,用于实现数据的可用性,并将数据分配给合适的用户。,元数据:指用于创建常见的语义定义、,IT,术语、数据模型和数据库的方法和工具。,审计信息日志和报告:指监测和测量数据价值、风险和信息治理有效性的组织流程。,数据架构:,Hadoop,、,NoSQL,以及与当前架构相关的其他新兴大数据技术的共存战略是怎样的?,分类和元数据:业务词库是否包含与大数据相关的关键业务术语(如针对点击流数据的“独立访客”)?,审计信息日志和报告:企业如何检测特权用户对医保索赔和通话详单等敏感大数据的访问?,问题示例,模型介绍,3.1.1大数据治理成熟度模型介绍及问题示例4目标目标指信息,案例,5.2,某大型金融机构资金管理部的大数据治理路线图,5,创建,Hadoop,基础设施,大数据治理的演进,关键活动,每日头寸快照,社交媒体和非结构化内容,治理大数据,某大型金融机构的资金管理部,为大中型企业提供现金管理和流动性管理的综合服务。该部门处于部署大数据计划的早期阶段,其最初的大数据治理路线图如右图所示:,第,1-6,个月,构建技术基础设施,获得,Linux,服务器和,Apache Hadoop,发行版。,由于大数据是一个新事物,在切入业务前,必须设计一个可行的用例,并进行财务可行性论证。,此外,组织要认真审视数据管理的传统方面:,怎样将数据导入并导出,Hadoop?,Hadoop,中的数据质量如何?,大,数据的元数据是怎样的?,如何将大数据整合到未来,12,个月将要部署的主数据管理数据库中?,大数据已经成为主流媒体的热门词汇,高管层至少很有可能同意支持一个大数据试点项目。因此,数据治理团队需要及时更新路线图,将与大数据有关的人员、流程和技术计划纳入其中。,第,6-12,个月,引入详细的交易记录,以分析每日头寸快照。,受传统基础设施成本高昂的影响,以往的金融机构从未进行这样细致入微的分析。,第,12-24,个月,将社交媒体数据和其他非结构化内容引入,Hadoop,环境。由于金融机构的大多数客户是大企业,对交易对手的,10-K,和,10-Q,归档等非结构化内容,进行探索性分析。,第,24-36,个月,资金管理部已经有了现成的聚焦于大企业客户的主数据的信息治理计划。,案例5.2 某大型金融机构资金管理部的大数据治理路线图5创建,大数据处理框架的组成,6,大数据治理需要高度聚焦于数据本身。我们将大数据分为五种:,web,和社交媒体数据、机器对机器的数据、大体量交易数据、生物计量学数据和人工生成的数据。,大数据类型,信息治理准则,产业与功能,传统的信息治理准则,同样适用于大数据,相关准则包括组织、元数据、隐私、数据质量、业务流程整合、主数据整合和信息生命周期管理。,大数据分析是受例驱动的,用例的具体情况因产能和功能而异。限于篇幅,我们只列出了部分的产业和功能。,大数据处理框架的组成6大数据治理需要高度聚焦于数据本身。我们,大数据的类型,大数据大体可分为五种类型,7,Web,和社交媒体数据,二的,点击流数据,Twitter Feeds,Facebook,帖子,网络内容,Web,和社交媒体数据,二的,点击流数据,Twitter Feeds,Facebook,帖子,网络内容,机器对机器的数据,二的,公用事业智能仪表读数,RFID,读数,石油钻探设备传感器读数,网络内容,Web,和社交媒体数据,二的,点击流数据,Twitter Feeds,Facebook,帖子,网络内容,Web,和社交媒体数据,二的,点击流数据,Twitter Feeds,Facebook,帖子,网络内容,类型,大数据的类型大数据大体可分为五种类型7Web和社交媒体数据二,6.1,职责分配(,RACI,)所代表的内涵,8,应负责方(,R,esponsible,),指授权管理某属性的人。,(一,种,属性可有多个负责人),最终负责方(,Accountable,),指,数,据属性承担最终责任的人。,咨询方,(,C,onsulted,),指通过双向沟通接受咨询的某人或某些人。,被告知方(,Informed,),指通过单向沟通被告知的某人或某些人。,6.1职责分配(RACI)所代表的内涵8应负责方(Respo,7,大数据治理计划需要实施的最佳实践,9,1,3,2,4,创建一个体现关键大数据术语的业务定义的词库。,理解对,Apache Hadoop,中元数据的持续支持。,对业务词库中的敏感大数据进行标记。,从相关的大数据存储中输入技术元数据。,将相关的数据元与业务词库中的术语进行链接。,5,7,6,8,使用运营元数据监测大数据的流动。,保留技术元数据,以支持数据血统和影响分析。,从非结构化文件中采集元数据,支持企业搜索。,扩展既有的元数据角色,将大数据纳入其中。,9,元数据是描述数据产品特征的任何信息,如名字、位置、可感知的、重要性、质量、对企业的价值,以及与企业认为值得管理的其他数据产品的关系等。元数据决定信息架构的如何满足业务需求,因此元数据是信息治理计划的关键。,7大数据治理计划需要实施的最佳实践91324创建一个体现关键,7.1,业务词库,10,业务词库,业务词库是企业用于传达其对信息的认识的语言。创建并维护该层业务元数据,对表达要求的含义和描述,IT,系统可用的信息至关重要。,业务词库保证了信息开发的准确性和速度。,术语代表着企业和业务层面对信息的理解,所以许多组织倾向于自下而上创建数据词典,对已有的信息进行归类,。,在处理大数据时,业务驱动的数据定义和数据目录之间的区别尤为重要,业务词库保证了信息开发的准确性和速度。,在处理大数据时,业务驱动的数据定义和数据目录之间的区别尤为重要。,7.1业务词库10业务词库业务词库是企业用于传达其对信息的认,7.3,对业务词库中的敏感数据,11,对敏感的大数据进行分类,发现敏感数据,对业务词库中的敏感数据进行标记,执行大数据隐私政策,进行分类,大数据治理计划需要对社会保险号码等,敏感数据进行分类。分类应来自业务词库模型并被传承到不同数据库中数据的所有物理实例中。,敏感的大数据可能隐藏在非结构化文本中。大数据治理计划应考虑数据分析工具的利用,以便自动发现非结构化字段的敏感数据。,首席,信息安全官制定有关敏感数据的政策。只有在识别到敏感数据的位置时,组织才能执行政策,因此,在业务词库中标记敏感数据就非常关键。,大,数据治理团队可以通过使用数据分析工具发现敏感的大数据,以监督对政策的遵从度。,7.3对业务词库中的敏感数据11对敏感的大数据进行分类发现敏,从相关的大数据存储中输入技术元数据,12,在创建业务词库后大数据治理团队需要从,大数据源,中采集合用的、相关的元数据。,大数据源,Hadoop,文件,商业智能报告,应用,数据库,数据模型,准结构化,非结构,化数据,结构化,信息管理经销商,元数据,中央存储库,桥接器,连接器,从相关的大数据存储中输入技术元数据12在创建业务词库后大数据,THANK YOU,SUCCESS,2024/8/29,13,可编辑,THANK YOUSUCCESS2023/9/513,7,元数据,14,元数据,创建一个体现关键大数据术语的业务定义的词库,理解对,Apache Hadoop,中元数据的持续支持,对业务词库中的敏感大数据进行标记,从相关的大数据存储中输入技术元数据,将相关的数据元与业务词库的术语进行链接,使用运营元数据监测大数据的流动,保留技术元数据,以支持数据血统和影响分析,7 元数据14元数据创建一个体现关键大数据术语的业务定义的词,从非结构化文件中采集元数据,支持企业搜索,创建非结构化数据的索引,也是元数据的一种形式,许多企业的搜索供应商已开发相应工具。,15,保险业,通过向呼叫人员提供客服关怀、告警、保单和客户信息文件等多个文件库的可搜索访问,可将平均处理时间减少三秒,年节约数百万美元。,通过提供对,EMC Documentum,、文件系统、微软,Share-Point,、内网和外部数据库中客户、患者和研究数据的快速访问,加快科研进程。,让临床医生可访问来自医学刊物和其他文件库的最新研究成果。,制药,业,医疗保险业,从非结构化文件中采集元数据,支持企业搜索创建非结构化数据的索,7.9,拓展既有的元数据角色,将大数据纳入其中,信息治理团队可能安排许多与原数据相关的角色。组织需考虑这些角色进行拓展,以将大数据治理纳入进来。,16,业务词库管理者,数据科学家,元数据管理者,数据血统管理者,数据主管,数据架构师,本角色负责保管应将大数据术语包含在内的业务词库。,本角色,负责在相关数据源识别和输入技术元数据。,数据血统管理者与数据管理者配合,确保数据血统分析中数据源之间的数据流可得到准确地反映。,本角色,参与大数据特别是关键业务术语定义的管理。,本角色,监督元数据模型的创建及其与企业数据模型的连接。,本角色,缩短了大数据原始卷和使其有用的业务洞察间的距离,其通过创造力和想象力创建原型,以揭开大数据中的秘密。,7.9 拓展既有的元数据角色,将大数据纳入其中信息治理团队可,9,大数据质量,17,维度,传统数据的质量,大数据的质量,处理频率,处理是面向批量的,处理是实时的或面向批量的,数据多样性,数据格式大部分是结构化的,数据格式可能是结构化的、准结构化的或非结构化的,置信度,数据需处于原始阶段,以方便数据仓库的分析,糟糕的数据质量可能会阻碍分析工具获得业务洞察,数据进化的时间选择,在下载到数据仓库前数据需要进化,数据的体量和速度可能要求采取流式的、内存中的分析来进化数据、从而降低存储要求,关键数据元素,评估客户地址等关键数据元素的数据质量,数据可能被模糊定义或错误定义,关键数据元素可能会反复变化,分析位置,数据迁移到数据质量和分析引擎,数据质量和分析引擎可进入数据中,以保证可接受的处理速度,管理工作,数据主管可管理大部分数据,由于体量大和速度快,数据主管只能管理相对更小的数据,数据质量管理是测度、提高、验证质量以及整合组织数据的方法等一套行为准则。体量极大、速度极快和多样的特点,决定了大数据质量所需的处理有别于传统信息治理计划的质量管理。,9 大数据质量17维度传统数据的质量大数据的质量处理频率处理,大数据治理计划必须采取的实践,18,9.1,与商业上的利益攸关者协作,建立并测度大数据质量的置信区间,9.2,利用准结构化和非结构化数据,提高人口稀疏的结构化数据的质量,9.3,使用流数据分析技术解决内存中的数据质量问题,无需将中间结果输入硬盘,9.4,任命对信息治理委员会负责的主管,由其负责提高,大数据治理计划必须采取的实践189.1 与商业上的利益攸关者,10,业务流程整合,19,10.1,识别将会受到大数据治理影响的关键流程,10.2,建立关键合同的流程图,10.3,针对业务流程中的关键步骤,制定大数据治理政策,10 业务流程整合 1910.1识别将会受到大数据治理影响的,1.,大数据源,图,21.1,大数据技术参考架构,20,Web,和社交媒体数据,机器对机器的数据,大体量交易数据,生物计量学数据,人工生成的数据,15.,大数据安全和隐私,16.,大数据生命周期管理,17.,云,2.,开源的基础组件,HDFS,MapReduce,H,adoop Common,HBase,Others,5.,数据库,NoSQL,In-Memory,Relational,Legacy,6.,大数据整合,批量迁移,复制,虚拟化,7.,文本分析,8.,大数据,发现,9.,大数据,质量,10.,元数据,11.,信息政策管理,12.,主数据管理,13.,数据仓库和数据集市,14.,大数据分析和报告,3.Hadoop,发行版,4.,流,媒体分析,18.,大数据标准,8.,大数据,发现,9.,大数据,质量,1.大数据源图21.1 大数据技术参考架构20Web和社交媒,微软的大数据平台,21,1.,微软,Hadoop,发行版,6.Windows Azure,Excel,5.,大数据分析与报告,SQL Server Analysis,Services,SQL,Server Parallel Edition,SQL Server Reporting,Services,4.,数据仓库与数据集市,3,.,大数据整合,2.,数据库,开源基础组件,大数据源,SQL,Server Integration Services,SQL,Server,微软的大数据平台211.微软Hadoop发行版6.Windo,理解对,Apache Hadoop,中元数据的持续支持,22,名称节点,数据块,A,数据节点,机架,1,数据块,B,数据块,C,数据块,A,数据节点,机架,2,数据块,B,数据块,C,数据块,A,数据节点,机架,3,数据块,B,数据块,C,图:,Hadoop,分布式文件系统(,HDFS,),的技术构架,作为,Hadoop,关键支持要素的元数据,如图,Hadoop,分布式文件系统(,HDFS,)是一个带单个名称节点和多个数据结点的主,/,从架构。,单点故障,因为,HDFS,很容易受到名称节点故障的损害,所以,Hadoop,经销商建议管理者存储一些不同本地硬盘的备份,可拓展性,随着数据存储动能的扩大,主服务器名称节点可能出现可拓展性的问题,主服务器名称节点必须将所有元数据保存在内存中。,HCatalog,Hcatalog,项目是,Apache,孵化器的 一部分,旨在解决,Hadoop,中缺乏元数据支持的问题。,理解对Apache Hadoop中元数据的持续支持22名称节,大数据安全与隐私,23,部分漏洞,变通方案,HDFS,没有授权系统,注册用户可以在群中读写任何数据,Hadoop,注册用户通过“,whoami,”命令访问,这是不安全的,Hbase,没有访问控制,,Hadoop,群中任何工作运行均可以访问群中任何数据,不要在,Hadoop,中存储任何敏感数据,对敏感数据进行加密,包括隐藏文本和非结构欧化领域的内容,将,每个数据置于自己的群中,以便用户仅可以访问被授权的数据,Hadoop,是一项新技术,我们预计随着大公司和供应链的介入,上述问题将被得到解决。,大数据安全与隐私23部分漏洞变通方案 HDFS没有授权系统,,THANK YOU,SUCCESS,2024/8/29,24,可编辑,THANK YOUSUCCESS2023/9/524,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!