Greenplum数据仓库技术架构介绍课件

上传人:无*** 文档编号:241307815 上传时间:2024-06-17 格式:PPTX 页数:43 大小:703.81KB
返回 下载 相关 举报
Greenplum数据仓库技术架构介绍课件_第1页
第1页 / 共43页
Greenplum数据仓库技术架构介绍课件_第2页
第2页 / 共43页
Greenplum数据仓库技术架构介绍课件_第3页
第3页 / 共43页
点击查看更多>>
资源描述
Greenplum数据仓库技术架构介绍1OLAP在互联网公司的实践与思考Greenplum数据仓库技术架构介绍1OLAP 在互联网公Greenplum状状态态描述描述2三三Greenplum体系架构体系架构二二数据数据仓库仓库体系架构体系架构一一Greenplum开开发规发规范范五五Greenplum运运维维体系体系四四Greenplum状态描述2三Greenplum体系架构二数数据仓库体系架构3数据仓库架构要点数据生命周期业务数据特点OLAP场景举例OLAP架构示意数据流转过程具体技术实现-数据认识-业务认识-业务需求-整体框架-数据流转-实现方式数据仓库体系架构3数据仓库架构要点数据生命周期数据认识数据仓库体系架构4数据生命周期与业务归类时间维度:过去-现在-未来(数据的生命周期)“现在”的数据 OLTP“过去”的数据 OLAP“未来”的数据 趋势分析数据仓库体系架构4数据生命周期与业务归类时间维度:过去-数据仓库体系架构5业务数据特点现在的数据 OLTP实时,在线系统,客户使用事务小,频率高,并发高过去的数据 OLAP非实时(T+1,或小时级),离线系统,分析决策事务大,频率相对小,并发低未来的数据 趋势分析非实时,离线+在线流系统,趋势分析算法分析,持续计算数据仓库体系架构5业务数据特点现在的数据 OLTP数据仓库体系架构6OLAP场景举例业务相关场景用户状态(注册数,活跃数,并发量,峰值)金币状态 道具/物品状态 对账状态活动反馈架构相关场景不同数据量,不同事务特点,不同查询需求历史数据归档与冷热分离实时与延时需求的权衡数据仓库体系架构6OLAP场景举例业务相关场景数据仓库体系架构数据架构示意图7数据仓库体系架构数据架构示意图7数据仓库体系架构8数据流转过程1 业务数据的产生 OLTP2 业务数据的中转 ETL服务器3 数据的存储和计算 OLAP集群4 结果数据的展现 数据集市5 访问接口的封装 API接口服务器6 最终数据的显示 前端界面7 结果数据的交互 OLTP,趋势分析8 OLAP数据流转 dbsync平台数据仓库体系架构8数据流转过程1 业务数据的产生 OL数据仓库体系架构9架构的具体技术实现轻量级数据仓库 Inforbright与MySQL数据库结合,易使用,冷热分离数据库归档,只能load,不支持DML对特定OLAP类查询有很好的支持作用通用性数据仓库 Greenplum独立的数据库仓库解决方案可以很好支持各种方式的数据加载和DML操作具备海量的数据存储和计算性能数据仓库体系架构9架构的具体技术实现轻量级数据仓库 IGreenplum状状态态描述描述10三三Greenplum体系架构体系架构二二数据数据仓库仓库体系架构体系架构一一Greenplum开开发规发规范范五五Greenplum运运维维体系体系四四Greenplum状态描述10三Greenplum体系架构二greenplum体系架构11体系结构要点postgresql体系结构pg逻辑和物理结构Greenplum体系结构GP架构特点与功能-单元结构-单元分解-集群结构-集群特点greenplum体系架构11体系结构要点postgresqgreenplum体系架构postgresql体系结构12greenplum体系架构postgresql体系结构12greenplum体系架构13postgresql体系结构pg结构组成连接关系系统编译执行系统存储执行系统事务系统系统表pg逻辑和物理结构instance实例-user-tablesapcedatabase-schema-table,view,function-data r o w物理文件-oid-表空间-数据文件命名greenplum体系架构13postgresql体系结构pgreenplum体系架构greenplum的体系结构14greenplum体系架构greenplum的体系结构14greenplum体系架构greenplum的体系结构15greenplum体系架构greenplum的体系结构15greenplum体系架构16greenplum的体系结构greenplum的架构特点MPP ShareNothing 海量并行处理+完全无共享cpu计算能力数据从Disk上的I/O吞吐性能master管理节点segment数据节点greenplum的核心功能无共享MPP多态存储(gpfdist+外部表,每小时4TB+)高效数据加载分布分区数据压缩外部访问greenplum体系架构16greenplum的体系结构gGreenplum状状态态描述描述17三三Greenplum体系架构体系架构二二数据数据仓库仓库体系架构体系架构一一Greenplum开开发规发规范范五五Greenplum运运维维体系体系四四Greenplum状态描述17三Greenplum体系架构二Greenplum现状说明18Greenplum集群现状概述三大Greenplum集群体系公司IDC_01机房Greenplum体系公司IDC_02机房Greenplum体系公司IDC_03机房Greenplum体系Greenplum现状说明18Greenplum集群现状概述Greenplum现状说明19三大Greenplum集群定位分类公司IDC_01机房Greenplum体系公司第一套Greenplum集群,网络环境为千兆网数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作以对账业务为主,统计计算为辅公司IDC_02机房Greenplum体系针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数以重点业务线、活动数据、非OLTP业务数据的任务计算为主公司IDC_03机房Greenplum体系数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方 式以核心业务的数据计算、统计为主Greenplum现状说明19三大Greenplum集群定位Greenplum现状说明数据架构示意图20Greenplum现状说明数据架构示意图20Greenplum现状说明21三大Greenplum集群关系数据来源不同数据处理不同时效速度不同体系架构相同年表划分相同平台整体定位定位不同,多集群配合形成逻辑大集群Greenplum现状说明21三大Greenplum集群关系Greenplum现状说明Greenplum多层业务规划图22Greenplum现状说明Greenplum多层业务规划图2Greenplum状状态态描述描述23三三Greenplum体系架构体系架构二二数据数据仓库仓库体系架构体系架构一一Greenplum开开发规发规范范五五Greenplum运运维维体系体系四四Greenplum状态描述23三Greenplum体系架构二Greenplum运维体系24运维要点环境规划与部署系统状态监控数据库备份数据传输与同步任务调度-构建系统-监控系统-保障系统-流转系统-计算系统Greenplum运维体系24运维要点环境规划与部署构建系统Greenplum运维体系25环境创建与部署部署流程规划部署方案准备硬件资源修改系统参数安装 Greenplum 软件/postgresql软 件初始化实例修改实例参数文件 初 始化业务所需库表环境、用户环 境 加载数据业务程序访问Greenplum运维体系25环境创建与部署部署流程Greenplum运维体系26环境创建与部署部署注意点资源要充足(ETL,管理节点,数据节点,数据集市)万兆网络(网络环境对功能和性能的影响)节点规划(数据节点6-10个segment节点)参数调整(操作系统参数,greenplum集群参数)Greenplum运维体系26环境创建与部署部署注意点Greenplum运维体系系统状态监控-gpcc-公司IDC_01机房27Greenplum运维体系系统状态监控-gpcc-公司Greenplum运维体系系统状态监控-gpcc-公司IDC_02 机房28Greenplum运维体系系统状态监控-gpcc-公司Greenplum运维体系系统状态监控-gpcc-公司IDC_03机房29Greenplum运维体系系统状态监控-gpcc-公司Greenplum运维体系30数据库备份配置与结构备份多机房级联备份Greenplum在本机进行第一次备份备份通过rsync传输到同机房ETL服务器各机房ETL服务器在备份到备份服务 器结果数据备份Greenplum集群与postgresql集市备份结果数据csv文件备份结果数据到备份postgresql实例Greenplum运维体系30数据库备份配置与结构备份Greenplum运维体系31数据库数据传输与同步数据同步情况分类reader端与writer端全量,id列增量,date列增量datax,csv,load,copy数据同步结果确认与显示数据同步方式gpfdist+外部表:UMGW大表db_sync同步程序:底层库+同步逻辑+Django界 面临时同步需求:datax,copyGreenplum运维体系31数据库数据传输与同步数据同步情Greenplum运维体系数据库数据传输与同步-db_sync32Greenplum运维体系数据库数据传输与同步-db_synGreenplum运维体系数据库数据传输与同步-db_sync33Greenplum运维体系数据库数据传输与同步-db_synGreenplum运维体系34Greenplum任务调度greenplum内部存储过程调度大批量任务采用 kettle调度单个存储过程,可以在shell中 select func_name()的方式调 度外部任务调度将整个过程封装成shell脚本,或 Python脚本用crontab在操作系统调用脚本用 opencron在图形界面调用脚本Greenplum运维体系34Greenplum任务调度grGreenplum运维体系Greenplum任务调度-opencron35Greenplum运维体系Greenplum任务调度-opeGreenplum状状态态描述描述36三三Greenplum体系架构体系架构二二数据数据仓库仓库体系架构体系架构一一Greenplum开开发规发规范范五五Greenplum运运维维体系体系四四Greenplum状态描述36三Greenplum体系架构二Greenplum开发规范37开发规范要点不规范容易出现的问题业务库表设计规范用户与权限规范Greenplum使用规范-规范必要性-库表设计-权限控制-操作注意Greenplum开发规范37开发规范要点不规范容易出现的问Greenplum开发规范38不规范容易出现的问题GP架构易出现问题资源不足 连 接、语句执行失 败 多任务冲突库表使用易出现问题表定义过大表类型单一表的散列键不恰当分区表的分区键性能不佳加载易出现问题文件加载出现特殊字符数据校验标准问题Greenplum开发规范38不规范容易出现的问题GP架构易Greenplum开发规范39业务库表设计规范GP中表的范围最大时间为年表数据量小,可用单表多种表类型堆表(选好常用列作为三列键)分区表(按照 yyyymmdd 分区,建议都添加 datenum i n t 8)append表列存储表多种表类型结合表的命名GP内所有名称都小写table_name命名要符合命名规则,做到见名知义Greenplum开发规范39业务库表设计规范GP中表的范围Greenplum开发规范40用户与权限规范四层授权保保障角色 role:管理数据库内对象权限用户 user:用户认证权限pg_hba.conf:实例权限配置文件iptables:防火墙IP访问配置策略账号类型划分管理账号开发账号调度账号业务账号测试账号账号名称限定所有都用小写字母加下划线的方式按照命名规则,做到见名知义Greenplum开发规范40用户与权限规范角色 role Greenplum开发规范41Greenplum使用规范平时使用规范避免高频率的insert、update操作避免频繁执行高内存消耗的会话避免出现死锁可以在适当的时候执行 vaccum 操作避免直接在Greenplum执行消耗session会话的操作尽量不创建索引上线与调度规范上线的程序,必须要经过测试,才可以生产使用调度程序需考虑每个任务的前后关系,时间富裕避免因为过于追求并行度,对多个任务造成相互影 响Greenplum开发规范41Greenplum使用规范平时回顾数据仓库体系架构数据生命周期与架构体系关联Greenplum体系架构postgresql的体系结构MPP集群架构Greenplum状态描述实际业务场景的特点Greenplum状态描述实际业务场景的特点Greenplum运维体系部署、监控、备份、数据传输、任务调度Greenplum开发规范库表设计、用户权限、使用注意42回顾42THANK YOU43THANK YOU43
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!