阿里巴巴离线大数据处理平台PPT课件

上传人:牛*** 文档编号:78603513 上传时间:2022-04-22 格式:PPTX 页数:30 大小:1.58MB
返回 下载 相关 举报
阿里巴巴离线大数据处理平台PPT课件_第1页
第1页 / 共30页
阿里巴巴离线大数据处理平台PPT课件_第2页
第2页 / 共30页
阿里巴巴离线大数据处理平台PPT课件_第3页
第3页 / 共30页
点击查看更多>>
资源描述
提纲大数据时代阿里巴巴数据事业部离线大数据处理平台(ODPS)我们面临的主要问题ODPS部分功能概览结语第1页/共30页大数据时代2第2页/共30页大数据时代的挑战3 社交网络、用户行为、购买关系 企业内外IT系统的整合数据关联性 数据规模爆炸式增长 结构化与非结构化数据并存、噪声增多 组合离线、在线、流式等多项计算能力提供解决方案 在大数据上应用传统统计学和数据挖掘算法处理能力 用户隐私保护、商业数据泄漏、复杂的访问控制需求 企业发展的达摩克利斯之剑数据安全 如何利用大数据盈利 数据驱动的新业务模式与企业传统业务模式的冲突商业模式第3页/共30页阿里巴巴的大数据产品探索第4页/共30页淘宝贷款5解决小微企业贷款难的问题:金额高流程长授信难周期长完全以数据驱动的产品对既有数据进行二次挖掘颠覆原有业务模式规模优势第5页/共30页阿里巴巴大数据事业部6离线存储与计算在线存储与计算实时计算流式计算任务调度与管理数据开发与数据可视化界面数据同步数据质量监控元数据管理安全与审计计量与计费服务化API & SDK算法库数据产品数据地图数据共享与合作第6页/共30页阿里巴巴离线大数据处理平台ODPS (Open Data Processing Service)支持海量结构化数据的离线存储和计算以RESTful API的方式提供服务基于阿里巴巴自主知识产权的分布式操作系统支持高吞吐量的数据上传下载服务支持SQL和存储过程支持MapReduce、BSP编程框架支持常用的矩阵运算和数据挖掘算法支持多用户管理和基于ACL和policy的权限控制基于ODPS可以打造完整的数据仓库解决方案第7页/共30页我们面临的主要问题首先需要提供一个高效稳定的离线存储和计算引擎如何支撑5万、15万台以上的机群规模? 多集群架构,运维和管理系统如何在一个平台上支持多个组织的多个用户进行开发? 多租户支持,安全隔离,权限控制如何了解业务运行状态? 元数据管理,指标系统如何管理不同种类的任务? 服务化,统一计算入口,可度量和控制的计算资源准实时查询,R-ODPS,我们还在继续探索第8页/共30页高效稳定的计算模型9SQL、Map Reduce仍然是离线运算的主流,但是,频繁IO带来的性能瓶颈模型描述能力的局限第9页/共30页准实时查询10优势:避免IO消耗节约调度成本劣势:Failover资源占用数据规模适用场景:Ad hoc分析第10页/共30页图编程 功能: 统一的API、授权、数据存储、meta Master-slave,worker负责子图 通过迭代在节点间通讯和修改图拓扑 挑战: 数据倾斜时的内存控制 与其他类型作业共存 错误恢复 优势: 方便处理图数据 多轮迭代性能远好于MR应用场景:推荐、社交网络、物流、第11页/共30页利用图编程实现SSSP算法(1)GraphLoader 图加载基类 public static class SSSPGraphLoader extends GraphLoader Override public void load(Record record, MutationContext context) SSSPVertex vertex = new SSSPVertex(); vertex.setId(LongWritable) record.get(0); String edges = record.get(1).toString().split(,); for (int i = 0; i edges.length; i+) String ss = edgesi.split(:); vertex.addEdge(new LongWritable(Long.parseLong(ss0), new LongWritable(Long.parseLong(ss1); context.addVertexRequest(vertex); 第12页/共30页利用图编程实现SSSP算法(2)Vertex 点基类public static class SSSPVertex extends Vertex Override public void compute(ComputeContext context, Iterable messages) long minDist = (getId() = 1) ? 0 : Integer.MAX_VALUE; for (LongWritable msg : messages) if (msg minDist) minDist = msg; if (minDist this.getValue() this.setValue(minDist); for (Edge e : this.getEdges() context.sendMessage(e.getDestVertexId(), minDist + getValue(); else voteToHalt(); 第13页/共30页利用图编程实现SSSP算法(3)第14页/共30页矩阵和算法运算支持 基于MPI的算法运算包 图形化交互界面 支持算法:SVD分解逻辑回归随机森林 连接R与ODPS 集成ODPS的算法- ODPS第15页/共30页多集群架构16业务增长的速度永远快于技术完善的速度,如何支撑日益膨胀的存储和计算需求?第16页/共30页多集群架构17 多计算机群 解决规模瓶颈 统一meta 准实时数据同步 减少热数据跨机房 业务迁移 多控制机群 灰度发布 业务分离第17页/共30页多租户模型18如何支持多个团队在一个平台上开发?第18页/共30页多租户模型19用户空间授权访问跨空间访问受保护的空间空间互信第19页/共30页ODPS安全架构数据安全是每个平台产品需要解决的核心问题第20页/共30页Web 服务器ODPS安全架构(Meta OTSStore)ODPS服务计算集群n计算集群1ODPS 客户端(SDK, Console)ODPS接入层ODPS控制集群OdpsWorkerSchedulerExecutor Hive Server第21页/共30页云帐号Shenshu(授权服务)KDC (SSO服务)Web 服务器OTS(Meta Store)域帐号用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1ODPS 客户端(SDK, Console)ODPS接入层ODPS控制集群1. 认证.2. 检查用户权限, 检查数据保护策略.3. 给Fuxi Job配置最小权限的Capability.eg, pangu cap权限如下: “pangu:/odps/prjA/shop/”: R, “pangu:/odps/prjB/sale_detail/”: R, “pangu:/odps/prjB/t1/”: WSQL实例:INSERT OVERWRITE prjB.t1 AS SELECT a.shop_name, b.sale_totalFROM prjA.shop a LEFT OUTER JOIN prjB.sale_detail b ON a.shop_name=b.shop_name;OdpsWorkerSchedulerExecutor Hive Server第22页/共30页云帐号Shenshu(授权服务)KDC (SSO服务)Web 服务器OTS(Meta Store)域帐号用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1ODPS 客户端(SDK, Console)ODPS接入层ODPS控制集群Java SandboxProcessSandboxGuest OS Kernel用户提交的MapReduce程序可能会: 恶意耗尽集群资源(CPU, Memory, Network, Disk); 直接访问Pangu文件,窃取或篡改其他用户数据; 窃取Linux节点上的飞天系统进程的敏感数据(如Tubo的capability); .基于沙箱的纵深防御体系1. Java沙箱2. Linux进程级沙箱3. 虚拟机沙箱OdpsWorkerSchedulerExecutor Hive Server第23页/共30页灵活的授权方式 Version: 1, Statement: Effect: Allow, Principal: zinan.tang, Resource: acs:odps:*:projects/sampleprj/tables/test_*, Action: odps:Update, odps:Select Condition : 24第24页/共30页数据上传下载服务如何解决系统与多个数据源之间的数据交换问题?第25页/共30页数据上传下载服务服务化:REST结构化数据流式数据传输高并发上传下载服务能力水平扩展可靠传输Failover & 断点续传统一认证鉴权流控和防攻击提供可编程接口第26页/共30页利用ODPS Tunnel上传数据27第27页/共30页结语 数据驱动的新商业模式是互联网产业下一个增长点 云计算能力是大数据应用的基石 分布式存储和计算的挑战 性能、稳定性、单点、通讯、故障恢复、状态机、 ODPS才刚刚起步 10万台、万兆网卡、分布式内存文件读写、28第28页/共30页29 谢谢大家!第29页/共30页感谢您的观看。第30页/共30页
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!