阿里巴巴离线大数据处理平台

上传人:苏**** 文档编号:240755521 上传时间:2024-05-05 格式:PPT 页数:30 大小:2.45MB
返回 下载 相关 举报
阿里巴巴离线大数据处理平台_第1页
第1页 / 共30页
阿里巴巴离线大数据处理平台_第2页
第2页 / 共30页
阿里巴巴离线大数据处理平台_第3页
第3页 / 共30页
点击查看更多>>
资源描述
阿里巴巴离线大数据处理平台提纲大数据时代大数据时代的挑战阿里巴巴的大数据产品探索淘宝贷款解决小微企业贷款难的问题:金额高流程长授信难周期长完全以数据驱动的产品对既有数据进行二次挖掘颠覆原有业务模式规模优势阿里巴巴大数据事业部阿里巴巴离线大数据处理平台ODPS(Open Data Processing Service)支持海量结构化数据的离线存储和计算以RESTful API的方式提供服务基于阿里巴巴自主知识产权的分布式操作系统支持高吞吐量的数据上传下载服务支持SQL和存储过程支持MapReduce、BSP编程框架支持常用的矩阵运算和数据挖掘算法支持多用户管理和基于ACL和policy的权限控制基于ODPS可以打造完整的数据仓库解决方案我们面临的主要问题高效稳定的计算模型SQL、MapReduce仍然是离线运算的主流,但是,频繁IO带来的性能瓶颈模型描述能力的局限准实时查询优势:避免IO消耗节约调度成本劣势:Failover资源占用数据规模适用场景:Ad hoc分析图编程功能:统一的API、授权、数据存储、metaMaster-slave,worker负责子图通过迭代在节点间通讯和修改图拓扑挑战:数据倾斜时的内存控制与其他类型作业共存错误恢复优势:方便处理图数据多轮迭代性能远好于MR应用场景:推荐、社交网络、物流、利用图编程实现SSSP算法(1)GraphLoader 图加载基类 public static class SSSPGraphLoader extends GraphLoader Override public void load(Record record,MutationContext context)SSSPVertex vertex=new SSSPVertex();vertex.setId(LongWritable)record.get(0);String edges=record.get(1).toString().split(,);for(int i=0;i edges.length;i+)String ss=edgesi.split(:);vertex.addEdge(new LongWritable(Long.parseLong(ss0),new LongWritable(Long.parseLong(ss1);context.addVertexRequest(vertex);利用图编程实现SSSP算法(2)Vertex 点基类public static class SSSPVertex extends Vertex Override public void compute(ComputeContext context,Iterable messages)long minDist=(getId()=1)?0:Integer.MAX_VALUE;for(LongWritable msg:messages)if(msg minDist)minDist=msg;if(minDist this.getValue()this.setValue(minDist);for(Edge e:this.getEdges()context.sendMessage(e.getDestVertexId(),minDist+getValue();else voteToHalt();利用图编程实现SSSP算法(3)矩阵和算法运算支持基于MPI的算法运算包图形化交互界面支持算法:SVD分解逻辑回归随机森林连接R与ODPS集成ODPS的算法-ODPS多集群架构业务增长的速度永远快于技术完善的速度,如何支撑日益膨胀的存储和计算需求?多集群架构多计算机群解决规模瓶颈统一meta准实时数据同步减少热数据跨机房业务迁移多控制机群灰度发布业务分离多租户模型如何支持多个团队在一个平台上开发?多租户模型用户空间授权访问跨空间访问受保护的空间空间互信ODPS安全架构数据安全是每个平台产品需要解决的核心问题Web服务器ODPS安全架构(MetaOTSStore)ODPS服务计算集群n计算集群1ODPS客户端(SDK,Console)ODPS接入层ODPS控制集群OdpsWorkerSchedulerExecutorHiveServer云帐号Shenshu(授权服务)KDC(SSO服务)Web服务器OTS(MetaStore)域帐号用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1ODPS客户端(SDK,Console)ODPS接入层ODPS控制集群1.认证.2.检查用户权限,检查数据保护策略.3.给FuxiJob配置最小权限的Capability.eg,pangu cap权限如下:“pangu:/odps/prjA/shop/”:R,“pangu:/odps/prjB/sale_detail/”:R,“pangu:/odps/prjB/t1/”:WSQL实例:INSERT OVERWRITE prjB.t1 AS SELECT a.shop_name,b.sale_totalFROM prjA.shop a LEFT OUTER JOIN prjB.sale_detail b ON a.shop_name=b.shop_name;OdpsWorkerSchedulerExecutorHiveServer云帐号Shenshu(授权服务)KDC(SSO服务)Web服务器OTS(MetaStore)域帐号用户认证飞天内部认证与授权中心ODPS服务计算集群n计算集群1ODPS客户端(SDK,Console)ODPS接入层ODPS控制集群JavaSandboxProcessSandboxGuestOSKernel用户提交的MapReduce程序可能会:恶意耗尽集群资源(CPU,Memory,Network,Disk);直接访问Pangu文件,窃取或篡改其他用户数据;窃取Linux节点上的飞天系统进程的敏感数据(如Tubo的capability);.基于沙箱的纵深防御体系1.Java沙箱2.Linux进程级沙箱3.虚拟机沙箱OdpsWorkerSchedulerExecutorHiveServer灵活的授权方式 Version:1,Statement:Effect:Allow,Principal:zinan.tang,Resource:acs:odps:*:projects/sampleprj/tables/test_*,Action:odps:Update,odps:Select Condition:IpAddress:acs:SourceIp:10.32.180.0/23 数据上传下载服务如何解决系统与多个数据源之间的数据交换问题?数据上传下载服务服务化:REST结构化数据流式数据传输高并发上传下载服务能力水平扩展可靠传输Failover&断点续传统一认证鉴权流控和防攻击提供可编程接口利用ODPS Tunnel上传数据结语数据驱动的新商业模式是互联网产业下一个增长点云计算能力是大数据应用的基石分布式存储和计算的挑战性能、稳定性、单点、通讯、故障恢复、状态机、ODPS才刚刚起步10万台、万兆网卡、分布式内存文件读写、谢谢大家!大家!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 金融资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!