某科技离线大数据处理平台31094

上传人:仙*** 文档编号:243826119 上传时间:2024-09-30 格式:PPTX 页数:31 大小:2.58MB
返回 下载 相关 举报
某科技离线大数据处理平台31094_第1页
第1页 / 共31页
某科技离线大数据处理平台31094_第2页
第2页 / 共31页
某科技离线大数据处理平台31094_第3页
第3页 / 共31页
点击查看更多>>
资源描述
阿里巴巴离线大数据处理平台,提纲,大数据时代,阿里巴巴数据事业部,离线大数据处理平台,(ODPS),我们面临的主要问题,ODPS,部分功能概览,结语,大数据时代,3,大数据时代的挑战,4,数据关联性,社交网络、用户行为、购买关系,企业内外,IT,系统的整合,处理能力,数据规模爆炸式增长,结构化与非结构化数据并存、噪声增多,组合离线、在线、流式等多项计算能力提供解决方案,在大数据上应用传统统计学和数据挖掘算法,数据安全,用户隐私保护、商业数据泄漏、复杂的访问控制需求,企业发展的达摩克利斯之剑,商业模式,如何利用大数据盈利,数据驱动的新业务模式与企业传统业务模式的冲突,阿里巴巴的大数据产品探索,淘宝贷款,6,解决小微企业贷款难的问题:,金额高,流程长,授信难,周期长,完全以数据驱动的产品,对既有数据进行二次挖掘,颠覆原有业务模式,规模优势,阿里巴巴大数据事业部,7,离线存储,与计算,在线存储,与计算,实时计算,流式计算,任务调度,与管理,数据开发与数据可视化界面,数据同步,数据质量监控,元数据管理,安全与审计,计量与计费,服务化,API&SDK,算法库,数据产品,数据地图,数据共享,与合作,阿里巴巴离线大数据处理平台,ODPS(Open Data Processing Service),支持海量结构化数据的离线存储和计算,以,RESTful,API,的方式提供服务,基于阿里巴巴自主知识产权的分布式操作系统,支持,高吞吐量的,数据,上传下载服务,支持,SQL,和存储过程,支持,MapReduce,、,BSP,编程框架,支持常用的矩阵运算和数据挖掘算法,支持多用户管理和基于,ACL,和,policy,的权限控制,基于,ODPS,可以打造完整的数据仓库解决方案,我们面临的主要问题,首先需要提供一个高效稳定的离线存储和计算引擎,如何支撑,5,万、,15,万台以上的机群规模?,多集群架构,运维和管理系统,如何在一个平台上支持多个组织的多个用户进行开发?,多租户支持,安全隔离,权限控制,如何了解业务运行状态?,元数据管理,指标系统,如何管理不同种类的任务?,服务化,统一计算入口,可度量和控制的计算资源,准实时查询,,R-ODPS,,,,我们还在继续探索,高效稳定的计算模型,10,SQL,、,Map Reduce,仍然是离线运算的主流,,但是,,频繁,IO,带来的性能瓶颈,模型描述能力的局限,准实时查询,11,优势:,避免,IO,消耗,节约调度成本,劣势:,Failover,资源占用,数据规模,适用场景:,Ad hoc,分析,图编程,功能:,统一的,API,、授权、数据存储、,meta,Master-slave,,,worker,负责子图,通过迭代在节点间通讯和修改图拓扑,挑战:,数据倾斜时的内存控制,与其他类型作业共存,错误恢复,优势:,方便处理图数据,多轮迭代性能远好于,MR,应用场景:,推荐、社交网络、物流、,利用图编程实现,SSSP,算法,(1),GraphLoader,图加载,基,类,public static class,SSSPGraphLoader,extends,GraphLoader,Override,public void,load,(Record record,MutationContext,context,),SSSPVertex,vertex=new,SSSPVertex,();,vertex.,setId,(LongWritable)record.get(0);,String edges=record.get(1).toString().split(,);,for(int i=0;i edges.length;i+),String ss=edgesi.split(:);,vertex.,addEdge,(new LongWritable(Long.,parseLong(ss0),new LongWritable(Long.,parseLong(ss1);,context.,addVertexRequest,(vertex);,利用图编程实现,SSSP,算法,(2),Vertex,点,基类,public static class,SSSPVertex,extends,Vertex,Override,public void,compute,(ComputeContext context,Iterable,messages,),long minDist=(getId()=1)?0:Integer.MAX_VALUE;,for(LongWritable msg:messages),if(msg minDist),minDist=msg;,if(minDist this.getValue(),this.setValue(minDist);,for(Edge e:this.getEdges(),context.,sendMessage,(e.getDestVertexId(),minDist+getValue();,else,voteToHalt,();,利用图编程实现,SSSP,算法,(3),矩阵和算法运算支持,基于,MPI,的算法运算包,图形化交互界面,支持算法:,SVD,分解,逻辑回归,随机森林,连接,R,与,ODPS,集成,ODPS,的算法,-ODPS,多集群架构,17,业务增长的速度永远快于技术完善的速度,,如何支撑日益膨胀的存储和计算需求?,多集群架构,18,多计算机群,解决规模瓶颈,统一,meta,准实时数据同步,减少热数据跨机房,业务迁移,多控制机群,灰度发布,业务分离,多租户模型,19,如何支持多个团队在一个平台上开发?,多租户模型,20,用户空间,授权访问,跨空间访问,受保护的空间,空间互信,ODPS,安全架构,数据安全是每个平台产品,需要解决的核心问题,Web,服务器,ODPS,安全,架构,(Meta OTS,Store),ODPS,服务,计算集群,n,计算集群,1,ODPS,客户端,(SDK,Console),ODPS,接入层,ODPS,控制集群,OdpsWorker,Scheduler,Executor,Hive Server,云帐号,Shenshu,(,授权服务,),KDC,(SSO,服务,),Web,服务器,OTS,(Meta Store),域帐号,用户认证,飞天内部认证,与授权中心,ODPS,服务,计算集群,n,计算集群,1,ODPS,客户端,(SDK,Console),ODPS,接入层,ODPS,控制集群,1.,认证,.,2.,检查用户权限,检查数据保护策略,.,3.,给,Fuxi Job,配置最小权限的,Capability.,eg,pangu cap,权限如下,:,“pangu:/odps/prjA/shop/”:R,“pangu:/odps/prjB/sale_detail/”:R,“pangu:/odps/prjB/t1/”:W,SQL,实例,:,INSERT OVERWRITE prjB.t1 AS SELECT a.shop_name,b.sale_total,FROM prjA.shop a,LEFT OUTER JOIN prjB.sale_detail b,ON a.shop_name=b.shop_name;,OdpsWorker,Scheduler,Executor,Hive Server,云帐号,Shenshu,(,授权服务,),KDC,(SSO,服务,),Web,服务器,OTS,(Meta Store),域帐号,用户认证,飞天内部认证,与授权中心,ODPS,服务,计算集群,n,计算集群,1,ODPS,客户端,(SDK,Console),ODPS,接入层,ODPS,控制集群,Java Sandbox,Process,Sandbox,Guest OS Kernel,用户提交的,MapReduce,程序可能会,:,恶意耗尽集群资源,(CPU,Memory,Network,Disk),;,直接访问,Pangu,文件,窃取或篡改其他用户数据;,窃取,Linux,节点上的飞天系统进程的敏感数据(如,Tubo,的,capability,);,.,基于沙箱的纵深防御体系,1.Java,沙箱,2.Linux,进程级沙箱,3.,虚拟机沙箱,OdpsWorker,Scheduler,Executor,Hive Server,灵活的授权方式,Version:1,Statement:,Effect:Allow,Principal:zinan.tang,Resource:acs:odps:*:projects/sampleprj/tables/test_*,Action:odps:Update,odps:Select,Condition:,IpAddress:acs:SourceIp:10.32.180.0/23,25,数据上传下载服务,如何解决系统与多个数据源之间的数据交换问题?,数据上传下载服务,服务化:,REST,结构化数据,流式数据传输,高并发上传下载,服务能力水平扩展,可靠传输,Failover&,断点续传,统一认证鉴权,流控和防攻击,提供可编程接口,利用,ODPS Tunnel,上传数据,28,结语,数据驱动的新商业模式是互联网产业下一个增长点,云计算能力是大数据应用的基石,分布式存储和计算的挑战,性能、稳定性、单点、通讯、故障恢复、状态机、,ODPS,才刚刚起步,10,万台、万兆网卡、分布式内存文件读写、,29,30,谢谢大家!,演讲完毕,谢谢观看!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!