资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,SVC,大数据支撑案例,培训专用,提 纲,进一步的工作,系统架构,技术选型考虑,案例说明,培训专用,数据分散,形成数据孤岛;无法统一共享。,1,3,4,5,6,2,7,8,高端系统旅客资料,大客户旅客资料,呼叫旅客资料,客舱旅客资料,电子客票旅客资料,离港旅客资料,销售旅客资料,客户统一视图系统(,SVC,),培训专用,Customer,Loyalty,投诉,Seating,Inventory,Check-in,Flight Data,Irregular,Operations,Schedules,General,Information,Weight&,Balance,Ticketing,Reservations,3,rd,Party,呼叫,中心,B2C,离港,行李,查询,中转,客舱,DW,ET,高端,大客户,常客,SVC,通过,SVC,系统统一客户数据,培训专用,集中访问效率不高,系统稳定性不足,投资大。,SVC,初期探索,培训专用,SVC,架构优化思考及技术选型,RMDB,主要技术难题,扩展困难,并发读写慢,成本高(小型机,+,存储),无法支撑海量数据,NoSQL,的优点,NoSQL,的不足,大数据量,高性能、高可用,弹性扩展能力,灵活的数据模型,低成本,不完全支持,SQL,不支持事务,不支持多表关联,不支持聚合查询,无法保证数据一致性,培训专用,优 点,迁移成本底,方案成熟稳定,能很好的支撑事务,能保证数据的完整性,能提供较高的,TPS,满足业务性能要求,开发成本低,技术风险低,有较好的扩展性,我们的选择,培训专用,并发访问量高,速度快,稳定高效,系统投资小。,系统部署架构,培训专用,数据库,小型机,C,档,光纤交换机,光纤交换机,B,档,磁盘阵列,磁盘阵列,B,档,数据库软件,SVC,主备两套,CBD,主备两套,小型机方案,汇总,600,万,数据库,PC server,数据库软件,SVC,主备两套,,CBD,主备两套,汇总,35,万,分布式方案,并发访问量高,速度快,稳定高效,系统投资小。,投资比较,培训专用,结果比较,培训专用,选择,hadoop+hive,做分析平台,高效率:,通过分发数据,,hadoop,可以在数据所在的节点上并行地处理,处理非常的快速。,高扩容能力:,服务器群总计可达数千个节点,能可靠地存储和处理,PB,级数据。,成本低:,使用普通机器组成的服务器群来分发以及处理数据。,可靠性:,hadoop,能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。,跨平台:,JAVA,实现支持各种平台并支持多种语言的,MapReduce.,A,表,(30,亿,)+B(2,亿,),表,A,表做聚合统计查询,时间,5,分,12,秒;,A,表做数据清洗,时间,12,分,07,秒,A,表与,B,表,join,后做聚合统计查询,时间,14,分,36,秒,测试结果,培训专用,数据分析平台架构,业务数据库,业务系统,数据接口,大数据处理集群,任务调度,平台管理器,元数据管理,安全管理,任务管理,集群管理,平台管理,平台监控,Hive Devoloper,文件管理,处理结果导出,ETL,工具,高速数据存取,通用数据访问,数据统一管理,可配置化无需编程,业务处理与,hadoop,分离,1,2,3,4,5,交易数据,文件,/,邮件数据,客户数据,设备,/,运行数据,大数据处理平台,培训专用,Datanode,Datanode,Datanode,Datanode,Name node,HDFS,ETL,数据,A1,A2,A1,A2,A1,A2,Map Reduce,任务管理,导入,导入,数据清洗,Hadoop,可以存贮,PB,级别的数据,并且每个文件在不同的机器上有,2,份或,3,份备份,这样即使一台机子故障,将不会影响系统的可用性。,大数据处理平台,大数据存储问题的解决,培训专用,MySql,Hadoop,集群,ETL,工具,平台数据转换服务,3,、转换任务调用,4,、数据转换,1,、数据导入,BI,分析,BI,系统,报表查询,数据源,SVC,CBD,FFP,2,、数据导入,Hive,mapred,5.1,、报表生成,5.2,、特殊报表生成,6、,报表导出,BI,分析效率的解决,培训专用,构建开源数据服务平台,分布式数据库中间,件,数据库节点,数据库节点,数据库节点,数据库节点,可扩容至,1024,个节点,界面化配置,按,需扩容,灵活缓存机制:,注解式、,配置式、,编程式、,AOP,拦截,在应用和底层数据源之间,构建一层代理,统一数据层;,垂直切分:数据按业务划分存储在不同的数据库,表间关联密切的表划分在一起,例如同一模块的表。,水平切分:将同一个表中的不同数据拆分到不同的数据库中;,统一数据访问,API,:隐藏后端复杂数据分布细节,数据库操作看起来就像是在同一数据库中;,培训专用,建设目标,通过分布式集群实现分库分表,解决大数据支撑问题;,利用,Galera,,在客户端与,MySQL,服务器之间抽象出一层“统一数据中间层”,,统一数据中间层包含,HA,功能,以简化,MySQL,的高可用环境的构建;,实现集群自动管控功能,包括节点增减、监控等;,实现数据服务云,培训专用,统一数据服务平台中间层,培训专用,数据服务平台架构,培训专用,容易引起,:,重复研究,法律问题,包版本冲突,系统不稳定,技术无法积累,对人员要求高,研发成本高,后续维护成本高,分享:,开源,技术统一管理的必要性,平台,层,视图层,框架层,中间件层,js,:,query,、,dwr,、,swato,、,GWT,、,prototype,UI,控件:,Dhtml,、,jquery UI,、,ExtJs,、,easyui,JSP,:,velocity,、,tag,、,JFS,MVC,:,struts1,、,struts2,、,spring,、,webwork,ORM,:,hibernate,、,ibatis,、,persist,组件:日志类、工作流类、,XML,解释类、安全类、缓存池类、接口服务类、数据传输类,容器:,tomcat,、,jboss,、,jetty,、,apach,、,nginx,消息:,active Mq,、,mule,、,openESB.,集群管理,:,zookeeper,、,heartbeat,、,lvs,、,ganglia,、,Nagios,DB,:,mysql,、,PostgreSQL,NoSQL:hadoop,、,mongoDB,、,hive,、,pig,工具:,Kettle,、,sqoop,、,datax,、,cobar,、,Myfox.,培训专用,开源技术推广和应用,开源社区,积极推广,提升项目交付能力,降低,IT,成本,逐步完善和扩展,形成技术积累,基于开源社区实现四大统一,对选定的技术逐步优化和扩展功能,开源技术统一选型,公用包统一管理,开发框架统一封装,通用组件统一研发,分享:开源技术管理策略,培训专用,分享:,开源技术管理方法,公用开源包用,maven,进行统一管理,形成企业开源库,占领开源技术前沿,节约成本、满足业务需求,开源技术统一选型,开发框架统一封装,通用组件统一研发,产品,评估,技能,评估,法律,评估,ROI,评估,研发团队,企业开,源,软件库,优化,完善,MVC,框架,持久化框架,UI,框架,开发规范,开发工具,推广实施,实现工具化、模块化、规范化,技术选型,组件开发,组件推广,组件完善,组件梳理,逐步积累,实现重用,降低成本,提高质量,培训专用,分享:开源技术的推进策略,开源实验室,技术选型、架构设计、技术研究、产品研发,.,开源技术研发工作:,将技术推广到每个项目组,每个程序员,让大家都用起来。,技术推广:,提升交付能力:,通过积累开源技术能力,达到降低成本,提高效率的目的。,分析技术需求、设定技术目标、制定技术规范。,规划与设计:,去,IOE,化,降低成本,解决性能和大数据问题,简化开源技术降低难度,技术规划,与推广,培训专用,分享:组织机构设计,技术小组,(虚拟团队),开源,实验室,研发团队,公司领导,项目经理团队,需求提出,技术发展规划,规范制订,技术评审,开源项目验收,开源产品研究、测试、封装、开发,架构师团队,实施推广团队,架构师,技术评估,技术选型,技术目标制订,架构设计,开源管理,技术文档编写,技术培训,技术网站维护,项目技术支持,技术战略,调配资源,培训专用,南航推进软件开源化成果,1,建立以五大数据核心为基础,的开源化,SOA,平台,通过开源化,已经完成旅客信息、旅客行为、运行控制,信息三,大核,心数据库,及,面向,SOA,核心服务平台。,2,移动化、,整合业务应用端,在企业核心服务平台基础上,利用开源技术,重新整合,呼叫中心,、地面服务等,应,用,,面向岗位需求实施移动化策略。,3,建立,统一,WEB,技术,架构,使用开源技术,开发可伸缩性的,统一平台,架构,,统一,移动,应用,架构,,统一,WEB,应用架构。,4,初步形成,JBOSS/Linux/LVS,统一开源基础性架构,大部分新系统采用新的开源技术,原系统被进行优化,,逐步,统一,使用开,源的,基础,架构,。,5,初步,形成,MySQL/hadoop/hive,数据服务平台,部分系统使用,Mysql,集群替换商业数据库,并实现读写分离。正在进行,hadoop+hive,的分布式大数据平台的研发,以支撑商业智能分析。,培训专用,演讲完毕,谢谢观看!,培训专用,内容总结,SVC大数据支撑案例。数据分散,形成数据孤岛。集中访问效率不高,系统稳定性不足,投资大。优 点。并发访问量高,速度快,稳定高效,系统投资小。数据库 PC server。SVC主备两套,CBD主备两套。汇总 35万。通过分发数据,hadoop可以在数据所在的节点上并行地处理,处理非常的快速。hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。JAVA实现支持各种平台并支持多种语言的MapReduce.。A表(30亿)+B(2亿)表。A表与B表 join 后做聚合统计查询,时间14分36秒。Hadoop可以存贮PB级别的数据,并且每个文件在不同的机器上有2份或3份备份,这样即使一台机子故障,将不会影响系统的可用性。在应用和底层数据源之间,构建一层代理,统一数据层。垂直切分:数据按业务划分存储在不同的数据库,表间关联密切的表划分在一起,例如同一模块的表。水平切分:将同一个表中的不同数据拆分到不同的数据库中。统一数据访问API:隐藏后端复杂数据分布细节,数据库操作看起来就像是在同一数据库中。演讲完毕,谢谢观看,培训专用,
展开阅读全文