大数据技术如何应用于传统的信息系统45

上传人:沈*** 文档编号:120773216 上传时间:2022-07-18 格式:PPTX 页数:47 大小:6.71MB
返回 下载 相关 举报
大数据技术如何应用于传统的信息系统45_第1页
第1页 / 共47页
大数据技术如何应用于传统的信息系统45_第2页
第2页 / 共47页
大数据技术如何应用于传统的信息系统45_第3页
第3页 / 共47页
点击查看更多>>
资源描述
大数据技术如何应用亍大数据技术如何应用亍传统信息系统传统信息系统提纲大数据技术研究背景和问题开源软件Apache Hadoop大数据处理系统关键技术 大数据技术从互联网走向传统应用背景:大规模数据计算 通信、网络、存储、传感器等电子信息技术飞速发展导致数据规模极大增加 Big Data 传统的存储并处理这些数据的技术手段遇到瓶颈Search EngineData WarehousingLog Processing/UserBehavior AnalyzingProcessing 100TB datasetsOnline/Realtime/Streaming Data Analysis数据数据 为王为王One nodeScanning50MB/s=35,000 min1000 nodeScanning50MB/s=35 min背景 大数据的大问题2020年:数据量将达到35ZB,较2009年增大44倍来源:IDC Digital Universe Study,May 20102020年:60%以上的创造数据将因无法存储而丢失。Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量Google索引的在线数据2002年是5EB,到 2009年增长到280EB淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不 处理效能提出了挑战!背景 大数据的大问题2020年:数据量将达到35ZB,较2009年增大44倍来源:IDC Digital Universe Study,May 20102020年:60%以上的创造数据将因无法存储而丢失。Facebook用户每天上传3亿张照片,超过 500TB的数据增长量,100PB单集群存储 容量Google索引的在线数据2002年是5EB,到 2009年增长到280EB淘宝网注册用户达到3.7亿,在线商品数达到9亿,14PB海量数据存储数据爆炸对数据存储不 处理效能提出了挑战!高速发展的数据型互联网企业需要连续的系统扩展能力数据快速增长不数据中心扩容周期缓慢的矛盾 如何维持低成本曲线和高性能曲线是现实问题数据业务深度的丌断加强和数据处理性能现状的矛盾背景:解决大数据问题的思路背景:解决大数据问题的思路海量数据存储海量数据计算提纲大数据研究背景和问题开源软件Apache Hadoop大数据处理系统关键技术 大数据技术从互联网走向传统应用HadoopApache Nutch,2002NDFS+MapReduce,2004Hadoop,2006Apache Hadoop,2008 http:/hadoop.apache.org/Book:http:/ of Googles GFS and Written in JavaMapReduce Does work with other languages Can process large scale Web pages Runs on Linux,Windows and more Commodity hardware with highfailure rateDoug Cutting,Apache软件基 金会主席Hadoop is the most successful open source software after Linux.Hadoop 组成部分Hadoop is the most successful open source software after Linux.MapReduceHDFSHBaseHiveHadoop 组成部分HDFSftware after Linux.apReducemost successful open source soMHBaseHiveHadoop is theHadoop 组成部分Hadoop HDFS体系结构规模:规模:10K nodes,100 million files,10 PB特性:特性:适合数据批处理;最大化吞吐率;允许计算向数据迁移优化:优化:数据块副本、数据块放置策略、缓存策略等Sanjay Ghemawat,et.al.,The Google File System,SOSP03Hadoop MapReduce处理流程Dean&Ghemawat:“MapReduce:Simplified Data Processing on Large Clusters”,OSDI 2004提纲大数据研究背景和问题开源软件Apache Hadoop大数据处理系统关键技术 大数据技术从互联网走向传统应用Job laun1ch 6关系数据按行序运行时重建 16原始关系表列式存储结构(Apache Pig,Zebra)行列混合式存储结构(RCFile)Job ScheduleTask LaunchTask LaunchTask LaunchRow ConstructionRow ConstructionRow ConstructionRead Data from Distributed File SystemSubsequent ProcessingSubsequent ProcessingSubsequent ProcessingRow ReconstructionParallel TasksRCFile将关系数据水平分块,块内按列序存储,实现文件 级逻辑结构优化行式存储结构(Apache Hive,SequenceFile)行列混合式数据存储技术RCFile18互补式聚簇索引技术CCIndexCCIndex利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力CCIndex保持了BigTable数据模型高可扩展和高吞吐率特性,同时具有关系数据模型的查询统计能力CCIndex将二级索引变为一级索引,丌访问原表直接 进行区间查询和统计以CCIndex为核心的系统支持多维区间实时查询统计示例:select count(cl1)from TAB where cl1BI r亘补式m古 古古工?CClndex 利用冗余的副本数据块为多数据列构建聚簇索引,不增加额外存储空间,实现数据块级布局结构优化以及分布式实时查询统计能力UW M砾gaa元噎 领 性”2a畸帆,t吃 草 酌?暴 阻。.,邸,1 1 1 1民IdI飞Io,C n d创 盼到gT ible措 1前扩 前四二 辛 苦 主,同ti 主 关 系 据 胆frj鼓II自 动押 回 翩 然 回f:i圆圆I:,iJ 二 ;:I At 创 口 u:I.!解决7海量数据实时分析计期 快 性问题1/W电d(.制:,:1 .T!咛.;刷)-hIf.I伊 丽E嚼讪 t 豆 豆:归路以(创喇圳j 支 持 施i司 主lf i袋l t一 一 一 一 一 Cl!n d e精 卫生5 1 袁 世 ,E胁撞击吕 能司 脑l t词。由 iornt(cll)f r o m T M w h eecll B缸嚣 阳回国、问 阳,.,回.、白啊.U国:立 白 宫J嚣瞿.曲阴 阳mmm刷刷。拟 出 那 就 您叫阳刚刚放9陆“禽 缸 捐Md S.阳晒 Scan .胁Scan陆Ml-d i m刷sior四 阳叫l 臼捕鱼ThfOUJh胆My舍 C阳.(301A)=崎s。CluI (四 叫 MyS。也Cluser(7”A)C旬以.(00叫 c=:i优lndex(70峭 cc河 内de)1411|(rang)银行:冠字号查询测试结论:测试结论:在并发在并发200的情况下,依然能够提供秒级的数据访的情况下,依然能够提供秒级的数据访问效率,可以问效率,可以 预见完全能够满足冠字信息查询的性能需求。预见完全能够满足冠字信息查询的性能需求。数据规则按照冠字信息数据模拟测试记录数8181亿亿测试文件大小610G610G导入后大小2.4T2.4T索引后大小4.7T4.7T测试并发数200查询模式单项查询、组合查询测试测试环境环境IP配置172.16.5.50 2*Intel Xeon E5-2650 8核/2.00GHZ 64GB内存 52TB172.16.5.51 2*Intel Xeon E5-2650 8核/2.00GHZ 64GB内存 52TB172.16.5.52 2*Intel Xeon E5-2650 8核/2.00GHZ 64GB内存 52TB172.16.5.53 2*Intel Xeon E5-2650 8核/2.00GHZ 64GB内存 52TB网络6G网络查询查询性能性能数据量数据量查查询询并发并发(查询查询内内容)容)平均平均完成完成耗耗时时最快最快完成完成耗耗时时最慢最慢完成完成耗耗时时(ms)(ms)(m ms s)81亿200(地区号单项)83483411166581亿200(网点号单项)81681617160981亿200(错误码单项)6046042139081亿200(冠字号码单项)114911493206981亿200(等于某个地区号+等于 某个错误码+等于某个种类,单条)92492415177981亿200(等于某个地区号+等于 某个错误码+等于某个种类,100条)17631763320393981亿200(等于某个地区号+小于 某个错误码+等于某个种类,单条)88788719174081亿200(等于某个地区号+小于 某个错误码+等于某个种类,100条)20772077664625互联网应用不传统信息系统应用的区别 互联网应用 自行开发系统、快速迭代,持续交付,持续维护 直接到达客户端,对接Mass用户 业务逡辑简单,Straightforward,一致性要求较低 系统内部模块间可以无标准(REST),性能/用户体 验至上(KISS)传统信息系统 多方开发,依赖集成商,基于版本交付和维护 Vendor对接集成商,集成商对接最终用户 业务逡辑复杂,系统要求稳定可靠,安全性要求较高 系统模块间依靠工业标准耦合,如应用逡辑和数据库 系统通过SQL耦合源于互联网的大数据技术特征以Apache Hadoop为例分布式计算系统,用软件代替硬件保证系统可靠(HDFS、ZooKeeper)面向超大规模机群(千台服务器以上);超大规 模存储(百PB级);高通量(几十GB/秒);高 并发(数万请求/秒)简化丌必要的功能(运维、管控、安全等)编程模型、语言多样化(MapReduce、Job/Task/Instance、Pig Latin、SQL/HiQL、Script、Jason/PB、Java/C/C+)解决之道标准化可控可管化小型化软硬一体化生态化优先级低优先级低优先级高优先级高天玑Base(ICTBase)极高的性能,高通量数据存取,分布实时分析计算,TB级数据支持,百倍优于传统关系型数据库。软硬一体。通过定制硬件服务器和定制加速卡最大限度地提高资源利用率,增强系统性能,节能环保高密度一体机机架空间占用量为普通服务器的 25%,耗电量为普通服务器的40%。数据接入简单,提供JDBC、ETL等通用数据接口,应用对接远优于新兴的 NoSQL数据库,多种管理套件应用维护简单。技 术 特 色ICTBase对开源软件的功能和性能增强Muti-connectionAggregation and IndexingAuthentication and QoSmulti-tenancyDe/Compres sionHAFine grainLoad BalanceBulkloadParallel flushand compactBlock BalanceJDBCMonitor andAuto RecoveryHardwareacceleratorICTBase运维/管理/控制系统访访 控控 与与 权权 限限机机 群群 节节 点点 监监 控控安安 装装 与与 部部 署署系系 统统 启启 停停控制节点监控控制节点监控数据节点监控数据节点监控批式任务运行监控批式任务运行监控ICTBase数据及表管理数据导入、索引构建及SQL语言查询ICTBase表级数据管理功能权权 表表 限限 结结、构构 用用 、户户 多多 管管 维维 理理 索索 等等 引引、数数 据据 分分 布布、表表部分ICTBase的用户证明总结(Take Away Message)数据计算技术的(规模)大、(计算)快、(检索)准的发展态势;数据规模对传统RDBMS技术提出了挑战;NoSQL技术是对RDBMS技术的补充,是实 际需求导致的结果;Hadoop这样的大数据技术源于互联网应用,需求和游戏规则的丌同导致必须经过改造才能适用于传统信息系统应用。中国大数据技术大会(原Hadoop in China)20082013,近近3年年参会人数超1千千人。已成为大数据领域的国内最重要技术会议,推动了国内Hadoop开源社区发展及生态环境建设演讲完毕,谢谢观看!
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!