资源描述
Header text,Level One Text,Level Two Text,Level Three Text,Level Four Text,Level Five Text,Page,1,Copyright IBM Corporation,2014,Header text,Level One Text,Level Two Text,Level Three Text,Level Four Text,Level Five Text,Page,*,Header text,Level One Text,Level Two Text,Level Three Text,Level Four Text,Level Five Text,*,*IBM Confidential until July 12,2013 *,*,从企业数据向大数据的扩展,Traditional Approach,Structured,analytical,logical,Systems of Record,New Approach,Creative,holistic thought,intuition,Systems Of Engagement,Multimedia,Systems of Insight,Enterprise Integrationand Context Accumulation,StructuredRepeatableLinear,UnstructuredExploratoryDynamic,Data Warehouse,Web Logs,Social Data,Text Data:emails,Sensor data:images,RFID,Internal App Data,Transaction Data,Mainframe Data,OLTP System Data,Hadoop andStreams,Traditional Sources,New Sources,ERP data,具备洞悉能力的系统,Systems of Insight,对新式基础架构的需求,在,可靠和安全,的环境中处理关键业务应用,存取和处理,海量数据,包括结构化和非结构化数据,速度及时响应随时可能出现的商业机会,这就需要灵活、实时性的基础架构,The dynamics of SoR and SoE:,通过负载及资源部署的优化,来增强灵活性和效益,通过采用包括基于开放标准的技术等新技术来改善,IT economics,System of Record,(,SoR,),Systems of Engagement,(,SoE,),对的决策,对的地方,对的时间点,Big Data,&Analytic,s,大数据分析的新型架构解决方案,IBM Big Data&Analytics Infrastructure,Data Zone,Application Zone,4,Smart Metering,Grid Operations,电网管理,Field Service,外勤现场服务,Resource Planning,资源规划,Customer Service/Customer Operations,实现真正的有效的法规遵从,及时发现能源损耗问题、以及偷电和欺诈行为,提高客户满意度,电量使用预测更为精确,电网运维优化,减少停电次数和时间,案例,:,Smart Metering,智慧电力计费,大数据分析应用可以带来真正的业务价值,法规遵从,案例,:,用大数据分析来加强,Smart Metering,数据分析的高可用性,以确保随时了解用户喜好,跨应用的,TB,级的数据需求,通用虚拟化存储平台,实时收集、存储并分析数据,最快可达,50,000 data points/sec,历史用电状态数据的复杂查询处理,数据在加载到数据仓库前的清洗、验证,这些数据可能来自很多的用户、收费系统或断电保护系统,关系掌控,构建和维护电网的唯一试图,对整个企业的结构化和非结构化数据,t,做全局导览,Navigation,,从中发现,Discover,价值,分析用户用电情况,侦测偷电、改表等行为,预测哪些用户适合于哪些分时时段电价或需求,/,响应服务,分时时段电价的实时定价 或,提供及时的需求,/,响应服务,IBM Big Data&Analytics Reference Architecture,Big Data Platform Capabilities,Information Ingest,Real-time Analytics,Warehouse&Data Marts,Analytic Appliances,All Data Sources,Advanced Analytics/New Insights,New/Enhanced Applications,Cognitive,认知,Learn Dynamically?,Prescriptive,规范,Best Outcomes?,Predictive,预测,What Could Happen?,Descriptive,描述,What Has Happened?,Exploration and Discovery,What Do You Have?,Streaming Data,Text Data,Applications Data,Time Series,Geo Spatial,Relational,Social Network,Video&Image,Automated Process,Case Management,Analytic Applications,Watson,Cloud Services,ISV Solutions,Alerts,New Infrastructure Leverages Data Types,Data inMotion,Data atRest,Data inMany Forms,Information Ingestion and Operational Information,Decision Management,BI and Predictive Analytics,Navigation and Discovery,IntelligenceAnalysis,Raw Data,Structured Data,Text Analytics,Data Mining,Entity Analytics,Machine Learning,Landing Area,Analytics Zone and Archive,Video/Audio,Network/Sensor,Entity Analytics,Predictive,Real-time Analytics,Exploration,Integrated Warehouse,and Mart Zones,Discovery,Deep Reflection,Operational,Predictive,Stream Processing,Data Integration,Master Data,Streams,Information Governance,Security and Business Continuity,BigInsights,Streams,Warehouse,InfoSphere BigInsights,Hadoop-based,低延迟分析,针对多样化的、海量静态数据,Data-At-Rest,Netezza High Capacity Appliance,基于结构化数据的可查询归档,Netezza 1000,基于结构化数据的,BI+,定制化分析,Data,Smart Analytics System,基于结构化数据的运营分析,Informix Timeseries,Time-structured analytics,InfoSphere Warehouse,基于结构化数据的大容量数据分析,InfoSphere Streams,低延迟流数据分析,Velocity,Variety&Volume,Data-In-Motion,MPP Data Warehouse,Stream Computing,Information Integration,Hadoop,InfoSphere Information Server,海量数据集成和转化,Apache Hadoop:,跨服务器集群的大数据集分布式处理开放系统框架,采用的是一种简单化编程模型,IBM Big Data Platform,大数据平台,What:,一种开源软件,将数据计算分布到整个集群的常见商用服务器和存储上,Why:,传统的计算架构是一种沿纵向扩展模式,通过更快的,SAN,、大容量内存和多级缓存将数据加载到,CPU,上,成本比较高。,What:Hadoop,把大数据集合拆分区划为小数据集合,再把小数据集合分发到多台普通服务器上,是一种横向扩展模式。,Why:Scalable,Flexible,Cost Effective,Fault Tolerent,Components:Map Reduce,HDFS,What is Hadoop?,NameNode(Metadata store),Nodes,HDFS Cluster,Operating System,Nodes,Elastic Storage-SNC Cluster,Kernel Level,IBM Value for Hadoop!,HDFS,把数据分散存储在多个存储节点,Node,上,HDFS,设计时就假设存储节点有失效的可能,所以,HDFS,会把一份数据复制,3,份以上,分散存储在多个节点上,从而实现系统整体上的可靠性,HDFS,文件系统是由服务器节点集群组成的,每台服务器依照,HDFS,的特有,block,协议支持网络化,block,数据,HDFS Name Node,有发生单点故障的危险,IBM,在改善文件系统的性能同时消除了单点故障,Elastic Storage-SNC(available as beta code),Hadoop,说明,Map Reduce,HDFS,Hadoop Stack,What does it look like?,典型,Hadoop,存储的,Pain Points,在选择,HDFS,的组件(如软件、服务器、网络和存储等)时很难选,对,在从测试环境迁移到生产环境时,需要做的调优和调整工作太繁复了,长期持续不断的运维保障过于繁重,比如老要更换失效组件(尤其是硬盘),这使得保证期望的,SLA,非常难,CPU,和存储去耦,本来用户的,CPU,和内存已经满足计算需求,但为了存储容量需要安装更多的硬盘不得不买更多的、不必要的,CPU,和内存,Storage options available have clear gaps,本地存储的利用率低,(25%),,每次需要扩容的时候就要添加更多的服务器,而一旦硬盘失效后需要重建,服务器越多,失效的几率越高,性能也就越差,IBM Storage for Hadoop,传统的,Hadoop,集群使用的是服务器内置硬盘存储。如果用作测试或科学研究还好,可作为业务运行的存储就要采用企业存储,Hadoop,集群要负责数据保护和复制,重建(就是,copy,)失效的数据集到不同节点上,严重影响,CPU,性能,无法实现企业级的,RAS,Replicate data,问题同上,扩展的时候同时增加处理器,/,网络,/,存储,无法做到物尽其用(,no way to separate these 3 even if excess capacity existing in one(e.g.Needed more storage but had to add Compute and Network),),使用外部存储可以将存储负载和,Hadoop,计算节点分离,同时还获得了企业存
展开阅读全文