资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2013-1-26,#,大数据,您如何选择,?,假如你是一个商品零售公司的老板。你的公司很先进,已经实现了业务信息化,每一笔销售单据都保存在数据库中,日积月累,已经保存了十余年的销售数据,上亿条销售记录。这时如果我问你:“反正三年前的数据留着也白白占地方,耗费存储成本,索性把它们全删掉吧,这样不用买硬盘就能容纳新数据,如何?”你会从容的接受我这个建议吗?我们的直觉告诉我们:这些数据有用!但这仅仅是一种直觉,到底该怎样把这些占据大量存储空间的数据的价值挖掘出来,让这些数据从成本的消耗者变成利润的促进者?,大数据,您如何选择?假如你是一个商品零售公司的老板。,1,BI,闪亮登场,没错,选择,BI,来实现,.,BI(Business Intelligence),是一种运用了数据仓库、在线分析和数据挖掘等技术来处理和分析数据的崭新技术,目的是为企业决策者提供决策支持。,BI,应用的两大类别是,信息类应用,DW(,数据仓库,),和,知识类应用,KDD(,数据挖掘,),。,BI,是种技术,或者说是解决方案,.,而不是某种工具。,BI闪亮登场没错,选择BI来实现.,2,BI,应用行业,行业分布,银行、通信、证券、保险、能源、烟草,工厂、矿场、医疗卫生,零售、快消品,电子商务、电子政务,使用特点,目前大部分用户主要集中在信息类应用,即,数据查询,+,报表展示,+OLAP,分析的合理,其主要目的即减,轻手工报表制作的压力,提高工作效率,.,少量用户,(,金融,通信,能源,),集中在数据挖掘,.,BI应用行业行业分布,3,BI,国内应用难点,BI,工具在中国遇到的难题:,*,复杂表样:,中国的表样设计思想与西方不同,西方报表倾向于仅用一张报表说明一个问题,而中国的报表倾向于将尽可能多的问题集中在一张报表中,这种思路直接导致了中国报表的复杂格式和诡异风格,同时导致在国外大受欢迎的水晶报表水土不服。,*,大数据量:,中国是世界上人口最多的国家。以中国移动公司为例,仅我国一个省的用户数量,就相当于欧洲一个中等国家的人口,是真正的海量数据!国外数据库、数据仓库和,BI,应用软件,都在中国经受着大数据量承载能力的考验。,*,数据回写:,中国是世界上对,BI,系统要求最奇特的国家。本来,BI,系统是以忠实再现源数据为原则,但这个原则在中国遇到了难题,许多领导都提出了数据修改需求。笔者曾经经历,挨骂颇多。,BI国内应用难点BI 工具在中国遇到的难题:,4,BI,应用分类,信息类,BI,应用,(,数据仓库,),知识类,BI,应用,(,数据挖掘,),报表,&,图表,&,地图,&,中国式报表,数据挖掘,探察数据规律,自助样式报表,数据挖掘,数据建模,&,预测,多维联机分析,(OLAP),BI应用分类 信息类BI应用(数据仓库)知识类BI应用(数据,5,BI,实现过程,后端,(ETL),前端,(,报表开发,),源数据分析与探索,Portal,建设,ODS,建设,模型与报表开发,DW(,数据仓库,),OLAP,分析,(CUBE,建设,),DM(,数据集市,),DM(,数据挖掘,),BI,实现过程,=,前端,+,后端,=,源数据,+ODS+DW+DM+OLAP+Report+,DM,BI实现过程后端(ETL)前端(报表开发)源数据分析与探索P,6,BI,实施开发常用工具,实施过程,工具,源数据分析与探索,SQL,脚本,ETL,Informatica(PWC),DataStage,DTS/SSIS,Kettle,Beeload,ODI,数据同步,(,源,-ODS),Informatica(PWX),GoldenGate,ODS&DW&DM(,关系型,),MS SQL,Oracle,DB2,其他,(MYSQL,Teradata),数据质量管理,Informatica(IDQ),报表开发工具,SAP BO,COGNOS,水晶报表,/,易表,OBIEE,Brio,QlikView,SAS,Smartbi,POWER-BI,Finereport,SpagoBI,OpenI,OLAP,开发工具,Cognos(Powerplay),、,Hyperion(Essbase),、微软,(Analysis Service),以及,MicroStrategy,报表开发组件,FusionCharts,JFreeChart,MsChart,Portal,开发语言,(,平台,),JAVA,.NET,PHP,数据挖掘工具,SAS,SPSS Clementine,MATLAB,BI实施开发常用工具实施过程 工具源数据分析与探索SQL脚本,7,BI,架构图,-1,-,无,ODS,BI架构图-1-无ODS,8,BI,架构图,-2,元数据组成,(,Meta data),业务系统到数据仓库,数据仓库,数据展现工具,ETL,Target Database Front-End Tool,ETL,人事,销售,库存,财务,RDBMS,ODS/Staging Area,RDBMS,数据仓库,数据集市,企业经营,分析,客户关系,管理,业务流程,分析,财务分析,Metadata,外部系统,Statistics,Clustering,Neural Nets,Artificial,Intelligence,业务,股东,管理,OLAP,BI架构图-2,9,支持,源系统类型,常见源系统数据类型,关系型数据库,ACCESS,、,SQL,SERVER,、,ORACLE,、,DB2,TERADATA,、,GREEN,PLUM,、,MY SQL,平面文件,(Flat file),EXCEL,、,TXT,XML,、,HTML,其他数据,COBOL,FILE,SAP,ORACLE,EBS,相关概念,:,OLTP,OLAP,2.,透明网关,(,异构,源与目标的,ETL,),3.,元数据,(,业务元数据,技术元数据,),支持源系统类型常见源系统数据类型关系型数据库ACCESS、S,10,ODS,ODS,(Operational Data Store,),特征,:ODS,只是存放当前或接近当前的数据,1,)在业务系统和数据仓库之间形成一个隔离层,;减轻,ETL,对源系统压力,相当于缓冲区,.,2,)转移一部分业务,系统明细查询,的,功能,3,)外部数据,/,文件的临时存放,4,)出报表,例如,客户保单今天如果到期则发送预警报表,.,ODSODS(Operational Data Store),11,DW-,数据仓库,DW,,即数据仓库(,Data Warehouse,),特征,:,面向主题的、集成的、相对稳定的、反映历史变化的数据集合,.,实际上,.DW,是多个表的集合,由多个维表与事实表组成,.,维度,:,事物的某个方面,如时间,、,区域,、,供应商,2.,度量,/,指标,:,需要分析的量,如销量,、,库存,、,价格,、,积分,3.,粒度,:,数据表中数据细化的程度,如到月,、,周,、,天等,4.,事实表,、,维度表,5.,代理键,、,退化维,6.,缓慢维度变化,DW-数据仓库DW,即数据仓库(Data Warehouse,12,13,维度:,是一个与业务相关的观察角度,依赖于数据的有效性和表达业务成效的关键性能指标,能够回答类似下列问题,:,业务,的每个,方面可构造,成一个,维度,,例如:时间维度由年、季度、月、周和天构成。所有的维度在一起提供了业务的多维视图。这个多维视图的数据被存为一个立方体。,一个维度是,管理员从数据仓库提取的有效信息,并在同一个前题下以,层,的方式构造形成。例如:,地区,维度下有,地域,、,国家,、,办事处,、,销售员,4,层。,Who,What,Where,When,什么是维度?,13维度:WhoWhatWhereWhen什么是维度?,企业收集和存储的将用于评价业务状况的,数值性,数据,例如:,销售额,成本,利润,库存量,交易数,在企业活动中通常是通过如销售额、费用、业务指标、库存量和定额一类的关键性能指标-,度量,来监测业务的成效。,不同的度量能够反映出不同的业务性质。,例如:假设针对企业的关键成功因素是客户的满意度。那么,对于产品制造商来说,可能要通过,及时运输货物来衡量它,;而客户服务部门可能要用,电话支持回应时间来衡量它。,How much,什么,是度量?,1.,度量在日常业务中相当于指标,如,KPI,指标,2.,指标分为基础指标和计算指标,如销量同金额,3.,计算指标请注意,after roll,up,与,befor roll up,企业收集和存储的将用于评价业务状况的数值性数据How muc,14,DM-,数据集市,DM,即数据集市,(,Data Mart,),是企业级,数据仓库,的一个子集,它主要面向部门级业务,并且只面向某个特定的主题,.,不同行业数据集市的规模不同,如移动行业数据集市比很多企业的数据仓库规模还要大,.,数据集市特征,面向部门,/,机构,如财务部,人力资源部,市场部,星型结构或雪花结构,汇总数据,(,粒度较低,),数据 仓库,数据集市,数据集市,DM-数据集市DM,即数据集市(Data Mart)数据集,15,DM,数据结构,-,星型,星型架构,:,是一种非正规化的结构,多维数据集的每一个维度都直接与事实表相连接,不存在渐变维度,所以数据有一定的冗余,但效率较高,.,优点,:,查询效率较高,DM数据结构-星型 星型架构:,16,DM,数据结构,-,雪花,雪花模型,雪花模型是对星型模型的扩展。它对星型模型的维表进一步层次化,原有的各维表可能被扩展为小的事实表,形成一些局部的,层次,区域,这些被分解的表都连接到主维度表而不是事实表。,优点,:,通过最大限度地减少数据存储量以及联合较小的维表来改善查询性能。,DM数据结构-雪花雪花模型,17,OLAP,OLAP,(,On-Line Analytical Processing,),OLAP,是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。,OLAP,的基本多维分析操作有钻取(,roll up,和,drill down)、,切片(,slice),和切块(,dice)、,以及旋转(,pivot)、drill across、drill through,等。,OLAP,有多种实现方法,根据存储数据的方式不同可以分为,ROLAP,、,MOLAP,、,HOLAP,。,常用,OLAP,工具,:,有,Hyperion Essbase,Microsoft SQL Server OLAP Services,Cognos TS,MicroStrategy,OLAPOLAP(On-Line Analytical P,18,OLAP,应用图示,使用向下钻取(,Drill Down)、,切片和旋转(,Slice and Dice),以及改变显示方式来探察数据,大区,省份,城市,向下钻取,产品,区域,切片,和旋转,Change Displays,改变显示,相关概念,:,切块,切片,旋转,上钻,下钻,2.CUBE,3.,层级,OLAP应用图示大区省份城市 向下钻取产品区域 切片和,19,数据挖掘,数据挖掘,(,Data Mining,,,DM,)又称数据库中的知识发现(,Knowledge Discover in Database,,,KDD,),数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。,数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,数据挖掘数据挖掘(Data Mining,DM)又称数据库中,20,数据挖掘技术,分类。,分类是找出数据库中一
展开阅读全文