Lecure数据仓库与OLA技术概述

上传人:56545****6ddd 文档编号:253046465 上传时间:2024-11-28 格式:PPTX 页数:38 大小:357.12KB
返回 下载 相关 举报
Lecure数据仓库与OLA技术概述_第1页
第1页 / 共38页
Lecure数据仓库与OLA技术概述_第2页
第2页 / 共38页
Lecure数据仓库与OLA技术概述_第3页
第3页 / 共38页
点击查看更多>>
资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Data Mining:Concepts and Techniques,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Data Mining:Concepts and Techniques,*,28 十一月 2024,1,数据挖掘:概念与技术,第三、四章,王家兵 博士,华南理工大学计算机科学与工程学院,28 十一月 2024,2,Lecture 3:,数据仓库、,OLAP,及数据立方体计算,什么是数据仓库(,data warehouse)?,多维数据模型,数据仓库体系结构,数据仓库实施,28 十一月 2024,3,什么是数据仓库,?,有多种但并不严格的定义,与操作数据库相隔离并单独维护的一个用来支持决策过程的数据库,一个用来对整理过的历史数据进行分析以便支持信息处理的固定平台,.,“,数据仓库是,面向主题的,、,集成的,、,时变的,、,非易失的,数据集合,它用来支持管理部门的,决策,过程,”,W.H.Inmon,28 十一月 2024,4,数据仓库面向主题的,围绕主题组织,如消费者(,customer)、,产品(,product),,销售量(,sales),等。,主要目的是对数据建模与分析,以便于决策者的决策过程,而不是日常操作与事物处理。,排出那些对决策过程没有用的数据,为决策者提供一个简明的有关特定主题的视图。,28 十一月 2024,5,数据仓库集成的,集成多个、异构数据源,关系数据库,普通文件,联机事物记录。,应用了数据清洗与数据集成技术,确保多个数据源命名惯例、编码结构、属性度量等的一致性。,在数据移入数据仓库之前,对它进行转换,。,28 十一月 2024,6,数据仓库时变的,数据仓库跨越的时间比操作数据库要长的多,.,操作数据库:当前值数据。,数据仓库:从历史的视角提供信息(如过去,5-10,的数据),数据仓库的健值属性,隐式或显式地包含一个时间键。,操作数据库可以也可以不包含时间键。,28 十一月 2024,7,数据仓库非易失的,与操作数据库分隔存储。,操作数据库的数据更新不在数据仓库环境出现。,不需要事务处理,数据恢复以及并发控制机制。,仅仅需要以下2种操作:,数据的初始装载与数据访问。,28 十一月 2024,8,数据仓库,vs.,数据库管理系统,联机事物处理,(OLTP,on-line transaction processing),传统关系数据库的主要任务,日常操作,:,购买,存货,财务等,.,联机分析处理,(OLAP,on-line analytical processing),数据仓库的主要任务,数据分析与决策支持,28 十一月 2024,9,OLTP,OLAP,用户,员工,IT,专业人员,知识工作者,功能,每天的日常操作,决策支持,DB,设计,面向应用,+ER,面向主题,+Star,数据,当前的,详细的数据,历史的,汇总的,多维的集成的,整理过的,使用,重复的,特定的,访问,读,/,写、索引,多次扫描,工作单元,短的,简单的事务处理,复杂查询,记录数,/,查询,几十,百万,用户数,上千,百,DB,规模,100MB-GB,100GB-TB,metric,transaction throughput,query throughput,response,28 十一月 2024,10,为什么要建立隔离的数据仓库,?,使得操作数据库与数据仓库都获得高性能,DBMSOLTP:,访问方法,索引,并发控制,数据恢复。,WarehouseOLAP:,复杂,OLAP,查询,多维视图,整理。,对数据与功能的要求不同,:,丢失的数据:决策支持需要历史数据,而传统数据库并不一定维护历史数据。,数据整理:决策支持需要对异构数据源进行数据整理。,数据质量,:,不同的数据源常常具有不一致的数据表示,编码结构与格式。,31,十,十,二,二月2022,11,数据,挖,挖掘,中,中的,数,数据,仓,仓库,与,与,OLAP,技术,什么,是,是数,据,据仓,库,库,?,多维,数,数据,模,模型,数据,仓,仓库,体,体系,结,结构,数据,仓,仓库,实,实施,31,十,十二月2022,12,由表和,电,电子数,据,据表到,数,数据立,方,方体,I,数据仓,库,库基于,多,多维数,据,据模型,,,,以数,据,据立方,体,体的形,式,式对数,据,据进行,观,观察。,数据立,方,方体,,如,如销售,,,,允许,以,以多维,来,来对数,据,据进行,建,建模与,观,观察。,维表,:,如维,item(item_name,brand,type),,或维,time(day,week,month,quarter,year),。,事实表,包,包含度,量,量(,measures),:,:,如销售,额,额以及,每,每个相,关,关维表,的,的关键,字,字。,31,十,十二月2022,13,由表和,电,电子数,据,据表到,数,数据立,方,方体,II,在数据,仓,仓库的,研,研究文,献,献中,,一,一个,n,维立方,体,体(,n,-D),称为,基本方,体,体,(,base cuboid),;,0-D,方体存,放,放最高,层,层的汇,总,总,,称,称为,顶点方,体,体,(,apex cuboid),,方体,的,的格称,作,作,数据立,方,方体,(,data cube,),),。,31 十,二,二月 2022,14,立方体:,方,方体格,all,time,item,location,supplier,time,item,time,location,time,supplier,item,location,item,supplier,location,supplier,time,item,location,time,item,supplier,time,location,supplier,item,location,supplier,time,item,location,supplier,0-,D(apex)cuboid,1-,D cuboids,2-,D cuboids,3-,D cuboids,4-,D(base)cuboid,31,十,十,二,二,月,月2022,15,数,据,据,仓,仓,库,库,概,概,念,念,模,模,型,型,建,模,模,数,数,据,据,仓,仓,库,库,:,维,&,度,量,量,星,型,型,模,模,式,式,(,(,Starschema,),):,一,个,个,事,事,实,实,表,表,以,以,及,及,一,一,组,组,与,与,事,事,实,实,表,表,连,连,结,结,的,的,维,维,表,表,。,。,雪,花,花,模,模,式,式,(,(,Snowflakeschema,),):,雪,花,花,模,模,式,式,是,是,星,星,型,型,模,模,式,式,的,的,变,变,种,种,,,,,其,其,中,中,某,某,些,些,维,维,表,表,是,是,规,规,范,范,化,化,的,的,。,。,(,(,normalized,),),,,,,因,而,而,把,把,数,数,据,据,进,进,一,一,步,步,分,分,解,解,到,到,附,附,加,加,的,的,表,表,中,中,。,。,事,实,实,星,星,座,座,(,(,Factconstellations,),):,多,个,个,事,事,实,实,表,表,分,分,享,享,共,共,同,同,的,的,维,维,表,表,,,,,这,这,种,种,模,模,式,式,可,可,以,以,看,看,作,作,星,星,型,型,模,模,式,式,的,的,集,集,合,合,,,,,因,因,此,此,称,称,为,为,星,星,系,系,模,模,式,式,(,(,galaxyschema,),),或,事,事,实,实,星,星,座,座,。,。,31 十二,月,月 2022,16,星型,模,模式,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,state_or_province,country,location,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,31,十,十,二,二月2022,17,雪花,模,模式,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city_key,location,SalesFactTable,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,item_key,item_name,brand,type,supplier_key,item,branch_key,branch_name,branch_type,branch,supplier_key,supplier_type,supplier,city_key,city,state_or_province,country,city,31 十,二,二月 2022,18,事实星座,time_key,day,day_of_the_week,month,quarter,year,time,location_key,street,city,province_or_state,country,location,Sales Fact Table,time_key,item_key,branch_key,location_key,units_sold,dollars_sold,avg_sales,Measures,item_key,item_name,brand,type,supplier_type,item,branch_key,branch_name,branch_type,branch,ShippingFact Table,time_key,item_key,shipper_key,from_location,to_location,dollars_cost,units_shipped,shipper_key,shipper_name,location_key,shipper_type,shipper,31,十,十二月2022,19,度量的,分,分类,I,分布式,的,的(,distributive,),):,一个聚,集,集函数,是,是分布,的,的,如,果,果它能,以,以以下,分,分布式,进,进行计,算,算:如,果,果将函,数,数用于,n,个聚集,值,值得到,的,的结果,,,,与将,函,函数用,于,于所有,数,数据得,到,到的结,果,果一样,,,,则该,函,函数可,以,以用分,布,布式计,算,算。,如,count(),sum(),min(),max().,代数的,(,(,algebraic,),):,一个函,数,数是代,数,数的,,如,如果它,能,能够由,一,一个具,有,有,M,个参数,的,的代数,函,函数计,算,算(其,中,中,M,是一个,有,有界整,数,数),,而,而每个,参,参数都,可,可以用,一,一个分,布,布聚集,函,函数得,到,到。,如,avg(),st
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 营销创新


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!