数据仓库与数据挖掘技术讲座课件

上传人:文**** 文档编号:241279258 上传时间:2024-06-14 格式:PPT 页数:81 大小:1.66MB
返回 下载 相关 举报
数据仓库与数据挖掘技术讲座课件_第1页
第1页 / 共81页
数据仓库与数据挖掘技术讲座课件_第2页
第2页 / 共81页
数据仓库与数据挖掘技术讲座课件_第3页
第3页 / 共81页
点击查看更多>>
资源描述
数据仓库与数据挖掘技数据仓库与数据挖掘技术讲座术讲座2024/6/14数据仓库与数据挖掘技术讲座数据仓库与数据挖掘技术讲座2023/8/9数据仓库与数据挖掘1提纲提纲 数据仓库概念数据仓库概念 数据仓库体系结构及组件数据仓库体系结构及组件 数据仓库设计数据仓库设计 数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库性能 数据仓库应用数据仓库应用 数据挖掘应用概述数据挖掘应用概述 数据挖掘技术与趋势数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库与数据挖掘技术讲座提纲数据仓库概念数据仓库与数据挖掘技术讲座2数据仓库概念数据仓库概念 基本概念基本概念 对数据仓库的一些误解对数据仓库的一些误解数据仓库与数据挖掘技术讲座数据仓库概念基本概念数据仓库与数据挖掘技术讲座3基本概念基本概念数据仓库数据仓库vvData warehouse is a subject oriented,Data warehouse is a subject oriented,Data warehouse is a subject oriented,Data warehouse is a subject oriented,integrated,non-volatile and time variant integrated,non-volatile and time variant integrated,non-volatile and time variant integrated,non-volatile and time variant collection of datacollection of datacollection of datacollection of data in support of in support of in support of in support of managements decision managements decision managements decision managements decision Inmon,1996Inmon,1996Inmon,1996Inmon,1996.vvData warehouse is Data warehouse is Data warehouse is Data warehouse is a set of methods,a set of methods,a set of methods,a set of methods,techniques,and toolstechniques,and toolstechniques,and toolstechniques,and tools that may be leveraged that may be leveraged that may be leveraged that may be leveraged together to produce a vehicle that delivers together to produce a vehicle that delivers together to produce a vehicle that delivers together to produce a vehicle that delivers data to end-users on an integrated platform data to end-users on an integrated platform data to end-users on an integrated platform data to end-users on an integrated platform Ladley,1997Ladley,1997Ladley,1997Ladley,1997.vvData warehouse is Data warehouse is Data warehouse is Data warehouse is a processa processa processa process of crating,of crating,of crating,of crating,maintaining,and using a decision-support maintaining,and using a decision-support maintaining,and using a decision-support maintaining,and using a decision-support infrastructure infrastructure infrastructure infrastructure Appleton,1995Haley,1997Gardner 1998.Appleton,1995Haley,1997Gardner 1998.Appleton,1995Haley,1997Gardner 1998.Appleton,1995Haley,1997Gardner 1998.数据仓库与数据挖掘技术讲座基本概念数据仓库Datawarehouseisas4基本概念基本概念数据仓库特征数据仓库特征Inmon,1996Inmon,1996 面向主题面向主题面向主题面向主题 一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;单处理;应收帐目;应付帐目;单处理;应收帐目;应付帐目;单处理;应收帐目;应付帐目;)典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目 主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现主题领域以一组相关的表来具体实现 相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号相关的表通过公共的键码联系起来(如:顾客标识号Customer IDCustomer ID)每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期每个键码都有时间元素(从日期到日期;每月累积;单独日期)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成集成集成集成 数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载 稳定性稳定性稳定性稳定性 批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变批处理增加,仓库已经存在的数据不会改变 随时间而变化(时间维)随时间而变化(时间维)随时间而变化(时间维)随时间而变化(时间维)管理决策支持管理决策支持管理决策支持管理决策支持数据仓库与数据挖掘技术讲座基本概念数据仓库特征Inmon,1996面向主题数据5基本概念基本概念Data Mart,ODS Data MartData Mart 数据集市数据集市数据集市数据集市-小型的,面向部门或工作组级数小型的,面向部门或工作组级数小型的,面向部门或工作组级数小型的,面向部门或工作组级数据仓库。据仓库。据仓库。据仓库。Operation Data StoreOperation Data Store 操作数据存储操作数据存储操作数据存储操作数据存储 ODS ODS ODS ODS是能支持企业日常的全是能支持企业日常的全是能支持企业日常的全是能支持企业日常的全局应用的数据集合局应用的数据集合局应用的数据集合局应用的数据集合,是不同于是不同于是不同于是不同于DBDBDBDB的一种新的数的一种新的数的一种新的数的一种新的数据环境据环境据环境据环境,是是是是DW DW DW DW 扩展后得到的一个混合形式。扩展后得到的一个混合形式。扩展后得到的一个混合形式。扩展后得到的一个混合形式。四个基本特点:面向主题的四个基本特点:面向主题的四个基本特点:面向主题的四个基本特点:面向主题的(Subject-(Subject-(Subject-(Subject-Oriented)Oriented)Oriented)Oriented)、集成的、可变的、集成的、可变的、集成的、可变的、集成的、可变的、当前或接近当当前或接近当当前或接近当当前或接近当前的。前的。前的。前的。数据仓库与数据挖掘技术讲座基本概念DataMart,ODSDataMart数据6基本概念基本概念ETL,元数据,粒度,分割元数据,粒度,分割 ETL ETLETL(Extract/Transformation/LoadExtract/Transformation/Load)数据装载、转换、数据装载、转换、数据装载、转换、数据装载、转换、抽取工具。抽取工具。抽取工具。抽取工具。Microsoft DTS;IBM Visual Warehouse etc.Microsoft DTS;IBM Visual Warehouse etc.元数据元数据 关于数据的数据,关于数据的数据,关于数据的数据,关于数据的数据,用于构造、维持、管理、和使用数据仓用于构造、维持、管理、和使用数据仓用于构造、维持、管理、和使用数据仓用于构造、维持、管理、和使用数据仓库,库,库,库,在数据仓库中尤为重要。在数据仓库中尤为重要。在数据仓库中尤为重要。在数据仓库中尤为重要。粒度粒度 数据仓库的数据单位中保存数据的细化或综合程度的级别。数据仓库的数据单位中保存数据的细化或综合程度的级别。数据仓库的数据单位中保存数据的细化或综合程度的级别。数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。细化程度越高,粒度越小。细化程度越高,粒度越小。细化程度越高,粒度越小。分割分割 数据分散到各自的物理单元中去,它们能独立地处理。数据分散到各自的物理单元中去,它们能独立地处理。数据分散到各自的物理单元中去,它们能独立地处理。数据分散到各自的物理单元中去,它们能独立地处理。数据仓库与数据挖掘技术讲座基本概念ETL,元数据,粒度,分割ETL数据仓库与数据挖7对数据仓库的一些误解对数据仓库的一些误解 数据仓库与数据仓库与OLAP 星型数据模型星型数据模型星型数据模型星型数据模型 多维分析多维分析多维分析多维分析 数据仓库不是一个虚拟的概念数据仓库不是一个虚拟的概念 数据仓库与范式理论数据仓库与范式理论 需要非范式化处理需要非范式化处理需要非范式化处理需要非范式化处理数据仓库与数据挖掘技术讲座对数据仓库的一些误解数据仓库与OLAP数据仓库与数据挖掘技术8提纲提纲 数据仓库概念数据仓库概念 数据仓库体系结构及组件数据仓库体系结构及组件 数据仓库设计数据仓库设计 数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库性能 数据仓库应用数据仓库应用 数据挖掘应用概述数据挖掘应用概述 数据挖掘技术与趋势数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库与数据挖掘技术讲座提纲数据仓库概念数据仓库与数据挖掘技术讲座9数据仓库体系结构及组件数据仓库体系结构及组件 体系结构体系结构 ETL工具工具 元数据库元数据库(Repository)及元数据管理及元数据管理 数据访问和分析工具数据访问和分析工具数据仓库与数据挖掘技术讲座数据仓库体系结构及组件体系结构数据仓库与数据挖掘技术讲座10体系结构体系结构 Pieter,1998Pieter,1998 SourceDatabasesData Extraction,Transformation,loadWarehouseAdmin.ToolsExtract,Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisEnd-UserDW ToolsCentral DataWarehouseCentral DataWarehouseMid-TierMid-TierDataMartDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS数据仓库与数据挖掘技术讲座体系结构Pieter,1998SourceData11带带ODS的体系结构的体系结构SourceDatabasesHub-Data Extraction,Transformation,loadWarehouseAdmin.ToolsExtract,Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData Accessand AnalysisCentral Data Ware-house and ODSCentral DataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocal MetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl.PackageLegacyExternalMDBEnd-UserDW Tools数据仓库与数据挖掘技术讲座带ODS的体系结构SourceHub-DataExtr12现实环境现实环境异质性异质性 Douglas Hackney,2001Douglas Hackney,2001 CustomCustomMarketingMarketingData Data WarehouseWarehousePackagedPackagedOracle Oracle FinancialFinancialData Data WarehouseWarehousePackagedPackagedI2 Supply ChainI2 Supply ChainNon-ArchitectedNon-ArchitectedData MartData MartSubsetSubsetData MartsData MartsOracle FinancialsOracle Financialsi2 Supply Chaini2 Supply ChainSiebel CRMSiebel CRM3rd Party3rd Partye-Commercee-Commerce数据仓库与数据挖掘技术讲座现实环境异质性DouglasHackney,200113联合型数据仓库联合型数据仓库/数据集市体系结构数据集市体系结构Real TimeReal TimeODSODSFederatedFederatedFinancialFinancialData Data WarehouseWarehouseSubsetSubsetData MartsData MartsCommonCommonStagingStagingAreaAreaOracle FinancialsOracle Financialsi2 Supply Chaini2 Supply ChainSiebel CRMSiebel CRM3rd Party3rd PartyFederatedFederatedPackagedPackagedI2 SupplyI2 SupplyChainChainData MartsData MartsAnalyticalAnalyticalApplicationsApplicationse-Commercee-CommerceReal TimeReal TimeData MiningData Miningand Analyticsand AnalyticsReal TimeReal TimeSegmentation,Segmentation,Classification,Classification,Qualification,Qualification,Offerings,etc.Offerings,etc.FederatedFederatedMarketingMarketingData Data WarehouseWarehouse数据仓库与数据挖掘技术讲座联合型数据仓库/数据集市体系结构RealTimeFeder14ETL tools&DW ETL tools&DW templatestemplatesData profiling&Data profiling&reengineering toolsreengineering toolsDemand-driven data Demand-driven data acquisition&analysisacquisition&analysisMetadata InterchangeMetadata InterchangeFederated data Federated data warehouse and data warehouse and data mart systemsmart systemsDecision engine Decision engine models,rules and models,rules and metricsmetricsOLAP&data mining OLAP&data mining tools,tools,Analysis templatesAnalysis templatesAnalytic application Analytic application development tools&development tools&componentscomponentsAnalytic applicationsAnalytic applicationsFront-and back-Front-and back-office OLTPoffice OLTPe-Business e-Business systemssystemsExternal information External information providersprovidersCRM CRM Analytics&Analytics&ReportingReportingSupply Chain Supply Chain Analytics&Analytics&ReportingReportingEKP-Enterprise EKP-Enterprise Knowledge Knowledge Management PortalManagement PortalEPM EPM Analytics&Analytics&ReportingReportingBusiness Business information&information&recommendationsrecommendationsInformed Informed decisions decisions&actions&actionsFinancial Financial Analytics&Analytics&ReportingReportingHR Analytics HR Analytics&Reporting&Reporting闭环的联合型闭环的联合型BI体系结构体系结构数据仓库与数据挖掘技术讲座ETLtools&DWtemplatesDatap15数据仓库的焦点问题数据仓库的焦点问题-数据的获得、存储和使用数据的获得、存储和使用数据的获得、存储和使用数据的获得、存储和使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterprise DataWarehouse DatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserToolvv数据仓库和集市的加载能力至关重要数据仓库和集市的加载能力至关重要vv数据仓库和集市的查询输出能力至关重数据仓库和集市的查询输出能力至关重要要数据仓库与数据挖掘技术讲座数据仓库的焦点问题-数据的获得、存储和使用Relation16ETL工具工具 去掉操作型数据库中的不需要的数据去掉操作型数据库中的不需要的数据 统一转换数据的名称和定义统一转换数据的名称和定义 计算汇总数据和派生数据计算汇总数据和派生数据 估计遗失数据的缺省值估计遗失数据的缺省值 调节源数据的定义变化调节源数据的定义变化 数据仓库与数据挖掘技术讲座ETL工具去掉操作型数据库中的不需要的数据数据仓库与数据挖掘17ETL工具体系结构工具体系结构数据仓库与数据挖掘技术讲座ETL工具体系结构数据仓库与数据挖掘技术讲座18元数据库及元数据管理元数据库及元数据管理 元元数数据据分分类类:技技术术元元数数据据;商商业业元元数数据据;数据仓库操作型信息。数据仓库操作型信息。-Alex Berson etc,1999-Alex Berson etc,1999 技术元数据技术元数据 包包包包括括括括为为为为数数数数据据据据仓仓仓仓库库库库设设设设计计计计人人人人员员员员和和和和管管管管理理理理员员员员使使使使用用用用的的的的数数数数据据据据仓仓仓仓库库库库数数数数据信息,用于执行数据仓库开发和管理任务。包括:据信息,用于执行数据仓库开发和管理任务。包括:据信息,用于执行数据仓库开发和管理任务。包括:据信息,用于执行数据仓库开发和管理任务。包括:数据源信息数据源信息数据源信息数据源信息 转换描述(从操作数据库到数据仓库的映射方法,以转换描述(从操作数据库到数据仓库的映射方法,以转换描述(从操作数据库到数据仓库的映射方法,以转换描述(从操作数据库到数据仓库的映射方法,以及转换数据的算法)及转换数据的算法)及转换数据的算法)及转换数据的算法)目标数据的仓库对象和数据结构定义目标数据的仓库对象和数据结构定义目标数据的仓库对象和数据结构定义目标数据的仓库对象和数据结构定义 数据清洗和数据增加的规则数据清洗和数据增加的规则数据清洗和数据增加的规则数据清洗和数据增加的规则 数据映射操作数据映射操作数据映射操作数据映射操作 访问权限,备份历史,存档历史,信息传输历史,数访问权限,备份历史,存档历史,信息传输历史,数访问权限,备份历史,存档历史,信息传输历史,数访问权限,备份历史,存档历史,信息传输历史,数据获取历史,数据访问,等等据获取历史,数据访问,等等据获取历史,数据访问,等等据获取历史,数据访问,等等数据仓库与数据挖掘技术讲座元数据库及元数据管理元数据分类:技术元数据;商业元数据;数据19元数据库及元数据管理元数据库及元数据管理 商业元数据商业元数据 给用户易于理解的信息,包括:给用户易于理解的信息,包括:给用户易于理解的信息,包括:给用户易于理解的信息,包括:主题区和信息对象类型,包括查询、报表、图像、音主题区和信息对象类型,包括查询、报表、图像、音主题区和信息对象类型,包括查询、报表、图像、音主题区和信息对象类型,包括查询、报表、图像、音频、视频等频、视频等频、视频等频、视频等 InternetInternet主页主页主页主页 支持数据仓库的其它信息,例如对于信息传输系统包支持数据仓库的其它信息,例如对于信息传输系统包支持数据仓库的其它信息,例如对于信息传输系统包支持数据仓库的其它信息,例如对于信息传输系统包括预约信息、调度信息、传送目标的详细描述、商业括预约信息、调度信息、传送目标的详细描述、商业括预约信息、调度信息、传送目标的详细描述、商业括预约信息、调度信息、传送目标的详细描述、商业查询对象,等查询对象,等查询对象,等查询对象,等 数据仓库操作型信息数据仓库操作型信息 例如,数据历史(快照,版本),拥有权,抽取的审例如,数据历史(快照,版本),拥有权,抽取的审例如,数据历史(快照,版本),拥有权,抽取的审例如,数据历史(快照,版本),拥有权,抽取的审计轨迹,数据用法计轨迹,数据用法计轨迹,数据用法计轨迹,数据用法 数据仓库与数据挖掘技术讲座元数据库及元数据管理商业元数据数据仓库与数据挖掘技术讲座20元数据库及元数据管理元数据库及元数据管理 元数据库(元数据库(metadatarepository)和工具)和工具 Martin StardtMartin Stardt,20002000 数据仓库与数据挖掘技术讲座元数据库及元数据管理元数据库(metadatareposi21数据访问和分析工具数据访问和分析工具 报表报表 OLAP 数据挖掘数据挖掘数据仓库与数据挖掘技术讲座数据访问和分析工具报表数据仓库与数据挖掘技术讲座22提纲提纲 数据仓库概念数据仓库概念 数据仓库体系结构及组件数据仓库体系结构及组件 数据仓库设计数据仓库设计 数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库性能 数据仓库应用数据仓库应用 数据挖掘应用概述数据挖掘应用概述 数据挖掘技术与趋势数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库与数据挖掘技术讲座提纲数据仓库概念数据仓库与数据挖掘技术讲座23数据仓库设计数据仓库设计 自上而下(自上而下(Top-Down)自底而上(自底而上(Bottom Up)混合的方法混合的方法 数据仓库建模数据仓库建模数据仓库与数据挖掘技术讲座数据仓库设计自上而下(Top-Down)数据仓库与数据挖掘技24Top-down Approach Build Enterprise data Build Enterprise data warehousewarehouse Common central data Common central data modelmodel Data re-engineering Data re-engineering performed onceperformed once Minimize redundancy and Minimize redundancy and inconsistencyinconsistency Detailed and history data;Detailed and history data;global data discoveryglobal data discovery Build datamarts from the Build datamarts from the Enterprise Data Warehouse Enterprise Data Warehouse(EDW)(EDW)H HSubset of EDW relevant to Subset of EDW relevant to departmentdepartmentH HMostly summarized dataMostly summarized dataH HDirect dependency on Direct dependency on EDW data availabilityEDW data availabilityLocal Data MartLocal Data MartExternal DataLocal Data MartOperational DataEnterprise Warehouse数据仓库与数据挖掘技术讲座Top-downApproachBuildEnterpr25自底而上设计方法自底而上设计方法创建部门的数据集市创建部门的数据集市 范围局限于一个主题区域范围局限于一个主题区域 快速的快速的 ROI-ROI-局部的商业需求得局部的商业需求得到满足到满足H H本部门自治本部门自治-设计上具有灵活性设计上具有灵活性H H对其他部门数据集市是一个好的对其他部门数据集市是一个好的指导指导H H容易复制到其他部门容易复制到其他部门 H H需要为每个部门做数据重建需要为每个部门做数据重建H H有一定级别的冗余和不一致性有一定级别的冗余和不一致性H H一个切实可行的方法一个切实可行的方法一个切实可行的方法一个切实可行的方法 扩大到企业数据仓库扩大到企业数据仓库 创建创建EDBEDB作为一个长期的目标作为一个长期的目标局部数据集市局部数据集市外部数据外部数据操作型数据操作型数据(全部全部)操作型数据操作型数据(局部局部)操作型数据操作型数据(局部局部)局部数据集市局部数据集市企业数据仓库企业数据仓库EDB数据仓库与数据挖掘技术讲座自底而上设计方法创建部门的数据集市局部数据集市外部数据操作型26数据仓库建模数据仓库建模 星型模式星型模式 Example of Star SchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore数据仓库与数据挖掘技术讲座数据仓库建模星型模式ExampleofStarS27数据仓库建模数据仓库建模 雪片模式雪片模式 DateMonthDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_sales dollar_sales Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStorevvExample of Snowflake Schema数据仓库与数据挖掘技术讲座数据仓库建模雪片模式DateDateCustId28操作型(操作型(OLTP)数据源)数据源-销售库销售库数据仓库与数据挖掘技术讲座操作型(OLTP)数据源-销售库数据仓库与数据挖掘技29星形模式星形模式时间维时间维事实表事实表数据仓库与数据挖掘技术讲座星形模式时间维事实表数据仓库与数据挖掘技术讲座30多维模型多维模型事实事实度量度量(Metrics)时间维时间维时间维的属性时间维的属性数据仓库与数据挖掘技术讲座多维模型事实度量时间维时间维的属性数据仓库与数据挖掘技术讲座31提纲提纲 数据仓库概念数据仓库概念 数据仓库体系结构及组件数据仓库体系结构及组件 数据仓库设计数据仓库设计 数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库性能 数据仓库应用数据仓库应用 数据挖掘应用概述数据挖掘应用概述 数据挖掘技术与趋势数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库与数据挖掘技术讲座提纲数据仓库概念数据仓库与数据挖掘技术讲座32数据仓库技术数据仓库技术 InmonInmon,199619961.1.1.1.管理大量数据管理大量数据管理大量数据管理大量数据n n能够管理大量数据的能力能够管理大量数据的能力能够管理大量数据的能力能够管理大量数据的能力n n能够管理好的能力能够管理好的能力能够管理好的能力能够管理好的能力2.2.2.2.管理多介质(层次)管理多介质(层次)管理多介质(层次)管理多介质(层次)n n主存、扩展内存、高速缓存、主存、扩展内存、高速缓存、主存、扩展内存、高速缓存、主存、扩展内存、高速缓存、DASDDASDDASDDASD、光盘、缩微胶片、光盘、缩微胶片、光盘、缩微胶片、光盘、缩微胶片3.3.3.3.监视数据监视数据监视数据监视数据n n决定是否应数据重组决定是否应数据重组决定是否应数据重组决定是否应数据重组n n决定索引是否建立得不恰当决定索引是否建立得不恰当决定索引是否建立得不恰当决定索引是否建立得不恰当n n决定是否有太多数据溢出决定是否有太多数据溢出决定是否有太多数据溢出决定是否有太多数据溢出n n决定剩余的可用空间决定剩余的可用空间决定剩余的可用空间决定剩余的可用空间4.4.4.4.利用多种技术获得和传送数据利用多种技术获得和传送数据利用多种技术获得和传送数据利用多种技术获得和传送数据n n批模式,联机模式并不非常有用批模式,联机模式并不非常有用批模式,联机模式并不非常有用批模式,联机模式并不非常有用5.5.5.5.程序员程序员程序员程序员/设计者对数据存放位置的控制(块设计者对数据存放位置的控制(块设计者对数据存放位置的控制(块设计者对数据存放位置的控制(块/页)页)页)页)6.6.6.6.数据的并行存储数据的并行存储数据的并行存储数据的并行存储/管理管理管理管理7.7.7.7.元数据管理元数据管理元数据管理元数据管理数据仓库与数据挖掘技术讲座数据仓库技术Inmon,1996管理大量数据数据33数据仓库技术数据仓库技术 InmonInmon,199619968.8.8.8.数据仓库语言接口数据仓库语言接口数据仓库语言接口数据仓库语言接口n n能够一次访问一组数据能够一次访问一组数据能够一次访问一组数据能够一次访问一组数据n n能够一次访问一条记录能够一次访问一条记录能够一次访问一条记录能够一次访问一条记录n n支持一个或多个索引支持一个或多个索引支持一个或多个索引支持一个或多个索引n n有有有有SQLSQLSQLSQL接口接口接口接口9.9.9.9.数据的高效装入数据的高效装入数据的高效装入数据的高效装入10.10.10.10.高效索引的利用高效索引的利用高效索引的利用高效索引的利用n n用位映像的方法、多级索引等用位映像的方法、多级索引等用位映像的方法、多级索引等用位映像的方法、多级索引等11.11.11.11.数据压缩数据压缩数据压缩数据压缩n nI/OI/OI/OI/O资源比资源比资源比资源比CPUCPUCPUCPU资源少得多,因此数据解压缩不是主要问题资源少得多,因此数据解压缩不是主要问题资源少得多,因此数据解压缩不是主要问题资源少得多,因此数据解压缩不是主要问题12.12.12.12.复合键码(因为数据随时间变化)复合键码(因为数据随时间变化)复合键码(因为数据随时间变化)复合键码(因为数据随时间变化)13.13.13.13.变长数据变长数据变长数据变长数据14.14.14.14.加锁管理(程序员能显式控制锁管理程序)加锁管理(程序员能显式控制锁管理程序)加锁管理(程序员能显式控制锁管理程序)加锁管理(程序员能显式控制锁管理程序)15.15.15.15.单独索引处理(查看索引就能提供某些服务)单独索引处理(查看索引就能提供某些服务)单独索引处理(查看索引就能提供某些服务)单独索引处理(查看索引就能提供某些服务)16.16.16.16.快速恢复快速恢复快速恢复快速恢复数据仓库与数据挖掘技术讲座数据仓库技术Inmon,1996数据仓库语言接口34数据仓库技术数据仓库技术 InmonInmon,1996199617.17.17.17.其他技术特征,传统技术起很小作用其他技术特征,传统技术起很小作用其他技术特征,传统技术起很小作用其他技术特征,传统技术起很小作用n n事务集成性、高速缓存、行事务集成性、高速缓存、行事务集成性、高速缓存、行事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图页级锁定、参照完整性、数据视图页级锁定、参照完整性、数据视图页级锁定、参照完整性、数据视图18.18.18.18.传统传统传统传统DBMSDBMSDBMSDBMS与数据仓库与数据仓库与数据仓库与数据仓库DBMSDBMSDBMSDBMS区别区别区别区别n n为数据仓库和决策支持优化设计为数据仓库和决策支持优化设计为数据仓库和决策支持优化设计为数据仓库和决策支持优化设计n n管理更多数据:管理更多数据:管理更多数据:管理更多数据:10GB/100GB/TB10GB/100GB/TB10GB/100GB/TB10GB/100GB/TBn n传统传统传统传统DBMSDBMSDBMSDBMS适合记录级更新,提供:锁定适合记录级更新,提供:锁定适合记录级更新,提供:锁定适合记录级更新,提供:锁定LockLockLockLock、提交、提交、提交、提交CommitCommitCommitCommit、检测点、检测点、检测点、检测点CheckPointCheckPointCheckPointCheckPoint、日志处理、日志处理、日志处理、日志处理LogLogLogLog、死锁处理、死锁处理、死锁处理、死锁处理DeadLockDeadLockDeadLockDeadLock、回退、回退、回退、回退 Roolback.Roolback.Roolback.Roolback.n n基本数据管理,如:块管理,传统基本数据管理,如:块管理,传统基本数据管理,如:块管理,传统基本数据管理,如:块管理,传统DBMSDBMSDBMSDBMS需要预留空间需要预留空间需要预留空间需要预留空间n n索引区别:传统索引区别:传统索引区别:传统索引区别:传统DBMSDBMSDBMSDBMS限制索引数量,数据仓库限制索引数量,数据仓库限制索引数量,数据仓库限制索引数量,数据仓库DBMSDBMSDBMSDBMS没有限制没有限制没有限制没有限制n n通用通用通用通用DBMSDBMSDBMSDBMS物理上优化便于事务访问处理,而数据仓库便于物理上优化便于事务访问处理,而数据仓库便于物理上优化便于事务访问处理,而数据仓库便于物理上优化便于事务访问处理,而数据仓库便于DSSDSSDSSDSS访问分析访问分析访问分析访问分析19.19.19.19.改变改变改变改变DBMSDBMSDBMSDBMS技术技术技术技术20.20.20.20.多维多维多维多维DBMSDBMSDBMSDBMS和数据仓库和数据仓库和数据仓库和数据仓库n n多维多维多维多维DBMSDBMSDBMSDBMS作为数据仓库的数据库技术,这种想法是不正确的作为数据仓库的数据库技术,这种想法是不正确的作为数据仓库的数据库技术,这种想法是不正确的作为数据仓库的数据库技术,这种想法是不正确的n n多维多维多维多维DBMSDBMSDBMSDBMS(OLAPOLAPOLAPOLAP)是一种技术,数据仓库是一种体系结构的基础)是一种技术,数据仓库是一种体系结构的基础)是一种技术,数据仓库是一种体系结构的基础)是一种技术,数据仓库是一种体系结构的基础21.21.21.21.双重粒度级别(双重粒度级别(双重粒度级别(双重粒度级别(DASD/DASD/DASD/DASD/磁带)磁带)磁带)磁带)数据仓库与数据挖掘技术讲座数据仓库技术Inmon,1996其他技术特征,传35数据仓库技术数据仓库技术 InmonInmon,1996199622.22.22.22.数据仓库环境中的元数据数据仓库环境中的元数据数据仓库环境中的元数据数据仓库环境中的元数据n nDSSDSSDSSDSS分析人员和分析人员和分析人员和分析人员和ITITITIT专业人员不同,需要元数据的帮助专业人员不同,需要元数据的帮助专业人员不同,需要元数据的帮助专业人员不同,需要元数据的帮助n n操作型环境和数据仓库环境之间的映射需要元数据操作型环境和数据仓库环境之间的映射需要元数据操作型环境和数据仓库环境之间的映射需要元数据操作型环境和数据仓库环境之间的映射需要元数据n n数据仓库包含很长时间的数据,必须有元数据标记数据结构数据仓库包含很长时间的数据,必须有元数据标记数据结构数据仓库包含很长时间的数据,必须有元数据标记数据结构数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义定义定义定义23.23.23.23.上下文和内容(上下文维)上下文和内容(上下文维)上下文和内容(上下文维)上下文和内容(上下文维)n n简单上下文信息(数据结构简单上下文信息(数据结构简单上下文信息(数据结构简单上下文信息(数据结构/编码编码编码编码/命名约定命名约定命名约定命名约定/度量)度量)度量)度量)n n复杂上下文信息(产品定义复杂上下文信息(产品定义复杂上下文信息(产品定义复杂上下文信息(产品定义/市场领域市场领域市场领域市场领域/定价定价定价定价/包装包装包装包装/组织结构)组织结构)组织结构)组织结构)n n外部上下文信息(经济预测:通货膨胀、金融、税收外部上下文信息(经济预测:通货膨胀、金融、税收外部上下文信息(经济预测:通货膨胀、金融、税收外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息政治信息政治信息政治信息/竞争信竞争信竞争信竞争信息息息息/技术进展)技术进展)技术进展)技术进展)24.24.24.24.刷新数据仓库刷新数据仓库刷新数据仓库刷新数据仓库n n数据复制(触发器)数据复制(触发器)数据复制(触发器)数据复制(触发器)n n变化数据捕获(变化数据捕获(变化数据捕获(变化数据捕获(CDCCDCCDCCDC)(日志)(日志)(日志)(日志)数据仓库与数据挖掘技术讲座数据仓库技术Inmon,1996数据仓库环境中的36提纲提纲 数据仓库概念数据仓库概念 数据仓库体系结构及组件数据仓库体系结构及组件 数据仓库设计数据仓库设计 数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库性能 数据仓库应用数据仓库应用 数据挖掘应用概述数据挖掘应用概述 数据挖掘技术与趋势数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库与数据挖掘技术讲座提纲数据仓库概念数据仓库与数据挖掘技术讲座37数据仓库性能数据仓库性能 Inmon,1999 Inmon,1999 使用使用 数据数据 平台平台 服务管理服务管理王天佑王天佑王天佑王天佑 等译,数据仓库管理,等译,数据仓库管理,等译,数据仓库管理,等译,数据仓库管理,电子工业出电子工业出电子工业出电子工业出版社,版社,版社,版社,20002000年年年年5 5月月月月数据仓库与数据挖掘技术讲座数据仓库性能Inmon,1999使用王天佑等译38提纲提纲 数据仓库概念数据仓库概念 数据仓库体系结构及组件数据仓库体系结构及组件 数据仓库设计数据仓库设计 数据仓库技术(与数据库技术的区别)数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库性能 数据仓库应用数据仓库应用 数据挖掘应用概述数据挖掘应用概述 数据挖掘技术与趋势数据挖掘技术与趋势 数据挖掘应用平台(科委申请项目)数据挖掘应用平台(科委申请项目)数据仓库与数据挖掘技术讲座提纲数据仓库概念数据仓库与数据挖掘技术讲座39数据仓库应用数据仓库应用 DW用户数的调查用户数的调查“DW系统的用户系统的用户在在100-500以内或以上以内或以上是未来一段时期内是未来一段时期内的主要部分的主要部分“DW用户的调查用户的调查最近一年最近一年Meta Group Survey调查对象:调查对象:3000+用户或意向用户用户或意向用户数据仓库与数据挖掘技术讲座数据仓库应用DW用户数的调查“DW系统的用户DW用户的40DW数据规模的调查数据规模的调查DW规模的调查规模的调查最近一年最近一年Meta Group Survey调查对象:调查对象:3000+用户或意向用户用户或意向用户数据仓库与数据挖掘技术讲座DW数据规模的调查DW规模的调查数据仓库与数据挖掘技术讲座41How Much?vv$3-6m for mid-size company,less if smaller,more if largervv$10m+for large organizations,large data setsvv10-50+%annual maintenance costsvv33%Hardware/33%Software/33%Services数据仓库与数据挖掘技术讲座HowMuch?$3-6mformid-sizeco42How Long?vv2-4 years for 80/20 of full system for mid-size companyvv6-12 months for initial iterationvv3-6 months for subsequent iterations数据仓库与数据挖掘技术讲座HowLong?2-4yearsfor80/20o43How Risky?For EDW Projects,20%(Meta)to 70%(OTR,For EDW Projects,20%(Meta)to 70%(OTR,DWN)failDWN)fail High failure rate for non-business driven High failure rate for non-business driven initiativesinitiatives Very few systems meet the expectations of Very few systems meet the expectations of the businessthe business Failure not due to technology,due to“soft”Failure not due to technology,due to“soft”issuesissues Massive upside to successful projects(100%Massive upside to successful projects(100%-2000+%ROI)-2000+%ROI)99%politics-1%technology99%politics-1%technology数据仓库与数据挖掘技术讲座HowRisky?ForEDWProjects,2044参考文献参考文献 Inmon,W.H.,”Building the Data Warehouse”,Johm Wiley and Sons,1996.Inmon,W.H.,”Building the Data Warehouse”,Johm Wiley and Sons,1996.Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data Ladley,John,”Operational Data Stores:Building an Effective Strategy”,Data warehouse:Pratical Advice form the Experts,Prentice Hall,Englewood wa
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!