第5章-数据预处理技术案例课件

上传人:29 文档编号:242622233 上传时间:2024-08-29 格式:PPTX 页数:18 大小:2.23MB
返回 下载 相关 举报
第5章-数据预处理技术案例课件_第1页
第1页 / 共18页
第5章-数据预处理技术案例课件_第2页
第2页 / 共18页
第5章-数据预处理技术案例课件_第3页
第3页 / 共18页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,#,#,商务智能,第五章 数据预处理技术案例,商务智能,1,数据预处理的方法,数据清洗,去掉噪声和无关数据,数据集成,将多个数据源中的数据结合起来存放在一个一致的数据存储中,数据变换,把原始数据转换成为适合数据挖掘的形式,数据归约,主要方法包括:数据立方体聚集,维归约,数据压缩,数值归约,离散化和概念分层等,数据预处理的方法数据清洗,2,数据预处理工具,Microsoft SQL Server SSIS,SQL Server,集成服务(,SSIS,)被定位成一个能生成高性能数据集成解决方案,(,包括数据仓库中数据的提取、转换和加载(,ETL,)的平台。其集成的含义主要就是指把,ETL,集成在一起。,SSIS,通过一个统一的环境向用户提供了数据转换服务(,DTS,)所能提供的所有功能,并且大大减少了用户花在编写程序和脚本上的精力和时间。,数据预处理工具Microsoft SQL Server S,3,集成服务,(Integration Services),SSIS,的基本功能包括:, 合并来自异类数据源中的数据, 填充数据仓库和数据集市 整理数据和将数据标准化, 精确和模糊的查找功能, 将商业智能置入数据转换过程, 使管理功能和数据加载自动化,集成服务(Integration Services)SSIS,4,案例,1,:数据的集成、导入,使用,SSIS,工具,1,)新建,Integration Services,项目,Integration Sales,,并在此项目中新建一个,SSIS,包,Integration Sales.dtsx,,在此包中进行数据的抽取,整合等操作。,2,)创建数据源。,在,Integraton Service,项目下的数据源文件夹中添加两个新的数据源连接,一个连接,AdeventurWorksLT2008,一个连接目标数据库,AdeventurWorksLT_DW2008,案例1:数据的集成、导入使用SSIS工具,5,设计,SSIS,包,Integration Sales.dtsx,。,设计包的方法是从工具箱中将需要使用的容器、任务、可执行体等工具拖拽到包的,SSIS,设计器窗口中,再对这些对象进行设计。,由于主要执行的是数据抽取工作,,因此,数据流任务,是我们主要设置的任务。,数据抽取中所涉及的表主要有:,事实表,FactSales,产品信息表,DimProduct,,,产品类别信息表,DimCategory,,,订购时间表,DimTime,客户信息表,DimCustmer,。,设计SSIS包Integration Sales.dtsx。,6,第5章-数据预处理技术案例课件,抽取事实表,FactSales,的数据流任务的过程,1),选中,SSIS,设计器的,【,控制流,】,标签,将工具箱中的,【,数据流任务,】,对象拖拽到,SSIS,设计器中,并重命名为,DimCustmer,2),双击,【,数据流任务,】 DimCustmer,打开,【,数据流,】,标签,将,【OLE DB,源,】,拖至,SSIS,设计器上。,3),打开【,OLE DB,源编辑器】进行【,OLE DB,源】对象的设置。,在上述设计中需选中数据源,AdventureWorksLT2008,,并选择数据访问模式为,【SQL,命令,】,,在,【SQL,命令文本,】,中输入进行数据抽取的,SQL,语句。,抽取事实表FactSales的数据流任务的过程,8,第5章-数据预处理技术案例课件,9,4),完成,【OLE DB,源,】,对象设置后,从工具箱中将,【SQL,Server,目标,】,对象拖至,SSIS,设计器上,并选中,【OLE DB,源,】,对象,将其绿色连线拖拽至新添的,【SQL Server,目标,】,对象上。打开,【SQL,目标编辑器,】,,选中数据源,AdeventurWorksLT_DW2008,。,4)完成【OLE DB源】对象设置后,从工具箱中将,10,第5章-数据预处理技术案例课件,11,第5章-数据预处理技术案例课件,12,案例,2,:为数据挖掘算法准备数据,以,AdventureWorksDW2008,数据仓库为例,进行购物篮数据挖掘,数据源对象是顾客购买的商品和顾客年龄、收入状况,但这些数据散布在数据仓库不同的事实表和维表中的。如何进行?,视图,vDMPrep,就是为关联规则挖掘、经过预处理生成的数据表。,vDMPrep will be used as a data source by the other data mining views. Uses DW data at customer, product, day, etc. granularity and gets region, model, year, month, etc.,案例2:为数据挖掘算法准备数据以AdventureWorks,13,第5章-数据预处理技术案例课件,14,第5章-数据预处理技术案例课件,15,关联规则挖掘的数据源为:,vAssocSeqOrders,supports assocation and sequence clustering data mmining models.,vAssocSeqLineItems,关联规则挖掘的数据源为:,16,CREATE VIEW dbo.vAssocSeqOrders,AS,SELECT DISTINCT,OrderNumber,CustomerKey,Region,IncomeGroup,FROM,dbo.,vDMPrep,WHERE,FiscalYear = ,2004,CREATE VIEW dbo.vAssocSeqOr,17,CREATE VIEW dbo.vAssocSeqLineItems,AS,SELECT,OrderNumber,LineNumber,Model,FROM,dbo.,vDMPrep,WHERE,FiscalYear = ,2004,;,CREATE VIEW dbo.vAssocSeqLi,18,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!