数据预处理分析课件

上传人:陈** 文档编号:251944197 上传时间:2024-11-11 格式:PPT 页数:47 大小:205KB
返回 下载 相关 举报
数据预处理分析课件_第1页
第1页 / 共47页
数据预处理分析课件_第2页
第2页 / 共47页
数据预处理分析课件_第3页
第3页 / 共47页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,1,数据预处理,主要内容,2.1,为什么要预处理数据,2.2,数据清理,2.3,数据集成,2.4,数据变换,2.5,数据归约,2,3,2.1,数据预处理的原因,现实世界的数据,不完整的,缺少属性值或某些感兴趣的属性,或仅包含聚集数据。,e.g.,occupation=,含噪声的,包含错误或存在偏离期望的离群值。,e.g.Salary=-10,不一致的,采用的编码或表示不同,e.g.,过去的等级:“,1,2,3”,现在的等级:“,A,B,C”,4,数据错误的不可避免性,数据输入和获得过程数据错误,数据传输过程所引入的错误,据统计有错误的数据占总数据的5%左右,由于现实世界的数据一般是脏的、不完整的和不一致的,且一些错误不可避免。因此必须先进行预处理,改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。,6,数据预处理的形式,数据清理,补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致,数据集成,集成多个数据库、数据立方或文件,数据变换,规范化和聚集,数据归约,简化数据、但产生同样或相似的结果,数据预处理的形式,2.2,数据清理,数据清理的任务:,填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致,9,忽略元组,人工填写空缺值,:工作量大,可行性低,使用一个全局常量填充空缺值,:将空缺的属性值用一个常数替代,比如“,unknown”,使用属性的平均值填充空缺值,使用与给定元组属同一类的所有样本的平均值,使用最可能的值填充空缺值,:使用回归、贝叶斯公式或者判定树推测空缺值。这是最常用的一种方法。,2.2.1,如何处理空缺值,10,1.,分箱,2.,回归,:,通过让数据适应回归函数来平 滑数据,3.,聚类,:将类似的值聚集为簇,并且去除孤立点,4.,计算机和人工检查结合,:计算机检测可疑数据,然后对它们进行人工判断,噪声数据,11,分箱法光滑数据,price,的排序后数据(单位:美元):,4,,,8,,,15,,,21,,,21,,,24,,,25,,,28,,,34,划分为(等深的)箱:,箱,1,:,4,,,8,,,15,箱,2,:,21,,,21,,,24,箱,3,:,25,,,28,,,34,用箱平均值平滑:,箱,1,:,9,,,9,,,9,箱,2,:,22,,,22,,,22,箱,3,:,29,,,29,,,29,用箱边界平滑:,箱,1,:,4,,,4,,,15,箱,2,:,21,,,21,,,24,箱,3,:,25,,,25,,,34,回归,x,y,y=x+1,X1,Y1,Y1,聚类,聚类将类似的值聚成簇。直观的,落在簇集合之外的值视为离群点,2.3,数据集成,数据集成合并多个数据源中的数据,存放在一个一致的数据库(如数据仓库)中。,源数据可能包括多个数据库,数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。,15,1.,实体识别,e.g.A.cust_id=B.customer_no?,元数据可帮助避免错误,2.,冗余问题,比如一个属性可以由另一个表推导出。,相关分析,3.,数据值冲突的检测与处理,比如重量属性在一个系统中以公制单位存放,在另一个系统中以英制单位存放。,表示、比例或编码不同,集成需要注意的问题,属性的相关性分析,属性,A,、,B,之间的相关性可用下式度量:,其中,,n,是元组的个数。,(1),如果值,0,则,A,、,B,正相关,意味着,A,的值随,B,的值增加而增加 。该值越大,一个属性蕴含另一个的可能性就越 大。因此,一个很大的值表明,A(,或,B),可以作为冗余而被去掉。,(2),值,=0,A,和,B,独立的,不相关,(3),值,0,负相关,一个属性阻止另一个属性出现,17,平滑:,去掉数据中的噪声。技术包括分箱、回归、聚类。,聚集:,对数据进行汇总或聚集。,数据概化:,使用概念分层,用高层概念替换低层或“原始”数据。,规范化:,将属性数据按比例缩放,使之落入一个小的特定区间。最小,-,最大、,Z-Score,、小数定标规范化。,属性构造(特征构造):,由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。,2.4,数据变换,规范化,1,)最小,-,最大规范化:将原始数据,v,经线性变换,映射到区间,new_min,A,new_max,A,例如:,income,的最大,最小值分别为9000,2000,则将它的值映射到0,1时,若,income,的值6800规范后为,:(,6800-2000)/(9000-2000)*(1-0)+0=0,.686,规范化,2,),z-score,规范化(零均值规范化):属性,A,的值基于,A,的平均值和标准差规范化。,在最大最小值未知适用,3,)小数定标规范化,其中,,j,是使,Max(|)1,的最小整数,示例:假设属性,A,的取值范围是从,-986,到,917,。属性,A,绝对值的最大值为,986,。采用十基数变换规格化方法,就是,将属性,A,的每个值除以,1000(,即,j=3),因此,-986,映射为,-0.986,。,2.5,数据归约,Data Reduction,什么是数据归约?,所谓数据规约,也就是数据消减,目的是缩小所挖掘数据的规模,但却不会影响(或基本不影响)最终的挖掘结果,为什么需要进行数据归约?,1,)数据仓库中往往存有海量数据,2,)在整个数据集上进行复杂的数据分析与挖掘需要很长的时间,数据归约策略,(,1,)数据立方体聚集:对数据立方体做聚集操作,(,2,)维归约:检测并删除不相关、弱相关或冗余的属性和维。,(,3,)数据压缩:,(,4,)数值归约:,用规模较小的数据表示、替换或估计原始数据,(,5,)离散化和概念分层产生,属性的原始数值用区间值或较高层的概念替换,注意:用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间,2.5.1,数据立方体聚集,数据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。,如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如,sum(),等。,2.5.2,维归约,通过删除不相关或冗余的属性(或维)减小数据集。,其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。,通常采用压缩搜索空间的启发式算法。,逐步向前选择,逐步向后删除,向前选择和向后删除的结合,决策树归纳,2.5.3,数据压缩,分为无损和有损两种。,主要方法:,小波变换(,DWT,):有损,主成分分析(,PCA,):有损,小波变换,输入数据向量D,小波变换会将它转换为另一个向量D,虽然两个向量长度相同,但是小波变换后的向量D可以裁减。用户根据实际需要保留其中一部分数据,从而实现了数据的压缩。,主要成分分析,假设需要压缩的数据是由,N,个数据向量组成,共有,k,个维度(属性或特征,),。主要成分分析则是从这,N,个向量里找出最能代表数据的,c,个正交向量。这样,原来的数据就投影到该较小的集合中,导致数据压缩。,2.5.4,数值归约,通过选择替代的、“较小的”数据表示形式来减少数据量。,可以分为参数方法和非参数方法。,参数方法,:,是利用一个模型,通过计算获得原来的数据,因此只需要存储模型的参数即可,常用方法:回归(,regression,)和对数线性模型,非参数方法,:,不使用模型,常用方法:直方图、聚类、抽样,线性回归模型,线性回归方法是利用一条直线模型对数据进行拟合。例如:利用自变量,X,的一个线性函数可以拟合因变量,Y,的输出,,其线性函数模型为:,Y=+X,此时,我们只需要存储,X,的数据即可,根据这个模型,就可以预测出,Y,的取值。,聚类,1.,首先,将数据划分为群或簇,使得在每一个簇中的对象“类似”,但与其他簇中的对象“不类似”。,2.,其次,为这些簇赋值,所有包含在同一个簇中的对象的值相同。,注意:如果数据可以组成各种不同的聚类,则该 技术非常有效,反之如果数据界线模糊,则方法无效。,数值,频数,数值,频数,数值,频数,数值,频数,数值,频数,4.3,1,5,10,5.7,8,6.4,7,7.1,1,4.4,3,5.1,9,5.8,7,6.5,5,7.2,3,4.5,1,5.2,4,5.9,3,6.6,2,7.3,1,4.6,4,5.3,1,6,6,6.7,8,7.4,1,4.7,2,5.4,6,6.1,6,6.8,3,7.6,1,4.8,5,5.5,7,6.2,4,6.9,4,7.7,4,4.9,6,5.6,6,6.3,9,7,1,7.9,1,例:下图显示的,150,朵鸢尾花花萼长度的相关数据,利用聚类的方式对数据进行处理,分组,频数,赋值,4.35.4,46,1,5.46.0,37,2,6.06.5,32,3,6.57.9,35,4,现用聚类方法归约数据,抽样,用数据的小得多的随机样本(子集)表示大型数据集。,抽样方法,s,个样本无放回简单随机抽样(,SRSWOR,),s,个样本有放回简单随机抽样(,SRSWR,),聚类抽样,分层抽样,2.5.5,数据离散化和概念分层产生,1.,数据离散化,将属性(连续取值)域值范围分为若干区间,每个区间对应一个离散值,2.,为什么进行离散化?,1,)在机器学习和数据挖掘中,很多算法如决策树、关联规则及基于粗糙集理论的许多方法,是用来处理离散型数据的,对于连续型数据却不适用;另外,有些算法即使能处理连续型数据,挖掘和学习也没有处理离散型数据有用和有效。,2,)离散化后可以达到归约数据的目的。,概念分层,(,concept hierarchy,),:通过使用高层的概念(比如:青年、中年、老年)来替代底层的属性值(比如:实际的年龄数据值)来规约数据,数值数据的离散化,典型方法(所有方法均可递归应用),1.,分箱(,binning,),分箱技术递归的用于结果划分,可以产生概念分层,2.,直方图分析(,histogram,),直方图分析方法递归的应用于每一部分,可以自动产生多级概念分层,3.,聚类分析,将数据划分成簇,每个簇形成同一个概念层上的一个节点,每个簇可再分成多个子簇,形成子节点,4.,基于熵的离散化,5.,通过自然划分分段,通过自然划分分段,将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。,聚类分析产生概念分层可能会将一个工资区间划分为:,51263.98,60872.34,通常数据分析人员希望看到划分的形式为,50000,,,60000,自然划分的,3-4-5,规则常被用来将数值数据划分为相对一致,“更自然”的区间,自然划分的3-4-5规则,规则的划分步骤:,如果一个区间最高有效位上包含,3,,,6,,,7,或,9,个不同的值,就将该区间划分为,3,个等宽子区间;,(7,2,3,2),如果一个区间最高有效位上包含,2,,,4,,或,8,个不同的值,就将该区间划分为,4,个等宽子区间;,如果一个区间最高有效位上包含,1,,,5,,或,10,个不同的值,就将该区间划分为,5,个等宽子区间;,将该规则递归的应用于每个子区间,产生给定数值属性的概念分层;,数据集中可能出现特别大的正值和特别小的负值,最高层分段简单地按最大和最小值可能为了出现结果扭曲。可以在,顶层分段,时,选用一个能够代表大多数数据的区间。,3-4-5,规则,例子,(-$4000-$5,000),(-$400-0),(-$400-,-$300),(-$300-,-$200),(-$200-,-$100),(-$100-,0),(0-$1,000),(0-,$200),($200-,$400),($400-,$600),($600-,$800),($800-,$1,000),($2,000-$5,000),($2,000-,$3,000),($3,000-,$4,000),($4
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!