数据预处理与清理数据课件

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,1.3,数据预处理与清理数据,第一章,数据挖掘,概述,1,1.3 数据预处理与清理数据第一章数据挖掘概述1,1,为什么需要数据预处理,?,2,数据清洗,3,数据集成与转换,4,数据归约,5,数据离散化,2,1 为什么需要数据预处理?2,1,为什么需要数据预处理,?,在现实社会中，存在着大量的“脏”数据,不完整性（数据结构的设计人员、数据采集设备和数据录入人员）,缺少感兴趣的属性,感兴趣的属性缺少部分属性值,仅仅包含聚合数据，没有详细数据,噪音数据（采集数据的设备、数据录入人员、数据传输）,数据中包含错误的信息,存在着部分偏离期望值的孤立点,不一致性（数据结构的设计人员、数据录入人员）,数据结构的不一致性,Label,的不一致性,数据值的不一致性,3,1 为什么需要数据预处理 ? 在现实社会中，存在着大量的“脏,数据挖掘的数据源可能是多个互相独立的数据源,关系数据库,多维数据库（,Data Cube,）,文件、文档数据库,数据转换,为了数据挖掘的方便,海量数据的处理,数据归约（在获得相同或者相似结果的前提下）,4,数据挖掘的数据源可能是多个互相独立的数据源4,没有高质量的数据，就没有高质量的挖掘结果,高质量的决策必须基于高质量的数据基础上,数据仓库是在高质量数据上的集成,5,没有高质量的数据，就没有高质量的挖掘结果5,数据预处理的主要任务,数据清理,填入缺失数据,平滑噪音数据,确认和去除孤立点,解决不一致性,数据集成,多个数据库、,Data Cube,和文件系统的集成,数据转换,规范化、聚集等,数据归约,在可能获得相同或相似结果的前提下，对数据容量进行有效的缩减,数据离散化,对于一个特定连续属性，尤其是连续数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数,.,6,数据预处理的主要任务数据清理6,数据预处理的形式,数据清理,数据集成,数据转换,数据归约,7,数据预处理的形式数据清理数据集成数据转换数据归约7,使用属性的平均值填充空缺数值,简单方便、挖掘结果容易产生不精确的结果,使用与给定元组同一个类别的所有样本的平均值,分类非常重要，尤其是分类指标的选择,使用最有可能的值予以填充,利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定,利用属性之间的关系进行推断，保持了属性之间的联系,缺失数据的处理方法,8,使用属性的平均值填充空缺数值缺失数据的处理方法8,噪音数据,噪音数据,:,一个度量（指标）变量中的随机错误或者偏差,主要原因,数据采集设备的错误,数据录入问题,数据传输问题,部分技术的限制,数据转换中的不一致,数据清理中所需要处理的其它问题,重复的记录,不完整的数据,不一致的数据,9,噪音数据噪音数据:一个度量（指标）变量中的随机错误或者偏差9,噪音数据的处理,分箱（,Binning,）的方法,聚类方法,检测并消除异常点,线性回归,对不符合回归的数据进行平滑处理,人机结合共同检测,由计算机检测可疑的点，然后由用户确认,10,噪音数据的处理分箱（Binning）的方法10,分箱方法,基本思想,：,通过考察相邻数据的值，来平滑存储数据的值,基本步骤,首先，对数据进行排序，并分配到具有相同宽度,/,深度的不同的“箱子”中。,其次，通过箱子的平均值（,Means,）、中值（,Median,）、或者边界值等来进行平滑处理。,2024/8/23,11,分箱方法基本思想：2023/9/111,分箱（,Binning,）方法举例,对数据进行排序,: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34,对数据进行分割,(,相同深度,) :,- Bin 1: 4, 8, 9, 15,- Bin 2: 21, 21, 24, 25,- Bin 3: 26, 28, 29, 34,根据,bin,中的平均值进行离散化,:,- Bin 1: 9, 9, 9, 9,- Bin 2: 23, 23, 23, 23,- Bin 3: 29, 29, 29, 29,12,分箱（Binning）方法举例对数据进行排序: 4, 8,基于聚类分析的平滑处理,13,基于聚类分析的平滑处理13,通过线性回归的平滑处理,x,y,y = x + 1,X1,Y1,Y1,14,通过线性回归的平滑处理xyy = x + 1X1Y1Y11,数据集成,数据集成的概念,将多个数据源中的数据结合起来存放在一个一致的数据存储中,数据源包括：多个数据库、多维数据库和一般的文件,数据集成也是数据仓库建设中的一个重要问题,数据集成的内容,模式集成,利用数据库和数据仓库的元数据信息,主要工作是识别现实世界中的实体定义,冗余数据的处理,检测和解决数值冲突,对于现实世界中的同一实体，来自于不同数据源的属性值可能不同,主要原因：不同的数据表示、度量单位、编码方式以及语义的不同,15,数据集成数据集成的概念15,模式集成,数据类型冲突,性别：,string(Male,、,Female),、,Char,（,M,、,F,）、,Interger,（,0,、,1,）,日期：,Date,、,DateTime,、,String,数据标签冲突：,解决同名异义、异名同义,学生成绩、分数,度量单位冲突,学生成绩,百分制：,100 0,五分制：,A,、,B,、,C,、,D,、,E,字符表示：优、良、及格、不及格,概念不清,最近交易额：前一个小时、昨天、本周、本月？,聚集冲突,：根源在于表结构的设计,16,模式集成数据类型冲突16,冗余数据的处理,从多个数据源中抽取不同的数据，容易导致数据的冗余,不同的属性在不同的数据源中是不同的命名方式,有些属性可以从其它属性中导出，,例如：销售额单价,销售量,有些冗余可以通过相关分析检测到,其中：,n,是元组的个数，和分别是,A,和,B,的平均值，,和分别是,A,和,B,的标准差,元组级的“重复”，也是数据冗余的一个重要方面,减少冗余数据，可以大大提高数据挖掘的性能,17,冗余数据的处理从多个数据源中抽取不同的数据，容易导致数据的冗,数据转换,平滑处理,:,从数据中消除噪音数据,聚集操作,:,对数据进行综合，类似于,Data Cube,的构建,数据概化：构建概念层次,数据规范化,:,将数据集中到一个较小的范围之中,最大,-,最小规范化,z-score,（零均值）规范化,小数范围规范化（,01,规范化）,属性构造,构造新的属性并添加到属性集中，以帮助数据挖掘,18,数据转换平滑处理: 从数据中消除噪音数据18,最大,-,最小规范化,对原始数据进行线性变换,保持了原始数据值之间的关系,当有新的输入，落在原数据区之外，该方法将面临“越界”错误,受到孤立点的影响可能会比较大,19,最大-最小规范化19,z-score,（零均值）规范化,属性基于平均值和标准差规范化,当属性的最大值和最小值未知，或者孤立点左右了最大最小规范化时，该方法有效,0-1,规范化（小数定标规范化）,通过移动属性的小数点位置进行规范化,例如,A,的值为,125,，那么,|A|=125,，则,j=3,，有,v=0.125,。,Where,j,is the smallest integer such that Max(| |)1,20,z-score（零均值）规范化Where j is the,属性构造,由给定的属性构造并增添新的属性，以帮助提高精度和对高维数据结构的理解,属性结构还可以帮助平缓使用判定算法分类的分裂问题,例如：,Area=Width Height,销售额单价,销售量,2024/8/23,21,属性构造由给定的属性构造并增添新的属性，以帮助提高精度和对高,数据归约的提出,在,数据仓库中可能保存,TB,级的数据，大数据量的数据挖掘，可能需要大量的时间来完成整个数据的数据挖掘。,数据归约,在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩减,数据归约的方法,数据立方体聚集：聚集操作作用于立方体中的数据,减少数据维度（维归约）：可以检测并删除不相关、弱相关或者冗余的属性或维,数据压缩：使用编码机制压缩数据集,数值压缩：用替代的、较小的数据表示替换或估计数据,2024/8/23,22,数据归约的提出在数据仓库中可能保存TB级的数据，大数据量的数,数据压缩,数据压缩：应用数据编码或变换，以便得到数据的归约或压缩表示,无损压缩：原数据可以由压缩数据重新构造而不丢失任何信息,字符串压缩是典型的无损压缩,现在已经有许多很好的方法但是它们只允许有限的数据操作,有损压缩：只能重新构造原数据的近似表示,影像文件的压缩是典型的有损压缩,典型的方法：小波变换、主要成分分析,23,数据压缩数据压缩：应用数据编码或变换，以便得到数据的归约或压,数值归约,数值归约：通过选择替代的、“较小”的数据表示形式来减少数据量,有参的方法,假设数据符合某些模型，通过评估模型参数，仅需要存储参数，不需要存储实际数据（孤立点也可能被存放）,典型方法：对数线性模型，它估计离散的多维概率分布,无参的方法,不存在假想的模型,典型方法,:,直方图、聚类和抽样,24,数值归约数值归约：通过选择替代的、“较小”的数据表示形式来减,直方图,类似于分箱技术，是一种流行的数据归约方式,将属性值划分为不相交的子集，或“桶”,桶安放在水平轴上，而桶的高度（和面积）是该桶所代表的值的平均频率。,每个桶只表示单个属性值，则称其为“单桶”。通常，“桶”表示给定属性的一个连续空间,可以通过编程，动态修改部分参数，进行合理构造。,count,5,10,15,20,25,30,1,2,3,4,5,6,7,8,9,10,1-10,11-20,21-30,5,10,15,20,25,13,25,15,Price,Price,count,2024/8/23,25,直方图类似于分箱技术，是一种流行的数据归约方式count51,数据离散化和概念层次,属性值分类,枚举型,有序的,无序的,连续型：如,Real,类型,数据离散化,对于一个特定的连续属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数。,概念层次,利用高层的概念（如儿童、青年、中年、老年等）来代替低层的实际数据值（实际年龄），以减少属性值的个数,。,26,数据离散化和概念层次属性值分类26,数值数据的离散化和概念分层建立的方法,分箱（,Binning,）,直方图分析,聚类分析的方法,根据自然分类进行分割,2024/8/23,27,数值数据的离散化和概念分层建立的方法分箱（Binning）2,分箱方法：一种简单的离散化技术,相同宽度（距离）数据分割,将数据分成,N,等份，各个等份数据之间具有相同的距离,如果,A,和,B,分别为属性值中的最大值和最小值，那么各个数据等份之间的距离为：,W = (B-A)/N.,异常点将会扮演很重要的角色,倾斜的数据不能很好的解决,相同深度（频率）数据分割,将数据分成,N,等份，各个等份具有相同的数据个数。,具有较好的可伸缩性,适合于数据分类的情况,28,分箱方法：一种简单的离散化技术相同宽度（距离）数据分割28,离散化：直方图方法,将数据分割到若干个桶之中，用桶中的平均值（或求和等）来表示各个桶。,可以通过编程，动态修改部分参数，进行合理构造。,count,5,10,15,20,25,30,1,2,3,4,5,6,7,8,9,10,1-10,11-20,21-30,5,10,15,20,25,13,25,15,Price,Price,count,2024/8/23,29,离散化：直方图方法将数据分割到若干个桶之中，用桶中的平均值（,离散化：聚类分析方法,将数据按照“类内最大相似度，类间最小相似度的原则”对数据进行有效聚类,利用聚类的中心点来表示该类所包含的对象,数据聚类将非常有效，但是必须保证数据中没有噪音数据,30,离散化：聚类分析方法将数据按照“类内最大相似度，类间最小相似,本节结论,数据的预处理无论对于数据仓库和数据挖掘都是非常重要的一个环节,数据预处理包括,数据清理,数据集成,数据归约和特征选取,数据的离散化,数据预处理涉及面广，现已建立了一系列的方法，但是目前仍然是一个非常活跃的研究领域,2024/8/23,31,本节结论数据的预处理无论对于数据仓库和数据挖掘都是非常重要的,简介：可视化数据挖掘,可视化,:,使用计算机图形学创建可视化图像，帮助用户理解复杂，大规模数据,可视化数据挖掘,:,使用可视化技术，从大规模数据集中发现隐含，有用知识的过程,可视化的目的,提供对大规模数据集定性的理解,查看数据中的模式，趋势，结构，不规则性，关系等,帮助寻找感兴趣的区域，为进一步定量分析提供合适的参数,为计算机得出的结果提供可视化的证明,2024/8/23,32,简介：可视化数据挖掘可视化: 使用计算机图形学创建可视化图像,可视化与数据挖掘的结合,数据可视化,数据挖掘结果可视化,数据挖掘过程可视化,交互式可视化数据挖掘,2024/8/23,33,可视化与数据挖掘的结合2023/9/133,数据挖掘过程可视化,将数据挖掘各种处理过程用可视化的方式呈现给用户，可以看到：,数据是如何被提取的,是从哪个数据库或数据仓库提取的数据,被选择数据如何被清理，整合，处理和挖掘的,在数据挖掘中采用什么方法,数据被存储在哪里,2024/8/23,34,数据挖掘过程可视化将数据挖掘各种处理过程用可视化的方式呈现给,交互式可视化数据挖掘,使用可视化工具在数据挖掘过程中帮助用户作出更加合理的挖掘决定,更好的理解数据和样本,用户可以根据理解作出决定,用户可以根据领域知识作出决定,可视化结果使用户能够指导下次算法执行,2024/8/23,35,交互式可视化数据挖掘使用可视化工具在数据挖掘过程中帮助用户作,谢谢！,2024/8/23,36,2023/9/136,

展开阅读全文

数据预处理与清理数据课件

最新文档