数据预处理分析

资源描述

1数据预处理数据预处理主要内容主要内容n2.1 为什么要预处理数据n2.2 数据清理n2.3 数据集成n2.4 数据变换n2.5 数据归约232.1 数据预处理的原因数据预处理的原因现实世界的数据现实世界的数据n不完整的n缺少属性值或某些感兴趣的属性，或仅包含聚集数据。ne.g.,occupation=n含噪声的n包含错误或存在偏离期望的离群值。ne.g.Salary=-10n不一致的n采用的编码或表示不同ne.g.过去的等级：“1,2,3”,现在的等级：“A,B,C”4数据错误的不可避免性数据错误的不可避免性n数据输入和获得过程数据错误n数据传输过程所引入的错误 n据统计有错误的数据占总数据的5%左右由于现实世界的数据一般是脏的、不完整的和不一致的，且一些错误不可避免。因此必须先进行预处理，改进数据的质量，从而有助于提高其后的挖掘过程的精度和性能。6数据预处理的形式数据预处理的形式n数据清理n补充缺失数据、平滑噪声数据、识别或删除离群点，解决不一致n数据集成n集成多个数据库、数据立方或文件n数据变换n规范化和聚集n数据归约n简化数据、但产生同样或相似的结果数据预处理的形式数据预处理的形式2.2 数据清理数据清理n数据清理的任务：n填充缺失的值n光滑噪声并识别离群点n纠正数据中的不一致9n忽略元组忽略元组n人工填写空缺值人工填写空缺值：工作量大，可行性低n使用一个全局常量填充空缺值使用一个全局常量填充空缺值：将空缺的属性值用一个常数替代，比如“unknown”n使用属性的平均值填充空缺值使用属性的平均值填充空缺值n使用与给定元组属同一类的所有样本的平使用与给定元组属同一类的所有样本的平均值均值n使用最可能的值填充空缺值使用最可能的值填充空缺值：使用回归、贝叶斯公式或者判定树推测空缺值。这是最常用的一种方法。2.2.1 如何处理空缺值如何处理空缺值101.分箱分箱2.回归回归：通过让数据适应回归函数来平滑数据3.聚类聚类：将类似的值聚集为簇,并且去除孤立点4.计算机和人工检查结合计算机和人工检查结合：计算机检测可疑数据，然后对它们进行人工判断噪声数据噪声数据11分箱法光滑数据分箱法光滑数据nprice的排序后数据（单位：美元）：4，8，15，21，21，24，25，28，34n划分为（等深的）箱：n箱1：4，8，15n箱2：21，21，24n箱3：25，28，34n用箱平均值平滑：n箱1：9，9，9n箱2：22，22，22n箱3：29，29，29n用箱边界平滑：n箱1：4，4，15n箱2：21，21，24n箱3：25，25，34回归回归xyy=x+1X1Y1Y1聚类聚类聚类将类似的值聚成簇。直观的，落在簇集合之外的值视为离群点2.3 数据集成数据集成n数据集成合并多个数据源中的数据，存放在一个一致的数据库（如数据仓库）中。n源数据可能包括多个数据库，数据立方体或一般文件。数据集成将数据转换或统一成适合于挖掘的形式。151.1.实体识别实体识别 e.g.A.cust_id=B.customer_no?n元数据可帮助避免错误2.2.冗余问题冗余问题比如一个属性可以由另一个表推导出。n相关分析3.3.数据值冲突的检测与处理数据值冲突的检测与处理比如重量属性在一个系统中以公制单位存放，在另一个系统中以英制单位存放。n表示、比例或编码不同集成需要注意的问题集成需要注意的问题属性的相关性分析属性的相关性分析属性A、B之间的相关性可用下式度量：其中，n是元组的个数。(1)如果值0,则A、B正相关，意味着A的值随B的值增加而增加。该值越大，一个属性蕴含另一个的可能性就越大。因此，一个很大的值表明A(或B)可以作为冗余而被去掉。(2)值=0 A和B独立的，不相关 (3)值0 负相关，一个属性阻止另一个属性出现BABAnBBAAr)1()(,17n平滑：去掉数据中的噪声。技术包括分箱、回归、聚类。n聚集：对数据进行汇总或聚集。n数据概化：使用概念分层，用高层概念替换低层或“原始”数据。n规范化：将属性数据按比例缩放，使之落入一个小的特定区间。最小-最大、Z-Score、小数定标规范化。n属性构造（特征构造）：由给定的属性构造新的属性并添加到属性集中，以帮助挖掘过程。可以帮助提高准确率和对高维数据结构的理解。2.4 数据变换数据变换规范化规范化n1）最小-最大规范化：将原始数据v经线性变换，映射到区间new_minA,new_maxA例如:income的最大，最小值分别为9000，2000，则将它的值映射到0，1时，若income的值6800规范后为：（6800-2000）/（9000-2000）*（1-0）+0=0.686AAAAAAminnewminnewmaxnewminmaxminvv_)_(规范化规范化n2）z-score规范化（零均值规范化）：属性A的值基于A的平均值和标准差规范化。n在最大最小值未知适用AAvv3）小数定标规范化jvv10其中，j是使 Max(|)1的最小整数示例：假设属性 A 的取值范围是从-986 到 917。属性 A 绝对值的最大值为 986。采用十基数变换规格化方法，就是将属性 A的每个值除以1000(即j=3)因此-986映射为-0.986。v2.5 数据归约数据归约 Data Reduction n什么是数据归约？什么是数据归约？所谓数据规约，也就是数据消减，目的是缩小所挖掘数据的规模，但却不会影响（或基本不影响）最终的挖掘结果n为什么需要进行数据归约？为什么需要进行数据归约？1）数据仓库中往往存有海量数据2）在整个数据集上进行复杂的数据分析与挖掘需要很长的时间数据归约策略数据归约策略n（1）数据立方体聚集：对数据立方体做聚集操作n（2）维归约：检测并删除不相关、弱相关或冗余的属性和维。n（3）数据压缩：n（4）数值归约：n用规模较小的数据表示、替换或估计原始数据n（5）离散化和概念分层产生n属性的原始数值用区间值或较高层的概念替换n注意：用于数据归约的时间不应当超过或“抵消”在归约后的数据上挖掘节省的时间2.5.1 数据立方体聚集数据立方体聚集n数据立方体存储多维聚集信息，提供对预计算的汇总数据进行快速访问。n如：立方体内存储季度销售额，若对年销售额感兴趣，可对数据执行聚集操作，例如sum()等。2.5.2 维归约维归约n通过删除不相关或冗余的属性（或维）减小数据集。n其目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。n通常采用压缩搜索空间的启发式算法。n逐步向前选择n逐步向后删除n向前选择和向后删除的结合n决策树归纳2.5.3 数据压缩数据压缩n分为无损和有损两种。n主要方法：n小波变换（DWT）：有损n主成分分析（PCA）：有损小波变换小波变换n输入数据向量D，小波变换会将它转换为另一个向量Dn虽然两个向量长度相同，但是小波变换后的向量D可以裁减。用户根据实际需要保留其中一部分数据，从而实现了数据的压缩。主要成分分析主要成分分析n假设需要压缩的数据是由 N个数据向量组成，共有k个维度（属性或特征)。主要成分分析则是从这N个向量里找出最能代表数据的c个正交向量。这样，原来的数据就投影到该较小的集合中，导致数据压缩。2.5.4 数值归约数值归约n通过选择替代的、“较小的”数据表示形式来减少数据量。n可以分为参数方法和非参数方法。n参数方法参数方法：是利用一个模型，通过计算获得原来的数据，因此只需要存储模型的参数即可n常用方法：回归（regression）和对数线性模型n非参数方法非参数方法：不使用模型n常用方法：直方图、聚类、抽样线性回归模型线性回归模型n 线性回归方法是利用一条直线模型对数据进行拟合。例如：利用自变量 X的一个线性函数可以拟合因变量Y的输出，其线性函数模型为：Y=+X 此时，我们只需要存储X的数据即可，根据这个模型，就可以预测出Y的取值。聚类聚类1.首先，将数据划分为群或簇，使得在每一个簇中的对象“类似”，但与其他簇中的对象“不类似”。2.其次，为这些簇赋值，所有包含在同一个簇中的对象的值相同。注意：如果数据可以组成各种不同的聚类，则该技术非常有效，反之如果数据界线模糊，则方法无效。数值频数数值频数数值频数数值频数数值频数4.315105.786.477.114.435.195.876.557.234.515.245.936.627.314.645.31666.787.414.725.466.166.837.614.855.576.246.947.744.965.666.39717.91例：下图显示的150朵鸢尾花花萼长度的相关数据，利用聚类的方式对数据进行处理分组频数赋值4.35.44615.46.03726.06.53236.57.9354现用聚类方法归约数据抽样抽样n用数据的小得多的随机样本（子集）表示大型数据集。n抽样方法ns个样本无放回简单随机抽样（SRSWOR）ns个样本有放回简单随机抽样（SRSWR）n聚类抽样n分层抽样2.5.5 数据离散化和概念分层产生数据离散化和概念分层产生1.数据离散化将属性（连续取值）域值范围分为若干区间，每个区间对应一个离散值2.为什么进行离散化？1）在机器学习和数据挖掘中，很多算法如决策树、关联规则及基于粗糙集理论的许多方法，是用来处理离散型数据的，对于连续型数据却不适用；另外，有些算法即使能处理连续型数据，挖掘和学习也没有处理离散型数据有用和有效。2）离散化后可以达到归约数据的目的。n概念分层(concept hierarchy)：通过使用高层的概念（比如：青年、中年、老年）来替代底层的属性值（比如：实际的年龄数据值）来规约数据数值数据的离散化数值数据的离散化n典型方法（所有方法均可递归应用）1.分箱（binning）n分箱技术递归的用于结果划分，可以产生概念分层2.直方图分析（histogram）n直方图分析方法递归的应用于每一部分，可以自动产生多级概念分层3.聚类分析n将数据划分成簇，每个簇形成同一个概念层上的一个节点，每个簇可再分成多个子簇，形成子节点4.基于熵的离散化5.通过自然划分分段通过自然划分分段通过自然划分分段n将数值区域划分为相对一致的、易于阅读的、看上去更直观或自然的区间。n聚类分析产生概念分层可能会将一个工资区间划分为：51263.98,60872.34n通常数据分析人员希望看到划分的形式为50000，60000n自然划分的3-4-5规则常被用来将数值数据划分为相对一致，“更自然”的区间自然划分的自然划分的3-4-5规则规则n规则的划分步骤：n如果一个区间最高有效位上包含3，6，7或9个不同的值，就将该区间划分为3个等宽子区间；(72,3,2)n如果一个区间最高有效位上包含2，4，或8个不同的值，就将该区间划分为4个等宽子区间；n如果一个区间最高有效位上包含1，5，或10个不同的值，就将该区间划分为5个等宽子区间；n将该规则递归的应用于每个子区间，产生给定数值属性的概念分层；n数据集中可能出现特别大的正值和特别小的负值，最高层分段简单地按最大和最小值可能为了出现结果扭曲。可以在顶层分段顶层分段时，选用一个能够代表大多数数据的区间。3-4-5规则规则例子例子(-$4000-$5,000)(-$400-0)(-$400-$300)(-$300-$200)(-$200-$100)(-$100-0)(0-$1,000)(0-$200)($200-$400)($400-$600)($600-$800)($800-$1,000)($2,000-$5,000)($2,000-$3,000)($3,000-$4,000)($4,000-$5,000)($1,000-$2,000)($1,000-$1,200)($1,200-$1,400)($1,400-$1,600)($1,600-$1,800)($1,800-$2,000)msd=1,000Low=-$1,000High=$2,000第二步第四步第一步第一步 -$351-$159profit$1,838$4,700单位（1000美元）Min Low High Maxcount(-$1,000 -$2,000)(-$1,000-0)(0-$1,000)第三步($1,000-$2,000)分类数据的概念分层生成分类数据的概念分层生成n分类数据是指无序的离散数据，它有有限个值（可能很多个）。n分类数据的概念分层生成方法：1)由用户或专家在模式级显式地说明属性的部分由用户或专家在模式级显式地说明属性的部分序序比如关系数据库的地点location属性可能包含以下属性：street,city,province_or_state和country。可以在模式级说明一个全序如streetcityprovince_or_state country，从而很容易的构造层次结构。2）通过显示数据分组说明分层结构的一部分通过显示数据分组说明分层结构的一部分这是概念层次树的一个手工构造方法。在大规模数据库中，想要通过穷举所有值而构造一个完整概层次树是不切实际的，但可以对其中一部分中间层数据，显示的指出分组。例如：在构造了省和国家的层次树后，这时可以手工加入：安徽、江苏、山东华东地区；广东、福建华南地区等“地区”中间层次。3）说明属性集，但不说明它们的偏序主要是利用系统自动产生属性的序，构造有意义的概念分层。由于一个较高的概念通常包含若干从属的较低层的概念，定义在高概念层的属性与定义在低概念层的属性相比，通常包含较少数目的不同值。分层规则：一个属性的不同值个数越少，它在封层结构中的层越高；越多，越处于最底层。n例：假设用户对于属性location选择了属性集：street(674399)、country(15)、city(3567)和province_or_state(365)，但没有指定属性之间的层次。每个属性的不同值数目在括号中。n location的概念分层可以如下步骤自动产生。首先，根据属性不同值个数，降序排列。其次，依照排好的次序，自顶向下产生分层。结果如下图所示：countryprovince_or_ statecitystreet15 distinct values365 distinct values3567 distinct values674,339 distinct values4）只说明部分属性集n有时用户仅能够提供概念层次树所涉及的一部分属性。例如：用户仅提供与地点属性有关部分属性：street和city。这种情况可根据数据库模式中的数据语义定义对属性的捆绑信息。n例：假设一个数据库系统将以下五个属性捆绑在一起，即number、street、city、country、province_or_state。若用户仅说明location属性只说明了属性city，系统应能自动拖进以上五个属性来构造层次树。

展开阅读全文

数据预处理分析

最新文档