CH3--第1讲数据预处理

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,知识发现过程,数据清理,数据集成,数据选择,数据变换,数据挖掘,模式评估,知识表示,1,数据挖掘过程,数据维护（数据准备）,定义主题,读入数据并建立模型,理解模型,预测,2,数据准备,获取数据,限定数据范围,数据质量,数据导出,3,获取数据（数据提取）,从多个异种的外部数据源收集数据,4,数据清洗,数据并不总是“干净”的。如：,“,pepsi”，“pepsi cola”，“cola”,可能代表同一饮料（一致性问题）,输入拼写错误,邮寄清单中人员地址的变动（未及时更新）,数据清理可以去除数据中的噪音，纠正不一致。,5,数据清洗（清理）的主要内容,数据清洗试图填充空缺的值，识别孤立点、消除噪声，并纠正数据中的不一致。主要处理内容：,空缺值,噪声数据,不一致数据,6,空缺值处理（1）,许多元组的一些属性，没有记录值。,忽略元组,除非元组有多个属性缺少值，否则该方法不是很有效。,人工填写空缺值,费时，数据集很大，缺值很多时行不通。,使用一个全局常量填充空缺值，如,unknown,该方法简单，但挖掘程序会误以为它们形成一个有趣的概念，所以不推荐使用。,7,空缺值处理（2）,使用属性的平均值填充空缺值。,使用与给定样本同一类的所有样本的平均值,使用最可能的值填充空缺值,使用现存数据的多数信息来推测空缺值,可以用回归、基于推导的使用使用贝叶斯形式化方法的工具或判定树归纳确定。,8,噪声,噪声（noise）是一个测量变量中的随机错误或偏差。,9,平滑数据，去处噪声的方法(1),分箱（,binning）：,分箱方法通过参考“邻居（即周围的值）”。由于分箱方法参考相邻的值，因此它进行局部平滑。,按箱平均值平滑,按箱中值平滑,按箱边界平滑,箱中最大和最小值被视为箱边界,箱中的每一个值被最近的边界值替换,10,平滑数据，去处噪声的方法(2),聚类：孤立点可以被聚类检测，落在聚类集合之外的值被视为孤立点。,计算机和人工检查结合,回归：可以通过让数据适合一个函数来平滑数据。,11,数据变换,将数据由宿主格式装换成数据仓库格式。,数据变换将数据转换成适合挖掘的形式,平滑：去掉数据中的噪声,聚类：对数据进行汇总和聚集,数据概化：使用概念分层，用高层次概念替换低层次“原始”数据。,规范化：将属性数据按比例缩放，使之落入一个小的特定空间。,属性构造：构造新的属性并添加到属性集中。,12,规范化,最小-最大规范化,Z-score,规范化,属性,A,的值基于,A,的平均值和标准差规范化,小数定标规范化,通过移动小数点的位置进行规范化。,j,是使得,Max(|V|)1,的最小整数,13,数据集成(1),将数据由多个源合并成一致的数据存储，如：,数据仓库,数据立方体,14,数据集成(2)-实体识别,来自多个信息源的现实世界的实体如何才能匹配？这涉及实体识别问题。如：,如何确信,customer_id,和,cust_number,指的是同一实体。,元数据可以帮助避免模式集成中的错误。,15,数据集成(3)冗余,一个属性是冗余的，如果它能由另一个表“导出”。,属性或维命名的不一致也可能导致数据集中的冗余。,有些冗余可以被相关分析检测到。,除了检测属性间的冗余外，“重复”也应当在元组级进行检测。重复是指对于同一数据，存在两个或多个相同的元组。,16,数据集成(4)数据值冲突,对于现实世界的同一实体，来自不同数据源的属性值可能不同。,这可能因为表示、比例或编码不同。如重量属性可能在一个系统中以公制单位存放，在另一个系统中以英制单位存放。,17,数据归约,通过聚集、删除冗余特性或聚类等方法来压缩数据。,使用数据归约技术得到的数据集，小得多，但仍接近于保持原数据的完整性。因此数据挖掘将产生相同（或几乎相同）的分析结果。,用于数据压缩的时间不应当超过数据挖掘节省的时间。,18,数据归约的策略,1）数据立方体聚集,2）维归约,3）数据压缩,4）数值压缩,5）离散化和概念分层产生,19,数据立方体聚集,每个属性可能存在概念分层，允许在多个抽象层进行数据分析。,创建在最低层的数据立方体称为基本方体,最高层的数据立方体称为顶点方体,20,维归约,用于数据分析的数据可能包含数以百计的属性，其中大部分与挖掘任务不相关，是冗余的。,维归约通过删除不相关的属性（或维）减少数据量。通常使用属性子集选择方法。,属性子集选择的目标是找出最小属性集，使得数据类的概率分布尽可能地接近使用所有属性的原分布。穷举是不现实的，策略是做局部最优选择，期望由此导致全局最优解。,21,属性子集选择方法,1）逐步向前选择：该过程由空属性集开始，选择原属性集中最好的属性，并将它添加到该集合中，不断迭代。,2）逐步向后删除：该过程由整个属性集开始，每一步删除尚在属性集中的最坏属性。,3）向前选择和向后删除的结合：每一步选择一个最好的属性，并在剩余属性中删除一个最坏的属性。,4）判定树归纳：树由给定的数据构造。不出现在树中的所有属性假定是不相关的。出现在树中的属性形成归约后的属性子集。,22,数据压缩,在数据压缩时，应用数据编码或变换，以便得到原数据的归约或“压缩”表示。,如果原数据可以由压缩数据重新构造而不丢失任何信息，则所使用的数据压缩技术是无损的。,如果只能重新构造原数据的近似表示，则该数据压缩技术是有损的。如：小波变换、,PCA,23,数值压缩,在数值压缩时，通过选择替代的、较小的数据表示形式来减小数据量。,常用方法有：回归和对数线性模型、直方图、聚类、选样（包括：简单选样-不放回、简单选样-放回、聚类选样、分层选样）。,24,离散化和概念分层产生,通过将属性域划分为区间，离散化技术可以用来减少给定连续属性值的个数。区间的标号可以替代实际的数据值。,25,数值数据的离散化和概念分层生成方法,分箱,直方图分析,聚类分析,基于熵的离散化,通过“自然划分”的数据分段,26,装入,排序、综合、合并、计算视图、检查整体性，并建立索引和划分。,27,刷新,传播从数据源到数据仓库的更新。,28,确定主题,29,模式评估,根据某种兴趣度度量，识别表示知识的真正有趣的模式,30,知识表示,使用可视化和知识表示技术，向用户提供挖掘的知识。,31,

展开阅读全文

CH3--第1讲数据预处理

最新文档