数据探查与预处理

上传人:ren****ao 文档编号:252998181 上传时间:2024-11-27 格式:PPTX 页数:44 大小:1.36MB
返回 下载 相关 举报
数据探查与预处理_第1页
第1页 / 共44页
数据探查与预处理_第2页
第2页 / 共44页
数据探查与预处理_第3页
第3页 / 共44页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2015年9月23日星期三,#,SWUFE,1,数据探查,张英,27 十一月 2024,数据质量,数据对应用的适合性:相关性、完备性、时效性,数据的可用性:,属性含义及其取值的可理解性,数据集成程度,数据的规模及抽样偏倚,数据收集和测量问题,收集问题,测量问题,27 十一月 2024,数据特征,属性类型与测量水平,定性与定量、分散与连续,数据的粒度与单位,缺失值与数据的稀疏性,基本统计特征,27 十一月 2024,数据对象(实例、记录、观测),属性(变量、维、特征),字符型(分类属性、定性属性),二元(,BINARY,)属性,对称二元属性 例如:性别,不对称二元,属性 例如:是否欺诈,只关注非零值,标称(,NOMINAL,)属性(类别属性)(定类变量),取值无序 例如:职业、专业、婚姻状况,序数(,ORDINAL,)属性(定序变量),取值,有序 例如:职称、满意度,27 十一月 2024,数值型(定量属性),区间(,INTERVAL,)属性 (定距变量),例如:温度,比率(,RATIO,)属性 (定比变量),例如:成绩、收入、利润、人数,27 十一月 2024,属性类型的不同操作特征,27 十一月 2024,注意:每种类型拥有其上方类型的性质和操作,缺失值和数据的稀疏性,-,排序的影响,27 十一月 2024,基本统计描述,属性取值的一般水平,属性取值的离散程度,分布的对称性与中心集中度,属性间取值的相关性,27 十一月 2024,数据的中心趋势,数值属性,均值,中位数,截尾均值,三均值,字符属性,众数,27 十一月 2024,x,8.0,8.0,8.0,8.0,8.0,8.0,8.0,19.0,8.0,8.0,8.0,数据的离散程度,数值属性,极差、方差、标准差、平均绝对偏差,四分位数与四分位极差,QR=Q,3,-Q,1,变异系数,字符属性,取值个数,27 十一月 2024,下截断点:,Q,1,-1.5,*,QR,上截断点:,Q,3,+1.5,*,QR,孤立点,上截断点,CV=,数据分布的对称性,27 十一月 2024,偏度,数据分布的中心集中度,27 十一月 2024,峰度为负,正态分布,,峰度,为,0,峰度为正,属性间的相关性,相关系数,夹角余弦,27 十一月 2024,A,、,B,属性为标称属性或二元属性,其取值个数分别为,c,r,O,ij,:实际频数,e,ij,:期望频数,自由度:,(r-1)*(c-1),原假设:,A,和,B,独立,性别与阅读兴趣相关?,结论:,性别与阅读兴趣相关,27 十一月 2024,安斯库姆四重奏,一,二,三,四,x,y,x,y,x,y,x,y,10.0,8.04,10.0,9.14,10.0,7.46,8.0,6.58,8.0,6.95,8.0,8.14,8.0,6.77,8.0,5.76,13.0,7.58,13.0,8.74,13.0,12.74,8.0,7.71,9.0,8.81,9.0,8.77,9.0,7.11,8.0,8.84,11.0,8.33,11.0,9.26,11.0,7.81,8.0,8.47,14.0,9.96,14.0,8.10,14.0,8.84,8.0,7.04,6.0,7.24,6.0,6.13,6.0,6.08,8.0,5.25,4.0,4.26,4.0,3.10,4.0,5.39,19.0,12.50,12.0,10.84,12.0,9.13,12.0,8.15,8.0,5.56,7.0,4.82,7.0,7.26,7.0,6.42,8.0,7.91,5.0,5.68,5.0,4.74,5.0,5.73,8.0,6.89,27 十一月 2024,统计量,数值,x,的均值,9,x,的方差,11,y,的均值,7.50,y,的方差,4.122,或,4.127,x,与,y,之间的相关系数,0.816,数据的图形表示,分位数图,直方图或柱形图,盒形图,茎叶图,饼图,散点图、折线图,27 十一月 2024,等高线图,平行坐标系,图形矩阵,星型坐标图,Chernoff,脸图,分位数图,27 十一月 2024,M,Q1,Q3,M,Q1,Q3,直方图(柱形图),27 十一月 2024,盒形图,27 十一月 2024,中位数,平均数,Q1,Q3,上截断点或最大值,下截断点,或最小值,孤立点,散点图,27 十一月 2024,多维图,27 十一月 2024,平行坐标系,Chernoff,脸图,星型坐标图,客户信息数据问题举例,部分属性值为空,收入为,0,出生日期填写为,不同地区的客户分散在不同的数据集中,不同的属性分散在不同的数据集中,客户数量太大、属性个数太多,缺乏年龄属性,收入分布偏斜,地址对分析目标而言太详细,27 十一月 2024,数据预处理,数据清洗,数据集成,数据消减,数据转换,复杂数据类型的预处理,27 十一月 2024,数据质量,分析方法,需求,数据清洗,处理错误或不,一致的数据,处理缺失值,识别处理孤立点,平滑噪声数据,27 十一月 2024,27 十一月 2024,缺失值的处理,忽略该条记录,填补,人工确定值或固定值,均值(中位数)或众数,同类别的均值(中位数)或众数,预测值:利用分类预测技术,推断出最大可能取值,增加标识变量,识别并处理孤立点,识别,常识,统计规则,聚类,,处理,去除,视为噪声,进行平滑,27 十一月 2024,噪声平滑,分箱,聚类,回归,27 十一月 2024,27 十一月 2024,分箱(,Bin,),等高分箱:每箱数据个数相同,等宽分箱:每箱的箱距相同,排序,确定箱数,确定每箱数据个数,确定箱距,分配,替换,27 十一月 2024,等高分箱方法举例,4,,,15,,,25,,,34,,,8,,,21,,,26,,,9,,,24,,,28,,,29,,,21,(,1,)排序,:4,8,9,15,21,21,24,25,26,28,29,34,(,2,)将数据分割,为,等,高,的,3,箱,每箱,4,个数据项,:,-Bin 1:4,8,9,15,-Bin 2:21,21,24,25,-Bin 3:26,28,29,34,(,3,)根据,箱,中的平均值进行平滑,:,-Bin 1:9,9,9,9,-Bin 2:23,23,23,23,-Bin 3:29,29,29,29,27 十一月 2024,聚类,与回归平滑,方法,数据集成,合并多个数据源中的数据,将之存放在一个一致的数据存储中。,模式集成问题:同名不同义,同义不同名。,数据值冲突的检测与处理,例如:不同的计量单位、取值层次,数据冗余问题,纵向集成和横向集成,27 十一月 2024,数据集,1,中:,Customerid,(客户编号),Cid,(客户身份证号),(一)季度存款额:单位:元,开户行:分行,数据集,2,中:,Cid,(客户编号),(二)季度存款额:单位:千元,开户行:支行,数据消减,维归约,数据压缩(,PCA,、小波变换等),属性构造,属性子集选择,行规约,27 十一月 2024,27 十一月 2024,数据压缩,数据压缩是使用数据编码或变换,以便得到原数据的“压缩”表示。如果根据压缩的数据集可以恢复原来的数据集,则数据压缩是无损的,否则,数据压缩是有损的。,例如:,主成分分析,小波变换,奇异值分解,27 十一月 2024,属性子集选择,手工消除无用或无关属性,特征,子集,选取,特征,子集,选取就是选取最小的特征属性集合,得到的数据挖掘结果与所有特征参加的数据挖掘结果相近或完全一致。,和,建模过程集成,(嵌入方法),.,多元回归分析,逐步添加法(前向法),逐步删除法(后向法),添加和删除结合法(前向和后向结合法),.,决策树方法,进行独立的选取工作(过滤方法和包装方法),例如:用关联分析选取重要变量,用决策树方法,选取重要变量,具有唯一值或近似唯一值的变量,具有单一值或近似单一值的变量,可以相互转换或同意义的变量,27 十一月 2024,特征子集选择过程,(过滤方法和包装方法),27 十一月 2024,行规约,参数方法,非参数方法,聚集,抽样,聚类,直方图,汇总属性的粒度,电话流失客户分月通话分钟数,27 十一月 2024,电话流失客户分天通话分钟数,抽样,简单随机抽样,(又放回和无放回),分层抽样,簇抽样,自适应或渐进抽样,27 十一月 2024,数据转换,数据平滑去噪,数据聚集,新指标属性的构造,数据规范化处理,数据泛化,27 十一月 2024,27 十一月 2024,数据规范化处理,最小,-,最大规范化,z-score,规范化,(标准化),十进制缩放规范化。,身高(,m,),体重,(kg),X,张三,1.760,Y,李四,1.880,身高(,cm,),体重,(kg),X,张三,17060,Y,李四,18080,27 十一月 2024,最小,-,最大规范化,A,属性的原取值区间,minA,,,maxA,目标新,区间,new_minA,new_maxA,例如:百分制的,85,分转化为,5,分制:,27 十一月 2024,零均值,(,z-score,),规范化,将属性,A,的值,v,转换为标准化值,v,。,v=(v-,)/,例:成绩,属性,score,的均值和标准差分别为,79,和,9,。,score,为,85,,标准化化后,转换为:,(,85-79,),/9=0.67,27 十一月 2024,十进制缩放规范化,将每个数值除以,10,的相同次方,,A,的值,v,规范化为,v,,其公式如下:,27 十一月 2024,数据泛化,数值数据离散化,类别数据的泛化,例如地址、行业,年龄,成人,儿童,老年,中年,青年,儿童,地址,区县,街道,地市,省,区域,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!