资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物医学数据挖掘,Biomedical Data Mining,2,第一章 概论,四,.,数据挖掘性能评价,第二章 数据采集与准备,一数据的采集和组织,二数据管理,回顾,3,第二章 数据采集与准备,一数据的采集和组织,二数据管理,三,.,数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,4,数据预处理,1.,目的,提高数据的质量,处理不好的数据,降低维数,数据质量的表现,完整性,合理性,一致性,No quality data,no quality mining results!,5,第二章 数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,6,数据预处理,2.,数据的分布状态,用统计学工具可解决,分布趋势(,P18,):均值、中值、众数、半程位、,散布特性(,P19,):标准差和变异系数、全程范围、四分位数、四分位范围,7,例,P19,收缩压,排序,8,例:两组数据,A,组,6,6,7,8,8,B,组,5,6,7,8,9,?两组数据的离散程度,分布趋势和散布特性,9,例:,例:某地男孩,出生体重:,X1,3.30kg,,,S1=0.44kg,18,岁体重:,X2,56.10Kg,,,S2=5.50Kg,?两组数据的离散程度,10,数据预处理的形式,11,第二章 数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,5.,数据精简,12,数据预处理,3.,数据清洗,目的:填写缺失值,平滑噪声数据,数据缺失,直接删除记录,丢弃属性,如何弥补?,取属性均值,取同类均值,用最可能的值,13,数据预处理,3.,数据清洗,数据噪声,:,随机性干扰,&,波动,分组平滑,均值平滑,中值平滑,边界平滑,回归平滑,聚类平滑,14,分组平滑,例如:一位受试者检测得的收缩压原始数据序列是:,129,,,131,,,124,,,136,,,131,,,132,,,138,,,134,,,139,,,。(,P21,),效果较差,好,15,分组平滑,例如:排序后的数据是:,4,,,8,,,9,,,15,,,21,,,21,,,24,,,25,,,26,,,28,,,29,,,34,。,16,回归平滑,17,聚类平滑,18,第二章 数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,19,4.,数据整合,目的:纠正不一致数据,基本任务:将多个数据源中的数据整合,方法:,实体识别,消除冗余,消除重复记录,数据值不一致,20,第二章 数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,21,数据预处理,5.,数据变换,目的:变换原始数据取值范围或类型,类型变换,分类型数值型(神经网络),数值型分类型(决策树),22,数据预处理,5.,数据变换,数值归一化,十进计数法,最小,-,最大归一法,Z-Score,对数归一法,23,讨论,例:若舒张压原始数据为:,90,110,105,140,220,138,182,205,105,110,则,进行下列数据变换后的新数据是?,(1),十进计数法,(2),最小,-,最大归一法,(3)Z-Score(4),对数归一化,24,第二章 数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,25,6.,数据精简,目的:减少冗余,提高模型性能,样本记录数的选择,精简冗余、保留典型,P33,随机选取,典型性分数,弥补不平衡数据,欠抽样,undersampling,过抽样,oversampling,26,数据预处理,6.,数据精简,样本特征属性的选择,逐一尝试,舍弃相关性高的特征,分类型特征,舍弃预测性分数高的,数值型特征,舍弃,fisher,系数低的,27,fisher,系数,28,讨论,例:构建模型,乳腺癌患者预后受哪些因素影响?如何影响?,数据来源:,NCI,提供的,SEER,报告,长期收集美国的癌症患者数据,有三个数据库。原始记录,779999,条,特征属性,115,项,数据收集于,1973-2004,年间。,对于这样一批数据,如何进行预处理?,(1),来自于不同数据库,如何保证数据的一致性?,(2),数据不完整,属性缺失,如何处理?,(3),数据噪声如何识别?如何判别?,(4)115,项特征属性如何取舍?取舍依据?,(5),样本数据如何组织?,29,数据预处理小结,
展开阅读全文