生物医学数据挖掘-数据预处理课件

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物医学数据挖掘,Biomedical Data Mining,2,第一章概论,四,.,数据挖掘性能评价,第二章数据采集与准备,一数据的采集和组织,二数据管理,回顾,3,第二章数据采集与准备,一数据的采集和组织,二数据管理,三,.,数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,4,数据预处理,1.,目的,提高数据的质量,处理不好的数据,降低维数,数据质量的表现,完整性,合理性,一致性,No quality data,no quality mining results!,5,第二章数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,6,数据预处理,2.,数据的分布状态,用统计学工具可解决,分布趋势（,P18,）：均值、中值、众数、半程位、,散布特性（,P19,）：标准差和变异系数、全程范围、四分位数、四分位范围,7,例,P19,收缩压，排序,8,例：两组数据,A,组,6,6,7,8,8,B,组,5,6,7,8,9,？两组数据的离散程度,分布趋势和散布特性,9,例：,例：某地男孩,出生体重：,X1,3.30kg,，,S1=0.44kg,18,岁体重：,X2,56.10Kg,，,S2=5.50Kg,？两组数据的离散程度,10,数据预处理的形式,11,第二章数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,5.,数据精简,12,数据预处理,3.,数据清洗,目的：填写缺失值，平滑噪声数据,数据缺失,直接删除记录,丢弃属性,如何弥补？,取属性均值,取同类均值,用最可能的值,13,数据预处理,3.,数据清洗,数据噪声,:,随机性干扰,&,波动,分组平滑,均值平滑,中值平滑,边界平滑,回归平滑,聚类平滑,14,分组平滑,例如：一位受试者检测得的收缩压原始数据序列是：,129,，,131,，,124,，,136,，,131,，,132,，,138,，,134,，,139,，,。（,P21,）,效果较差,好,15,分组平滑,例如：排序后的数据是：,4,，,8,，,9,，,15,，,21,，,21,，,24,，,25,，,26,，,28,，,29,，,34,。,16,回归平滑,17,聚类平滑,18,第二章数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,19,4.,数据整合,目的：纠正不一致数据,基本任务：将多个数据源中的数据整合,方法：,实体识别,消除冗余,消除重复记录,数据值不一致,20,第二章数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,21,数据预处理,5.,数据变换,目的：变换原始数据取值范围或类型,类型变换,分类型数值型（神经网络）,数值型分类型（决策树）,22,数据预处理,5.,数据变换,数值归一化,十进计数法,最小,-,最大归一法,Z-Score,对数归一法,23,讨论,例：若舒张压原始数据为：,90,110,105,140,220,138,182,205,105,110,则，进行下列数据变换后的新数据是？,(1),十进计数法,(2),最小,-,最大归一法,(3)Z-Score(4),对数归一化,24,第二章数据采集与准备,一数据的采集和组织,二数据管理,三数据预处理,1.,目的,2.,数据的分布状态,3.,数据清洗,4.,数据整合,5.,数据变换,6.,数据精简,25,6.,数据精简,目的：减少冗余，提高模型性能,样本记录数的选择,精简冗余、保留典型,P33,随机选取,典型性分数,弥补不平衡数据,欠抽样,undersampling,过抽样,oversampling,26,数据预处理,6.,数据精简,样本特征属性的选择,逐一尝试,舍弃相关性高的特征,分类型特征,舍弃预测性分数高的,数值型特征,舍弃,fisher,系数低的,27,fisher,系数,28,讨论,例：构建模型，乳腺癌患者预后受哪些因素影响？如何影响？,数据来源：,NCI,提供的,SEER,报告，长期收集美国的癌症患者数据，有三个数据库。原始记录,779999,条，特征属性,115,项，数据收集于,1973-2004,年间。,对于这样一批数据，如何进行预处理？,(1),来自于不同数据库，如何保证数据的一致性？,(2),数据不完整，属性缺失，如何处理？,(3),数据噪声如何识别？如何判别？,(4)115,项特征属性如何取舍？取舍依据？,(5),样本数据如何组织？,29,数据预处理小结,

展开阅读全文

生物医学数据挖掘-数据预处理课件

最新文档