机器学习算法的分类与选择ppt课件

资源描述

,#,机,器,学,习,算,法,的,分,类,&,选,择,2019,年,7,月,4,日,LDA,PCA,KNN,DBSCAN,K-means,SVM,GBDT,逻辑回归,随机森林,决策树,Adaboost,Xgboost,神经网络,机,器,学,习,算,法,CHIMA 2019,聚,类,降,维,Dimension Reducti,Linear,Discriminant,Analysis,Try,PCA,Supervised,分,类,回,归,CHIMA,201,3,9,01,02,目,录,03,04,特,征,降,维,分,类,&,回,归,聚,类,总,结,CHIMA,201,4,9,特征降维,特征向量较多时使用,SVM,进行分类，结果并不理想；,随机删除几个特征后，准确率反而提升？,CHIMA,201,5,9,特征降维,=,特征选择？,特征选择,特征降维,找一个高,维到低维,的映射！,删除若,干特征！,通过属性间的关系（如组合,不同的属性得新的属性）改,变原来的特征空间,从原始特征数据集中选择出,子集，是一种包含的关系，,没有更改原始的特征空间,CHIMA,201,6,9,特征选择,Filter,（过滤法）,Wrapper,（包装法）,Embedded,（嵌入法）,按照,发散性,或者,相,关性,对各个特征进,行评分，设定阈值,或者待选择阈值的,个数，选择特征。,根据目标函数（通,常是,预测效果评,分,），每次选择若,干特征，或者排除,若干特征。,使用某些机器学习,的算法和模型进行,训练，,得到各个特,征的权值系数,，根,据系数从大到小选,择特征。,如：移除低方差的,特征、移除相关性,较高的特征,如：递归地训练基,模型，移除对模型,贡献度较小的特征,如：基于随机森林,的特征选择方法,CHIMA,201,7,9,特征降维,PCA,（主成分分析）,SVD,（奇异值分解）,LDA,（线性判别分析）,A,无监督,的降维,有监督,的降维,无监督,的降维,将矩阵,A,分解为三个矩,阵,UV,T,的乘积，选择,中数值较大的几个,奇异,值,及,U,和,V,T,中对应的,奇,异向量,，完成特征降维。,相同类别在超平面上投,影之间的距离尽可能近，,不同类别投影之间的距,离尽可能远，,最多降到,类别数,-1,的维数,找到一个能最大保留数,据,方差信息,的子空间，,降维后的数据是原来特,征在新空间中的,映射值,CHIMA,201,8,9,降维算法的注意事项：,PCA,、,SVD,、,LDA,均为,线性,降维方法，但可引入,核函数,实现非线,性降维，此外还有一些非线性降维方法如,Isomap,谱嵌入法等,LDA,作为有监督的降维方法，容易使后续的分类过程发生过拟合,应用：,PCA,是,最常用,的数据降维方法，可用于图像压缩等领域,SVD,可用于推荐系统、自然语言处理等领域，如电子病历文本,潜在语义分析,LDA,既可以用于降维也可用于分类,缺点：,经过降维后的数据与原特征不存在一一对应关系，较难解释,CHIMA,201,9,9,案例分享,1,利用,PCA,对数据集去噪,心衰患者是否发生院内死亡预测,基本信息,共病信息,3,项,6,项,检查信息,检验信息,选取,2015-2018,年于解放军总医院住院,的心衰患者，根据是否发生院内死亡选择,正样本,1094,例，随机筛选负样本,1094,例，,选用,94,个特征用,SVM,做分类，利用,5,折交叉,验证法进行结果评估。,9,项,76,项,性别,呼衰,射血分数,缩短分数,胸腔积液,心包积液,血常规类,15,项,年龄,BMI,肾衰,血生化类,38,项,脑梗,冠心病,糖尿病,高血压,尿类化验,23,项,二尖瓣反,流,SVM,训练集,AUC,0.9591,测试集,AUC,0.8436,5,折交叉验证结果,未经过,PCA,降维,特征分布情况,经过,PCA,降维到,90,维,0.9009,0.8605,CHIMA,201,1,9,0,聚,类,想做一个分类问题，但是却没有分类标签？,如：疾病可能存在的亚型研究,如：疾病风险因素的归类分析,CHIMA,201,1,9,1,聚类方法的类别,凝聚方法,AGNES,分裂方法,DIANA,层次聚类,AGNES,DBSCAN,GMM,聚类,密度聚类,原型聚类,DBSCAN,GMM,K-means,CHIMA,201,1,9,2,K-MEANS,（,K,均值聚类）,对,数值型,数据进行聚类,随机选取,K,个对象作为初始的聚类中,心，把每个对象分配给距离它最近的,聚类中心，根据聚类中现有的对象重,新计算聚类中心，不断重复此过程直,到满足终止条件,K-modes,（,k,众数聚类）,对,分类型,数据进行聚类,K-means,聚类（不断迭代过程）,采用,差异度（属性不相同的个数）,来,代替,k-means,算法中的距离,CHIMA,201,1,9,3,聚类方法优缺点：,分层聚类,密度聚类,K-means,高斯混合聚类,优点：,让数据变得有意义,缺点：,结果难以解读，针对不寻常的数据组，结果可,能无用,分层聚类,：,不需要预先制定聚类数，可以发现类的层,次关系；,耗时，受离群值影响大,密度聚类,：,不需要输入类别数，可发现任意形状的聚,类簇，可识别离群值；,无法反映数据尺寸，对高维数据密度难以,定义,K-means,聚类,：,简单，最常用；,仅适用凸的样本集聚类，受离群值影响大,高斯混合聚类,：,在各类尺寸不同、聚类间有相关关系时可,能比,k-means,聚类更合适；,需要初始化多个参数,原型聚类,https:/scikit-learn.org/stable/modules/clustering.html,CHIMA,201,1,9,4,聚类方法在医学中的应用：,1.,无监督的医学图像分割,2.,疾病可能存在的亚型分类研究,采用聚类分析为早期帕金森疾病分亚型，对致病机制假说的,提出和治疗策略的制定有重大暗示,3.,疾病与模式基因之间的关联关系分析研究,4.,特征解释,CHIMA,201,1,9,5,案例分享,2,利用层次聚类解释模型,肠道菌群与年龄之间的关系研究,从公共数据库中选用江苏地区,923,个健,康人（按照年龄被分为,7,组）粪便检材的,16S,测序数据，从中获取,5621,个菌群的丰,度值，特征筛选后得到,278,个菌群的丰度值，,用来对不同年龄分组的样本做层次聚类。,分组,幼儿园学生,小学生,年龄,3-6,人数,103,161,114,135,86,8-12,长,寿,老,人,老,年,人,青,年,人,幼,儿,园,学,生,小,学,生,中,年,人,中,学,生,中学生,青年人,中年人,老年人,13-14,19-24,30-50,60-79,94,86,长寿老人,198,CHIMA,201,1,9,6,分类,&,回归,疾病发病风险预测,术后恢复时间预测,术式选择,药效评估,CHIMA,201,1,9,7,分类,&,回归常用方法,分类,回归,Logistic,Regression,（逻辑回归）,Decision,Tree,（决策树）,Random,Forest,（随机森林）,GBDT,（梯度提升树）,Linear Regression,（线性回归）,Decision,Tree,（决策树）,Random,Forest,（随机森林）,GBDT,（梯度提升树）,Neural Network,（神经网络）,SVM,（支持向量机）,Neural Network,（神经网络）,SVR,（支持向量回归）,Naive,Bayes,（朴素贝叶斯）,CHIMA,201,1,9,8,分类,&,回归算法常见问题：,A,B,C,D,缺失值、异,常值对算法,的影响,是否可进行模,型解释，得到,特征权重,各种算法的,优缺点,冗余特征对,算法的影响,CHIMA,201,1,9,9,问题一：各种算法的,优缺点,模型,优点,缺点,线性,/,逻辑回归,要求数据,线性可分,；,容易,欠拟合,。,1.,2.,1.,容易使用和解释。,1.,易于理解和解释，运行速度快；,2.,对于噪声干扰具有较好鲁棒性。,1.,训练速度快；,1.,容易,过拟合,；,2.,模型结构不稳定。,决策树,随机森林,梯度提升树,1.,取值划分较多的属性会对模型产,2.,泛化能力强，预测精度高。,生更大的影响,。,1.,难以并行训练数据，数据维度较,高计算复杂度也高。,1.,预测精度高，能处理非线性数据。,1.,需要大量的参数，学习时间过长；,2.,学习过程为黑盒,，输出结果难以,解释。,1.,分类准确度高，对噪声有较强的鲁棒性；,2.,具备联想记忆的功能。,神经网络,支持向量机,（回归）,可解决小样本情况下的机器学习问题；,对缺失数据敏感；,1.,2.,1.,泛化性能较强,2.,运行复杂度较高。,1.,稳定的分类效率；,2.,模型所需估计的参数很少，算法简单。,2.,分类决策存在错误率。,1.,需要计算先验概率；,朴素贝叶斯,CHIMA,201,2,9,0,案例分享,3,树模型会赋予连续变量更大的权重？,数据来源：,2015,年解放军总医院,连续变量离散化前,连续变量离散化后,医院开展的社区流行病学调查,0.3,0.25,0.2,研究目的：发掘冠心病的发病风险,因素,0.15,0.1,样本情况：正、负样本各,1590,例,0.05,0,29,个特征向量：,性别、年龄、,BMI,、腰臀比、抽烟、,喝酒,共病信息、家族史,生命体征信息、,ECG,检查信息,采用模型：,随机森林,CHIMA,201,2,9,1,问题二：,缺失值、异常值,对算法的影响,问题三：,冗余特征,对算法的影响,问题四：是否可进行模型解释，得到,特征权重,对缺失值、异常值,模型,对冗余特征的敏感度,是否可得到特征权重,的敏感度,线性/逻辑回归,决策树,敏感,一般敏感,不敏感,不敏感,不敏感,不敏感,敏感,可以,可以,不敏感,不敏感,不敏感,不敏感,敏感,随机森林,可以,梯度提升树,神经网络,可以,不可以,不可以,不可以,支持向量机（回归）,朴素贝叶斯,不敏感,敏感,CHIMA,201,2,9,2,案例分享,4,不同分类器对缺失值的敏感度,朴素贝叶斯对缺失,值的敏感程度最低,KNN,（,K-,最近邻，,基于距离的方法）,对缺失值的敏感程,度最高,决策树、神经网络,对缺失值的敏感程,度不高,Liu P,Lei,L,Wu,N.A Quantitative Study,of,the,Effect,of,Missing Data,in,ClassifiersC/,Fifth,CHIMA,201,2,9,3,International Conference,on Computer,&Information,Technology.,2005.,分类算法选择的建议：,分类,需要得到特征权重,逻辑回归,不需要得到特征权重,逻辑回归,SVM,、神经网络,随机森林,随机森林,其他基于树的,bagging,或,boosting,算法,其他基于树的,bagging,或,boosting,算法,CHIMA,201,2,9,4,总,结,CHIMA,201,2,9,5,如何选择机器学习算法：,1,2,3,确定数据分析目的,了解数据,考虑资源合理性,降维,聚类,分类,回归,数据量大小,缺失值、异常值,冗余度,软硬件的配置是否满,足当前数据集下算法,的正常运行,数据的分布情况,CHIMA,201,2,9,6,

展开阅读全文

机器学习算法的分类与选择ppt课件

最新文档