机器学习算法的分类与选择ppt课件

上传人:晚**** 文档编号:245000370 上传时间:2024-10-07 格式:PPTX 页数:26 大小:2.17MB
返回 下载 相关 举报
机器学习算法的分类与选择ppt课件_第1页
第1页 / 共26页
机器学习算法的分类与选择ppt课件_第2页
第2页 / 共26页
机器学习算法的分类与选择ppt课件_第3页
第3页 / 共26页
点击查看更多>>
资源描述
,#,机,器,学,习,算,法,的,分,类,&,选,择,2019,年,7,月,4,日,LDA,PCA,KNN,DBSCAN,K-means,SVM,GBDT,逻辑回归,随机森林,决策树,Adaboost,Xgboost,神经网络,机,器,学,习,算,法,CHIMA 2019,聚,类,降,维,Dimension Reducti,Linear,Discriminant,Analysis,Try,PCA,Supervised,分,类,回,归,CHIMA,201,3,9,01,02,目,录,03,04,特,征,降,维,分,类,&,回,归,聚,类,总,结,CHIMA,201,4,9,特征降维,特征向量较多时使用,SVM,进行分类,结果并不理想;,随机删除几个特征后,准确率反而提升?,CHIMA,201,5,9,特征降维,=,特征选择?,特征选择,特征降维,找一个高,维到低维,的映射!,删除若,干特征!,通过属性间的关系(如组合,不同的属性得新的属性)改,变原来的特征空间,从原始特征数据集中选择出,子集,是一种包含的关系,,没有更改原始的特征空间,CHIMA,201,6,9,特征选择,Filter,(过滤法),Wrapper,(包装法),Embedded,(嵌入法),按照,发散性,或者,相,关性,对各个特征进,行评分,设定阈值,或者待选择阈值的,个数,选择特征。,根据目标函数(通,常是,预测效果评,分,),每次选择若,干特征,或者排除,若干特征。,使用某些机器学习,的算法和模型进行,训练,,得到各个特,征的权值系数,,根,据系数从大到小选,择特征。,如:移除低方差的,特征、移除相关性,较高的特征,如:递归地训练基,模型,移除对模型,贡献度较小的特征,如:基于随机森林,的特征选择方法,CHIMA,201,7,9,特征降维,PCA,(主成分分析),SVD,(奇异值分解),LDA,(线性判别分析),A,无监督,的降维,有监督,的降维,无监督,的降维,将矩阵,A,分解为三个矩,阵,UV,T,的乘积,选择,中数值较大的几个,奇异,值,及,U,和,V,T,中对应的,奇,异向量,,完成特征降维。,相同类别在超平面上投,影之间的距离尽可能近,,不同类别投影之间的距,离尽可能远,,最多降到,类别数,-1,的维数,找到一个能最大保留数,据,方差信息,的子空间,,降维后的数据是原来特,征在新空间中的,映射值,CHIMA,201,8,9,降维算法的注意事项:,PCA,、,SVD,、,LDA,均为,线性,降维方法,但可引入,核函数,实现非线,性降维,此外还有一些非线性降维方法如,Isomap,谱嵌入法等,LDA,作为有监督的降维方法,容易使后续的分类过程发生过拟合,应用:,PCA,是,最常用,的数据降维方法,可用于图像压缩等领域,SVD,可用于推荐系统、自然语言处理等领域,如电子病历文本,潜在语义分析,LDA,既可以用于降维也可用于分类,缺点:,经过降维后的数据与原特征不存在一一对应关系,较难解释,CHIMA,201,9,9,案例分享,1,利用,PCA,对数据集去噪,心衰患者是否发生院内死亡预测,基本信息,共病信息,3,项,6,项,检查信息,检验信息,选取,2015-2018,年于解放军总医院住院,的心衰患者,根据是否发生院内死亡选择,正样本,1094,例,随机筛选负样本,1094,例,,选用,94,个特征用,SVM,做分类,利用,5,折交叉,验证法进行结果评估。,9,项,76,项,性别,呼衰,射血分数,缩短分数,胸腔积液,心包积液,血常规类,15,项,年龄,BMI,肾衰,血生化类,38,项,脑梗,冠心病,糖尿病,高血压,尿类化验,23,项,二尖瓣反,流,SVM,训练集,AUC,0.9591,测试集,AUC,0.8436,5,折交叉验证结果,未经过,PCA,降维,特征分布情况,经过,PCA,降维到,90,维,0.9009,0.8605,CHIMA,201,1,9,0,聚,类,想做一个分类问题,但是却没有分类标签?,如:疾病可能存在的亚型研究,如:疾病风险因素的归类分析,CHIMA,201,1,9,1,聚类方法的类别,凝聚方法,AGNES,分裂方法,DIANA,层次聚类,AGNES,DBSCAN,GMM,聚类,密度聚类,原型聚类,DBSCAN,GMM,K-means,CHIMA,201,1,9,2,K-MEANS,(,K,均值聚类),对,数值型,数据进行聚类,随机选取,K,个对象作为初始的聚类中,心,把每个对象分配给距离它最近的,聚类中心,根据聚类中现有的对象重,新计算聚类中心,不断重复此过程直,到满足终止条件,K-modes,(,k,众数聚类),对,分类型,数据进行聚类,K-means,聚类(不断迭代过程),采用,差异度(属性不相同的个数),来,代替,k-means,算法中的距离,CHIMA,201,1,9,3,聚类方法优缺点:,分层聚类,密度聚类,K-means,高斯混合聚类,优点:,让数据变得有意义,缺点:,结果难以解读,针对不寻常的数据组,结果可,能无用,分层聚类,:,不需要预先制定聚类数,可以发现类的层,次关系;,耗时,受离群值影响大,密度聚类,:,不需要输入类别数,可发现任意形状的聚,类簇,可识别离群值;,无法反映数据尺寸,对高维数据密度难以,定义,K-means,聚类,:,简单,最常用;,仅适用凸的样本集聚类,受离群值影响大,高斯混合聚类,:,在各类尺寸不同、聚类间有相关关系时可,能比,k-means,聚类更合适;,需要初始化多个参数,原型聚类,https:/scikit-learn.org/stable/modules/clustering.html,CHIMA,201,1,9,4,聚类方法在医学中的应用:,1.,无监督的医学图像分割,2.,疾病可能存在的亚型分类研究,采用聚类分析为早期帕金森疾病分亚型,对致病机制假说的,提出和治疗策略的制定有重大暗示,3.,疾病与模式基因之间的关联关系分析研究,4.,特征解释,CHIMA,201,1,9,5,案例分享,2,利用层次聚类解释模型,肠道菌群与年龄之间的关系研究,从公共数据库中选用江苏地区,923,个健,康人(按照年龄被分为,7,组)粪便检材的,16S,测序数据,从中获取,5621,个菌群的丰,度值,特征筛选后得到,278,个菌群的丰度值,,用来对不同年龄分组的样本做层次聚类。,分组,幼儿园学生,小学生,年龄,3-6,人数,103,161,114,135,86,8-12,长,寿,老,人,老,年,人,青,年,人,幼,儿,园,学,生,小,学,生,中,年,人,中,学,生,中学生,青年人,中年人,老年人,13-14,19-24,30-50,60-79,94,86,长寿老人,198,CHIMA,201,1,9,6,分类,&,回归,疾病发病风险预测,术后恢复时间预测,术式选择,药效评估,CHIMA,201,1,9,7,分类,&,回归常用方法,分类,回归,Logistic,Regression,(逻辑回归),Decision,Tree,(决策树),Random,Forest,(随机森林),GBDT,(梯度提升树),Linear Regression,(线性回归),Decision,Tree,(决策树),Random,Forest,(随机森林),GBDT,(梯度提升树),Neural Network,(神经网络),SVM,(支持向量机),Neural Network,(神经网络),SVR,(支持向量回归),Naive,Bayes,(朴素贝叶斯),CHIMA,201,1,9,8,分类,&,回归算法常见问题:,A,B,C,D,缺失值、异,常值对算法,的影响,是否可进行模,型解释,得到,特征权重,各种算法的,优缺点,冗余特征对,算法的影响,CHIMA,201,1,9,9,问题一:各种算法的,优缺点,模型,优点,缺点,线性,/,逻辑回归,要求数据,线性可分,;,容易,欠拟合,。,1.,2.,1.,容易使用和解释。,1.,易于理解和解释,运行速度快;,2.,对于噪声干扰具有较好鲁棒性。,1.,训练速度快;,1.,容易,过拟合,;,2.,模型结构不稳定。,决策树,随机森林,梯度提升树,1.,取值划分较多的属性会对模型产,2.,泛化能力强,预测精度高。,生更大的影响,。,1.,难以并行训练数据,数据维度较,高计算复杂度也高。,1.,预测精度高,能处理非线性数据。,1.,需要大量的参数,学习时间过长;,2.,学习过程为黑盒,,输出结果难以,解释。,1.,分类准确度高,对噪声有较强的鲁棒性;,2.,具备联想记忆的功能。,神经网络,支持向量机,(回归),可解决小样本情况下的机器学习问题;,对缺失数据敏感;,1.,2.,1.,泛化性能较强,2.,运行复杂度较高。,1.,稳定的分类效率;,2.,模型所需估计的参数很少,算法简单。,2.,分类决策存在错误率。,1.,需要计算先验概率;,朴素贝叶斯,CHIMA,201,2,9,0,案例分享,3,树模型会赋予连续变量更大的权重?,数据来源:,2015,年解放军总医院,连续变量离散化前,连续变量离散化后,医院开展的社区流行病学调查,0.3,0.25,0.2,研究目的:发掘冠心病的发病风险,因素,0.15,0.1,样本情况:正、负样本各,1590,例,0.05,0,29,个特征向量:,性别、年龄、,BMI,、腰臀比、抽烟、,喝酒,共病信息、家族史,生命体征信息、,ECG,检查信息,采用模型:,随机森林,CHIMA,201,2,9,1,问题二:,缺失值、异常值,对算法的影响,问题三:,冗余特征,对算法的影响,问题四:是否可进行模型解释,得到,特征权重,对缺失值、异常值,模型,对冗余特征的敏感度,是否可得到特征权重,的敏感度,线性/逻辑回归,决策树,敏感,一般敏感,不敏感,不敏感,不敏感,不敏感,敏感,可以,可以,不敏感,不敏感,不敏感,不敏感,敏感,随机森林,可以,梯度提升树,神经网络,可以,不可以,不可以,不可以,支持向量机(回归),朴素贝叶斯,不敏感,敏感,CHIMA,201,2,9,2,案例分享,4,不同分类器对缺失值的敏感度,朴素贝叶斯对缺失,值的敏感程度最低,KNN,(,K-,最近邻,,基于距离的方法),对缺失值的敏感程,度最高,决策树、神经网络,对缺失值的敏感程,度不高,Liu P,Lei,L,Wu,N.A Quantitative Study,of,the,Effect,of,Missing Data,in,ClassifiersC/,Fifth,CHIMA,201,2,9,3,International Conference,on Computer,&Information,Technology.,2005.,分类算法选择的建议:,分类,需要得到特征权重,逻辑回归,不需要得到特征权重,逻辑回归,SVM,、神经网络,随机森林,随机森林,其他基于树的,bagging,或,boosting,算法,其他基于树的,bagging,或,boosting,算法,CHIMA,201,2,9,4,总,结,CHIMA,201,2,9,5,如何选择机器学习算法:,1,2,3,确定数据分析目的,了解数据,考虑资源合理性,降维,聚类,分类,回归,数据量大小,缺失值、异常值,冗余度,软硬件的配置是否满,足当前数据集下算法,的正常运行,数据的分布情况,CHIMA,201,2,9,6,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!