机器学习中的特征选择

上传人:xcv****223 文档编号:244263475 上传时间:2024-10-03 格式:PPT 页数:30 大小:654KB
返回 下载 相关 举报
机器学习中的特征选择_第1页
第1页 / 共30页
机器学习中的特征选择_第2页
第2页 / 共30页
机器学习中的特征选择_第3页
第3页 / 共30页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2017/5/11,数据挖掘中的特征选择,*,Feature Selection for Classification,李军政,2017.5.10,单击此处添加文字内容,综述,单击此处添加文字内容,特征选择流程,单击此处添加文字内容,几种常用的特征选择算法,单击此处添加文字内容,总结,1,2,3,4,2017/5/11,2,综述,What,从全部特特征中选选取一个个特征子子集,使构造出来来的模型型更好。,Why,在机器学习习的实际际应用中中,特征征数量往往往较多多,其中中可能存存在不相相关的特特征,特特征之间间也可能能存在相相互依赖赖,容易易导致如如下的后后果:,分析特,征,征、训,练,练模型,耗,耗时长,模型复,杂,杂、推,广,广能力,差,差,引起维,度,度灾难,2017/5/11,3,维度灾难难,随着维数数的增加加,特征征空间的的体积指指数增加加,从而而导致各各方面的的成本指指数增加加,样本数量量,存储空间间,计算量,如何从中中选出有有用的特特征?,2017/5/11,4,单击此处添加文字内容,综述,单击此处添加文字内容,特征选择流程,单击此处添加文字内容,几种常用的特征选择算法,单击此处添加文字内容,总结,1,2,3,4,2017/5/11,5,特征选择择流程,Generator,Evaluation,Stop Rule,Validation,Subset,Yes,No,Original,Feature Set,2017/5/11,6,两个主要要步骤,产生过程程,特征子集集的产生生可以看看作是一一个搜索索过程,搜索空空间中的的每一个个状态都都是一个个可能特特征子集集。,搜索的算算法分为为完全搜搜索(Complete),启发式式搜索(Heuristic),随机搜搜索(Random)3大类。,评价函数数,评价函数数是评价价一个特特征子集集好坏的的准则,特征的评评估函数数分为五五类:相相关性,距离,信息增增益,一一致性和和分类错错误率。,2017/5/11,7,搜索算法法之完全全搜索,完全搜索索分为穷穷举搜索索与非穷穷举搜索索两类,广度优先先搜索(BFS),分支限界界搜索(BAB),定向搜索索(BS),最优优先先搜索(BestFirstSearch),BS:首先选择N个得分最最高的特特征作为为特征子子集,将将其加入入一个限制最大大长度的优先队队列,每每次从队队列中取取出得分分最高的的子集,然后穷穷举向该该子集加加入1个特征后后产生的的所有特特征集,将这些些特征集集加入队队列。,2017/5/11,8,搜索算法法之启发发式搜索索,启发式搜搜索,序列前向向选择(SFS),序列后向向选择(SBS),双向搜索索(BDS),增L去R选择算法法(LRS),L和R的选择是是关键,序列浮动动选择(SequentialFloatingSelection),决策树(DTM),LRS两种形式:,算法从空空集开始始,每轮轮先加入入L个特征,然后从从中去除除R个特征,使得评评价函数数值最优优。(LR),在训练样样本集上上运行C4.5或其他决决策树生生成算法法,待决决策树充充分生长长后,再再在树上上运行剪剪枝算法法。则最最终决策策树各分分支处的的特征就就是选出出来的特特征子集。一一般使用信息息增益作作为评价价函数。,L和R怎么确定定?,2017/5/11,9,搜索算法法之随机机算法,随机算法法,随机产生生序列选选择算法法(RGSS),随机产生生一个特特征子集集,然后后在该子子集上执执行SFS与SBS算法,模拟退火火算法(SA),以一定的的概率来来接受一一个比当当前解要要差的解解,因此此有可能能会跳出出这个局局部的最最优解,达到一个全局次次最优解解,遗传算法法(GA),共同缺点点:依赖赖于随机因因素,有有实验结结果难以以重现,2017/5/11,10,评价函数数,作用是,评,评价产,生,生过程,所,所提供,的,的特征,子,子集的,好,好坏,按照其,工,工作原,理,理,评,价,价函数,可,可以分,为,为三种,模,模型:,过滤模,型,型(FilterModel),封装模,型,型(Wrapper Model),混合模,型,型(EmbeddedModel),被称为,特,特征选,择,择的经,典,典三刀,:,:,飞刀(Filter),弯刀(Wrapper),电刀(Embedded),2017/5/11,11,评价函数数过滤模型型,根据特征子集内,部,部的特点来衡量其,好,好坏,如欧,氏,氏距离,、,、相关,性,性、信,息,息熵等,特征子,集,集在学,习,习算法,运,运行之,前,前就被,选,选定,学习算法用,于,于测试,最,最终特,征,征子集,的,的性能,特点:,简,简单、,效,效率高,,,,但精,度,度差,2017/5/11,12,评价函数数封装模型型,学习算,法,法封装,在,在特征,选,选择的,过,过程中,,,,用特,征,征子集,在,在学习,算,算法上,得,得到的,挖,挖掘性能作为特,征,征子集,优,优劣的,评,评估准,则,则。,与过滤,模,模型相,比,比,精,度,度高、,但,但效率,低,低。,根本区,别,别在于,对,对学习,算,算法的,使,使用方,式,式,2017/5/11,13,评价函数数混合模型型,混合模,型,型把这,两,两种模,型,型进行,组,组合,,先,先用过,滤,滤模式,进,进行初,选,选,再,用,用封装,模,模型来,获,获得最,佳,佳的特,征,征子集,。,。,2017/5/11,14,常用评价价函数,特征的评评价函数数分为五五类:,相关性;距离;信息增增益;一一致性;分类错错误率,前四种属属于过滤滤模型,分类错错误率属属于封装装模型,从概率,论,论的角,度,度,相关系,数,数:,值域范,围,围:-1,+1,绝对值,越,越大,,相,相关性,越,越大,2017/5/11,15,常用评价价函数,从数理,统,统计的,角,角度(假设检,验,验),T,检验,检验,与相关,系,系数在,理,理论上,非,非常接,近,近,但,更,更偏重,于,于有限,样,样本下,的,的估计,T检验统,计,计量:,其中,n为样本,容,容量,,、,、,为,为样本,均,均值和,方,方差,,为,为总体,方,方差。,2017/5/11,16,常用评价价函数,从信息,论,论角度,条件熵,与“相,关,关性”,负,负相关,信息增,益,益,相对信,息,息增益,互信息,量,量(MutualInformation),2017/5/11,17,常用评价价函数,IR领域的,度,度量,(逆),文,文档词,频,频(inversedocumentfrequency,),),词强度(termstrength),已知一,个,个词(特征)在某文,档,档(实例)中出现,,,,该词,在,在同类(目标函,数,数值相,同,同)文档中,出,出现的,概,概率为,词,词强度,总文档数,包含词(特征)t的文档数数,2017/5/11,18,常用评价价函数,学习相,关,关的度,量,量,分类准,确,确率,准确率,、,、召回,率,率、F值、AUC等,用单一,维,维特征,进,进行分,类,类训练,,,,某种,分,分类准,确,确率指,标,标作为,特,特征的,有,有效性,度,度量,复杂度,较,较大,不一定,有,有合适,的,的准确,率,率指标,2017/5/11,19,单击此处添加文字内容,综述,单击此处添加文字内容,特征选择流程,单击此处添加文字内容,几种常用的特征选择算法,单击此处添加文字内容,总结,1,2,3,4,2017/5/11,20,过滤模型型FishScore,FisherScore:计算两个个分布的的距离,第i个特征的的权重公公式为:,其中uij和pij分别是第第i个特征在在第j类中的均均值和方方差,nj为第j类中实例例的个数数,ui为第i个特征的的均值,K为总类别别数。,缺点:容易产产生冗余余特征,f1,f2,忽略组合合特征,f1|f2,2017/5/11,21,过滤模型型Chi-Squaredtest,卡方检验验利用统统计学中中的假设设检验思思想,利利用卡方方统计量量来衡量特征和类别之间的相关程度。,卡方值公公式:,其中,N是文档总总数,,A是包含词t且属于c类的文档档数目,B是包含词t且不属于于c类的文档档数目,C是不包含含词t且属于c类的文档档数目,D是不包含含词t且不属于于c类的文档档数目,sklearn.feature_selection.chi2(X,y),2017/5/11,22,过滤模型型Relief,Relief:根据据各个特特征和类类别的关关系赋予予特征不不同的权权重,权权重小于于某阈值值的将被被移除。,2017/5/11,23,Relief算法的缺缺点,Relief算法属于于特征权权重算法法,该算算法缺点点在于:他们可可以捕获获特征与与目标概概念间的的相关性性,却不不能发现现特征间间的冗余余性。,Relief-F是Relief的升级版版,可用用于多分分类,经验证明明除了无无关特征征对学习习任务的的影响,冗余特特征同样样影响学学习算法法的速度度和准确确性,也也应尽可可能消除除冗余特特征。,2017/5/11,24,封装模型型增量法,封装模型型首先需需要选用用较好学学习算法法,如RF、SVM、LR、KNN等,可以使用用前面提提到的各各种缩小小搜索空空间的尝尝试,其其中最经经典的是是启发式式搜索,概括来来说主要要分为两两大类:,增量法(SFS:sequential forwardselection),减量法(SBS),2017/5/11,25,增量法试试验结果果,2017/5/11,26,增/减量法优优缺点,复杂度关关于维数数为或或,选单个特特征采用用评价准则则排序的的方式为为一次,选单个特特征采用测试试全部特特征的方方式为二二次,本质上是是贪心算算法,某些组合合无法遍遍历,可能陷入入局部极极值,2017/5/11,27,单击此处添加文字内容,综述,单击此处添加文字内容,特征选择流程,单击此处添加文字内容,几种常用的特征选择算法,单击此处添加文字内容,总结,1,2,3,4,2017/5/11,28,总结,1,2,3,特征选择择是机器器学习领领域中重重要的步步骤,具具有重要要的学术术意义和和研究价值,根据不同的搜搜索策略略和评价价函数,可以组组合出多种特征选择择方法。主要分三类:过滤滤、封装装、混合合模型,在实际际应用中中各有优优缺,我我们应从从效率、精准度度等角度度综合考考虑对比比,选用用最优的的特征选选择方法,先利用过过滤模型型去除一一部分无无用或贡贡献度不不大的特特征,再再利用封封装模型型进行特特征选择择,是一一个不错错的步骤,2017/5/11,29,数据挖掘中的特征选择,谢谢!,2017/5/11,30,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 市场营销


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!