AdaBoost阶段小结.ppt

资源描述

提纲前期调研AdaBoost原理一些问题前期调研 PAC学习模型 2 3 机器学习中训练样本再大也不能代表某类事物本身所以从训练样本中学习得到规则不能对某类事物完全适用总有失效的情况出现所以机器学习的目标是概率逼近正确学习 1984年Valiant提出PAC ProbablyApproximatelyCorrect 学习模型文中提出强学习和弱学习两个概念 Valiant的贡献Valiant指出弱学习转换为强学习的可行性实际运用中人们根据生产经验可以较为容易的找到弱学习方法但是很多情况下要找到强学习方法是不容易的有时候人们倾向于通过先找到弱学习然后把它转换为强学习的方式获取强学习方法而Valiant证明了这种方式的可行性怎样实现弱学习转为强学习核心思想通过组合使弱学习互补学习是不适定问题在有限的样本上不同的学习方法得到不同的规则并在不同的情况下失效没有一种学习算法总是在任何领域产生最好的分类效果例如学习算法A在a情况下失效学习算法B在b情况下失效那么在a情况下可以用B算法在b情况下可以用A算法解决这说明通过某种合适的方式把各种算法组合起来可以提高准确率为实现弱学习互补面临两个问题 1 怎样获得不同的弱分类器 2 怎样组合弱分类器怎样获得不同的弱分类器使用不同的弱学习算法得到不同基学习器参数估计非参数估计使用相同的弱学习算法但用不同的超参数K Mean不同的K 神经网络不同的隐含层相同输入对象的不同表示不同的表示可以凸显事物不同的特征使用不同的训练集装袋 bagging 提升 boosting 怎样组合弱分类器多专家组合一种并行结构所有的弱分类器都给出各自的预测结果通过组合器把这些预测结果转换为最终结果 eg 投票 voting 及其变种混合专家模型多级组合一种串行结构其中下一个分类器只在前一个分类器预测不够准不够自信的实例上进行训练或检测 eg 级联算法 cascading 小结通过前期调研我比较关注是boosting原理 bagging在给定样本上随机抽取有放回训练子集在每个训练子集上用不稳定的学习算法训练分类不同弱分类器 boosting在前一个弱分类器错分的实例在后续的弱分类器上得到更大的重视从训练子集的获取方式上看 bagging靠运气 boosting有依据所谓不稳定学习算法是指训练集很小的变化会引起所产生的分类器变化很大即学习算法高方差例如决策树 AdaBoost原理 AdaBoost的由来 AdaBoost的核心思想关注被错分的样本器重性能好的弱分类器怎么实现 1 不同的训练集调整样本权重 2 关注增加错分样本权重 3 器重好的分类器权重大 4 样本权重间接影响分类器权重原始AdaBoost 1995年Freund提出AdaBoost算法 1999年Schapire在一篇会议论文上对Freund的AdaBoost重新表述基本原理不变但是更易理解下面以Schapire的版本介绍AdaBoost Given mexamples x1 y1 xm ym wherexi X yi Y 1 1 InitializeD1 i 1 m Fort 1toT 1 Trainlearnerhtwithminerror 2 Computethehypothesisweight 3 Foreachexamplei 1tom Output TheweightAdapts Thebiggeretbecomesthesmalleratbecomes Ztisanormalizationfactor Boostexampleifincorrectlypredicted Linearcombinationofmodels SchapireAdaBoostAlgorithm AdaBoost的收敛性证明整个证明的核心不等左边是最终强分类器的错误率证明过程至此看到AdaBoost的错误率上限接下来的目标就是使这个上限尽可能小怎么使尽量小看到是关于的函数要使最小显然需要研究在原始的AdaBoost算法中采用贪婪算法每次的都是最小的保证收敛到满意的结果在原始AdaBoost算法中h值域是 1 1 问题是怎么找到最佳的这时候前面证明原始AdaBoost算法的收敛性但是原始AdaBoost的收敛速度是不是就是最好的有没有更快的有 Schapire提出了RealAdaBoost收敛更快再次明确一下目标使尽量小对于原始的AdaBoost 前文讨论过其h是定死的失去了讨价还价的余地进而确定了的选择方法所以在RealAdaBoost不在定死 RealAdaBoostAlgorithm h不再定死到这里介绍完AdaBoost原理接下来就是我学习中的一些困惑一些问题 AdaBoost泛化能力的证明Adaboost中对h选择接下来学习的方向 AdaBoost泛化能力的证明目前对AdaBoost泛化能力的证明是各家各言没有定论 Freund的证明已经被实践推翻 Schapire的证明被人证明是有缺陷的我比较关注的是Freund和Schapire的证明他们都用到一个概念叫VC维度我查了很多文献都没能理解这个概念所以目前我对AdaBoost泛化能力的证明无能为力 AdaBoost对h的选择是h和alpha的二元函数为什么考虑的时候都考虑alpha 没考虑h 在原始的AdaBoost算法中用错误率最小来确定h至少还有个说法在RealAdaBoost中直接把h和alpha整合成一个参数h 了那么RealAdaBoost算法中对alpha的讨论又有什么意义呢接下来学习的方向不管是变种AdaBoost其功能都是把弱学习提升为强学习直观上我的感觉是AdaBoost性能好坏取决于弱学习那么我们应该怎么选择弱学习方法我在文献中看到有决策树神经网络 svm k mean 等 AdaBoost作者用的是C4 5决策树 Viola第一个用AdaBoost做人脸检测他采用是单层的决策树 stump 做弱学习看到这么多的weaklearn算法我不知道我改用那一种也不知道要提高AdaBoost检测速度是不是该从weaklearn入手目前我对AdaBoost的认识停留在数学层面感觉还是很抽象特别是人脸特征的知识表示是怎么进行的我是不是应该先把黄金凤的程序拿来对照学习

展开阅读全文

AdaBoost阶段小结.ppt

最新文档