8决策树与Adaboost

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,决策树、Adaboost,北京10月机器学习班邹博,2014年11月1日,1,复习：熵,sqrt(1-4x)exp(-2x),0x1/4,H(Y|X) = H(X,Y) - H(X),条件熵定义,H(Y|X) = H(Y) - I(X,Y),根据互信息定义展开得到,有些文献将I(X,Y)=H(Y) H(Y|X)作为互信息的定义式,对偶式,H(X|Y)= H(X,Y) - H(Y),H(X|Y)= H(X) - I(X,Y),I(X,Y)= H(X) + H(Y) - H(X,Y),有些文献将该式作为互信息的定义式,试证明：H(X|Y) H(X)，H(Y|X) H(Y),2,强大的Venn图：帮助记忆,3,等式变化,根据H(Y|X) = H(Y) - I(X,Y),得到I(X,Y) = H(Y) - H(Y|X),I(X,Y)：在X中包含的关于Y的信息,4,k近邻分类,5,决策树(Decision Tree),一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的多概念学习，具有简单快捷的优势，已经在各个领域取得广泛应用。,决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。,6,决策树示意图,7,决策树学习,决策树学习是以实例为基础的归纳学习。,决策树学习采用的是自顶向下的递归方法，其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。,8,决策树学习算法的特点,决策树学习算法的最大优点是，它可以自学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练例子进行较好的标注，就能够进行学习。,从一类无序、无规则的事物（概念）中推理出决策树表示的分类规则。,9,决策树学习的生成算法,ID3,C4.5,CART,10,信息增益,当熵和条件熵中的概率由数据估计（特别是极大似然估计）得到时，所对应的熵和条件熵分别称为经验熵和经验条件熵。,信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。,定义：特征A对训练数据集D的信息增益g(D,A)，定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差，即：g(D,A)=H(D) H(D|A),即训练数据集类别和特征的互信息。,11,基本记号,设训练数据集为D，|D|表示其容量，即样本个数。设有K个类Ck，k=1,2,K，|Ck|为属于类Ck的样本个数。,k,|Ck|=|D|。设特征A有n个不同的取值a1,a2an，根据特征A的取值讲D划分为n个子集D1,D2,Dn,|Di|为Di的样本个数，,i,|Di|=D。记子集Di中属于类Ck的样本的集合为D,ik,，|D,ik,|为D,ik,的样本个数,。,12,信息增益的计算方法,计算数据集D的经验熵,计算特征A对数据集D的经验条件熵H(D|A),计算信息增益：g(D,A)=H(D) H(D|A),13,经验条件熵H(D|A),14,其他目标,信息增益率：g,r,(D,A) = g(D,A) / H(A),基尼指数：,15,讨论,考察基尼指数的图像、熵、分类误差率三者之间的关系,使用1-x近似代替-lnx,16,三种决策树学习算法,适应信息增益来进行特征选择的决策树学习过程，即为ID3决策。,所以如果是取值更多的属性，更容易使得数据更“纯”（尤其是连续型数值），其信息增益更大，决策树会首先挑选这个属性作为树的顶点。结果训练出来的形状是一棵庞大且深度很浅的树，这样的划分是极为不合理的。,C4.5：信息增益率,CART：基尼系数,一个属性的信息增益越大，表明属性对样本的熵减少的能力更强，这个属性使得数据由不确定性变成确定性的能力越强。,17,提升方法,一个概念如果存在一个多项式的学习算法能够学习它，并且正确率很高，那么，这个概念是强可学习的；,一个概念如果存在一个多项式的学习算法能够学习它，并且学习的正确率仅比随机猜测略好，那么，这个概念是弱可学习的；,强可学习与弱可学习是等价的。,在学习中，如果已经发现了“弱学习算法”，能否将他提升为“强学习算法”。,18,Adaboost,设训练数据集T=(x1,y1), (x2,y2)(xN,yN),初始化训练数据的权值分布,19,Adaboost：对于m=1,2,M,使用具有权值分布Dm的训练数据集学习，得到基本分类器,计算Gm(x)在训练数据集上的分类误差率,计算Gm(x)的系数,20,Adaboost：对于m=1,2,M,更新训练数据集的权值分布,这里，Zm是规范化因子,它使D,m+1,成为一个概率分布,21,Adaboost,构建基本分类器的线性组合,得到最终分类器,22,举例,给定下列训练样本，试用AdaBoost算法学习一个强分类器。,23,解,初始化训练数据的权值分布,W1i = 0.1,24,m=1,对于m=1,在权值分布为D1的训练数据上，阈值v取2.5时误差率最低，故基本分类器为：,25,m=1,G1(x)在训练数据集上的误差率e1=P(G1(xi)yi) = 0.3,计算G1的系数：,26,m=1,更新训练数据的权值分布：,D2=(0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.0715, 0.1666, 0.1666, 0.1666, 0.0715),f1(x)=0.4236G1(x),分类器sign(f1(x)在训练数据集上有3个误分类点。,27,m=2,对于m=2,在权值分布为D2的训练数据上，阈值v取8.5时误差率最低，故基本分类器为：,28,m=2,G2(x)在训练数据集上的误差率e2=P(G2(xi)yi) = 0.2143,计算G2的系数：,29,m=2,更新训练数据的权值分布：,D3=(0.0455, 0.0455, 0.0455, 0.1667, 0.1667, 0.01667, 0.1060, 0.1060, 0.1060, 0.0455),f2(x)=0.4236G1(x) + 0.6496G2(x),分类器sign(f2(x)在训练数据集上有3个误分类点。,30,m=3,对于m=3,在权值分布为D3的训练数据上，阈值v取5.5时误差率最低，故基本分类器为：,31,m=3,G3(x)在训练数据集上的误差率e3=P(G3(xi)yi) = 0.1820,计算G3的系数：,32,m=3,更新训练数据的权值分布：,D4=(0.125, 0.125, 0.125, 0.102, 0.102, 0.102, 0.065, 0.065, 0.065, 0.125),f3(x)=0.4236G1(x) + 0.6496G2(x)+0.7514G3(x),分类器sign(f3(x)在训练数据集上有0个误分类点。,33,误差上限,当G(xi)yi时，yi*f(xi)0，因而exp(-yi*f(xi)1，前半部分得证。,34,后半部分,35,训练误差界,36,训练误差界,37,取1, 2 的最大值，记做,38,总结,AdaBoost的训练误差是以指数速率下降的,AdaBoost算法不需要事先知道下界，AdaBoost具有自适应性，它能适应若分类器格子的训练误差率。（“适应”Adaptive的由来）,39,感谢大家！,恳请大家批评指正！,40,

展开阅读全文

8决策树与Adaboost

最新文档