决策树学习资料55558

上传人:沈*** 文档编号:244191394 上传时间:2024-10-03 格式:PPTX 页数:30 大小:217.76KB
返回 下载 相关 举报
决策树学习资料55558_第1页
第1页 / 共30页
决策树学习资料55558_第2页
第2页 / 共30页
决策树学习资料55558_第3页
第3页 / 共30页
点击查看更多>>
资源描述
Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2001年6月2日,决策树学习,编写:张磊,决策树,决策树是实例(表示为特征向量)的分类器。结点测试特征,边表示特征的每个值,叶结点对应分类。,可表示任意析取和合取范式,从而表示任意离散函数和离散特征,可将实例分到多个分类(,2),可以重写为规则,用析取范式(,DNF),形式,red circle-positivered circle-Ablue-B;red square-Bgreen-C;red triangle-C,2001年6月2日,决策树学习,实例用(属性-值)对表示。离散值处理简单,连续值可以划分区间。,输出可以是离散的分类,也可以是实数(回归树)。,能有效处理大量数据,可处理噪声数据(分类噪声,属性噪声),属性值缺失,亦可处理,2001年6月2日,基本决策树算法,训练数据批处理,自顶向下递归构造决策树,DTree(examples,attributes),If,所有样本属于同一分类,返回标号为该分类的叶结点,Else if,属性值为空,返回标号为最普遍分类的叶结点,Else,选取一个属性,,A,,作为根结点,For,A,的每一个可能的值,v,i,令,examples,i,为具有,A,=,v,i,的样本子集 从根结点出发增加分支(,A=v,i,),如果,examples,i,为空 则创建标号为最普遍分类的叶结点 否则递归创建子树调用,DTree(examples,i,attributes-A),2001年6月2日,根属性的选取,决策树要尽可能小,寻找一组数据对应的最小决策树是NP-hard的,简单递归算法是贪婪启发式搜索,无法保证最优,子集应尽可能“纯”,从而易于成为叶结点,最常用的启发规则是基于信息增益(Information Gain),2001年6月2日,熵(Entropy),一组样本,S,对于二元分类的熵(混淆度)为:其中,p,+,和,p,-,为S中的正例,、,反例所占比例,若所有样本属于同一分类,则熵为0(定义0,log0=0,),若样本平均分布(,p,+,=p,-,=0.5),,,则熵最大(=1),可把熵视为对样本集分类进行编码所需的平均二进制位数,采用哈夫曼编码压缩,越普遍的分类编码越短,对于多分类问题(假设有,c,个分类),则熵的推广定义:其中,p,i,为属于分类,i,的样本在,S,中所占比例,2001年6月2日,信息增益,属性的信息增益是按该属性分割后熵的消减期望值:其中,S,v,是,S,中属性,A,值为,v,的子集,例子:,big,red,circle:+,small,red,circle:+,small,red,square:-,big,blue,circle:-,2001年6月2日,决策树归纳中的假设空间,决策树可以表示任何离散函数,归纳就是在此空间内的搜索,创建与数据一致的单一离散假设,所以无法提供置信度或构造有用的查询,爬山式搜索存在局部最优问题。它可以保证找到符合任何无噪声数据集的树,但未必是最小的,批量学习。每项决策需要一次数据集扫描,可提前结束学习以减少噪声影响,2001年6月2日,决策树学习中的误区,树的深度应尽量小。但贪婪搜索可能无法找到最小树,顶层结点可能不是高区分度的,2001年6月2日,计算复杂度,最坏情况是构造出一棵完全树,每条路径都测试了所有特征,各层i要对剩下的|A|-i个属性计算最佳分割,一般来说,性能与属性个数成线性关系,2001年6月2日,决策树研究的历史,1960s:Hunt的完全搜索决策树方法(CLS)对概念学习建模,1970后期:Quinlan发明用信息增益作为启发策略的ID3方法,从样本中学习构造专家系统,同时,Breiman和Friedman开发的CART(分类与回归树)方法类似于ID3,1980s:对噪声、连续属性、数据缺失、改善分割条件等进行研究,1993:Quinlan的改进决策树归纳包(C4.5),目前被普遍采用,2001年6月2日,过度拟合和修剪,通过学习训练数据来构造分类树,可能无法达到最好的泛化性能,因为,噪声数据的影响,某些决策仅基于少量数据,与客观事实不符合,一个假设,H,被称为对于训练数据是过度拟合的,指的是如果存在另一个假设,H,,在训练集上H的误差比H,小,但在测试集上,H,的误差比,H,小,2001年6月2日,过度拟合与噪声,分类或属性噪声都会导致过度拟合增加噪声实例,+(实际为-),噪声也会直接导致样本的冲突(相同描述,不同分类)。应将叶结点标号为主要的分类,-(实际上为+),若属性不完备且不足以判别分类时,也可能导致样本的冲突,2001年6月2日,避免过度拟合的方法,需要修剪时的两个基本方法,预修剪,:支持度不够则停止树的增长,后修剪,:置信度不够则修剪掉该分支,子树是否需要修剪的判别方法:,交叉检验,:保留部分训练数据用于验证,统计测试,:通过训练集的统计来判别,最小描述长度(,MDL),:,判别该假设的复杂度是否比记忆例外情况的复杂度更高,2001年6月2日,减小误差的修剪,一种后修剪,交叉验证的方法将训练数据分割为两个集合:“生长”和“验证”用“生长”数据构建一棵完全树Until 验证数据集合上的精度降低 do:For each 树中非叶结点n 临时修剪掉n下子树,用标号为主要分类的叶子代替 在验证集上计算该树的精度 修剪掉那些对精度影响最大的分支,当训练集很小时,可能会严重损害分类精度,最好能给定合适的结点数,达到最佳折衷,2001年6月2日,连续属性,用分区方法,将连续值映射为离散值,结点分裂,以获得最大信息增益,达到最大信息增益的单阈值分裂算法,For each,连续特征,A,i,根据,A,i,的值对样本排序,For each,序列中的每对,X,i,X,i+1,If X,i,和,X,i+1,的,分类不同 将,X,i,和,X,i+1,的中点作为可能的阈值进行检验,即,例如:长度(,L):10 15 21 28 32 40 50 (,已排序,)分类:-+-+-,检查阈值:,L12.5,L24.5,L30,L0.5 then,终止,,else,继续 令,t,=,t,/(1-,t,),将,h,t,正确分类出的样本的权重乘以,t,权重归一化以保证总和为1,在测试时,每个假设,h,t,获得投票的权重为,log(1/,t,),,,票数最多的假设作为最终决策,2001年6月2日,多重模型的实验结果,多决策树模型应用范围更广也更准确,引导算法性能比装袋算法好,引导算法偶尔也会降低性能,2001年6月2日,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!