决策树和决策规则.ppt

资源描述

决策树和决策规则第7章本章目标分析解决分类问题的基于逻辑的方法的特性信息论基础ID3算法了解何时以及怎样用修剪方法降低决策树和复杂度总结用决策树和决策规则表示一个分类模型的局限性什么是分类数据分类 dataclassfication 是数据挖掘的主要内容之一主要是通过分析训练数据样本产生关于类别的精确描述这种类别通常由分类规则组成可以用来对未来的数据进行分类和预测数据分类的两个步骤第1步建立一个模型描述给定的数据类集或概念集简称训练集第2步使用模型对数据进行分类包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类 7 1信息论基础信息论是C E Shannon四十年代末期以客观概率信息为研究对象从通信的信息传输问题中总结和开拓出来的理论主要研究的问题信源的描述信息的定量度量分析与计算信道的描述信道传输的定量度量分析与计算信源信道与通信系统之间的统计匹配以及通信系统的优化 Shannon的三个编码定理信息论诞生五十年来至今仍然是指导通信技术发展的理论基础是创新通信体制的源泉香农信息概率信息信息是事物运动状态或存在方式的不确定性的描述在通信系统中形式上传输的是消息但实质上传输的是信息信源信宿信道消息干扰或噪声发信者收信者通信系统框图样本空间某事物各种可能出现的不同状态即所有可能选择的消息的集合对于离散消息的集合概率测度是对每一个可能选择的消息指定一个概率一个样本空间和它的概率测度称为一个概率空间表示 X P 在离散情况下其中 P ui 为选择符号ui作为消息的概率称为先验概率信源数学模型后验概率条件概率接收端收到消息符号后而发送端发的是的概率自信息消息发生后所含有的信息量反映了消息发生前的不确定性信源熵定义信源各个离散消息的自信息量的数学期望即概率加权的统计平均值为信源的平均信息量一般称为信源的信息熵也叫信源熵或香农熵有时也称为无条件熵或熵函数简称熵公式熵函数的自变量是X 表示信源整体实质上是无记忆信源平均不确定性的度量单位以2为底比特符号互信息后验熵当接收到输出符号V vj后信源的平均不确定性即输入符号U的信息度量条件熵对后验熵在输出符号集V中求期望称为信道疑义度表示在输出端收到全部输出符号V后对于输入端的符号集U尚存有不确定性有疑义这是由于存在干扰噪声引起的 H U V H U 表明接收到符号集V的所有符号后关于输入符号U的平均不确定性减少了互信息先验的不确定性减去收到输出符号集V后尚存在的不确定性表示收信者获得的信息量也称信息增益 7 2ID3算法决策树 DecisionTree 方法决策树方法的起源是概念学习系统CLS 然后发展到由Quiulan研制ID3方法然后到著名的C4 5算法 C4 5算法的一个优点是它能够处理连续属性决策树又称为判定树是运用于分类的一种树结构其中的每个内部结点代表对某个属性的一次测试每条边代表一个测试结果叶结点代表某个类或者类的分布最上面的结点是根结点 7 2ID3算法续 ID3算法思想任意选取一个属性作为决策树的根结点然后就这个属性所有的取值创建树的分支用这棵树来对训练数据集进行分类如果一个叶结点的所有实例都属于同一类则以该类为标记标识此叶结点如果所有的叶结点都有类标记则算法终止否则选取一个从该结点到根路径中没有出现过的属性为标记标识该结点然后就这个属性所有的取值继续创建树的分支重复算法步骤step2显然不同的属性选取顺序将生成不同的决策树因此适当地选取属性将生成一棵简单的决策树在ID3算法中采用了一种基于信息的启发式的方法来决定如何选取属性启发式方法选取具有最高信息增益的属性也就是说生成最少分支决策树的那个属性 7 2ID3算法续 7 2ID3算法续属性2 属性1 A 80 89 属性3 类1 真属性1 60 69 属性3 类1 真 70 79 属性3 类1 属性1 类2 B 属性1 属性3 属性3 属性3 类2 类1 A 类2 真类2 假 B C C 假 90 99 A 真 B 类1 真属性3 C 类1 假 7 2ID3算法续表7 1的ID3算法实例计算 1 计算信息熵H C 类别Ci出现概率P Ci Ci X Ci 为类别Ci的样本数 X 为总的样本数 C1 9 C2 5 X 14 代入上式算得H C 0 940bit2 计算属性1的条件熵H C V 属性1取值vj时类别Ci的条件概率 P Ci vj Ci vj 属性1取值v1 A v2 B v3 CP v1 5 14 P v2 4 14 P v3 5 14取值为A的5个例子中有2个类1 3个类2 所以 P C1 v1 2 5P C2 v1 3 5 7 2ID3算法续表7 1的ID3算法实例计算同理有 P C1 v2 4 4P C2 v2 0 4P C1 v3 3 5P C2 v1 2 5代入上式得 H C V 0 694bit3 计算信息增益Gain 属性1 H C H C V 0 246bit同理可求得Gain 属性3 0 048bit根据增益准则 ID3算法将选择属性1做为根节点因为该属性的信息增益最大为了求得最优解还应该分析属性2的信息增益但因它是连续型数值不能直接求而要先进行离散化转换成分类型的数据 7 3修剪决策树决策树修剪的主要任务是抛弃一个或更多的子树并用叶子替换这些子树使决策树简单化在替换这些子树时我们期望算法降低预测误差率来提高分类模型的质量剪枝操作有两种策略预剪枝在树生成过程中判断是否还继续扩展决策树若停止扩展相当于剪去该结点以下的分枝后剪枝对于生成好的树剪去某些结点和分枝C4 5算法遵循基于误差的后剪枝也叫悲观修剪即如果使用叶子或树枝代替原来的子树后误差率能够下降则就使用此叶子或树枝代替原来的子树 7 3修剪决策树续准备知识二项式分布在医学领域中有一些随机事件是只具有两种互斥结果的离散型随机事件称为二项分类变量 dichotomousvariable 如对病人治疗结果的有效与无效某种化验结果的阳性与阴性接触某传染源的感染与未感染等二项分布 binomialdistribution 就是对这类只具有两种互斥结果的离散型随机事件的规律性进行描述的一种概率分布考虑只有两种可能结果的随机试验当成功的概率是恒定的且各次试验相互独立这种试验在统计学上称为贝努里试验 Bernoullitrial 如果进行n次贝努里试验取得成功次数为X X 0 1 n 的概率可用下面的二项分布概率公式来描述其中表示在n次实验中出现X的各种组合情况 7 3修剪决策树续决策树的子树如图所示这里根节点是关于属性A的3个可能值 1 2 3 的检验根节点的子节点是用相应的类和参数 Ti E 表示的叶问题是估计修剪子树并用它的替换根结点作为一个新的归纳根节点的概率类1 16 1 7 3修剪决策树续如一个叶结点覆盖N个实例其中E个为错误的对于具有信任度CF的实例计算一个2项式分布UCF E N 即是实例误判的概率那么N个实例误判的数目为N UCF E N 子树的错误数目为所有叶结点的总和设CF为25 从统计表中可查出E的上限置信极限 U25 0 6 0 206 U25 0 9 0 143 U25 0 1 0 750 U25 1 16 0 157则子树的实例误判数目为 6 U25 0 6 9 U25 0 9 1 U25 0 1 3 257若以一个叶子类1 16 1 代替子树则误判数目为 16 U25 1 16 16 0 157 2 512 3 257由于以一个叶子类1 16 1 代替子树误判数目小于原子树所以可以该叶子代替原子树 7 4从决策树生成决策规则虽然修剪后的决策树比原来的更紧凑但它们仍然是非常复杂的为了使决策树模型更易读可以把到达每个叶的路径转换成IF THEN生成规则 IF部分包括一条路径的所有检验 THEN部分是最终分类 7 4从决策树生成决策规则续从决策树抽取规则需要两个步骤获得简单规则精简规则条件在单个规则的前项中可能包括不相关的条件即对结论没有任何影响的条件可以删除这些不影响规则集的正确性的多余条件对规则进行精简规则精简准则设规则R是 ifAthen类C精简后的规则为R 是 ifA then类C其中A A X 即表示条件X对结论类C 没有任何影响这样R 覆盖的实例可分为以下4个部分满足条件A 满足条件A 但不满足条件X 7 4从决策树生成决策规则续规则R覆盖了Y1 E1个实例其中误判数目为E1 规则R 覆盖了Y1 E1 Y2 E2个实例其中误判数目为E1 E2 则规则R的误判概率为 UCF E1 Y1 E1 规则R 的误判概率为 UCF E1 E2 Y1 E1 Y2 E2 如果UCF E1 Y1 E1 UCF E1 E2 Y1 E1 Y2 E2 就可以从条件A中删除条件项X 如何获得最优条件集是一个全局优化问题当决策属性较多的时候这样做非常耗时为此C4 5采用贪婪搜索方法即每次从条件集中删除一个对当前预测效果影响最小的条件如果删除该条件之后误判概率减小则继续上述过程如果误判概率增加则不能删除该条件而整个精简过程也同时结束对所有的贪婪搜索方法不能保证最终获得最优解 7 4从决策树生成决策规则续例如有下列规则 ifTSH 6 FTI 64 TSH t T4U t THY tthencalssA 该规则覆盖3个实例其中2个判断正确 1个误判则误判概率为UCF 1 3 69 设删除其中各个条件之后的误判概率如表所示则选择误判概率最小的条件即FTI 64 从原来条件中删除此条件规则变为 ifTSH 6 TSH t T4U t THY tthencalssA重复上述过程直到最后的误判概率大于前面规则的误判概率为止

展开阅读全文