数据挖掘-分类课件ppt.ppt

资源描述

00 31 1 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题 00 31 2 分类的流程根据现有的知识我们得到了一些关于爬行动物和鸟类的信息我们能否对新发现的物种比如动物A 动物B进行分类 00 31 3 分类的流程步骤一将样本转化为等维的数据特征特征提取所有样本必须具有相同数量的特征兼顾特征的全面性和独立性 00 31 4 分类的流程步骤二选择与类别相关的特征特征选择比如绿色代表与类别非常相关黑色代表部分相关灰色代表完全无关 00 31 5 分类的流程步骤三建立分类模型或分类器分类分类器通常可以看作一个函数它把特征映射到类的空间上 00 31 6 如何避免过度训练分类也称为有监督学习 supervisedlearning 与之相对于的是无监督学习 unsupervisedlearning 比如聚类分类与聚类的最大区别在于分类数据中的一部分的类别是已知的而聚类数据的类别未知建立分类模型需要学习一部分已知数据如果训练时间过长或者预测模型参数太多而样本较少将导致过度训练 overfitting 00 31 7 如何避免过度训练避免过度训练最重要一点是模型的参数量应远小于样本的数量应建立训练集 trainingset 和测试集 testset 训练集应用于建立分类模型测试集应用于评估分类模型K折叠交叉验证 K foldcrossvalidation 将初始采样分割成K个子样本 S1 S2 Sk 取K 1个做训练集另外一个做测试集交叉验证重复K次每个子样本都作为测试集一次平均K次的结果最终得到一个单一估测 00 31 8 分类模型的评估真阳性 TruePositive 实际为阳性预测为阳性真阴性 TrueNegative 实际为阴性预测为阴性假阳性 FalsePositive 实际为阴性预测为阳性假阴性 FalseNegative 实际为阳性预测为阴性预测是否正确预测结果比如预测未知动物是鸟类还是爬行动物阳性代表爬行动物阴性代表非爬行动物请大家阐述TP 10 TN 8 FN 3 FP 2是什么意义 00 31 9 分类模型的评估灵敏度 Sensitivity TP TP FN 也称为查全率 Recall 数据集共有13只爬行动物其中10只被正确预测为爬行动物灵敏度为10 13特异度 Specificity TN TN FP 数据集有10只非爬行动物其中8只被预测为非爬行动物特异度为8 10精度 Precision TP TP FP 分类器预测了12只动物为爬行动物其中10只确实是爬行动物精度为10 12准确率 Accuracy TP TN TP TN FN FP 数据集包含23只动物其中18只预测为正确的分类准确率为18 23 00 31 10 分类模型的评估对于非平衡 unblanced 的数据集以上指标并不能很好的评估预测结果非平衡的数据集是指阳性数据在整个数据集中的比例很小比如数据集包含10只爬行动物 990只爬行动物此时是否预测正确爬行动物对准确率影响不大更平衡的评估标准包括马修斯相关性系数 Matthewscorrelationcoefficient 和ROC曲线马修斯相关性系数定义为 00 31 11 分类模型的评估 ROC曲线通过描述真阳性率 TPR 和假阳性率 FPR 来实现其中TPR TP TP FN FPR FP FP TN 大部分分类器都输出一个实数值可以看作概率通过变换阈值可以得到多组TPR与FPR的值 00 31 12 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题 00 31 13 基于距离的分类算法的思路定义4 2给定一个数据库D t1 t2 tn 和一组类C C1 Cm 假定每个元组包括一些数值型的属性值 ti ti1 ti2 tik 每个类也包含数值性属性值 Cj Cj1 Cj2 Cjk 则分类问题是要分配每个ti到满足如下条件的类Cj sim ti Cj sim ti Cl Cl C Cl Cj 其中sim ti Cj 被称为相似性在实际的计算中往往用距离来表征距离越近相似性越大距离越远相似性越小距离的计算方法有多种最常用的是通过计算每个类的中心来完成 00 31 14 基于距离的分类算法的一般性描述算法4 1通过对每个样本和各个类的中心来比较从而可以找出他的最近的类中心得到确定的类别标记算法4 1基于距离的分类算法输入每个类的中心C1 Cm 待分类的元组t 输出输出类别c 1 dist 距离初始化 2 FORi 1tomDO 3 IFdis ci t distTHENBEGIN 4 c i 5 dist dist ci t 6 END 00 31 15 基于距离的分类方法的直观解释 a 类定义 b 待分类样例 c 分类结果 00 31 16 距离分类例题 C1 3 3 4 2 C2 8 5 1 7 C3 5 7 6 10 请用基于距离的算法给以下样本分类 5 5 0 0 5 5 5 5 5 5 5 5 00 31 17 K 近邻分类算法 K 近邻分类算法 KNearestNeighbors 简称KNN 通过计算每个训练数据到待分类元组的距离取和待分类元组距离最近的K个训练数据 K个数据中哪个类别的训练数据占多数则待分类元组就属于哪个类别算法4 2K 近邻分类算法输入训练数据T 近邻数目K 待分类的元组t 输出输出类别c 1 N 2 FOReachd TDOBEGIN 3 IF N KTHEN 4 N N d 5 ELSE 6 IF u Nsuchthatsim t u sim t d THENBEGIN 7 N N u 8 N N d 9 END 10 END 11 c classtowhichthemostu N 00 31 18 KNN的例子姓名性别身高米类别Kristina女1 6矮Jim男2高Maggie女1 83高Martha女1 88高Stephanie女1 7矮Bob男1 85中等Kathy女1 6矮Dave男1 7矮Worth男2 2高Steven男2 1高Debbie女1 8高Todd男1 82中等Kim女1 7中等Amy女1 75中等Wynette女1 73中等只使用身高做特征 K 3 对于样本应属于哪个类别仅使用同性别样本做训练 K 3 对于样本应属于哪个类别 00 31 19 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题 00 31 20 决策树表示与例子年龄学生是信用 30 30 40 40 否是良好一般是否是否 00 31 21 决策树表示与例子决策树 DecisionTree 的每个内部结点表示一个属性特征每个分枝代表一个特征的一个类取值每个树叶结点代表类或类分布决策树分类方法采用自顶向下的递归方式在决策树的内部结点进行属性的比较从而判断从该结点向下的分枝在决策树的叶结点得到结论从决策树的根到叶结点的一条路径就对应着一条规则整棵决策树就对应着一组规则决策树分类模型的建立通常分为两个步骤决策树生成决策树修剪 00 31 22 决策树生成算法描述算法4 3Generate decision tree samples attribute list 决策树生成算法输入训练样本samples 由离散值属性表示输出一棵决策树 1 创建结点N 2 IFsamples都在同一个类CTHEN返回N作为叶结点以类C标记 3 IFattribute list为空THEN返回N作为叶结点标记为samples中最普通的类多数表决 4 选择attribute list中具有最高信息增益的属性test attribute 5 标记结点N为test attribute 6 FORtest attribute的每个取值ai由结点N长出一个条件为test attribute ai的分枝 7 设si是samples中test attribute ai的样本的集合一个划分 8 IFsi为空THEN回退到test attribute的其它取值 9 ELSE加上一个由Generate decision tree si attribute list test attribute 返回的结点 00 31 23 决策树修剪算法基本的决策树构造算法没有考虑噪声因此生成的决策树完全与训练集拟合在有噪声情况下将导致过分拟合 Overfitting 即对训练数据的完全拟合反而使对现实数据的分类预测性能下降比如每个样本都是一个叶子节点现实世界的数据一般不可能是完美的可能缺值 MissingValues 数据不完整含有噪声甚至是错误的剪枝是一种克服噪声的基本技术同时它也能使树得到简化而变得更容易理解有两种基本的剪枝策略 00 31 24 决策树修剪算法预先剪枝 Pre Pruning 在生成树的同时决定是继续对不纯的训练子集进行划分还是停机后剪枝 Post Pruning 是一种拟合化简 fitting and simplifying 的两阶段方法首先生成与训练数据完全拟合的一棵决策树然后从树的叶子开始剪枝逐步向根的方向剪剪枝时要用到一个测试数据集合 TuningSet或AdjustingSet 如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低不变得更坏则剪去该叶子否则停机理论上讲后剪枝好于预先剪枝但计算复杂度大 00 31 25 决策树修剪算法构造好的决策树的关键在于如何选择属性进行树的拓展研究结果表明一般情况下树越小则树的预测能力越强由于构造最小的树是NP 难问题因此只能采取用启发式策略来进行属性选择依赖于各种对例子子集的不纯度 Impurity 度量方法包括信息增益 InformatinGain 信息增益比 GainRatio Gini index 距离度量 DistanceMeasure J measure等 00 31 26 ID3算法 ID3是一个著名决策树生成方法决策树中每一个非叶结点对应着一个非类别属性特征树枝代表这个属性的值一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值每一个非叶结点都将与属性中具有最大信息量的非类别属性相关联采用信息增益来选择能够最好地将样本分类的属性对ID3算法采用如下方式讲解给出信息增益对应的计算公式通过一个例子来说明它的主要过程 00 31 27 信息增益的计算设S是s个数据样本的集合定义m个不同类Ci i 1 2 m 设si是Ci类中的样本的数量对给定的样本S所期望的信息值由下式给出其中pi是任意样本属于Ci的概率 si s 例题数据集有4个类分别有8个 4个 2个 2个样本求该数据集的信息值问题信息值的取值范围是什么 00 31 28 信息增益的计算例题数据集有2个类求该数据集的信息值 00 31 29 信息增益的计算设属性A具有个不同值 a1 a2 av 可以用属性A将样本S划分为 S1 S2 Sv 设Sij是Sj中Ci类的样本数则由A划分成子集的熵由下式给出有A进行分枝将获得的信息增益可以由下面的公式得到使用属性后的信息值未使用属性的信息值 00 31 30 信息增益的计算例题数据集有2个类使用是否学生作为属性求该属性的信息增益使用信用状况作为属性求该属性的信息增益 00 31 31 ID3算法的例子选择信息增益最大的属性特征作为根节点 Gain 年龄 0 342Gain 收入 0Gain 是否学生 0 333Gain 信用状况 0 年龄是 30 30 40 40 00 31 32 ID3算法的例子对于 30的分支Gain 收入 0 315Gain 是否学生 0 315Gain 信用状况 0 815对于30 40的分支Gain 收入 1Gain 是否学生 0Gain 信用状况 1 年龄信用状况收入是 30 30 40 40 否是是否良好一般高低 00 31 33 ID3算法的性能分析 ID3算法的假设空间包含所有的决策树它是关于现有属性的有限离散值函数的一个完整空间 ID3算法在搜索的每一步都使用当前的所有训练样例大大降低了对个别训练样例错误的敏感性因此通过修改终止准则可以容易地扩展到处理含有噪声的训练数据 00 31 34 ID3算法的性能分析 ID3算法在搜索过程中不进行回溯所以它易受无回溯的爬山搜索中的常见风险影响收敛到局部最优而不是全局最优 ID3算法只能处理离散值的属性信息增益度量存在一个内在偏置它偏袒具有较多值的属性例如如果有一个属性为日期那么将有大量取值这个属性可能会有非常高的信息增益假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树这棵树可以理想地分类训练数据但是对于测试数据的分类性能可能会相当差 ID3算法增长树的每一个分支的深度直到属性的使用无法导致信息增益当数据中有噪声或训练样例的数量太少时产生的树会过渡拟合训练样例问题 ID3树可以导致过度拟合那是否它一定能对训练集完全正确的分类呢 00 31 35 C4 5算法对ID3的主要改进 C4 5算法是从ID3算法演变而来除了拥有ID3算法的功能外 C4 5算法引入了新的方法和增加了新的功能用信息增益比例的概念合并具有连续属性的值可以处理具有缺少属性值的训练样本通过使用不同的修剪技术以避免树的过度拟合 K交叉验证规则的产生方式等 00 31 36 信息增益比例的概念信息增益比例是在信息增益概念基础上发展起来的一个属性的信息增益比例用下面的公式给出其中假如我们以属性A的值为基准对样本进行分割的化 Splitl A 就是前面熵的概念 00 31 37 信息增益比例的计算例题数据集有2个类使用是否学生作为属性求该属性的信息增益比例使用年龄作为属性求该属性的信息增益比例讨论信息增益和信息增益比例的差异在哪里 00 31 38 C4 5处理连续值的属性对于连续属性值 C4 5其处理过程如下根据属性的值对数据集排序用不同的阈值将数据集动态的进行划分取两个实际值中的中点作为一个阈值取两个划分所有样本都在这两个划分中得到所有可能的阈值增益及增益比在每一个属性会变为取两个取值即小于阈值或大于等于阈值简单地说针对属性有连续数值的情况则在训练集中可以按升序方式排列如果属性A共有n种取值则对每个取值vj j 1 2 n 将所有的记录进行划分一部分小于vj 另一部分则大于或等于vj 针对每个vj计算划分对应的增益比率选择增益最大的划分来对属性A进行离散化 00 31 39 C4 5处理连续值的属性例题使用C4 5算法将连续的属性收入转化为离散的类根据属性的值对数据集排序取两个实际值中的中点作为一个阈值取两个划分所有样本都在这两个划分中得到所有可能的阈值增益及增益比在每一个属性会变为取两个取值即小于阈值或大于等于阈值 00 31 40 C4 5处理连续值的属性例题使用C4 5算法将连续的属性收入转化为离散的类选择增益最大的划分来对属性A进行离散化 GainRatio 划分 2750 0 2GainRatio 划分 3100 0 39GainRatio 划分 3625 0 53GainRatio 划分 4458 1GainRatio 划分 0 53GainRatio 划分 8285 0 39GainRatio 划分 10900 0 2收入小于4458合并为收入低收入大于等于4458合并为收入高 00 31 41 C4 5的其他处理 C4 5处理的样本中可以含有未知属性值其处理方法是用最常用的值替代或者是将最常用的值分在同一类中具体采用概率的方法依据属性已知的值对属性和每一个值赋予一个概率取得这些概率取得这些概率依赖于该属性已知的值规则的产生一旦树被建立就可以把树转换成if then规则规则存储于一个二维数组中每一行代表树中的一个规则即从根到叶之间的一个路径表中的每列存放着树中的结点 00 31 42 C4 5算法例子样本数据天气温度湿度风网球SunnyHot85falseNoSunnyHot90trueNoOvercastHot78falseYesRainMild96falseYesRainCool80falseYesRainCool70trueNoOvercastCool65trueYesSunnyMild95falseNoSunnyCool70falseYesRainMild80falseYesSunnyMild70trueYesOvercastMild90trueYesOvercastHot75falseYesRainMild80trueNo 1 首先对湿度进行属性离散化针对上面的训练集合通过检测每个划分而确定最好的划分在75处则这个属性的范围就变为 75 2 计算目标属性打网球分类的期望信息 3 计算每个属性的GainRatio 00 31 43 C4 5算法例子 4 选取最大的GainRatio 根据天气的取值得到三个分枝 5 再扩展各分枝节点得到最终的决策树见课本图4 7 问题就天气 Sunny这一分支请用C4 5算法构造决策树样本数据天气温度湿度风网球SunnyHot85falseNoSunnyHot90trueNoSunnyMild95falseNoSunnyCool70falseYesSunnyMild70trueYes 00 31 44 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类实值预测与分类有关的问题 00 31 45 贝叶斯分类定义4 3设X是类标号未知的数据样本设H为某种假定如数据样本X属于某特定的类C 对于分类问题我们希望确定P H X 即给定观测数据样本X 假定H成立的概率贝叶斯定理给出了如下计算P H X 的简单有效的方法 P X H 代表假设H成立的情况下观察到X的概率 P H X 是后验概率或称为X发生后观测到H的条件概率例如假定数据样本由一些人组成假定X表示头发颜色 H表示肤色则P H X 反映当我们看到X是黑色时我们对H为黄色的确信程度 00 31 46 朴素贝叶斯分类的工作原理观测到的样本具有属性收入低是学生信用良好现在的问题相当于比较两个条件概率的大小P 买电脑收入低是学生信用良好 P 不买电脑收入低是学生信用良好 00 31 47 朴素贝叶斯分类朴素贝叶斯分类的工作过程如下 1 每个数据样本用一个n维特征向量X x1 x2 xn 表示分别描述对n个属性A1 A2 An样本的n个度量 2 假定有m个类C1 C2 Cm 给定一个未知的数据样本X 即没有类标号分类器将预测X属于具有最高条件概率条件X下的类也就是说朴素贝叶斯分类将未知的样本分配给类Ci 1 i m 当且仅当P Ci X P Cj X 对任意的j 1 2 m j i 00 31 48 朴素贝叶斯分类续根据贝叶斯定理由于P X 对于所有类为常数只需要P X Ci P Ci 最大即可注意类的先验概率可以用P Ci Si S计算其中Si是类Ci中的训练样本数而S是训练样本总数因此问题就转换为计算P X Ci 00 31 49 朴素贝叶斯分类续给定具有许多属性的数据集计算P X Ci 的计算量可能非常大且不易计算为降低计算P X Ci 的难度可以做类条件独立的朴素假定给定样本的类标号假定属性值相互条件独立即在属性间不存在依赖关系这样P 收入低是学生信用良好买电脑 P 收入低买电脑 P 是学生买电脑 P 信用良好买电脑 00 31 50 朴素贝叶斯分类续其中概率P x1 Ci P x2 Ci P xn Ci 可以由训练样本估值如果Ak是离散属性则P xk Ci sik si 其中sik是在属性Ak上具有值xk的类Ci的训练样本数而si是Ci中的训练样本数如果Ak是连续值属性则通常假定该属性服从高斯分布因而是高斯分布函数而分别为平均值和标准差 00 31 51 朴素贝叶斯分类续例题计算P 收入低不买电脑 P 是学生不买电脑 P 信用良好不买电脑假设收入是否学生信用状况互相独立计算P 收入低是学生信用良好不买电脑 00 31 52 朴素贝叶斯分类续对未知样本X分类也就是对每个类Ci 计算P X Ci P Ci 样本X被指派到类Ci 当且仅当P Ci X P Cj X 1 j m j i 换言之 X被指派到其P X Ci P Ci 最大的类 00 31 53 朴素贝叶斯分类举例数据样本有属性年龄收入是否学生和信用状况类标号属性是否买电脑有两个不同值是否设C1对应于类买电脑则C2对应于类不买电脑我们希望分类的未知样本为 X 年龄 30 收入中是学生信用一般 00 31 54 朴素贝叶斯分类举例我们需要最大化P X Ci P Ci i 1 2 每个类的先验概率P Ci 可以根据训练样本计算 P C1 P 买电脑 P C2 P 不买电脑计算P X Ci P 年龄 30 收入中是学生信用一般买电脑 P 年龄 30 收入中是学生信用一般不买电脑 00 31 55 朴素贝叶斯分类举例 P 年龄 30 收入中是学生信用一般买电脑 P 年龄 30 买电脑 P 收入中买电脑 P 是学生买电脑 P 信用一般买电脑 P 年龄 30 收入中是学生信用一般不买电脑 P 年龄 30 不买电脑 P 收入中不买电脑 P 是学生不买电脑 P 信用一般不买电脑 00 31 56 朴素贝叶斯分类举例假设属性之间独立P 年龄P X 不买电脑因此对于样本X 朴素贝叶斯分类预测为是 00 31 57 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类基于规则的分类与分类有关的问题 00 31 58 使用IF THEN规则分类使用规则的分类法是使用一组IF THEN规则进行分类 IF条件THEN结论比如IF 年龄 20AND学生是 THEN买电脑是IF的部分称为前提 THEN的部分称为规则的结论规则可以用它的覆盖率和准确率来评价ncovers是条件前提覆盖的样本数 ncorrect是规则正确分类的样本数 00 31 59 使用IF THEN规则分类规则收入低信用状况良好是否买电脑是的覆盖率为3 8 而它测准确率为1 3 规则信用状况良好是否买电脑否的覆盖率为7 8 而它测准确率为4 7 00 31 60 使用IF THEN规则分类如果一个规则R被一个样本X满足则称规则R被X触发比如X 年龄 18 是学生信用良好 R为IF 年龄 20AND学生是 THEN买电脑是则X的类别为买电脑如果一个样本X同时触发了多个规则我们需要制定解决冲突的策略规模序激活具有最多属性测试的触发规则规则序将规则按重要性进行排序按顺序进行促发如果一个样本X无法促发任何规则建立一个缺省或者默认规则 00 31 61 使用决策树来提取规则决策树的规则是互斥与穷举的互斥意味着规则不会存在冲突因此每个样本只能促发一个规则穷举意味着一个样本总能促发一个规则由于每个树叶对应一个一条规则提取的规则并不比决策树简单年龄信用状况收入是 30 30 40 40 否是是否良好一般高低 00 31 62 使用顺序覆盖算法的规则归纳在提取规则时一个现实的问题是是否需要对现有规则进行拓展 IF 年龄 20 THEN买电脑是否需要拓展为IF 年龄 20AND学生是 THEN买电脑衡量规则好坏应同时考虑覆盖度与准确率准确率太低覆盖度太低 00 31 63 使用顺序覆盖算法的规则归纳有两种衡量规则好坏的度量FOIL Gain的定义如下分别对应于两个规则R与R 正在学习的类称为正样本 pos 而其他类称为负样本 neg pos neg 为规则R覆盖的正负样本而pos neg 为规则R 覆盖的正负样本 00 31 64 判断规则收入低是否买电脑否是否需要拓展为规则收入低信用状况良好是否买电脑否 00 31 65 使用顺序覆盖算法的规则归纳似然率统计量的的定义如下其中m是分类的类别数 fi为满足规则的样本中属于类i的概率 ei为属于类i的期望基准概率似然率越高说明规则越理想 00 31 66 分别计算规则收入低是否买电脑否与规则收入低信用状况良好是否买电脑否的似然率 00 31 67 顺序覆盖算法终止条件包括类c没有样本或者返回的规则质量低于用户指定的阈值等输入 D 类标记已知的样本的集合 Att vals 所有属性与它们可能值得集合输出 IF THEN规则的集合 1 Rule set 规则的初始集为空集 2 FOR每个类cDO 3 repeat 4 Rule Learn One Rule D Att vals c 5 从D中删除Rule覆盖的样本 6 untile终止条件满足 7 Rule set Rule set Rule 将新规则添加到规则集 8 ENDFOR 9 返回Rule Set 00 31 68 使用顺序覆盖算法的规则归纳 Rule set 选择一个类买电脑选择一个包含一个属性的规则收入低买电脑分别计算其它包含一个属性的规则的相对于已选择规则的FOIL Gain 收入高买电脑学生是买电脑学生否买电脑信用良好买电脑信用一般买电脑 00 31 69 使用顺序覆盖算法的规则归纳分别计算规则的Foil gain 收入高买电脑为1 74 学生是买电脑为0 学生否买电脑为0 信用良好买电脑为0 信用一般买电脑为0选择Foil gain最高的规则收入高买电脑 00 31 70 使用顺序覆盖算法的规则归纳对最好的规则R进行拓展收入高买电脑在规则R中添加一个属性得到拓展以后的规则R 收入高学生是收入高学生否收入高信用良好收入高信用一般分别计算这些规则的相对于R的Foil gain 00 31 71 使用顺序覆盖算法的规则归纳分别计算规则的Foil gain 收入高学生是为0 84 收入高学生否为 1 16 收入高信用良好为0 84 收入高信用一般为 1 16选择Foil gain最高的规则收入高学生是收入高信用良好由于这两个规则准确率已经是100 因此不用拓展 00 31 72 使用顺序覆盖算法的规则归纳将规则覆盖的样本从数据集D中删除对剩下的正样本生成规则 00 31 73 使用顺序覆盖算法的规则归纳选择另外一个类不买电脑生成其它类的规则选择一个包含一个属性的规则收入低不买电脑分别计算其它包含一个属性的规则的相对于已选择规则的FOIL Gain 收入高不买电脑学生是不买电脑学生否不买电脑信用良好不买电脑信用一般不买电脑 00 31 74 第三章分类方法内容提要分类的基本概念与步骤基于距离的分类算法决策树分类方法贝叶斯分类基于规则的分类实值预测 00 31 75 实值预测分类把样本分配到若干类之一离散的比如预测是普通员工中层管理还是高级管理人员预测预测样本的某个属性值连续的比如预测收入 00 31 76 实值预测实值预测方法有两种线性回归和多元回归非线性回归 00 31 77 实值预测在回归分析中只包括一个自变量和一个因变量且二者的关系可用一条直线近似表示这种回归分析称为一元线性回归分析 x 2 4 5 7 9 y 6 10 12 16 20 如果回归分析中包括两个或两个以上的自变量且因变量和自变量之间是线性关系则称为多元线性回归分析 x 2 4 4 0 5 6 7 1 9 3 y 10 4 17 9 3 00 31 78 一元线性回归模型给n个随机样本 Yi Xi 则Y与X的线性回归模型可以写为其中b0 b1是参数是被称为误差项的随机变量这是由于我们建立的线性回归模型可能是不完美的 00 31 79 线性回归模型的求解回归模型的求解相当于求解使得一元线性回归分析的求解 00 31 80 一元线性回归模型例题请建立右表的线性回归模型 00 31 81 多元线性回归模型给n个随机样本 Yi Xi1 Xi2 Xip 则Y与X的线性回归模型可以写为其中b0 b1 b2 bn是参数是被称为误差项的随机变量这是由于我们建立的线性回归模型可能是不完美的 00 31 82 线性回归模型的求解回归模型的求解相当于求解使得多元线性回归分析的求解其中X为 00 31 83 AQ算法多元回归模型的求解在许多软件中都可以得到比如Matlab SAS SPSS Weka等 00 31 84 AQR算法有关定义 AQR为每一个分类推导出一条规则每一条规则形式如下 ifthenpredict 在一个属性上的基本测试被称为一个Selector 下面是一些Selector的例子或60 AQR允许测试做 Selectors的合取被称为复合 Complex Complexes之间的析取被称为覆盖 Cover 如果一个表达式对某个样本为真则我们称其为对这个样本的一个覆盖这样一个空Complex覆盖所有的样本而一个空Cover不覆盖任何样本在AQR中一个新样本被区分是看其属于哪个推导出来的规则如果该样本只满足一条规则则这个样本就属于这条规则如果该样本满足多条规则则被这些规则所预测的最频繁的分类被赋予这条规则如果该样本不属于任何规则则其分类为样本集中最频繁的分类 00 31 85 AQR算法描述算法4 5AQR输入正例样本POS 反例样本NEG 输出覆盖COVER 1 COVER 初始化COVER为空集 2 WHILECOVERdoesnotcoverallpositiveexamplesinPOSDOBEGIN 3 SelectaSEED 选取一个种子SEED 例如没有被COVER覆盖的一个正样例 4 CallprocedureSTAR SEED NEG 产生一个能覆盖种子而同时排除所有反例的星 5 SelectthebestComplexBESTfromtheSTARaccordingtouser definedcriteria 从星中选取一个最好的复合 6 AddBESTasanextradisjucttoCOVER 把最好的复合与COVER合取形成新的COVER 7 END 8 RETURNCOVER 在算法AQR中调用了过程STAR 来排除所有的反例产生覆盖种子的星 00 31 86 AQR算法描述续算法4 6STAR输入种子SEED 反例NEG 输出星STAR 1 初始化STAR为空Complex 2 WHILEoneormoreComplexesinSTARcoverssomenegativeexamplesinNEGBEGIN 如果STAR中的一个或多个Complex覆盖NEG中的负样例 3 SelectanegativeexampleEnegcoveredbyaComplexinSTAR 选取一个被STAR中的Complex覆盖的负样例 4 LetEXTENSIONbeallSelectorsthatcoverSEEDbutnotENEG 令EXTENSION为那些覆盖SEED但不覆盖ENEG的Selectors 5 LetSTARbetheset x y x STAR y EXTENSION 令STAR x y x STAR y EXTENSION 6 RemoveallComplexesinSTARsubsumedbyotherComplexesinSTAR 从STAR中除去被其他Complexes所包含的Complexes 7 RemovetheworstComplexesfromSTARUNTILsizeofSTARislessthanorequaltouser definedmaximum maxstar 删除STAR中最坏的Complex直到STAR的大小等于或小于用户定义的最大数目maxstar 8 END 9 RETURNSTAR 返回一系列覆盖SEED但不覆盖NEG的规则 00 31 87 AQR算法举例假设现有一个训练集其包含两种属性 size 属性值 micro tiny mid big huge vast type 属性值 bicycle motorcycle car prop jet glider 现有正例反例样本分别如表4 6 表4 7所示下面给出用AQR算法对giant2 wheeler类的规则进行获取过程具体步骤如下 COVER 空cover不覆盖任何样本进入循环一开始COVER并没有覆盖任何正例假定从正例中选取的SEED为 size huge type bicycle 调用STAR SEED NEG 去产生一个覆盖SEED但不包含NEG的STAR集合初始化STAR为空即STAR 空的complex覆盖所有样例 STAR覆盖多个负样例进入循环 a 选取一个被STAR中的复合覆盖的负样例ENEG 假定被选取的是Eneg size tiny type motorcycle b 使EXTENSION为所有覆盖SEED但不覆盖ENEG的选择则EXTENSION包括size huge和type bicycle 则又根据STAR x y x STAR y EXTENSION 因此 STAR size huge type bicycle c 在这里定义maxstar为2 可不对STAR进行精简 d 接着选取另一个被STAR中的复合覆盖的负样例ENEG 显然已经没有这样的负样例因此 STAR size huge type bicycle 从STAR SEED NEG 返回反例样本sizetypeclassTinymotorcycleconventionaltransportationtinycarconventionaltransportationmidcarconventionaltransportationmicrojetfastplaneTinyjetfastplaneMidjetfastplane 正例样本sizetypeclassHugebicyclegiant2 wheelerHugemotorcyclegiant2 wheeler 00 31 88 AQR算法举例 5 BEST size huge type bicycle COVER size huge type bicycle 6 显然COVER不能覆盖所有的正例从正例中选取另一个SEED size huge type motorcycle 7 调用STAR SEED NEG 去产生一个覆盖SEED但不包含NEG的STAR集合初始化STAR为空即STAR 空的complex覆盖所有样例所以STAR覆盖负样例进入循环 a 假定被选取的是Eneg size tiny type motorcycle b 使EXTENSION为所有覆盖SEED但不覆盖Eneg的选择则EXTENSION包括size huge 则又根据STAR x y x STAR y EXTENSION 因此 STAR size huge c 接着选取另一个被STAR中的复合覆盖的负样例Eneg 显然已经没有这样的负样例因此 STAR size huge d 接着选取另一个被STAR中的复合覆盖的负样例ENEG 显然已经没有这样的负样例因此 STAR size huge type bicycle 从STAR SEED NEG 返回 8 BEST size huge 将BEST添加到COVER中 COVER size huge type bicycle size huge size huge 9 这时 COVER已经覆盖到全部的正例则算法结束输出规则为gaint2 wheeler size huge 假设现有一个训练集其包含两种属性 size 属性值 micro tiny mid big huge vast type 属性值 bicycle motorcycle car prop jet glider 现有正例反例样本分别如表4 6 表4 7所示反例样本sizetypeclassTinymotorcycleconventionaltransportationtinycarconventionaltransportationmidcarconventionaltransportationmicrojetfastplaneTinyjetfastplaneMidjetfastplane 正例样本sizetypeclassHugebicyclegiant2 wheelerHugemotorcyclegiant2 wheeler 00 31 89 CN2算法描述 CN2使用一种基于噪音估计的启发式方法使用这种方法可以不用对所有的训练样本进行正确的区分但是规约出的规则在对新数据的处理上有很好的表现算法4 7CN2输入 E E为训练样本输出 RULE LIST 返回一个覆盖若干样例的规则 1 LetRULE LISTbetheemptylist 初始化RULES LIST为空 2 REPEAT 3 LetBEST CPXbeFind Best Complex E 寻找最佳的规则Find Best Complex E 并将其结果放入BEST CPX中 4 IFBEST CPXisnotnilTHENBEGIN 5 LetE betheexamplescoveredbyBEST CPX 令E 为BEST CPX覆盖的所有样例 6 RemovefromEtheexamplesE coveredbyBEST CPX 从训练样本E中除去E 即E E E 7 LetCbethemostcommonclassofexamplesinE 令C为样本子集E 中最频繁的分类标号 8 Addtherule ifBEST CPXthenclass C totheendofRULE LIST 将规则 ifBEST CPXthenclass C 添加到RULES LIST中 9 END 10 UNTILBEST CPXisnilorEisempty 直到BEST CPX为空或者训练样本E为空 11 RETURNRULE LIST算法CN2需要通过调用函数Find Best Complex 它的描述写成下面算法4 8 00 31 90 CN2算法描述续算法4 8Find Best Complex输入 E E为训练样本输出 BEST CPX 返回最佳的规则BEST CPX 1 LetthesetSTARcontainonlytheemptyComplex 初始化集合STAR为空Complex 2 LetBEST CPXbenil 初始化BEST CPX为空 3 LetSELECTORSbethesetofallpossibleSelectors 集合SELECTOR为所有可能的选择 4 WHILESTARisnotemptyDOBEGIN 5 LetNEWSTARbetheset x y x STAR y EXTENSION 令NEWSTAR x y x STAR y EXTENSION 6 RemoveallComplexesinNEWSTARthatareeitherinSTARorarenull 从NEWSTAR中除去包括在STAR中的Complex或者为空的Complex 7 FOReverycomplexCiinNEWSTAR 8 IFCiisstatisticallysignificantwhentestedonEandbetterthanBEST CPXaccordingtouser definedcriteriawhentestedonE 如果Ci在统计上有意义并且对训练集E测试后符合用户定义的条件且优于BEST CPX 9 THENreplacethecurrentvalueofBEST CPXbyCi 将BEST CPX替换为Ci 10 REPEATremoveworstComplexesfromNEWSTAR 11 UNTILsizeofNEWSTARis user definedmaximummaxstar 逐步移去在NEWSTAR中最坏的complex直到NEWSTAR的大小等于或小于用户定义的最大数目maxstar 12 LetSTARbeNEWSTAR 令STAR NEWSTAR 13 END 14 RETURNBEST CPX 返回BEST CPX 00 31 91 FOIL算法 FOIL学习系统已经被广泛地应用在逻辑规约领域 FOIL是用来对无约束的一阶Horn子句进行学习一个概念的定义是由一系列的子句组成而其中每一个子句描述了一种证明一个样本是这个概念的实例的唯一方法每个子句由一些文字的析取组成 FOIL由一系列的外部定义的断言开始其中之一被确定为当前学习的概念而其他作为背景文字 FOIL从这些外部定义的断言中获取一系列包括文字的子句 FOIL算法由一个空子句开始查找其不断的向当前的子句中追加文字直到没有负样例被子句所覆盖之后 FOIL重新开始一个子句的查找直到所有的正样例均被已经生成的子句所覆盖 FOIL计算每一个外部定义断言的信息熵 InformationGain 和合法的变量 LegalVariabilization 用来决定哪一个文字添加到子句中 00 31 92 一阶Horn子句的主要术语一阶Horn子句所涉及的主要术语有所有表达式由常量如Mary 23或Joe 变量如x 谓词如在Female Mary 中的Female和函数如在age Mary 中的age 组成项 Term 为任意常量任意变量或任意应用到项集合上的函数例如 Mary x age Mary age x 文字 Literal 是应用到项集合上的任意谓词或其否定例如 Female Mary Greater than age Mary 20 基本文字 GroundLiteral 是不包括任何变量的文字负文字 NegativeLiteral 是包括否定谓词的文字正文字 PositiveLiteral 是不包括否定谓词的文字子句 Clause 是多个文字的析取式 M1 Mn 其中所有变量是全程量化的 00 31 93 一阶Horn子句的表达 Horn子句是一个如下形式的表达式 H L1 Ln 其中 H L1 L2 Ln为正文字 H被称为Horn子句的头 Head 或推论 Consequent 文字合取式L1 L2 Ln被称为Horn子句的体 Body 或者先行词 Antecedents 置换 Substitution 是一个将某些变量替换为某些项的函数例如置换 x 3 y z 把变量x替换为项3并且把变量y替换为项z 给定一个置换和一个文字L 我们使用L 代表应用置换到L得到的结果 00 31 94 FOIL算法描述算法4 9FOIL Target predicate Predicates Examples 输入 Examples 样本数据 Predicates 断言集合 Target predicate 目标断言输出规则 1 Pos Examples中Target predicate为Ture的成员 2 Neg Examples中Target predicate为False的成员 3 Learen rules 4 WHILEPos不空DOBEGIN 学习NewRule 5 NewRules 没有前件的谓词Target predicate规则 6 NewRuleNeg Neg 7 WHILENewRuleNeg不空BEGIN 增加新文字以特化NewRule 8 Candidate literals 对NewRule生成后选新文字基于Predicates 9 Best literal argmaxFoil Gain L NewRule 获取最佳文字 10 把Best literal加入到NewRule的前件 11 NewRuleNeg NewRuleNeg中满足NewRule前件的子集 12 END 13 Learned rules Learned rules NewRule 14 Pos Pos 被NewRule覆盖的Pos成员 15 END 16 返回Learned rules 00 31 95 FOIL算法介绍 FOIL中的候选特征化式的生成为生成当前规则的候选特征式 FOIL生成多个不同的新文字每个可被单独地加到规则前件中更精确地讲假定当前规则为 P x1 x2 xk L1 L其中 L1 Ln为当前规则前件中的文字而P x1 x2 xk 为规则头或后件 FOIL生成该规则的候选特征化式的方法是考虑符合下列形式的新文字Ln 1 Q v1 vr 其中Q为在Predicates中出现的任意谓词名并且vi既可为新变量也可为规则中已有的变量 vi中至少一个变量必须是当前规则中已有的 Equal xj xk 其中xj和xk为规则中已有的变量上述两种文字的否定 00 31 96 FOIL算法介绍续 Foil Gain函数FOIL使用评估函数以估计增加新文字的效用它基于加入新文字前后的正例和反例的约束数目更精确地讲考虑某规则R和一个可能被加到R的规则体的后选文字L 令R 为加入文字L到规则R后生成的规则 Foil Gain L R 的值定义为其中 p0为规则R的正例约束数目 n0为R的反例约束数目 p1是规则R 的正例约束数 n1为规则R 的反例约束数目最后 t是在加入文字L到R后仍旧能覆盖的规则R的正例约束数目当加入L引入了一个新变量到R中时只要在R 的约束中的某些约束扩展了原始的约束它们仍然能被覆盖 00 31 97 FOIL算法举例假设学习目标文字fathe A B 的规则集例子训练数据包括下列简单的断言集合 Examples 样本数据 positive father christopher arthur father christopher victoria negative father penelope arthur father christopher penelope Predicates 断言集合male christopher male arthur female victoria female penelope parent christopher arthur parent christopher victoria parent penelope arthur parent penelope victoria 则根据FOIL算法 Pos father christopher arthur father christopher victoria Neg father penelope arthur father christopher penelope Learned rules 当Pos不为空则学习NewRulea Ne

展开阅读全文