数据挖掘模型评估

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,数据挖掘模型评估,2024/11/27,1,一、评估分类法的准确率,2024/11/27,2,评估分类法准确率的技术有保持（,holdout,）和,k-,折交叉确认（,k-fold cross-validation,）方法。,另外，还有两种提供分类法准确率的策略：装袋（,bagging,）和推进（,boosting,）。,1,、保持和,k-,折交叉,在保持方法中，给定数据随机划分成两个独立的集合：训练集和测试集。通常，三分之二的数据分配到训练集，其余三分之一分配到训练集。,2024/11/27,3,“保持”这种评估方法是保守的，因为只有一部分初始数据用于导出的分类法。,随机子选样是“保持”方法的一种变形，它将“保持”方法重复,k,次。总体准确率估计取每次迭代准确率的平均值。,K,折交叉确认,在,k,折交叉确认（,kfold crossvalidation,）中，初试数据被划分成,k,个互不相交的子集或“折”，每个折的大小大致相等。训练和测试,k,次。在第,i,次迭代，第,i,折用作测试集，其余的子集都用于训练分类法。,准确率估计是,k,次迭代正确分类数除以初始数据中的样本总数。,2024/11/27,4,2,、提高分类法的准确率,2024/11/27,5,装袋,2024/11/27,6,推进,即使用相同的分类器，各个分类器不是独立的；使用同一个算法对样本迭代训练，后建立的分类器关注于先前建立的分类器不能更好处理的部分数据；最终的输出为各个分类器的加权投票。,3,、灵敏性和特效性度量,假定你已经训练了一个分类法，将医疗数据分类为“cancer”或“non_cancer”。90%的准确率使得该分类法看上去相当准确，但是如果实际只有34%的训练样本是“cancer”会怎么样？,显然，90%的准确率是不能接受的该分类法只能正确的标记“non_cancer”（称作负样本）样本。但我们希望评估该分类能够识别“cancer”（称作正样本）的情况。,2024/11/27,7,为此，除用准确率评价分类模型外，还需要使用灵敏性（sensitivity）和特效性（specificity）度量。,还可以使用精度（precision）来度量，即评估标记为“cancer”，实际是“cancer”的样本百分比。,2024/11/27,8,其中，,t_pos,是真正样本（被正确地按此分类的“,cancer,”样本）数，,pos,是正（“,cancer,”）样本数，,t_neg,是真负样本（被正确地按此分类的“,non_cancer,”样本）数，,neg,是负（“,non_cancer,”）样本数，,而,f_pos,假正样本（被错误地标记为“,cancer,”的“,non_cancer,”样本）数,2024/11/27,9,灵敏性,特效性,精度,2024/11/27,10,预测值,1,（实际“,cancer,”）,0,（实际,no_cancer,）,1(,预测“,cancer,”,),0,0,0(,预测“,no_cancer,”,),10,90,二、数据挖掘模型评估的错误观念,传统评估分类预测模型时，通常使用的是“准确度”。它的功能是评估模型分类实物是否正确。准确度越高模型就越好。,但事实上，这样评估出来的模型并不是最好的。,2024/11/27,11,例：某家银行发行现金卡，风险控管部门主管决定建立,DM,模型，利用申请人申请当时的所填的资料，建立违约预测模型，来作为核发现金卡以及给予额度的标准。,该银行邀请两家,DM,公司来设计模型，评比的标准是根据模型的“准确度”。,根据此标准，,A,公司所建模型的准确度,92%,，,B,公司的准确度是,68%,。,银行和,A,公司签约。,2024/11/27,12,利用,A,公司的模型后，结果发现里面只有一条规则，那就是“所有的人都不会违约”。,为什么？,A,：所有的人都不会违约，因此它错误的只有,8%,的违约分类错误（违约误判为不违约），因此准确率是,92%,。,B,：在根据评分由高至低筛选出来前,40%,的名单中，可以将所有的违约户都找出来。即有,32%,的非违约户被误判为违约户，因此准确率只有,68%,。,哪一家的模型更好呢？,由上可以发现，不能使用准确率来评判模型的优劣。,2024/11/27,13,为什么会出现这样的结果？,原因在于两类错误，忽略了“,错误不等价,”。,如果把一个“会违约的人判断成不会违约”，这家银行损失,20,30,万元的现金卡卡金，但是如果将一个“不会违约的人错判成违约”，只是划分了一些审查成本以及可能因为保守给予额度而造成的机会成本损失。,因此两种误判所造成的效益影响是不等价的。,2024/11/27,14,所谓小概率事件是发生概率小，而且一定是能够为企业界带来高度获利或严重损失的事件。,由于小概率事件发生概率很小，如果针对所有客户采取行动，就会形成浪费，因此，需要利用预测的技术将小概率事件找出来。那么，只针对预测的小概率事件采取行动就会避免浪费。,DM,的价值就在于能够利用历史资料找出,“小概率事件”。,2024/11/27,15,小概率事件：,因此，评估数据挖掘模型的第一步就必须从错误状态的分类入手。这需要建立分类矩阵，通过分类矩阵来查看所有错误的分布。,2024/11/27,16,H,0,为真,H,0,为假,真实情况,所作判断,接受,H,0,拒绝,H,0,正确,正确,弃真错误,取伪错误,两类错误,犯第一类错误是弃真错误；,犯第二类错误是取伪错误,。,2024/11/27,17,三、分类矩阵,对于,DM,来说，通常第二类错误的损失或收益要比第一类高。,因此，我们需要确定哪一个状况是我们所关心的小概率事件。,把对这个事件的误判会造成极大损失的情况，作为第二类错误。,例，把一个好账的人当作呆账是第一类错误，把一个呆账的人当作好账是第二类错误。,2024/11/27,18,预测值,1,（实际“会违约”）,0,（实际“不会违约”）,1,66,28,0,185,721,2024/11/27,19,表中，预测为会违约且实际也会违约的有,66,人，预测不会违约且实际没有违约的有,721,人，这些是分类正确者。,表中，预测为会违约且实际没有违约的有,28,人，预测不会违约且实际违约的有,185,人，这些是预测模型判断错误的部分。,其中，后者还会造成比较严重的损失，是值得关注的部分。,该如何使用分类矩阵的信息呢？,2024/11/27,20,主要看三个指标，即回应率、反查率以及间距缩减。,Response rate,=,预测会违约且实际会违约,/,所有预测会违约,=66/(66+28)=70.21%,预测模型回应率的高低须和总体回应率比较：,总体,response rate,=,总体实际会违约,/,总体,=(66+185)/(66+185+28+721)=25.1%,2024/11/27,21,预测值,1,（实际“会违约”）,0,（实际“不会违约”）,1,66,28,0,185,721,回应率,(response rate),：在预测的名单中找出有多少小概率事件（在预测违约的名单中，真正违约的所占比例是多少）。,可以发现，原始回应率为,25.1%,，运用数据挖掘模型提升为,70.21%,，因此回应率提升了,2.8,倍。,回应率讲究的是模型“宁缺勿滥”的能力。,回应率高并不代表一定是好模型，因为如果利用数据挖掘模型从一万人中挑出,10,个最有可能会买产品的顾客，结果回应率是,100%,，但是却漏掉了大多数会买产品的顾客，因此，还得参考“反查率”这个指标。,2024/11/27,22,Recall,=,预测会违约且实际违约,/,所有实际会违约,=66/(66+185)=26.29%,它的意义在于：预测出来会违约的人占了总体会违约的客户多少百分比。反查率越高，表明犯第二类错误的可能性越小，那么模型越好。,2024/11/27,23,预测值,1,（实际“会违约”）,0,（实际“不会违约”）,1,66,28,0,185,721,反查,(recall),：预测出来的小概率事件占总体小概率事件的比例是多少。,完美的预测模型反查率是,100%,，但是反查率与回应率是互相矛盾的。,recall=67/(67+184),66/(66+185),Response rate=67/(67+38),66/(66+28),2024/11/27,24,预测值,1,（实际“会违约”）,0,（实际“不会违约”）,1,67,38,0,184,711,预测值,1,（实际值）,0,（实际值）,1,66,28,0,185,721,Range reduce,=,预测会违约,/,总体,=(66+28)/(66+28+721+185),=9.4%,间距缩减代表的是根据模型执行活动时的成本，当如果名单量没有有效缩减时，执行的总成本会很高，因此间距缩减越低越好。,2024/11/27,25,预测值,1,（实际值）,0,（实际值）,1,66,28,0,185,721,间距缩减,(range reduce),：通过,DM,模型来找出小概率事件时，名单缩小了多少。,从上述三个指标来看，这个预测模型可以让名单缩减至原来的9.4%，但是却只包含了总体26.29%会违约的人（反查率），让回应率提升了原先的2.8倍。,2024/11/27,26,注意：,很少有模型同时能够满足上述三个指标的要求，当回应率很高时，一定是筛选高概率族群，因此名单间距缩减一定会变低，但是会遗漏掉低概率族群必定会造成反查降低，所以若只看分类矩阵，找不出最好的模型。,分类矩阵是根据一个概率阀值将顾客分作两种情况，过度简化了实际的结果。因为所有的演算法除了预测结果之外，同时还会提供概率值作为排序的基准。,2024/11/27,27,四、增益图（灵敏性分析）,2024/11/27,28,横轴百分比代表根据,DM,模型根据概率由高到低排序后的名单占总体百分比。,纵轴则是在这批名单中小概率事件的人数占总体小概率事件人数的百分比。,45,度线表示随机的状态，代表当筛选一半的名单去检查违约状况时，刚好会包含全体名单一半的违约户数量。,正常模型的增益图要比,45,度线向第二象限弯曲，越向上弯曲表示模型效果越好。,理想模型线：在增益图的最上方两段直线所构成的，表示完美预测的结果。,AUC(area under curve),：模型曲线下面的阴影面积与完美模型曲线下面阴影面积的比值。,AUC,越接近于,1,，表示模型的预测能力越高。,吉尼系数,=,模型曲线与,45,度线之间的面积,/,完美模型曲线与,45,度线之间的面积,基尼系数？,吉尼系数越接近,1,，表示模型的预测能力越高。,2024/11/27,29,A

展开阅读全文

数据挖掘模型评估

最新文档