数据挖掘与应用(十三)课件

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,1,第十三讲,模型评估,1第十三讲模型评估,2,模型评估,为了得到能有效预测因变量的模型，可以建立多个模型，对它们进行评估和比较，并从中选择最优的模型。通常根据对修正数据集的预测效果来选择模型。一般地：,令,D,为评估数据集；,N,D,为其中的观测数；,令,Y,i,和分别表示,D,中观测,i,的因变量的真实值和模型预测值。,2模型评估为了得到能有效预测因变量的模型，可以建立多个模型，,3,因变量为二分变量的情形,若因变量只有两种取值，可不失一般性地假设它们为,0,和,t,。,设模型预测观测,i,属于类别,0,和类别,1,的概率分别为和,。,可使用以下方法得到,Y,i,的预测值,:,如果, 0.5,，令,=1,，否则令,=0,。,3因变量为二分变量的情形若因变量只有两种取值，可不失一般性地,4,获取,Y,i,的预测值,也可定义分类利润，令,P(l,2,l,1,),表示将实际属于类别,l,1,的观测归入类别,l,2,所产生的利润。,缺省地,P(00)=P(11)=1,，,P(10)=P(01)=0。,在实际应用中，需要根据实际情况设置分类利润的值。,例如，在直邮营销中，假设类别,1,代表潜在顾客响应,(,即进行了购买,),，类别,0,代表潜在顾客不响应。,P(00),和,P(01),对应于不邮寄产品目录，带来的利润为,0。,P(10),对应于将实际不响应的顾客错误判断为响应而邮寄产品目录，带来的利润为负，等于联系顾客成本,(,包括产品目录制作、邮寄等成本,),的负值。,P(11),对应于将实际响应的顾客正确判断为响应而邮寄产品目录，带来的利润为顾客的购买金额减去联系成本的差,;,因为,P(11),只能取一个值，这里采用的购买金额是顾客的平均购买金额。,4获取Yi的预测值也可定义分类利润，令P(l2l1)表示将,5,获取,Y,i,的预测值,给,赋值时需要比较期望利润,:,将观测,i,归入类别,0,所带来的期望利润为,P(00)+ P(01),，而将观测,i,归入类别,1,所带来的期望利润为,P(10)+ P(11),；如果前者小于后者，即,则令,=1,，否则令,=0,。,5获取Yi的预测值给赋值时需要比较期望利润:将观测,6,获取,Y,i,的预测值,也可定义分类损失，令,C(l,2,l,1,),表示将实际属于类别,l,1,的观测归入类别,l,2,所产生的损失。缺省地,C(00)=C(11)=0,，,C(10)=C(01)=0。,给赋值时需要比较期望损失,:,将观测,i,归入类别,0,所带来的期望损失为,C(00)+ C(01),，而将观测,i,归入类别,1,所带来的期望损失为,C(10)+ C(11),；如果前者大于后者，即,则令,=1,，否则令,=0,。,6获取Yi的预测值也可定义分类损失，令C(l2l1)表示将,7,混淆矩阵,最简单的模型评估方法是使用下表所示的混淆矩阵，表中,N,l1l2,为实际属于类别,l,1,而被预测属于类别,l,2,的观测数；显然，,N,00,+N,01,+N,10,+N,11,=N,D,。,7混淆矩阵最简单的模型评估方法是使用下表所示的混淆矩阵，表中,8,混淆矩阵,实际属于类别,0,的观测中被误分入类别,1,的比例为,N,01,/(N,00,+N,01,),，实际属于类别,1,的观测中被误分入类别,0,的比例为,N,10,/(N,10,+N,11,),，总的误分类率为,(N,01,+ N,10,)/N,D,。,8混淆矩阵实际属于类别0的观测中被误分入类别1的比例为N01,9,平均利润或平均损失,当分类利润和分类损失取缺省值时，评估模型的平均利润或平均损失等价于评估总误分类率。,如果定义了分类利润或分类损失，还可评估模型的平均利润,或平均损失,。,9平均利润或平均损失当分类利润和分类损失取缺省值时，评估模型,10,更加细致的评估,我们可以直接使用模型预测概率以对模型进行更加细致的评估。,设某个关于直邮营销的历史数据集,D,中有,100, 000,位顾客，总体响应率为,20%,，也就是说，如果把产品目录邮寄给这,100,000,位顾客，实际会收到,20, 000,份响应。,将这,100, 000,位顾客按照预测概率,从大到小进行排列，我们将考虑联系其中的某些顾客。,为了方便讨论起见，按十分位数将排列好的顾客等分为十组，考虑联系第一组的顾客、第二组的顾客，等等；但实际中可以精确到联系多少位顾客。,10更加细致的评估我们可以直接使用模型预测概率以对模型进行更,11,更加细致的评估,响应率,:,被联系的人中响应的比例，即,基准响应率,:,不使用任何模型而随机联系顾客时所得的响应率，出于随机性，它等于总体响应率。,捕获响应率,:,联系顾客所得的响应人数占响应者总人数的比例，即,基准捕获响应率,:,不使用任何模型而随机联系顾客时所得的捕获响应率，出于随机性，它等于被联系人数占顾客总人数的比例。,提升值,:,使用模型所得的响应率与基准响应率之比。如果提升值大于,1,，说明使用模型挑选联系人比随机挑选效果更好。,11更加细致的评估响应率:被联系的人中响应的比例，即基准响应,12,非累积响应情况,12非累积响应情况,13,累积响应情况,13累积响应情况,14,响应率图,14响应率图,15,响应率图,ideal,表示理想情况,:,之后，当非累积被联系人都属于非响应者时，非累积响应率变成,0,，而累积响应率等于响应者总人数与累积被联系人数之比，最后达到总体响应率。,任意响应者的预测响应概率都大于所有非响应者的预测响应概率，因此，若按照预测响应概率从大到小排序，响应者都排在非响应者的前面。,当累积被联系人数不超过响应者总人数时，不管是非累积还是累积情形，被联系的所有人都是响应者，所以非累积响应率和累积响应率都是,100%;,“model ”,表示使用模型挑选联系人的情况,;,“ baseline”,表示不使用任何模型而随机联系顾客的基准情况。,实际的模型当然无法达到理想效果，但模型的效果越接近理想效果越好。,15响应率图ideal表示理想情况:之后，当非累积被联,16,响应率图,非累积捕获响应率图,模型效果越接近理想效果越好。,在理想情况下，当累积被联系人数不超过响应者总人数时，不管是非累积还是累积情形，被联系的所有人都是响应者，所以非累积捕获相应率和累积捕获响应率都等于相应的被联系人数与响应者点人数之比。之后非累积捕获响应率变为,0,，而累积捕获响应率变成,100%,。,累积捕获响应率图,16响应率图非累积捕获响应率图模型效果越接近理想效果越好。在,17,准确度比率,从累积捕获响应率图还可以计算一个数值指标,:,准确度比率,(Accuracy Ratio),。,首先计算模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积，它度量了使用模型相比于基准情况而言增加的预测性能,;,然后计算理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积，它度量了理想情况相比于基准情况而言增加的性能；准确度比率是这两个面积的比值。,准确度比率的取值在,0,至,1,之间，取值,0,表示使用模型的预测效果和基准情况一样，取值,1,表示模型的预测效果和理想情况一样,;,准确度比率的值越接近于,1,，模型效果越好。,17准确度比率从累积捕获响应率图还可以计算一个数值指标:准确,18,准确度比率,数学上，准确度比率被定义为,（,1,）,r,模型,(q),表示联系模型预测概率的排序处于前面比例,q(oq1),的顾客时所得的累积捕获响应率，,0,1,r,模型,(q) dq,表示模型的累积捕获响应率曲线之下的面积。,18准确度比率数学上，准确度比率被定义为（1）r模型 (q),19,准确度比率,基准累积捕获响应率,r,基准,(q) =q,，因此基准累积捕获响应率曲线之下的面积为,。,公式中的分子计算了模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积，类似可推出分母计算了理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积。,积分的近似,:,示例中使用十分位数，积分可用,来近似,;,在实际应用时可精确到每一位顾客，积分可用,来近似。,19准确度比率基准累积捕获响应率r基准 (q) =q，因此基,20,受试者操作特性曲线,受试者操作特性曲线,(Receiver Operating Characteristic Curve,以下简称,ROC,曲线,),也是衡量模型预测能力的一种常用工具，它来源于并经常应用于医学领域。,假设习齐模型预测响应概率大于某个临界值,C,的顾客都预测为响应者，而将其他顾客都预测为非响应者。,20受试者操作特性曲线受试者操作特性曲线(Receiver,21,受试者操作特性曲线,特异度,(specificity),定义为真阴性,(true negative),观测数与阴性总观测数之比。,敏感度,(sensitivity),定义为真阳性,(true positive),观测数与阳性总观测数之比。,真阳性观测数指的是实际响应而模型也预测响应的顾客数，阳性总观测数指的是实际响应的顾客数,(,很容易推出，此处敏感度等于累积捕获响应率,),。,真阴性观测数指的是实际不响应而模型也预测不响应的顾客数；阴性总观测数指的是实际不响应的顾客数。,21受试者操作特性曲线特异度(specificity)定义为,22,受试者操作特性曲线,C,的值从,1,变化到,0,时，特异度和敏感度的值都会变化，将“,1-,特异度”作为横轴、敏感度作为纵轴作图，这种变化在图中形成的曲线就被称为,ROC,曲线。,当,C=1,时，所有顾客都被预测为不会响应，因此特异度,=1(1-,特异度,=0),，敏感度,=0;,当,C=0,时，所有顾客都被预测为会响应，因此特异度,=0(1-,特异度,=1),，敏感度,=1,。,ROC,曲线是连接,(0,0),点和,(1,1),点的一条曲线。,22受试者操作特性曲线C的值从1变化到0时，特异度和敏感度的,23,受试者操作特性曲线,理想情况下，任意响应者的预测响应概率都大于所有非响应者的预测响应概率。因此，存在,C*,使得预测响应概率大于,C*,的所有顾客都是响应者，而其他顾客都是非响应者。,23受试者操作特性曲线理想情况下，任意响应者的预测响应概率都,24,受试者操作特性曲线,当,C,C*,时，所有实际非响应者都被正确地预测为不响应,;,因为特异度是实际非响应者中被模型预测为非响应者的比例，所以特异度,=1 (1-,特异度,=0),，而敏感度是实际响应者中被模型预测为响应者的比例,;,当,CC*,时，所有实际响应者都被正确地预测为响应，因此敏感度,=1,，当,C,的值从,C*,变化到,0,时，特异度从,1,变化到,0(1-,特异度”从,0,变化到,1),。,所以理想的,ROC,曲线由连接,(0,0),点和,(1,0 ),点的线段与连接,(1,0),点和,(1,1),点的线段组成。,24受试者操作特性曲线当CC*时，所有实际非响应者都被正确,25,受试者操作特性曲线,所以基准的,ROC,曲线就是连接,(o,o,点和,(1,1),点的一条对角直线。,在基准情况下，任意选取一部分顾客，其中响应者所占的比例都等于总体响应率，非响应者所占的比例都等于总体非响应率。对任意,C,值：,特异度都等于预测非响应者人数占顾客总人数的比例；,而敏感度都等于预测响应者人数占顾客总人数的比例；,它们的和总是等于,1,。,25受试者操作特性曲线所以基准的ROC曲线就是连接(o,o点,26,受试者操作特性曲线,一般而言，模型的,ROC,曲线落在理想,ROC,曲线与基准,ROC,曲线之间。,基准,ROC,曲线下的面积为,0.5,，理想,ROC,曲线下的面积为,1,，一般模型,ROC,曲线下的面积在,0.5,至,1,之间，这个值越接近,1,，模型效果越好。,ROC,曲线下的面积也可作为衡量模型效果的一个数值指标。,26受试者操作特性曲线一般而言，模型的ROC曲线落在理想RO,27,受试者操作特性曲线,对模型的预测效果而言，特异度和敏感度都是越大越好，但是这两者之间需要平衡。,有时在实际应用中，我们希望选择截断值,C,以使特异度与敏感度的和达到最大,;,这时可以取,45,度角直线簇,敏感度,=,+(1-,特异度,),特异度,+,敏感度,=,+1,与,ROC,曲线的切点，选取切点对应的,C,值。,27受试者操作特性曲线对模型的预测效果而言，特异度和敏感度都,28,盈利评估,除了考察顾客的响应情况，还可以考察直邮营销的盈利情况。,前面讨论过分类利润，涉及顾客的平均购买金额，但在实际中顾客购买的金额通常大小不一。,评估模型效果时使用顾客的实际购买金额评估将更加细致。,28盈利评估除了考察顾客的响应情况，还可以考察直邮营销的盈利,29,盈利评估,假设联系顾客的成本为每人,1,元。,29盈利评估假设联系顾客的成本为每人1元。,30,盈利评估,30盈利评估,31,盈利评估,出于随机性，它等于联系所有顾客所得利润,(,累计利润表最后一行的利润,-13,060),与被联系人数占顾客总人数的比例的乘积。,基准利润,:,不使用任何模型而随机联系顾客所得的利润。,非累积利润图,累积利润图,非累积情形下，基准利润等于总利润的,1/10,，即,-1,306,；累积情形下，基准利润等于总利润的,i/10,，即,-1.3061i (i=1, ,10),。,31盈利评估出于随机性，它等于联系所有顾客所得利润(累计利润,32,因变量为二分变量的情形,在实际应用中，有时,D,中类别,1,和类别,0,的比例,1,及,0,不同于模型将来要应用的数据中的比例,1,及,0,，而又希望根据,D,评估模型对将来要应用的数据的预测性能。,这时，需要给,D,中的观测赋予不同的权重,w,i,:,属于类别,1,的观测被赋予权重,w,i,=,1,/,1,属于类别,0,的观测被赋予权重,w,i,=,0,/,0,在计算各项评估指标时，都需要考虑权重，例如，响应率不再简单地是响应人数与被联系人数的比例，而是响应者的权重之和与被联系者的权重之和的比例。,32因变量为二分变量的情形在实际应用中，有时D中类别1和类别,33,因变量为多分变量的情形,若因变量有离散的多种取值，可不失一般性地假设它们为,1, ,K,。,我们在统计决策的一般框架下来讨论。假设对每一位顾客,i,，可采用的决策,d,i,都有,M,种可能取值,:A,l, ,A,M,。,设模型预测顾客,i,属于各类别的概率为,: , ,。,分类问题是统计决策的一种特例，在这种情形下，,d,i,有,K,种可能取值：对,l=1, ,K,，决策,A,l,表示将顾客归入类别,l,即令,=l,。,33因变量为多分变量的情形若因变量有离散的多种取值，可不失一,34,因变量为多分变量的情形,可以使用决策利润来进行决策。,如果对顾客,i,采用决策,d,i,=A,m,，那么带来的期望利润为,令,P(dy),表示对实际属于类别,y,的顾客采用决策,d,而产生的利润。,应选取使期望利润最大的决策。,34因变量为多分变量的情形可以使用决策利润来进行决策。如果对,35,因变量为多分变量的情形,在分类问题中：,若因变量为名义变量，缺省地,选取的决策为将顾客,i,归入使最大的类别,l,；,若因变量为定序变量，缺省地,，,选取的决策为将顾客,i,归入使,最大的类别,l,，即使,最小的类别,l,。,35因变量为多分变量的情形在分类问题中：若因变量为名义变量，,36,因变量为多分变量的情形,也可以使用决策损失来进行决策。,令,C(dy),为对实际属于类别,y,的顾客采用决策,d,而产生的损,失。,如果对顾客,i,采用决策,d,i,=A,m,，那么带来的期望损失为,应选取使期望损失最小的决策。,36因变量为多分变量的情形也可以使用决策损失来进行决策。令C,37,因变量为多分变量的情形,在分类问题中：,若因变量为名义变量，缺省地,选取的决策为将顾客,i,归入使,1-,最小即最大的类别,l,；,若因变量为定序变量，缺省地,，,选取的决策为将顾客,i,归入使,最小的类别,l,。可以看出，使用决策利润或决策损失进行决策是等价的。,37因变量为多分变量的情形在分类问题中：若因变量为名义变量，,38,因变量为多分变量的情形,可以评估模型的平均利润,或平均损失,。在分类问题中：,若因变量为名义变量，还可评估对,D,的总误分类率为,很容易看出，如果决策利润或决策损失取缺省值，那么评估平均利润或平均损失等价于评估误分类率,若因变量为定序变量，还可评估按序数距离加权的误分类率,与因变量是二分变量的情形类似，我们还可以使用混淆矩阵来评估模型。,38因变量为多分变量的情形可以评估模型的平均利润或平均,39,因变量为多分变量的情形,要对模型进行更加细致的评估，需要更加细致地考察决策利润或决策损失，这里仅讨论使用决策利润的情形。,为了绘出响应率图、捕获响应率图、,ROC,图、利润图等，我们需要能够按照模型预测结果对观测进行排序，并定义谁是,(,实际,),响应者，谁是,(,实际,),非响应者。解决方法如下,:,模型预测的决策,d,i,带来的实际利润为,P(d,i,y,i,),，可把实际利润大于某个临界值的顾客定义为响应者，而把其他顾客定义为非响应者。,按照它从大到小的顺序可以将顾客进行排列。,模型预测的决策,d,i,带来的期望利润为,39因变量为多分变量的情形要对模型进行更加细致的评估，需要更,40,因变量为多分变量的情形,在实际应用中，如果,D,中各类别的比例,1,(l=1, ,K),不同于模型将来要应用的数据中的比例,l,，而又希望根据,D,评估模型对将来要应用的数据的预测性能，就需要给,D,中的观测赋予不同的权重,w,i,：属于类别,l,的顾客被赋予权重,w,i,=,l,/,l,。,40因变量为多分变量的情形在实际应用中，如果D中各类别的比例,41,因变量为连续变量的情形,若因变量为连续变量，可计算下列一些评估指标,:,均方误差,:,均方误差,:,均方误差,:,均方误差,:,还可绘出,Y,i,与的散点图，或者,Y,i,-,与的散点图。,41因变量为连续变量的情形若因变量为连续变量，可计算下列一些,42,因变量为连续变量的情形,实际应用中也可能需要为每位顾客选择某种决策。,假设联系每位顾客的成本为,r,，那么决策利,P(A,1,y)=y-r,，而,P(A,2,y)=0。,令,P(dy),表示对实际购买金额为,y,的顾客采用决策,d,而产生,的利润。,仍举直邮营销为例，如果因变量,Y,i,为顾客,i,的购买金额，可选择的两种决策为联系,(,记为,A,1,),或不联系,(,记为,A,2,),。,如果对顾客,i,采用决策,d,i,=A,1,，预测利润为,如果对顾客,i,采用决策,d,i,=A,2,，预测利润为,因此，如果,，则选取决策,d,i,=A,i,，否则选取决策,d,i,=A,2,。,42因变量为连续变量的情形实际应用中也可能需要为每位顾客选择,43,因变量为连续变量的情形,为了绘出模型的响应率图、捕获响应率图、,ROC,图、利润图等，我们同样需要能够按照模型预测结果对观测进行排序，并定义谁是,(,实际,),响应者，谁是,(,实际,),非响应者。解决方法如下,:,模型预测的决策,d,i,带来的预测利润为,，按照它从大到小的顺序将顾客进行排列。,模型预测的决策,d,i,带来的实际利润为,P(d,i,Y,i,),，可把实际利润大于某个临界值,(,例如，,0),的顾客定义为响应者，而把其他顾客定义为非响应者。,43因变量为连续变量的情形为了绘出模型的响应率图、捕获响应率,

展开阅读全文

数据挖掘与应用(十三)课件

最新文档