数据挖掘与应用十三培训课件

上传人:痛*** 文档编号:246569678 上传时间:2024-10-14 格式:PPT 页数:41 大小:708.04KB
返回 下载 相关 举报
数据挖掘与应用十三培训课件_第1页
第1页 / 共41页
数据挖掘与应用十三培训课件_第2页
第2页 / 共41页
数据挖掘与应用十三培训课件_第3页
第3页 / 共41页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,数据挖掘与应用十三,数据挖掘与应用十三,因变量为二分变量的情形,若因变量只有两种取值,可不失一般性地假设它们为,0,和,t,。,设模型预测观测,i,属于类别,0,和类别,1,的概率分别为 和,。,可使用以下方法得到,Y,i,的预测值,:,如果,0.5,,令,=1,,否则令,=0,。,3,获取,Y,i,的预测值,也可定义分类利润,令,P(l,2,l,1,),表示将实际属于类别,l,1,的观测归入类别,l,2,所产生的利润。,缺省地,P(00)=P(11)=1,,,P(10)=P(01)=0。,在实际应用中,需要根据实际情况设置分类利润的值。,例如,在直邮营销中,假设类别,1,代表潜在顾客响应,(,即进行了购买,),,类别,0,代表潜在顾客不响应。,P(00),和,P(01),对应于不邮寄产品目录,带来的利润为,0。,P(10),对应于将实际不响应的顾客错误判断为响应而邮寄产品目录,带来的利润为负,等于联系顾客成本,(,包括产品目录制作、邮寄等成本,),的负值。,P(11),对应于将实际响应的顾客正确判断为响应而邮寄产品目录,带来的利润为顾客的购买金额减去联系成本的差,;,因为,P(11),只能取一个值,这里采用的购买金额是顾客的平均购买金额。,4,获取,Y,i,的预测值,给,赋值时需要比较期望利润,:,将观测,i,归入类别,0,所带来的期望利润为,P(00)+P(01),,而将观测,i,归入类别,1,所带来的期望利润为,P(10)+P(11),;如果前者小于后者,即,则令,=1,,否则令,=0,。,5,获取,Y,i,的预测值,也可定义分类损失,令,C(l,2,l,1,),表示将实际属于类别,l,1,的观测归入类别,l,2,所产生的损失。缺省地,C(00)=C(11)=0,,,C(10)=C(01)=0。,给 赋值时需要比较期望损失,:,将观测,i,归入类别,0,所带来的期望损失为,C(00)+C(01),,而将观测,i,归入类别,1,所带来的期望损失为,C(10)+C(11),;如果前者大于后者,即,则令,=1,,否则令,=0,。,6,混淆矩阵,最简单的模型评估方法是使用下表所示的混淆矩阵,表中,N,l1l2,为实际属于类别,l,1,而被预测属于类别,l,2,的观测数;显然,,N,00,+N,01,+N,10,+N,11,=N,D,。,7,混淆矩阵,实际属于类别,0,的观测中被误分入类别,1,的比例为,N,01,/(N,00,+N,01,),,实际属于类别,1,的观测中被误分入类别,0,的比例为,N,10,/(N,10,+N,11,),,总的误分类率为,(N,01,+N,10,)/N,D,。,8,平均利润或平均损失,当分类利润和分类损失取缺省值时,评估模型的平均利润或平均损失等价于评估总误分类率。,如果定义了分类利润或分类损失,还可评估模型的平均利润,或平均损失,。,9,更加细致的评估,我们可以直接使用模型预测概率以对模型进行更加细致的评估。,设某个关于直邮营销的历史数据集,D,中有,100,000,位顾客,总体响应率为,20%,,也就是说,如果把产品目录邮寄给这,100,000,位顾客,实际会收到,20,000,份响应。,将这,100,000,位顾客按照预测概率,从大到小进行排列,我们将考虑联系其中的某些顾客。,为了方便讨论起见,按十分位数将排列好的顾客等分为十组,考虑联系第一组的顾客、第二组的顾客,等等;但实际中可以精确到联系多少位顾客。,10,更加细致的评估,响应率,:,被联系的人中响应的比例,即,基准响应率,:,不使用任何模型而随机联系顾客时所得的响应率,出于随机性,它等于总体响应率。,捕获响应率,:,联系顾客所得的响应人数占响应者总人数的比例,即,基准捕获响应率,:,不使用任何模型而随机联系顾客时所得的捕获响应率,出于随机性,它等于被联系人数占顾客总人数的比例。,提升值,:,使用模型所得的响应率与基准响应率之比。如果提升值大于,1,,说明使用模型挑选联系人比随机挑选效果更好。,11,非累积响应情况,12,累积响应情况,13,23.6 如果卖方未能履行本合同规定的任何义务,则买方有权从履约保证金中得到补偿。,8.4密封后的竞争性磋商响应文件均应:,(2)提供本企业制造的货物、承担的工程或者服务,或者提供其他中小企业制造的货物。本项所称货物不包括使用大型企业注册商标的货物。,对建立、实施和改进质量管理体系,以增强顾客满意为目标,定期进行管理评审以确保质量管理体系的持续适宜性、充分性和有效性。郑重承诺如下:,4注目欢喜的眼神,7.8完成领导交办的其它工作。,【案例】,(二)、树状窗口及其操作,、单据、报表打印格式设置,打印机设置等。,(1)买方可在任何时候出于自身的便利向卖方发出书面通知全部或部分终止合同,终止通知应明确该终止合同是出于买方的便利,合同终止的程度,以及终止的生效日期。,(10)投标人发生影响招标公证的违法、违规行为的;,响应率图,14,响应率图,ideal,表示理想情况,:,之后,当非累积被联系人都属于非响应者时,非累积响应率变成,0,,而累积响应率等于响应者总人数与累积被联系人数之比,最后达到总体响应率。,任意响应者的预测响应概率都大于所有非响应者的预测响应概率,因此,若按照预测响应概率从大到小排序,响应者都排在非响应者的前面。,当累积被联系人数不超过响应者总人数时,不管是非累积还是累积情形,被联系的所有人都是响应者,所以非累积响应率和累积响应率都是,100%;,“model”,表示使用模型挑选联系人的情况,;,“baseline”,表示不使用任何模型而随机联系顾客的基准情况。,实际的模型当然无法达到理想效果,但模型的效果越接近理想效果越好。,15,响应率图,非累积捕获响应率图,模型效果越接近理想效果越好。,在理想情况下,当累积被联系人数不超过响应者总人数时,不管是非累积还是累积情形,被联系的所有人都是响应者,所以非累积捕获相应率和累积捕获响应率都等于相应的被联系人数与响应者点人数之比。之后非累积捕获响应率变为,0,,而累积捕获响应率变成,100%,。,累积捕获响应率图,16,准确度比率,从累积捕获响应率图还可以计算一个数值指标,:,准确度比率,(Accuracy Ratio),。,首先计算模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积,它度量了使用模型相比于基准情况而言增加的预测性能,;,然后计算理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积,它度量了理想情况相比于基准情况而言增加的性能;准确度比率是这两个面积的比值。,准确度比率的取值在,0,至,1,之间,取值,0,表示使用模型的预测效果和基准情况一样,取值,1,表示模型的预测效果和理想情况一样,;,准确度比率的值越接近于,1,,模型效果越好。,17,准确度比率,数学上,准确度比率被定义为,(,1,),r,模型,(q),表示联系模型预测概率的排序处于前面比例,q(oq1),的顾客时所得的累积捕获响应率,,0,1,r,模型,(q)dq,表示模型的累积捕获响应率曲线之下的面积。,18,准确度比率,基准累积捕获响应率,r,基准,(q)=q,,因此基准累积捕获响应率曲线之下的面积为,。,公式中的分子计算了模型的累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积,类似可推出分母计算了理想累积捕获响应率曲线与基准累积捕获响应率曲线之间的面积。,积分的近似,:,示例中使用十分位数,积分可用,来近似,;,在实际应用时可精确到每一位顾客,积分可用,来近似。,19,受试者操作特性曲线,受试者操作特性曲线,(Receiver Operating Characteristic Curve,以下简称,ROC,曲线,),也是衡量模型预测能力的一种常用工具,它来源于并经常应用于医学领域。,假设习齐模型预测响应概率大于某个临界值,C,的顾客都预测为响应者,而将其他顾客都预测为非响应者。,20,受试者操作特性曲线,特异度,(specificity),定义为真阴性,(true negative),观测数与阴性总观测数之比。,敏感度,(sensitivity),定义为真阳性,(true positive),观测数与阳性总观测数之比。,真阳性观测数指的是实际响应而模型也预测响应的顾客数,阳性总观测数指的是实际响应的顾客数,(,很容易推出,此处敏感度等于累积捕获响应率,),。,真阴性观测数指的是实际不响应而模型也预测不响应的顾客数;阴性总观测数指的是实际不响应的顾客数。,21,受试者操作特性曲线,C,的值从,1,变化到,0,时,特异度和敏感度的值都会变化,将“,1-,特异度”作为横轴、敏感度作为纵轴作图,这种变化在图中形成的曲线就被称为,ROC,曲线。,当,C=1,时,所有顾客都被预测为不会响应,因此特异度,=1(1-,特异度,=0),,敏感度,=0;,当,C=0,时,所有顾客都被预测为会响应,因此特异度,=0(1-,特异度,=1),,敏感度,=1,。,ROC,曲线是连接,(0,0),点和,(1,1),点的一条曲线。,22,受试者操作特性曲线,理想情况下,任意响应者的预测响应概率都大于所有非响应者的预测响应概率。因此,存在,C*,使得预测响应概率大于,C*,的所有顾客都是响应者,而其他顾客都是非响应者。,23,受试者操作特性曲线,当,C,C*,时,所有实际非响应者都被正确地预测为不响应,;,因为特异度是实际非响应者中被模型预测为非响应者的比例,所以特异度,=1(1-,特异度,=0),,而敏感度是实际响应者中被模型预测为响应者的比例,;,当,CC*,时,所有实际响应者都被正确地预测为响应,因此敏感度,=1,,当,C,的值从,C*,变化到,0,时,特异度从,1,变化到,0(1-,特异度”从,0,变化到,1),。,所以理想的,ROC,曲线由连接,(0,0),点和,(1,0),点的线段与连接,(1,0),点和,(1,1),点的线段组成。,24,受试者操作特性曲线,所以基准的,ROC,曲线就是连接,(o,o,点和,(1,1),点的一条对角直线。,在基准情况下,任意选取一部分顾客,其中响应者所占的比例都等于总体响应率,非响应者所占的比例都等于总体非响应率。对任意,C,值:,特异度都等于预测非响应者人数占顾客总人数的比例;,而敏感度都等于预测响应者人数占顾客总人数的比例;,它们的和总是等于,1,。,25,成为OTC药的直接使用点;,3.1经评标委员会评议认定有下列情形之一的,属于投标人相互串通投标:,处理抱怨的服务技巧,5.2管道的材质应与天然气介质相适应,不会发生化学反应。,3.标准与计量,6.7 卖方应承担由于其包装或其防护措施不完善而引起的货物锈蚀、损坏和丢失的责任。,4.7.3岗位安全操作规程,生产设备、安全装置、劳动防护用品的性能及正确使用方法,事故案例,在很多传统的企业中,工人的服务意识和危机感都不高,紧迫感不强。对待工作往往马马虎虎。针对这种情况,您认为应该采取什么样的措施来加以解决?请简要阐述您的想法。,2、设备安装质量检验单及试车记录、设备安装施工图纸;,4.5.2本单位主要危险危害因素,安全技术操作规程和安全生产规章制度;,4.2.9本企业的安全生产责任制和安全生产规章的内容;,受试者操作特性曲线,一般而言,模型的,ROC,曲线落在理想,ROC,曲线与基准,ROC,曲线之间。,基准,ROC,曲线下的面积为,0.5,,理想,ROC,曲线下的面积为,1,,一般模型,ROC,曲线下的面积在,0.5,至,1,之间,这个值越接近,1,,模型效果越好。,ROC,曲线下的面积也可作为衡量模型效果的一个数值指标。,26,受试者操作特性曲线,对
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!