分类器的评估分析课件

上传人:仙*** 文档编号:241889511 上传时间:2024-08-02 格式:PPT 页数:22 大小:574.33KB
返回 下载 相关 举报
分类器的评估分析课件_第1页
第1页 / 共22页
分类器的评估分析课件_第2页
第2页 / 共22页
分类器的评估分析课件_第3页
第3页 / 共22页
点击查看更多>>
资源描述
分类器的评估张英张英分类器的评估张英混淆矩阵与分类准确率多分类问题多分类问题的混淆矩阵的混淆矩阵预测结果类预测结果类c1c2ck总总实实际际类类c1c2ck总总n准确率准确率误分类率误分类率混淆矩阵与分类准确率多分类问题的混淆矩阵预测结果类c1c2分类模型的评价指标1.准确率与误分类率准确率与误分类率准确率准确率 =(tp+tn)/(tp+fn+fp+tn)误分类率误分类率=(fn+fp)/(tp+fn+fp+tn)真正率(灵敏度)真正率(灵敏度)=tp/(tp+fn)真负率(特指度)真负率(特指度)=tn/(fp+tn)假正率假正率 =fp/(fp+tn)假负率假负率 =fn/(tp+fn)二分类问题二分类问题的混淆矩阵的混淆矩阵预测结果类预测结果类+-总总实实际际类类+tp fntp+fn-fp tnfp+tn总总tp+fpfn+tntp+fn+fp+tn分类模型的评价指标1.准确率与误分类率二分类问题的混淆矩阵不平衡分布类二类分类问题的混淆矩阵预测结果类+10-90实际类+5+(tp)3+-(fn)2-95-+(fp)7(tn)88误分类率:误分类率:9%真正率:真正率:60%不平衡分布类二类分类问题的混淆矩阵预测结果类+10-90+5评估指标评估指标2.精度精度 P=tp/(tp+fp)3.召回率(真正率、灵敏召回率(真正率、灵敏度)度)R=tp/(tp+fn)4.FSCORE 精度和召回率精度和召回率 的调和均值:的调和均值:召回率和精度的权重相同:召回率和精度的权重相同:F=2RP/(R+P)将召回率的权重设为精度的将召回率的权重设为精度的倍:倍:二分类问题的二分类问题的混淆矩阵混淆矩阵预测结果类预测结果类+-总总实实际际类类+tp fntp+fn-fp tnfp+tn总总tp+fpfn+tntp+fn+fp+tn评估指标2.精度 二分类问题的混淆矩阵预测结果类+-评估指标二分类问二分类问题的误分题的误分类代价类代价预测结果类预测结果类+-总总实际实际类类+C(+,+)C(+,-)C(+,+)*TP+C(+,-)*FN-C(-,+)C(-,-)C(-,+)*FP+C(-,-)*TN5.误分类代价误分类代价 (成本或收益)(成本或收益)误分类代价对称误分类代价对称C(+,+)=C(-,-)=0C(+,-)=C(-,+)=1误分类代价不对称误分类代价不对称关注预测为正类成本角度收益角度二分类问题的二分类问题的混淆矩阵混淆矩阵预测结果类预测结果类+-总总实实际际类类+tp fntp+fn-fp tnfp+tn评估指标二分类问题的误分类代价预测结果类+-总实际+C(+,预测性能评估指标的选择预测性能评估指标的选择平衡分布类,对称误分类代价 准确率、误分类率,精度误分类率,精度不平衡分布类,对称误分类代价 精度,召回率,精度,召回率,FSCORE不对称误分类代价 成本或收益成本或收益预测性能评估指标的选择平衡分布类,对称误分类代价模型评估方法Hold方法方法将数据分成训练集和验证(测试)集,一般按照将数据分成训练集和验证(测试)集,一般按照2:1比例划分,以验证集指标进行评估;比例划分,以验证集指标进行评估;多次随机采样多次随机采样进行进行N次上述(次上述(1)的随机采样,然后计算)的随机采样,然后计算N个测试个测试精度的平均值精度的平均值自助法(自助法(bootstrap)(最常用的(最常用的.632自助法)自助法)进行进行N次有放回的均匀采样,获得的数据集作为训次有放回的均匀采样,获得的数据集作为训练集,原数据集中未被抽中的其它观测形成验证集。练集,原数据集中未被抽中的其它观测形成验证集。可重复可重复K次,计算准确率:次,计算准确率:模型评估方法Hold方法模型评估方法交叉验证交叉验证 数据集小的时候,可将数据集分成数据集小的时候,可将数据集分成K个不个不相交的等大数据子集,每次将相交的等大数据子集,每次将K-1个数据集作为个数据集作为训练集,将训练集,将1个数据集作为验证(测试)集,得个数据集作为验证(测试)集,得到到K个测试精度,然后计算个测试精度,然后计算K个测试指标的平均个测试指标的平均值。值。留一交叉验证:留一交叉验证:K=N;分层交叉验证:每个部分中保持目标变量的分分层交叉验证:每个部分中保持目标变量的分布。布。模型评估方法交叉验证不同分类器预测准确度差异的显不同分类器预测准确度差异的显著性检验著性检验T检验(自由度为检验(自由度为K-1)以交叉验证为例(以交叉验证为例(k为验证集观测分折数):为验证集观测分折数):相同验证集:相同验证集:不同验证集:不同验证集:不同分类器预测准确度差异的显著性检验T检验(自由度为K-1)分类器预测准确度分类器预测准确度置信区间置信区间分类器预测分类器预测真正真正准确度准确度p=其中:N:验证集观测个数;acc:基于当前验证集分类器的准确度;分类器预测准确度置信区间分类器预测真正准确度p=ROC曲线(receiver operating characteristic)曲线下方面积越大,模型越好,即曲线与曲线下方面积越大,模型越好,即曲线与y轴正向的夹角越小轴正向的夹角越小越好。越好。真正率真正率假正率假正率二分类问题二分类问题的混淆矩阵的混淆矩阵预测结果类预测结果类+-总总实实际际类类+tp fntp+fn-fp tnfp+tn总总tp+fpfn+tntp+fn+fp+tnROC曲线(receiver operating chara制作ROC曲线验证集共有验证集共有10个观测,其中正类(个观测,其中正类(P类)类)5个,负类(个,负类(N类)类)5个个将验证集各观测按照预测为正类的概率降序排列,每个观测计算对应将验证集各观测按照预测为正类的概率降序排列,每个观测计算对应的真正率和假正率,形成一个点。的真正率和假正率,形成一个点。制作ROC曲线验证集共有10个观测,其中正类(P类)5个,负提升图假定:假定:目标变量的取值为目标变量的取值为GOOD 和和BADN 为验证集观测个数;为验证集观测个数;RGOOD为验证集目标变量取为验证集目标变量取 值为值为GOOD的观测个数;的观测个数;p_good为验证集目标变量为验证集目标变量 预测为预测为GOOD的概率值;的概率值;验证集的混验证集的混淆矩阵淆矩阵预测预测结果类结果类goodbad总总实实际际类类good tp fnRGOODbad fp tnRbad总总N提升图假定:验证集的混淆矩阵预测goodbad总实good 绘制提升图1.将验证集各观测按照将验证集各观测按照p_good降序排列降序排列,等分成等分成10组。组。2.以以10个分组为横坐标个分组为横坐标 以下指标分别为纵坐标:以下指标分别为纵坐标:%response:每组中实际为:每组中实际为GOOD的观测个数占本组总的观测个数占本组总个数的比例个数的比例;%captured response:每组中实际为每组中实际为GOOD的观测个数的观测个数占占RGOOD的比例的比例;%cumulative response:前面各组中实际为前面各组中实际为GOOD的观测的观测个数占前面各组总个数的比例个数占前面各组总个数的比例%cumulative captured response:前面各组中实际为前面各组中实际为GOOD的观测个数占的观测个数占RGOOD的比例。的比例。lift value=使用模型以后的使用模型以后的%response/不使用任何模不使用任何模型进行决策的型进行决策的%response绘制提升图1.将验证集各观测按照p_good降序排列,等分成提升图某公司发送了某公司发送了1000封广告邮件,有封广告邮件,有200个客户响应了邮件(即由于收个客户响应了邮件(即由于收到邮件而在该公司产生了消费行为)。每个到邮件而在该公司产生了消费行为)。每个10分位(分位(100个观测)的响个观测)的响应者个数根据对验证数据集的计算得到。应者个数根据对验证数据集的计算得到。提升图某公司发送了1000封广告邮件,有200个客户响应决策阈值选择根据每个观测预测为每个目标类的根据每个观测预测为每个目标类的概率决定该观测的目标类值。概率决定该观测的目标类值。对二分类:对二分类:理论阈值理论阈值p=1/(1+1/B)B=C(-,+)/C(+,-)根据提升图和实际业务背景选择根据提升图和实际业务背景选择合适的分组比例。合适的分组比例。根据分组比例决定最终决策阈值。根据分组比例决定最终决策阈值。决策阈值选择根据每个观测预测为每个目标类的概率决定该观测的目提高分类准确率技术组合分类提高分类准确率技术组合分类组合分类方法有放回抽样产生多个样本装袋:多数表决决定最终结果提升(ada boost)随机森林:多颗决策树,随机属性选择组合分类方法有放回抽样产生多个样本组合方法联合方法处理多类问题的方法组合方法联合方法不平衡分布类处理技术抽样技术过抽样技术对稀有类重复抽样欠抽样技术对多数类随机抽样混合抽样技术阈值移动技术组合技术不平衡分布类处理技术抽样技术分类器性能指标分类器性能指标运行速度运行速度鲁棒性(对噪声和缺失值的适应性)鲁棒性(对噪声和缺失值的适应性)可伸缩性(对数据规模扩大的适应性)可伸缩性(对数据规模扩大的适应性)可解释性可解释性分类器性能指标运行速度
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!