关联规则分析及应用课件

上传人:20****08 文档编号:241399673 上传时间:2024-06-23 格式:PPT 页数:24 大小:2.14MB
返回 下载 相关 举报
关联规则分析及应用课件_第1页
第1页 / 共24页
关联规则分析及应用课件_第2页
第2页 / 共24页
关联规则分析及应用课件_第3页
第3页 / 共24页
点击查看更多>>
资源描述
关联规则分析及应用ppt课件关联规则分析及应用ppt课件1目录目录目录目录基本概念基本概念关联规则挖掘过程关联规则挖掘过程分类分类关联规则的价值衡量关联规则的价值衡量4123挖掘算法挖掘算法关联规则的应用关联规则的应用562012-10-122目录基本概念关联规则挖掘过程分类关联规则的价值衡量4123挖2绪论绪论绪论绪论p在购买铁锤的顾客当中,有70的人同时购买了铁钉。p年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。p在超市购买面包的人有70%会购买牛奶2012-10-123绪论在购买铁锤的顾客当中,有70的人同时购买了铁钉。2013绪论绪论绪论绪论2012-10-124绪论2012-10-1244一、基本概念一、基本概念一、基本概念一、基本概念设 I=I1,I2,In 是项的集合。v任务相关数据D:是事务(或元组)的集合。v事务T:是项的集合,且每个事务具有事务标识符TID。v项集A:是T 的一个子集,加上TID 即事务。v项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集如二项集I1,I2。v支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。2012-10-125一、基本概念设 I=I1,I2,In 是项的集合。25一、基本概念一、基本概念一、基本概念一、基本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABI In(n=1,2,)指具体项目,如购物篮分析中:I1=苹果I2=面包I3=牛奶I4=尿布I5=啤酒Support-count(I1)=62012-10-126一、基本概念TIDItems001I1、I2、I5002I26一、基本概念一、基本概念一、基本概念一、基本概念v关联规则:形如 A=B 的蕴涵式,其中A I,BI,并且 AB=。v支持度:关联规则在D中的支持度(support)是D中事务同时包含A、B的百分比,即概率。规则代表性、重要性衡量 Support(A B)=P(A B)=support _ count(AB)count(T)v频繁项集:若一个项集的支持度大于等于某个阈值。2012-10-127一、基本概念关联规则:形如 A=B 的蕴涵式,其中A7一、基本概念一、基本概念一、基本概念一、基本概念v置信度置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则准确性衡量 confidence(A B)=P(B|A)v强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。2012-10-128=9support _ count(A U B)support_count(A)一、基本概念置信度c:是包含A的事务中同时又包含B的百分比,8二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程两个步骤:找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。挖掘模式:2012-10-129min_supmin_conf产生频繁项集生成强关联规则规则评价用户Database二、关联规则挖掘过程两个步骤:2012-10-129min_9二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程关联规则挖掘举例:关联规则挖掘举例:假定数据包含频繁项集M=I1,I2,I5。可以由M 产生哪些关联规则?2012-10-1210二、关联规则挖掘过程关联规则挖掘举例:2012-10-12110二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程vM 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。2012-10-1211项集项集支持度支持度计数计数67622I1I2I3I4I5项集项集支持度计支持度计数数I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2项集项集支持度支持度计数计数I1,I2,I32I1,I2,I52二、关联规则挖掘过程M 的非空真子集有I1,I2、I111二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程I1 I2 I5,I1 I5 I2,I2 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,2012-10-1212confidence=2/4=50%confidence=2/2=100%confidence=2/2=100%confidence=2/6=33%confidence=2/7=29%confidence=2/2=100%二、关联规则挖掘过程I1 I2 I5,2012-1012二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为只有这些是产生的强关联规则。2012-10-1213I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence=2/2=100%confidence=2/2=100%confidence=2/2=100%二、关联规则挖掘过程如果最小置信度阈值为70%,那么只有第213二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程对强关联规则的批评:eg:2012-10-1214项目项目打篮球打篮球不打篮球不打篮球合计合计喝麦片200017503750不喝麦片10002501250合计300020005000 在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。打篮球=喝麦片粥 40%,66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。打篮球=不喝麦片粥 20%,33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。二、关联规则挖掘过程对强关联规则的批评:2012-10-1214二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程二、关联规则挖掘过程兴趣度(作用度):描述了项集A对项集B的影响力的大小,即A与B的相关程度。P(AB)P(A)P(B)若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立;若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。小结:只有兴趣度大于1,该规则才具有实际价值。2012-10-1215I(A B)=二、关联规则挖掘过程兴趣度(作用度):描述了项集A对项集B的15三、关联规则的分类三、关联规则的分类三、关联规则的分类三、关联规则的分类p基于规则中处理的变量的类别基于规则中处理的变量的类别A.布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;B.数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。eg:性别=“女”=职业=“秘书”性别=“女”=avg(收入)=23002012-10-1216三、关联规则的分类基于规则中处理的变量的类别2012-10-16三、关联规则的分类三、关联规则的分类三、关联规则的分类三、关联规则的分类p基于规则中处理的变量的类别基于规则中处理的变量的类别A.布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;B.数值型 :数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。eg:性别=“女”=职业=“秘书”性别=“女”=avg(收入)=23002012-10-1217三、关联规则的分类基于规则中处理的变量的类别2012-10-17三、关联规则的分类三、关联规则的分类三、关联规则的分类三、关联规则的分类p基于规则中数据的抽象层次:基于规则中数据的抽象层次:A.单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的;B.多层关联规则:对数据的多层性已经进行了充分的考虑。层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。eg:IBM台式机=Sony打印机 台式机=Sony打印机2012-10-1218三、关联规则的分类基于规则中数据的抽象层次:2012-10-18三、关联规则的分类三、关联规则的分类三、关联规则的分类三、关联规则的分类2012-10-1219分层示例:三、关联规则的分类2012-10-1219分层示例:19三、关联规则的分类三、关联规则的分类三、关联规则的分类三、关联规则的分类2012-10-1220p基于规则中数据的基于规则中数据的维数维数:A.单维关联规则:只涉及到数据的一个维,如用户购买的物品;B.多维关联规则:要处理的数据将会涉及多个维。eg:啤酒=尿布 性别=“女”=职业=“秘书”TID姓名姓名性别性别职业职业购买物品购买物品月工资月工资001张三女秘书尿布3000002李四男工程师啤酒、尿布5000三、关联规则的分类2012-10-1220基于规则中数据的维20四、关联规则的价值衡量四、关联规则的价值衡量四、关联规则的价值衡量四、关联规则的价值衡量对关联规则的评价与价值衡量涉及两个层面:对关联规则的评价与价值衡量涉及两个层面:A.系统客观的层面 使用“支持度和信任度”框架可能会产生一些不正确的规则。B.用户主观的层面只有用户才能决定规则的有效性、可行性。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。2012-10-1221四、关联规则的价值衡量对关联规则的评价与价值衡量涉及两个层面21五、关联规则的挖掘算法五、关联规则的挖掘算法五、关联规则的挖掘算法五、关联规则的挖掘算法2012-10-1222uApriori算法 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。不足:产生大量候选频繁集、多次扫描数据库uFP-Tree算法 优点:不产生候选频繁集、只两次扫描数据库u其他算法五、关联规则的挖掘算法2012-10-1222Apriori22六、关联规则的应用六、关联规则的应用六、关联规则的应用六、关联规则的应用气象预气象预测测医疗诊医疗诊断断购物分购物分析析2012-10-1223六、关联规则的应用气象预测医疗诊断购物分析2012-10-123Thank You!Thank You!2012-10-1224Thank You!2012-10-122424
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!