多维关联规则ppt课件

资源描述

基于Apriori性质的多维关联规则数据挖掘汇报人 1 背景知识关于数据挖掘关联规则及Apriori算法 2 数据挖掘是一项从大量的记录数据中提取有价值的人们感兴趣的知识这些知识是隐含的事先未知的有用信息提取的知识一般可表示为概念 Concepts 规则 Rules 规律 Regularides 模式 Patterns 等形式关联规则是当前数据挖掘研究的主要方法之一侧重于确定数据中不同领域之间的联系找出满足给定支持度和可信度阈值的多个域之间的依赖关系例在销售手机的商店中 70 的包含手机的交易中包含充电器在所有交易中有56 同时包含这两种物品于是规则表示为手机充电器可信度70 支持度56 3 关联规则的基本概念设是项的集合设任务相关的数据D是数据库事务的集合其中每个事物T是项的集合使得每一个事务有一个标识符TID 设A是一个项集事务T包含A当且仅当关联规则是形如的蕴涵式其中并且规则在事务D中成立具有支持度S和置信度C 把满足最小支持度阈值和最小置信度阈值的规则成为强规则项的集合称为项集 itemset 包含K个项集称为K 项集如果项集满足最小支持度则称它为频繁项集 4 关联规则的挖掘是一个两步的过程 1 找出所有频繁项集2 由频繁项集产生强关联规则根据定义这些规则必须满足最小支持度和最小置信度 5 Apriori算法 Apriori算法是最有影响的关联规则挖掘算法之一它的中心思想是首先通过对事务数据库进行扫描找出支持度不小于最小支持度的所有项目即频繁1 项集接下来的工作是循环的每次循环分2步进行 1 连接对频繁k 项集中的项进行连接 2 减枝在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选删除那些子集不是频繁集的项目集得出候选 k 1 项集即对数据库进行扫描计算候选项的支持度从候选集中删除支持度小于最小支持度的候选项进而得出频繁 k 1 项集循环的终止条件是频繁k 项集为空也就是说再也找不出相关联的项目了 6 举例说明Aporiori算法 7 Apriori性质频繁项集的所有非空子集也是频繁的例如如果 AB 是频繁项目集则 A B 也一定是频繁项目集 8 加权关联规则挖掘传统的关联规则挖掘算法通常都认为数据库里每个项目都有相同的重要性没有主要次要之分但在实际中往往存在一类这样的情况用户对每个项目的看重程度不一样有的项目是用户最看重最关心的有的项目是用户关注性不大因此需要引进权重的概念 9 加权关联规则的描述设是项的集合每个项都有一个权值与之对应它们的权值分别是 w1 w2 wk wi 0 1 事先指定最小加权支持度阈值为wminsup和最小置信度阈值minconf 对于项目集X 如果wsup X wminsup 则X是加权频繁的形如X Y的关联规则的加权支持度为置信度的定义仍然沿用Apriori算法里的定义即 conf X Y sup X Y sup X 10 加权关联规则的描述对于项目集X Y X Y 如果有wsup X Y wminsup 且conf X Y minconf 则称X Y是一条加权关联规则 11 权值的设定加权支持度 1 平均值 2 归一化 3 最大值 12 想法 1 先不考虑项目的权值利用传统的Apriori算法找出支持度不小于最小加权支持度的所有的频繁项目集由于项目集的权值小于1 所以项目集的加权支持度一定小于支持度所以生成的频繁集一定是加权频繁集的超集 2 计算所生成频繁项目集中所有项目集的加权支持度并把加权支持度小于最小加权支持度的项目集删除从而得到所有加权频繁集 3 利用加权频繁集来生成所有的加权关联规则 13 Apriori的瓶颈 Apriori算法的核心用频繁的 k 1 项集生成候选的频繁k 项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈候选集生成巨大的候选集 104个频繁1 项集要生成107个候选2 项集要找尺寸为100的频繁模式如 a1 a2 a100 你必须先产生2100 1030个候选集多次扫描数据库如果最长的模式是n的话则需要 n 1 次数据库扫描 14 提高Apriori效率的方法事务压缩不包含任何频繁k 项集的交易也不可能包含任何大于k的频繁集基于划分一个项集要想在整个数据库中是频繁的那么他至少在数据库的一个分割上是频繁的采样在给定数据的子集上挖掘使用小的支持度完整性验证方法动态项集计数在添加一个新的候选集之前先估计一下是不是他的所有子集都是频繁的基于哈希表的算法 15 今后的工作加权关联规则挖掘算法的研究项目属性加权后 Apriori性质不再适用算法如何优化 16 参考文献 1 范明孟小峰等译数据挖掘概念与技术北京机械工业出版社 2001 2 AgrawalR SrikantR FastAlgorithmsforMiningAssociationRules In Procof1994Int 1ConfofVeryLargeDataBase Santiago Chili VLDBEndowment 1994 487 499 3 胡和平路松峰加权关联规则的开采小型微型计算机系统 2001 22 3 347 375 4 张文献陆建江加权布尔型关联规则的研究计算机工程 2003 29 9 55 57 5 张智军方颖许云涛基于Apriori算法的水平加权关联规则挖掘计算机工程与应用 2003 39 14 197 199 17 6 R Agrawal etal Miningassociationrulesbetweensetsofitemsinlagerdatabases In Proc ACMSIGMODint 1conf managementofdata Washington DC May1993 207 216 7 Weiwang EffcientMiningofweightedAssociationrules 18

展开阅读全文