多维关联规则ppt课件

上传人:钟*** 文档编号:5874641 上传时间:2020-02-10 格式:PPT 页数:18 大小:277.50KB
返回 下载 相关 举报
多维关联规则ppt课件_第1页
第1页 / 共18页
多维关联规则ppt课件_第2页
第2页 / 共18页
多维关联规则ppt课件_第3页
第3页 / 共18页
点击查看更多>>
资源描述
基于Apriori性质的多维关联规则数据挖掘 汇报人 1 背景知识 关于数据挖掘关联规则及Apriori算法 2 数据挖掘是一项从大量的记录数据中提取有价值的 人们感兴趣的知识 这些知识是隐含的 事先未知的有用信息 提取的知识一般可表示为概念 Concepts 规则 Rules 规律 Regularides 模式 Patterns 等形式 关联规则是当前数据挖掘研究的主要方法之一 侧重于确定数据中不同领域之间的联系 找出满足给定支持度和可信度阈值的多个域之间的依赖关系 例 在销售手机的商店中 70 的包含手机的交易中包含充电器 在所有交易中 有56 同时包含这两种物品 于是规则表示为手机 充电器 可信度70 支持度56 3 关联规则的基本概念 设是项的集合 设任务相关的数据D是数据库事务的集合 其中每个事物T是项的集合 使得每一个事务有一个标识符TID 设A是一个项集 事务T包含A当且仅当 关联规则是形如的蕴涵式 其中 并且规则在事务D中成立具有支持度S和置信度C 把满足最小支持度阈值和最小置信度阈值的规则成为强规则 项的集合称为项集 itemset 包含K个项集称为K 项集 如果项集满足最小支持度 则称它为频繁项集 4 关联规则的挖掘是一个两步的过程 1 找出所有频繁项集2 由频繁项集产生强关联规则 根据定义 这些规则必须满足最小支持度和最小置信度 5 Apriori算法 Apriori算法是最有影响的关联规则挖掘算法之一 它的中心思想是首先通过对事务数据库进行扫描 找出支持度不小于最小支持度的所有项目 即频繁1 项集 接下来的工作是循环的 每次循环分2步进行 1 连接 对频繁k 项集中的项进行连接 2 减枝 在减枝这一步主要根据一个频繁项目集的任何一个子集都应该是频繁的这一思想对连接后的项目集进行筛选 删除那些子集不是频繁集的项目集 得出候选 k 1 项集 即对数据库进行扫描 计算候选项的支持度 从候选集中删除支持度小于最小支持度的候选项 进而得出频繁 k 1 项集 循环的终止条件是频繁k 项集为空 也就是说再也找不出相关联的项目了 6 举例说明Aporiori算法 7 Apriori性质 频繁项集的所有非空子集也是频繁的例如 如果 AB 是频繁项目集 则 A B 也一定是频繁项目集 8 加权关联规则挖掘 传统的关联规则挖掘算法通常都认为数据库里每个项目都有相同的重要性 没有主要 次要之分 但在实际中 往往存在一类这样的情况 用户对每个项目的看重程度不一样 有的项目是用户最看重 最关心的 有的项目是用户关注性不大 因此需要引进权重的概念 9 加权关联规则的描述 设是项的集合 每个项都有一个权值与之对应 它们的权值分别是 w1 w2 wk wi 0 1 事先指定最小加权支持度阈值为wminsup和最小置信度阈值minconf 对于项目集X 如果wsup X wminsup 则X是加权频繁的 形如X Y的关联规则的加权支持度为 置信度的定义仍然沿用Apriori算法里的定义 即 conf X Y sup X Y sup X 10 加权关联规则的描述 对于项目集X Y X Y 如果有wsup X Y wminsup 且conf X Y minconf 则称X Y是一条加权关联规则 11 权值的设定 加权支持度 1 平均值 2 归一化 3 最大值 12 想法 1 先不考虑项目的权值 利用传统的Apriori算法找出支持度不小于最小加权支持度的所有的频繁项目集 由于项目集的权值小于1 所以项目集的加权支持度一定小于支持度 所以生成的频繁集一定是加权频繁集的超集 2 计算所生成频繁项目集中所有项目集的加权支持度 并把加权支持度小于最小加权支持度的项目集删除 从而得到所有加权频繁集 3 利用加权频繁集来生成所有的加权关联规则 13 Apriori的瓶颈 Apriori算法的核心 用频繁的 k 1 项集生成候选的频繁k 项集用数据库扫描和模式匹配计算候选集的支持度Apriori的瓶颈 候选集生成巨大的候选集 104个频繁1 项集要生成107个候选2 项集要找尺寸为100的频繁模式 如 a1 a2 a100 你必须先产生2100 1030个候选集多次扫描数据库 如果最长的模式是n的话 则需要 n 1 次数据库扫描 14 提高Apriori效率的方法 事务压缩 不包含任何频繁k 项集的交易也不可能包含任何大于k的频繁集基于划分 一个项集要想在整个数据库中是频繁的 那么他至少在数据库的一个分割上是频繁的 采样 在给定数据的子集上挖掘 使用小的支持度 完整性验证方法动态项集计数 在添加一个新的候选集之前 先估计一下是不是他的所有子集都是频繁的 基于哈希表的算法 15 今后的工作 加权关联规则挖掘算法的研究 项目属性加权后 Apriori性质不再适用 算法如何优化 16 参考文献 1 范明 孟小峰等译 数据挖掘 概念与技术 北京 机械工业出版社 2001 2 AgrawalR SrikantR FastAlgorithmsforMiningAssociationRules In Procof1994Int 1ConfofVeryLargeDataBase Santiago Chili VLDBEndowment 1994 487 499 3 胡和平 路松峰 加权关联规则的开采 小型微型计算机系统 2001 22 3 347 375 4 张文献 陆建江 加权布尔型关联规则的研究 计算机工程 2003 29 9 55 57 5 张智军 方颖 许云涛 基于Apriori算法的水平加权关联规则挖掘 计算机工程与应用 2003 39 14 197 199 17 6 R Agrawal etal Miningassociationrulesbetweensetsofitemsinlagerdatabases In Proc ACMSIGMODint 1conf managementofdata Washington DC May1993 207 216 7 Weiwang EffcientMiningofweightedAssociationrules 18
展开阅读全文
相关资源
相关搜索

当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!