关联分析高级概念ppt课件

资源描述

关联分析高级概念第7章关联分析高级概念关联分析处理事务数据 RulesDiscovered Diaper Beer 处理分类属性我们可能发现关于因特网用户特征的有趣信息网上购物是关注隐私是许多应用包含对称二元属性和标称属性表7 1显示的因特网调查数据包含对称二元属性如性别家庭计算机网上聊天网上购物和关注隐私还包括标称属性如文化程度和州处理分类属性为了提取这样的模式我们需要将标称属性和对称二元属性转换成项使得已有的关联规则挖掘算法可以使用这种类型的变化可以通过为每个不同的属性值对创建一个新的项来实现例如标称属性文化程度可以用三个二元项取代文化程度大学文化程度研究生文化程度高中类似的对称二元属性性别可以转换成一对二元项性别男性别女处理分类属性将关联分析用于二元化后的数据时需要考虑如下问题 1 有些属性值可能不够频繁不能成为频繁模式的一部分如州名解决办法将相关的属性值分组形成少数类别例如每个州名都可以用对应的地理区域取代例如分别用中西部太平洋西北部西南部和东海岸取代处理分类属性将关联分析用于二元化后的数据时需要考虑如下问题 2 某些属性值的频率可能比其他属性高很多如假定85 的被调查人都有家庭计算机如果为每个频繁出现在数据中的属性值创建一个二元项我们可能产生许多冗余模式家庭计算机是网上购物是关注隐私是解决办法使用处理具有宽支持度的极差数据集的技术处理分类属性将关联分析用于二元化后的数据时需要考虑如下问题 3 计算时间可能增加特别是当新创建的项变成频繁项时因为会产生更多的候选项集解决办法避免产生包含多个来自同一个属性的项的候选项集例如不必产生诸如州 X 州 Y 的候选项集因为该项集支持度为零处理连续属性因特网调查数据可能还包含连续属性如表7 3所示挖掘连续属性可能揭示数据的内在联系如年收入超过120k的用户属于45 60年龄组或拥有超过3个email帐号并且每周上网超过15小时的用户通常关注个人隐私包含连续属性的关联规则通常称作量化关联规则 quantiativeassociationrule 对连续数据进行关联分析的方法基于离散化的方法非离散化方法基于统计学的方法基于离散化的方法离散化是处理连续属性最常用的方法这种方法将连续属性的邻近值分组形成有限个区间例如年龄属性可以划分为如下区间 12 16 16 20 20 24 56 60 离散化技术等宽等频聚类表7 4显示了离散化和二元化后的因特网调查数据属性离散化的一个关键在于划分每个属性的区间个数和宽度然而确定正确的区间是困难的如果支持度阈值 5 置信度阈值 65 我们可以从表中推出年龄和网上聊天隐含强规则 16 24 网上聊天是 s 8 8 c 81 5 44 60 网上聊天否 s 16 8 c 70 区间宽度对关联分析结果的影响 1 如果区间太宽则可能因为缺乏置信度而失去某些规则例如当区间宽度为24岁时上面的两个规则变为 16 36 网上聊天是 s 30 57 7 36 60 网上聊天否 s 28 58 3 区间宽度对关联分析结果的影响 2 如果区间太窄则可能因为缺乏支持度而失去某些规则例如当区间宽度为4岁时上面的两个规则变为 16 20 网上聊天是 s 4 4 84 6 20 24 网上聊天是 s 4 4 78 6 3 当区间宽度为8岁时上面的两个规则变为 44 52 网上聊天否 s 8 4 70 52 60 网上聊天否 s 8 4 70 12 20 网上聊天是 s 9 2 60 5 20 28 网上聊天是 s 9 2 60 0 非离散化方法有一些应用分析者更感兴趣的是发现连续属性之间的关系例如找出表7 6所示文本文档中词的关联在文本挖掘中分析者更感兴趣的是发现词之间的关联例如数据和挖掘而不是词频区间例如数据 1 4 挖掘 2 3 之间的关联一种方法是将数据变换成0 1矩阵其中如果规范化词频超过某个阈值t 则值为1 否则为0 该方法缺点是阈值难确定另一种方法是采用min apriori方法 S word1 word2 min 0 3 0 6 min 0 1 0 2 min 0 4 0 2 min 0 2 0 0 6Min apriori中支持度s随着词的规范化频率增加而增大随包含该词的文档个数增加而单调递增处理概念分层概念分层是定义在一个特定的域中的各种实体或概念的多层组织概念分层可以用有向无环图表示概念分层主要优点 1 位于层次结构较下层的项如 AC适配器可能没有足够的支持度但是作为概念分层结构中它们的父母结点如便携机配件具有较高支持度 2 在较低层发现的规则倾向于过于特殊可能不如较高层的规则令人感兴趣如脱脂牛奶普通面包脱脂牛奶白面包等过于特殊实现概念分层的方法每个事务t用它的扩展事务t 取代其中 t 包含t中所有项和它们的对应祖先如事务 DVD 普通面包可以扩展为 DVD 普通面包家电电子产品面包食品然后对扩展的数据库使用如Apriori等已有的算法来发现跨越多个概念层的规则概念分层主要缺点 1 处于较高层的项比处于较低层的项趋向于具有较高的支持度计数 2 概念分层的引入增加了关联分析的计算时间 3 概念分层的引入可能产生冗余规则规则X Y是冗余的如果存在一个更一般的规则X Y 其中X 是X的祖先 Y 是Y的祖先并且两个规则具有非常相似的置信度例如面包牛奶白面包脱脂牛奶序列模式购物篮数据常常包含关于商品何时被顾客购买的时间信息可以使用这种信息将顾客在一段时间内的购物拼接成事务序列然而迄今为止所讨论的关联模式概念都只强调同时出现关系而忽略数据中的序列信息对于识别动态系统的重现特征或预测特定事件的未来发生序列信息可能是非常有价值的序列模式将与对象A有关的所有事件按时间增序排列就得到A的一个序列 sequence SequenceDatabase 一般地序列是元素 element 的有序列表可以记作s 其中每个ej是一个或多个事件的集族即ej i1 i2 ik Sequence E1E2 E1E3 E2 E3E4 E2 Element Transaction Event Item 序列数据的例子子序列 Subsequence 序列t是另一个序列s的子序列 subsequence 如果t中每个有序元素都是s中一个有序元素的子集序列模式发现 SequentialPatternMining 设D是包含一个或多个数据序列的数据集序列s的支持度是包含s的所有数据序列所占的比例如果序列s的支持度大于或等于用户指定的阈值minsup 则称s是一个序列模式或频繁序列定义7 1序列模式发现给定序列数据库D和用户指定的最小支持度阈值minsup 序列模式发现的任务是找出支持度大于或等于minsup的所有序列例子 Minsup 50 ExamplesofFrequentSubsequences s 60 s 60 s 80 s 80 s 80 s 60 s 60 s 60 s 60 提取序列模式蛮力方法给定n个事件的集族 i1 i2 i3 in候选1 序列候选2 序列候选3 序列候选序列的个数比候选项集的个数大得多产生更多候选的原因有下面两个一个项在项集中最多出现一次但一个事件可以在序列中出现多次给定两个项i1和i2 只能产生一个候选2 项集 i1 i2 但却可以产生许多候选2 序列如次序在序列中是重要的但在项集中不重要例如 1 2 和 2 1 表示同一个项集而和对应于不同的序列因此必须分别产生先验原理对序列数据成立包含特定k 序列的任何数据序列必然包含该k 序列的所有 k 1 序列序列模式发现的类Apriori算法候选产生一对频繁 k 1 序列合并产生候选k 序列为了避免重复产生候选传统的Apriori算法仅当前k 1项相同时才合并一对频繁k 项集类似的方法可以用于序列例子通过合并和得到由于事件3和事件4属于第二个序列的不同元素它们在合并后序列中也属于不同的元素通过合并和得到由于事件3和事件4属于第二个序列的相同元素 4被合并到第一个序列的最后一个元素中候选剪枝一个候选k 序列被剪枝如果它的 k 1 序列最少有一个是非频繁的例如假设是一个候选4 序列我们需要检查和是否是频繁3 序列由于它们都不是频繁的因此可以删除候选支持度计数在支持度计数期间算法将枚举属于一个特定数据序列的所有候选k 序列计数之后算法将识别出频繁k 序列并可以丢弃其支持度计数小于最小支持度阈值minsup的候选图7 6 时限约束模式的事件和元素都施加时限约束例子学生A 学生B 感兴趣的模式是意思是说注册数据挖掘课程的学生必须先选修数据库系统和统计学方面的课程显然该模式被这两个学生支持尽管他们都没有同时选修统计学和数据库系统相比之下一个10年之前选修了统计学课程的学生不能认为支持该模式因为这些课程的时间间隔太长了图7 7解释了可以施加在模式上的某些时限约束最大跨度约束最大跨度约束指定整个序列中所允许的事件的最晚和最早发生时间的最大时间差假定最大时间跨度maxspan 3 下面的表包含了给定的数据序列支持和不支持的序列模式一般 maxspan越长在数据序列中检测到模式的可能性就越大然而较长的maxspan也可能捕获不真实的模式可能涉及陈旧事件最大跨度约束影响序列模式发现算法的支持度计数施加最大时间跨度约束之后有些数据序列就不再支持候选模式最小间隔和最大间隔约束时限约束也可以通过限制序列中两个相继元素之间的时间差来指定如果最大时间差 maxgap 是一周则元素中的事件必须在前一个元素的事件出现后的一周之内出现如果最小时间差 mingap 是0 则元素中的事件必须在前一个元素的事件出现之后出现假定maxgap 3 mingap 1 下表给出了模式通过或未通过最大间隔和最小间隔约束的例子与最大跨度一样这些约束也影响序列模式发现算法的支持度计数因为当最小间隔和最大间隔约束存在时有些数据序列就不再支持候选模式使用最大间隔约束可能违反先验原理为了解释这一点考虑图7 5中的数据集如果没有最小间隔或最大间隔约束和的支持度都是60 然而如果mingap 0 maxgap 1 则的支持度下降至40 而的支持度仍然是60 这与先验原理相违背例子 Minsup 50 ExamplesofFrequentSubsequences s 60 s 60 s 80 s 80 s 80 s 60 s 60 s 60 s 60 定义7 2邻接子序列序列s是序列w 的邻接子序列 contiguoussubsequence 如果下列条件之一成立 1 s是从e1或ek中删除一个事件后由w得到 2 s是从至少包含两个事件的任意ei w中删除一个事件后由w得到 3 s是t的邻接子序列而t是w的邻接子序列定义7 3修订的先验原理如果一个k 序列是频繁的则它的所有邻接 k 1 子序列也一定是频繁的在候选剪枝阶段并非所有的k 序列都需要检查因为它们中的一些可能违反最大间隔约束例如如果maxgap 1 则不必检查候选的子序列是否是频繁的因为元素 2 3 和 5 之间的时间差大于一个时间单位我们只需要考察的邻接子序列包括和窗口大小约束最后元素sj中的事件不必同时出现可以定义一个窗口大小阈值 ws 来指定序列模式的任意元素中事件最晚和最早出现之间的最大允许时间差窗口大小为0表明模式同一元素中的所有事件必须同时出现下面的例子使用ws 2 mingap 0 maxgap 3 maxspan 子图模式关联分析方法应用到远比项集和序列更复杂实体例子包括化学化合物 3 D蛋白质结构网络拓扑和树结构的XML文档这些实体可以用图形表示建模在这种类型的数据上进行数据挖掘的任务是在图的集合中发现一组公共子结构这样的任务称作频繁子图挖掘图与子图定义7 5支持度给定一个图的集族子图g的支持度定义为包含它的所有图所占的百分比即例7 2考虑5个图G1到G5 如图7 10所示右上角的图g1是G1 G3 G4 G5的子图因此s g1 4 5 80 类似地我们由s g2 60 因为g2是G1 G2和G3的子图而s g3 40 因为g3是G1和G3的子图频繁子图挖掘定义7 6频繁子图挖掘给定图的集合和支持度阈值minsup 频繁子图挖掘的目标是找出所有使得s g minsup的子图g 本章的讨论主要关注无向连通图 undirected connectedgraph 挖掘频繁子图是一项计算量很大的任务因为搜索空间是指数的为了解释这项任务的复杂性考虑一个包含d个实体的数据集在频繁项集挖掘中每个实体是一个项待考察的搜索空间是2d 这是可能产生的候选项集的个数在频繁子图挖掘中每个实体是一个顶点并且最多可以有d 1条到其他顶点的边假定顶点的标号是唯一的则子图的总数是其中是选择i个顶点形成子图的方法数而是子图的顶点之间边的最大值表7 8对不同的d比较了项集和子图的个数挖掘频繁子图的一种蛮力方法是产生所有的连通子图作为候选并计算它们各自的支持度考虑图7 11a中显示的图假定顶点标号选自集合 a b 而边的标号选自集合 p q 则具有一个到三个顶点的连通子图列在图7 11b中候选子图的个数比传统的关联规则挖掘中的候选项集的个数大得多其原因一个项在一个项集中至多出现一次而一个顶点标号可能在一个图中出现多次相同的顶点标号对可以有多种边标号选择把事务转化为图把图转化为事务频繁子图挖掘算法的一般结构一种挖掘频繁子图的类Apriori算法由以下步骤组成候选产生合并频繁 k 1 子图对得到候选k 子图候选剪枝丢弃包含非频繁的 k 1 子图的所有候选k 子图支持度计数统计中包含每个候选的图的个数候选删除丢弃支持度小于minsup的所有候选子图候选产生在候选产生阶段一对频繁 k 1 子图合并成一个候选k 子图如何定义子图的大小k 在图7 11显示的例子中 k是图中的顶点个数通过添加一个顶点迭代的扩展子图的方法称作顶点增长 vertexgrowing K也可以是图中边的个数添加一条边到已有的子图中来扩展子图的方法称作边增长 edgegrowing 为了避免产生重复的候选可以对合并施加附加的条件两个 k 1 子图必须共享一个共同的 k 2 子图共同的 k 2 子图称作核 core 通过顶点增长产生候选用邻接矩阵表示图顶点增长方法可以看成合并一对 k 1 k 1 的邻接矩阵产生k k邻接矩阵的过程通过顶点增长合并子图的过程邻接矩阵M1与另一个邻接矩阵M2合并如果删除M1和M2的最后一行和最后一列得到的子矩阵相同结果矩阵是M1 添加上M2的最后一行和最后一列新矩阵的其余项或者为0 或者用连接顶点对的合法的边标号替换 VertexGrowing a r a r 结果图包含的边比原来的图多一条或两条 d e 可以相连或不相连由于该边的标号未知我们需要对 d e 考虑所有可能的边标号从而大大增加了候选子图的个数通过边增长产生候选在候选产生期间边增长将一个新的边插入一个已经存在的频繁子图中与顶点增长不同结果子图的顶点个数不一定增加通过边增长产生候选子图的过程概括如下一个频繁子图g1与另一个频繁子图g2合并仅当从g1删除一条边得到的子图与从g2删除一条边得到的子图拓扑等价合并后结果子图是g1 添加g2的那条额外的边 a 顶点拓扑等价 topologicallyequivalent 加入一条新边到v1与加入该边到v2产生的图相同则v1和v2两顶点拓扑等价顶点拓扑等价的概念能够帮助我们理解在边增长时为什么能够产生多个候选子图如果a和c拓扑等价我们将它们记作a c 对于核外边的点如果它们的标号相同我们将它们记作b d 当与一对 k 1 子图相关联的核有多个时还可能产生多个候选子图候选剪枝产生候选k 子图后需要剪去 k 1 子图非频繁的候选候选剪枝可以通过如下步骤实现相继从k 子图删除一条边并检查对应的 k 1 子图是否连通且频繁如果不是则该候选k 子图可以丢弃为了检查 k 1 子图是否频繁需要将它与其他频繁 k 1 子图匹配判定两个图是否拓扑等价称为图同构 graphisomorphism 问题为了解释图同构问题的困难性考虑图7 19中的两个图同构图处理图同构处理图同构问题的标准方法是将每一个图都映射到一个唯一的串表达式称作代码 code 或规范标号 canonicallabel 规范标号具有如下性质如果两个图是同构的则它们的代号一定相同这个性质使得我们可以通过比较图的规范标号来检查图同构构造图的规范标号的第一步是找出图的邻接矩阵表示一个图可以有多种邻接矩阵表示因为存在多种确定顶点次序的方法数学上讲每个排列都对应于初始邻接矩阵与一个对应的排列矩阵的乘积如下面的例子所示例子考虑下面的矩阵其中 P13是通过交换单位矩阵的第一行和第三行得到的为了交换M的第一和第三行和列排列矩阵与M相乘 M右乘P13交换M的第一列和第三列而M左乘P 13交换M的第一行和第三行第二步是确定每个邻接矩阵的串表示由于邻接矩阵是对称的因此只需要根据矩阵的上三角部分构造串表示就足够了在图7 21所示的例子中代码是通过逐列连接矩阵的上三角元素得到的最后一步是比较图的所有串表达式并选出具有最小最大字典次序值的串支持度计数支持度计数一般是开销很大的操作因为对于每个G 必须确定包含在G中的所有候选子图加快该操作的一种方法是维护一个与每个频繁 k 1 子图相关联的图ID表一旦一个新的候选k 子图通过合并一对频繁 k 1 子图而产生就对它们的对应图ID表求交集最后子图同构检查就在表中的图上进行确定它们是否包含特定的子图非频繁模式迄今为止关联分析都基于这样的前提项在事务中出现比不出现更重要因此数据库中很少出现的模式不是令人感兴趣的并使用支持度度量将其删除这种模式称为非频繁模式定义7 7非频繁模式非频繁模式是一个项集或规则其支持度小于阈值minsup 尽管绝大部分非频繁模式都是让人不感兴趣的但是其中的一些可能对于分析是有用的特别是涉及到数据中的负相关性例如 DVD和VCR一起销售的情况很少因为购买DVD的人多半不会购买VCR 反之亦然这种负相关模式有助于识别竞争项 competingitem 竞争项的例子包括茶与咖啡黄油与人造黄油普通与节食苏打台式机与便携式计算机某些非频繁模式也可能暗示数据中出现了某些有趣的罕见事件或例外情况例如如果火灾 yes 是频繁的但火灾 yes 报警 on 是非频繁的而后者是一个有趣的非频繁模式因为它可能指出警报系统的故障为了检测这种不寻常情况必须确定模式的期望支持度使得如果一个模式的支持度明显低于期望支持度则可以声明它是一个有趣的非频繁模式负模式设I i1 i2 id 是项的集合负项ik表示项ik不在给定的事务中出现例如如果事务中不包含咖啡则咖啡是一个值为1的负项定义7 8负项集负项集X是一个具有如下性质的项集 1 X A B 其中A是正项的集合而B是负项的集合 B 1 2 s X minsup 定义7 9负关联规则负关联规则是一个具有如下性质的关联规则 1 规则是从一个负项集提取的 2 规则的支持度大于或等于minsup 3 规则的置信度大于或等于minconf本章中负项集和负关联规则统称负模式负相关模式定义7 10负相关项集项集X x1 x2 xk 是负相关的如果定义7 11负相关关联规则关联规则X Y是负相关的如果s X Y s X s Y 其中 X和Y是不相交的项集即X Y 负相关的完全条件可以表述如下负相关条件也可以用正项集和负项集的支持度表示设和分别表示X和Y的对应负项集由于负相关条件可以表述如下负相关项集和负相关关联规则统称负相关模式 negativelycorrelatedpattern 非频繁模式负模式和负相关模式比较非频繁模式负模式和负相关模式是三个密切相关的概念尽管非频繁模式和负相关模式只涉及包含正项的项集或模式而负模式涉及包含正项和负项的项集或模式但是这三个概念之间存在一定的共性如图7 22所示首先许多非频繁模式有对应的负模式如果x y是非频繁的则除非minsup太高否则它很可能有对应的负项集例如假定minsup 0 25 如果x y是非频繁的则表中的其它几种组合至少有一种是频繁的挖掘有趣的非频繁模式的技术原则上讲非频繁项集是未被标准的频繁项集产生算法如Apriori和FP增长提取的所有项集这些项集对应于图7 23所示的频繁项集边界之下的那些项集由于非频繁模式的数量可能是指数级的特别是对于稀疏的高维的数据因此为挖掘非频繁模式而开发的技术着力于发现有趣的非频繁模式例如负相关模式基于挖掘负模式的技术一种方法是将每个项看作对称的二元变量通过用负项增广将事务数据二元化然后使用Apriori算法等可以导出所有的负项集仅当只有少量变量被视为对称的二元变量时该方法才是可行的如果每个项都必须视为对称的二元变量则可能导致计算复杂度增加 1 当每个项都用对应的负项增广时项的个数就加倍待探测的项集格比2d大得多 2 当增加进负项后基于支持度的剪枝不再有效对于每个变量x x或的支持度大于等于50 因此即使支持度阈值达到50 仍有一半的项是频繁的 3 当增加进负项后每个事务的宽度增加当包含负项后事务的宽度增加到d 另一种方法不是用负项增广数据而是根据对应的正项集计算负项集的支持度例如的支持度可以用如下方法计算基于支持度期望的技术该方法要求仅当非频繁模式的支持度显著小于期望支持度时才认为它是有趣的本节介绍两种计算期望支持度的方法基于概念分层的支持度期望基于间接关联的支持度期望计算期望支持度的一种方法是利用概念分层来推导例如由于火腿和熏肉属于相同的产品族我们预期火腿和薄片食物之间的关联与熏肉和薄片食物之间的关联类似如果任何一对的真实支持度小于期望支持度则非频繁模式是有趣的计算期望支持度的公式假定项集 C G 是频繁的用s 表示模式的实际支持度而表示期望支持度 C和G的子女或兄弟的期望支持度可以用如下公式计算节食碳酸饮料和薄片食物的期望支持度可以使用公式 7 8 计算因为这两项分别是碳酸饮料和点心的子女如果节食碳酸饮料薄片食物的实际支持度明显低于它们的期望值则节食碳酸饮料和薄片食物形成一个有趣的非频繁模式基于间接关联的支持度期望本节提供一种确定商品对期望支持度的方法考察通常与这两个商品一起购买的其他商品假定节食和普通碳酸饮料都经常与薄片食品和点心一起购买这两种商品可望是相关的并且它们的支持度应当较高因为他们的实际支持度低节食和普通碳酸饮料形成了一个有趣的非频繁模式这样的模式称作间接关联 indirectassociation 模式间接关联的一个高层解释见图7 27 项a和b对应于节食和普通碳酸饮料而Y称作中介集 mediatorset 包含诸如薄片食物和点心等商品间接关联形式定义在下面给出定义7 12间接关联一对项a b是通过中介集Y间接关联的如果下列条件成立 1 s a b ts 项对支持度条件中介支持度和依赖条件用来确保Y中的项形成a和b的近邻可以使用6 7 1节介绍的兴趣因子余弦或IS Jaccard和其他依赖度量间接关联可以用如下方法产生首先使用诸如Apriori和FP增长等标准算法产生频繁项集然后合并每对频繁k 项集得到候选间接关联 a b Y 其中a和b是一对项而Y是它们的公共中介例如 p q r 和 p q s 是频繁3 项集则通过合并这对频繁项集得到候选间接关联 r s p q 一旦产生候选就要验证它是否满足定义7 12中的项对支持度和中介依赖条件中介支持度条件不必验证因为候选间接关联是通过合并一对频繁项集得到的

展开阅读全文