非参数统计第5章分类数据的关联分析.ppt

资源描述

第5章分类数据的关联分析本章内容本章要求掌握分类数据的独立性研究方法区分分类数据的独立性和齐性检验的异同掌握Fisher检验与卡方检验的应用条件的异同了解Ridit方法和应用了解对数线性模型和卡方检验的异同熟练应用R语言中的相关命令学习如上方法 5 1列联表和独立性检验分别为A和B的边缘概率若A和B独立或者A和B之间没有关联则A和B的联合概率应该等于A和B的边缘概率的乘积假设检验问题当取大值或者p 值很小的时候拒绝零假设独立性检验零假设下时构造统计量 blood c 98 38 289 67 41 262 13 8 57 18 12 30 blood matrix blood nrow 4 byrow T 如果想按照行填入矩阵 blood 1 2 3 1 9838289 2 6741262 3 13857 4 181230 chisq test blood Pearson sChi squaredtestdata bloodX squared 15 0734 df 6 p value 0 01969 R程序要检验不同变量之间是否独立频率过小的点不能太多 Siegel和Castellan 1988 指出行数和列数至少其一要超过2 频数低于5个的单元格数不能超过20 不能充许存在频数小于1的单元格上一节是利用列联表分析两个因素之间是否独立当其中一个因素换成区组时对应的问题是检验实验数据在不同区组上的分布是否一致这类检验问题称为齐性检验检验方法和独立性检验相同 5 2齐性检验假设检验问题构造Pearson统计量在零假设下近似有 Jane Austen c 147 186 101 83 25 26 11 29 32 39 15 15 94 105 37 22 59 74 28 43 18 10 10 4 Jane Austen matrix Jane Austen nrow 6 byrow T chisq test Jane Austen Pearson sChi squaredtestdata Jane AustenX squared 45 5775 df 15 p value 6 205e 05 例5 2R程序 R程序 TV lover c 83 70 45 91 86 15 41 38 10 TV lover matrix TV lover nrow 3 byrow T chisq test TV lover Pearson sChi squaredtestdata TV loverX squared 18 6508 df 4 p value 0 0009203 5 3Fisher精确检验 Pearson检验要求频数低于5个的单元格数不能超过20 对于2 2列联表只要有一格数据小于5 就不能满足要求因此有必要采用别的方法 Fisher精确检验 Fisher sexacttest 就是其中之一下面以2 2列联表为例介绍Fisher精确检验 2 2列联表假设边缘频数和总频数都是固定的在因数A和因数B独立的零假设之下服从超几何分布事实上 4个格点中只要一个数确定了其它3个会随着而定因此也可以表示为 R语言和EXCEL软件的调用函数分别为比如行总数依次为5 3 列总数依次为3 5时所有可能的表为其R语言调用函数为 HYPGEOMDIST n11 n1 n 1 n dhyper n11 n 1 n 2 n1 log FALSE dhyper k 3 5 5 log FALSE dhyper 0 3 5 5 log FALSE 1 0 01785714 dhyper 1 3 5 5 log FALSE 1 0 2678571 dhyper 2 3 5 5 log FALSE 1 0 5357143 dhyper 3 3 5 5 log FALSE 1 0 1785714 以上四种表格的概率依次为检验任何一个格子中的的数目我们只要考虑就可以了都不会过小或者过大如果过小或者过大相应的概率会很小是小概率事件因而可以拒绝零假设当大样本时还可以采用近似正态分布进行检验即 R程序 medicine c 8 2 7 23 medicine matrix medicine nrow 2 byrow T fisher test medicine Fisher sExactTestforCountDatadata medicinep value 0 002429alternativehypothesis trueoddsratioisnotequalto195percentconfidenceinterval 1 856547143 340082sampleestimates oddsratio12 12648 sum 0 for kin8 10 sum sum dhyper k 15 25 10 log FALSE sum 1 0 0024286 dhyper 8 15 25 10 log FALSE 用卡方检验出现警告信息 medicine c 8 2 7 23 medicine matrix medicine nrow 2 byrow T chisq test medicine Pearson sChi squaredtestwithYates continuitycorrectiondata medicineX squared 8 df 1 p value 0 004678Warningmessage Inchisq test medicine Chi squaredapproximationmaybeincorrect 5 4Mantel Haenszel检验前面介绍的Pearson独立性齐性检验和Fisher精确性检验都是针对两因素的检验若影响因素有三个或者两因素之外还要考虑层次的影响或者单因素还要考虑区组和层次影响则可以利用Mantel Haenszel检验用于某两个因素之间是否有关联比如产品研究中需要研究城市和农村两个层次的人群对产品或服务的是否满意比如由于不同医院相当于不同层次收治的病人不同需要在不同医院中研究不同治疗方案对病人的治疗效果的差异性检验以医院为例令h 1 2 k代表k家医院 k个层次表示h层四格列联表观测频数表示第h家医院观测的病案总频数 n为所有k家医院的病案总频数假设检验问题为实验组与对照组在治疗效果上没有差异实验组与对照组在治疗效果上有差异将病案总频数构成一个三维列联表其中第h层的列联表如下 QMH统计量 QMH统计量对于小样本可以直接查表也可以利用R语言例5 4R程序求解 HA c 50 15 92 90 HB c 47 135 5 60 HA matrix HA nrow 2 byrow T HB matrix HB nrow 2 byrow T m c HA HB x array m c 2 2 2 mantelhaen test x Mantel Haenszelchi squaredtestwithcontinuitycorrectiondata xMantel HaenszelX squared 21 9443 df 1 p value 2 807e 06alternativehypothesis truecommonoddsratioisnotequalto195percentconfidenceinterval 2 0801676 099585sampleestimates commonoddsratio3 562044 统计决策以上得到的Mantel Haenszel检验的结果为通过检验说明治癌药与效果有强关联 oddsratio 3 562044 即治癌药有效果对于大样本 QMH统计量近似服从自由度为1的卡方分布参见定理5 1 因此还可以利用卡方分布计算p值 Mantel Haenszel检验方法消除了层次因素对结果的影响从而提高了检验出来的关联性的可靠性本例中还可以对各层分别利用前面介绍的关联性检验 fisher test HA fisher test HB chisq test HA chisq test HB fisher test HA Fisher sExactTestforCountDatadata HAp value 0 0002323alternativehypothesis trueoddsratioisnotequalto195percentconfidenceinterval 1 6515796 690462sampleestimates oddsratio3 245835 fisher test HB Fisher sExactTestforCountDatadata HBp value 0 001391alternativehypothesis trueoddsratioisnotequalto195percentconfidenceinterval 1 55012614 070352sampleestimates oddsratio4 158592 chisq test HA Pearson sChi squaredtestwithYates continuitycorrectiondata HAX squared 12 5737 df 1 p value 0 0003912 chisq test HB Pearson sChi squaredtestwithYates continuitycorrectiondata HBX squared 8 4144 df 1 p value 0 003723 什么是关联规则挖掘关联规则挖掘从事务数据库关系数据库和其他信息存储中的大量数据的项集之间发现有趣的频繁出现的模式关联和相关性应用购物篮分析分类设计捆绑销售等 5 5关联规则尿布与啤酒典型关联分析案例采用关联模型比较典型的案例是尿布与啤酒的故事在美国一些年轻的父亲下班后经常要到超市去买婴儿尿布超市也因此发现了一个规律在购买婴儿尿布的年轻父亲们中有30 40 的人同时要买一些啤酒超市随后调整了货架的摆放把尿布和啤酒放在一起明显增加了销售额同样的我们还可以根据关联规则在商品销售方面做各种促销活动购物篮分析如果问题的全域是商店中所有商品的集合则对每种商品都可以用一个布尔量来表示该商品是否被顾客购买则每个购物篮都可以用一个布尔向量表示而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式这些模式就可以用关联规则表示关联规则 AssociationRuleMining 挖掘是数据挖掘中最活跃的研究方法之一最早是由R Agrawal等人提出的其目的是为了发现超市交易数据库中不同商品之间的关联关系一个典型的关联规则的例子是 70 购买了牛奶的顾客将倾向于同时购买面包经典的关联规则挖掘算法 Apriori算法关联规则的基本概念 1 购物篮分析引发关联规则挖掘的例子问题什么商品组或集合顾客多半会在一次购物中同时购买购物篮分析设全域为商店出售的商品的集合即项目全集一次购物购买即事务的商品为项目全集的子集若每种商品用一个布尔变量表示该商品的有无则每个购物篮可用一个布尔向量表示通过对布尔向量的分析得到反映商品频繁关联或同时购买的购买模式这些模式可用关联规则描述关联 Associations 分析的目的是为了挖掘隐藏在数据间的相互关系即对于给定的一组项目和一个记录集通过对记录集的分析得出项目集中的项目之间的相关性项目之间的相关性用关联规则来描述关联规则反映了一组数据项之间的密切程度或关系以商场超市的市场数据库为例形式化描述关联规则设I i1 i2 im 是项的集合表示各种商品的集合 D t1 t2 tn 为交易集表示每笔交易的集合是全体事务的集合其中每一个事务T都是项的集合且有T I 每个事务都有一个相关的唯一标识符和它对应也就是事务标识符或TID 设X为一个由项目构成的集合称为项集当且仅当X T时我们说事务T包含X 项集X在在事务数据库DB中出现的次数占总事务的百分比叫做项集的支持度如果项集的支持度超过用户给定的最小支持度阈值就称该项集是频繁项集或大项集关联规则是形如X Y的蕴含式其中X I Y I且X Y 则X称为规则的条件前项 Y称为规则的结果后项如果事务数据库DB中有s 的事务包含X Y 则称关联规则X Y的支持度为s 支持度是一个概率值关联规则X Y对事物集D的支持度 support 定义为D中包含有事务X和Y的百分比关联规则X Y对事务集合D的置信度 confidence 定义为D中包含有X的事务数与同时包含Y的百分比即 support X Y 含X和Y的事务数事务总数 100 confidence X Y 含X和Y的事务数含X的事务数 100 置信度和支持度均大于给定阈值即最小置信度阈值和最小支持度阈值即 support X Y min supconfidence X Y min conf的关联规则称为强规则否则称为弱规则关联规则挖掘主要就是对强规则的挖掘通过设置最小支持度和最小置信度可以了解某些数据之间的关联程度强规则X Y对应的项集 X Y 必定是频繁集因此可以把关联规则挖掘划分为以下两个子问题根据最小支持度找出事务集D中的所有频繁项集核心根据频繁项集和最小置信度产生关联规则较易关联规则挖掘给定一组Item和记录集合挖掘出Item间的相关性使其置信度和支持度分别大于用户给定的最小置信度和最小支持度购买商品事务如下表所示设最小支持度为50 最小可信度为50 则可得到以下关联规则 A C 50 66 6 C A 50 100 关联规则挖掘的分类 1 基于规则中处理的变量的类别基于规则中处理的变量的类别关联规则可以分为布尔型和数值型布尔型关联规则如果规则考虑的关联是项在或不在则关联规则是布尔型的例如由购物篮分析得出的关联规则量化型关联规则如果描述的是量化的项或属性之间的关联则该规则是量化型的关联规则例如以下是量化型关联规则的一个例子其中X为表示顾客的变量量化属性age和income已经离散化 age X 30 39 income 42K 48K buys X high resolution TV 量化型关联规则中也可以包含多种变量例如性别女职业秘书是布尔型关联规则性别女 avg 月收入 2300 涉及的收入是数值类型所以是一个量化型关联规则 2 基于规则中数据的抽象层次基于规则中数据的抽象层次可以分为单层关联规则和多层关联规则单层的关联规则所有的变量都不涉及不同抽象层次的项或属性例如 buys X computer buys X printer 顾客X购买的商品不涉及不同抽象层次 computer 和 printer 在同一个抽象层因此是单层关联规则多层的关联规则变量涉及不同抽象层次的项或属性例如 age X 30 39 buys X laptopcomputer age X 30 39 buys X computer 顾客X购买的商品涉及不同抽象层次 computer 在比 laptopcomputer 高的抽象层因此是多层关联规则 3 基于规则中涉及到的数据的维数基于规则中涉及到的数据的维数关联规则可以分为单维的和多维的单维关联规则处理单个维中属性间的关系即在单维的关联规则中只涉及到数据的一个维例如用户购买的物品咖啡砂糖这条规则只涉及到用户的购买的物品多维关联规则处理多个维中属性之间的关系即在多维的关联规则中要处理的数据将会涉及多个维例如性别女职业秘书这条规则就涉及到两个维中字段的信息是两个维上的一条关联规则给出了关联规则的分类之后就可以考虑某个具体的关联规则挖掘算法适用于哪一类规则的挖掘某类关联规则又可以用哪些不同的方法进行处理最简单的是单维单层布尔型的关联规则关联规则挖掘即给定一组Item和记录集合挖掘出Item间的相关性使其置信度和支持度分别大于用户给定的最小置信度和最小支持度关联规则挖掘过程在关联规则挖掘算法中把项目的集合称为项集 itemset 包含有k个项目的项集称为k 项集包含项集的事务数称为项集的出现频率简称为项集的频率或支持度计数如果项集的出现频率大于或等于最小支持度s与D中事务总数的乘积则称该项集满足最小支持度s 如果项集满足最小支持度则称该项集为频繁项集 frequentitemset 一个食品连锁店保留着每周的事务记录其中每一条事务表示在一项收款机业务中卖出的项目连锁店的管理会收到一个事务汇总报告报告表明了每种项目的销售量是多少此外他们要定期了解哪些项目经常被顾客一起购买他们发现顾客购买了花生酱后 100 地会购买面包而且顾客购买了花生酱后有33 也购买果冻不过所有事务中大约只有50 包含花生酱被用于在其中寻找关联规则的数据库可以看作为一个元组集合每个元组包含一组项目一个元组可能是花生酱面包果冻包含三个项目花生酱面包果冻每个项目表示购买的一种产品一个元组是一次购买的产品列表关联规则的挖掘过程最常用的关联规则挖掘方法被分解为下面两步第1步找出所有的频繁项集即找出支持度大于或等于给定的最小支持度阈值的所有项集可以从1到k递归查找k 频繁项集第2步由频繁项集产生强关联规则即找出满足最小支持度和最小置信度的关联规则找出满足定义的大项目集从大项目集频繁项目集生成关联规则大频繁项目集是出现次数大于阈值S的项目集用符号L表示大项目集组成的整个集合用表示一个特定的大项目集一旦找出大项目集则对于任何有趣的关联规则X Y 在频繁项目集的集合中一定有X Y 大项目集找出大项目集的算法可以很简单但代价很高简单的方法是对出现在事务中的所有项目集进行计数给定一个大小为m的项目集合共有2m个子集去掉空集则潜在的大项目集数为2m 1 随着项目数的增多潜在的大项目集数成爆炸性增长当m 5 为31个当m 30 变成1073741823个解决问题的难点如何高效确定所有大项目集大部分关联规则算法都利用巧妙的方法来减少要计数的项目集大项目集的性质大项目集的任一子集也一定是大的大项目集也称作是向下封闭的如果一个项目集满足最小支持度的要求其所有的子集也满足这一要求其逆命题如果知道一个项目集是小的就不需要生成它的任何超集来作为它的候选集因为它们也一定是小的 Apriori性质基于如下事实根据定义如果项集I不满足最小支持度阈值min sup 则I不是频繁的即sup I min sup 如果将项A添加到I 则结果项集即I A 不可能比I更频繁出现因此 I A也不是频繁的即sup I A min sup 频繁项集的Apriori性质用于压缩搜索空间剪枝以提高逐层产生频繁项集的效率 Apriori算法的基本思想是首先通过扫描数据集产生一个大的候选数据项集并计算每个候选数据项发生的次数然后基于预先给定的最小支持度生成频繁1 项集的集合该集合记作然后基于和数据集中的数据产生频繁2 项集用同样的方法直到生成频繁n 项集其中已不再可能生成满足最小支持度的 N 1 项集最后从大数据项集中导出规则 Apriori算法是一种最有影响的挖掘布尔关联规则大频繁项目集的算法它使用一种称作逐层搜索的迭代算法通过k 项集用于探索 k 1 项集已经为大部分商业产品所使用包括基于划分的Apriori方法 Apriori Gen的算法等 Apriori算法 5 6Ridit检验 Ridit RelativetoIdentifiedDistributionUnit 方法背景实际中经常需要比较人对某些事物的抽象感知比如通过测量病人对几种药物治疗的反映程度以获得这些药物的反映程度的强弱顺序分析用户对产品或服务的满意程度的高低顺序体育运动比赛中评委对某运动员的动作评价专家对艺术作品的评级这些数据往往是定序数据这类问题的共同特征是采用量表测量受访者的感知由于人为和个体差异获得的数据往往是定序数据并非定距数据或定比数据比如4级痛感不能代表是1级痛感的4倍药物的4级痛感降为3级痛感的效果不能说是和药物的3级痛感降为2级痛感的效果一样因此单纯应用定量数据进行各处理的强弱的比较数据的量的关系可能与客观实际不一致自然的想法是考虑将不能反映严格数量关系的数据得分合并重新计算量表评级降低人为干扰从而作出更客观的评价 Ridit检验法的原理取一个样本数较多的组或者将几组数据汇总成为参照组根据参照组的样本结构将原来各组响应数变换为参照得分 Ridit得分利用变换以后的Ridit得分进行个处理之间的强弱比较考虑下列r s二维列联表行向量A表示不同比较组列向量B为表示强弱高低等级变量假设表示对应格子的响应频数假设检验问题 Ridit得分定义 Ridit得分选择用累积概率得分表示等级类别B中第j类的边缘分布是 j 1 s 那么第j类的顺序强度 Ridit得分定义如下其中是B的累积概率由定义显然有这和对应符合类别等级的度量特征定理5 2如上定义的Ridit得分满足如下性质计算步骤在实际计算中用样本估计下面给出Ridit得分计算的步骤并将过程显示于下表 1 计算各等级类别响应总数的一半得到行 1 2 将行 1 右移一格第一格为0 其余为累计前一级 j 1 的累积频数得到行 2 3 将行 1 与行 2 对应位置相加得到行 3 即行 3 中计算步骤 4 计算各等级类别的Ridit得分得到行 4 5 将的值按照的权重重新配置第i j位置的Ridit得分 6 计算第i处理的Ridit得分这些得分的期望为0 5 检验根据计算的构造检验统计量其中T为打结校正因子当大样本时 T值接近于1 从而检验统计量简化为在零假设情况下 W近似服从分布当W过大或者过小的时候都考虑拒绝零假设根据置信区间分组设由公式 5 8 给出则其在大样本的情况下服从正态分布其95 的置信区间为如果希望通过置信区间来比较第i处理与参照组之间的差异可以用代替其中当显著性水平 0 05时 1 的置信区间近似于其中为第i处理的响应数若且B1比Bs的等级高则当Ridit得分的值越小其对应的第i处理 Ai 的等级越高例5 6参见教材前面章节介绍的列联表是研究分类变量的独立性和依赖性的重要工具其能确定两个变量之间有无关联不能确定变量之间有什么关联针对定量数据定比定距数据的变量分析变量之间的关系常用模型法如线性模型多项式模型指数模型可利用参数估计和检验的方法针对分类数据和定序数据也希望能分析变量之间的具体关联对数线性模型正是这类工具之一它是结合列联表和线性模型的分析方法 5 7对数线性模型对数线性模型用来描述响应变量因变量频率或频数与解释变量自变量之间的关系它强调模型拟合优度交互效应和网格频数估计对数线性模型具有以下形式对数模型中没有解释变量是用行列因子的效应参数来表示考虑定性变量A和B的联合分布 A取值为 B取值为变量A和B所有取值组合对应的响应变量的频数如下表所示 r s二维列联表对数线性模型将上述列联表转换成概率表若两变量独立则有 5 10 也可表示成类似于双因素方差分析模型这样可以将的平均变异来源分解为总体平均效应行效应列效应以及行列的交互效应考虑到分解模型是乘法的两边取对数可转换成 5 11 于是有其中是总的几何平均和分别是属性A在Ai时和属性B在Bj时的效应而是属性A和B的交互作用关联项或关联参数以上模型是二维列联表的饱和模型其期望频数的估计就是实际频数两变量独立对应的对数线性模型为则有 5 13 5 15 首先计算年龄和对缺水意见的交互作用如表所示接着计算年龄组对缺水意见概率的对数由5 12取对数如下表所示由此表可得的结果参见表5 15 模型设计矩阵将对数线性模型表达为矩阵形式可以方便进行参数估计和检验以2 2列联表为例令4个参数为则饱和对数线性模型可表示为其中模型估计检验高维对数线性模型高维列联表对数线性模型用三维表为例 A有r个水平 B有s个水平 C有l个水平为观测频数是概率真实值则对数线性模型一般表示为其中

展开阅读全文

非参数统计第5章分类数据的关联分析.ppt

最新文档