应用统计学对应分析等.ppt

资源描述

对应分析-问题背景,描述属性变量（定类或定序尺度变量）的各种状态或是相关关系。,当属性变量A和B的状态较多时，很难透过列联表作出判断。怎样简化列联表的结构？利用降维的思想。如因子分析和主成分分析。但因子分析的缺陷是在于无法同时进行R型因子分析和Q型因子分析。怎么办？精细建模：对数线性模型直观展示：对应分析,* 对应分析的基本理论,1、什么是对应分析？对应分析是利用“降维”的方法，以两变量的交叉列联表为研究对象，通过图形的方式，直接揭示变量之间以及变量的不同类别之间的联系，特别适合于多分类属性变量研究的一种多元统计分析方法。 2、对应分析的基本思想：首先，编制两品质型变量的交叉列联表，将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点；然后，对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上，并使联系密切的类别点较集中，联系疏远的类别点较分散；最后，通过观察对应分布图就能直观地把握变量类别之间的联系,方法特点,是多维图示分析技术之一，结果直观、简单与因子分析有关分类资料的典型相关分析用于展示两个/多个分类变量各类间的关系高收入、黑人、男性倾向于反对开战研究较多分类变量间关系时较佳各个变量的类别较多时较佳均为四类以上局限性不能进行变量间相关关系的检验仍然只是一种统计描述方法解决方案的所需维度需要研究者决定对极端值敏感对于小样本不推荐使用,3、方法优点：可以在一张二维图上同时表示出两类属性变量的各种状态，以直观描述原始数据结构。 4、关键问题：如何将多个类别点表示在低维空间中，以便于直接观察如何确定各类别点的坐标，以易于鉴别类别间联系的强弱,原理,以列联表为分析基础，计算基于H0假设的单元格残差将每行看成是一条记录，基于列变量相关系数阵进行因子分析，计算出列变量各类别的负荷值将每列看成是一条记录，基于行变量相关系数阵进,编制交叉列联表并计算概率矩阵根据矩阵确定数据点坐标行变量和列变量的分类降维处理,步骤,对应分析图的阅读,每个维度可能代表了一种特征实际上就是一个提取出的主成分，但由于分类变量的信息较少，可能找不到合理的解释 1考察同一变量的区分度：如果同一变量不同类别在某个方向上靠得较近，则说明这些类别在该维度上区别不大。 2考察不同变量的类别联系：一般而言，落在从图形原点(0,0)处出发相同方位上大致相同区域内的不同变量的分类点彼此有联系。散点间距离越近，说明关联倾向越明显；散点离原点越远，也说明关联倾向越明显。,典型相关分析canonical correlation analysis,现实中：如鸡蛋、猪肉的价格（作为第一组变量）和相应产品的销量（第二组变量）有相关关系。如投资性变量（劳力投入、财力投入、固定资产投资等）与国民收入（工农业收入、建筑业收入、等）具有相关关系。如何研究两组变量之间的相关关系？设两组变量用X1,X2.,XP以及Y1,Y2YP表示。（1）分别研究Xi和Yj之间的相关关系，列出相关系数表。其缺陷：当两组变量较多时，处理较烦琐，不易抓住问题的实质。（2）采用主成分分析的方法，每组变量分别提取主成分，再通过主成分之间的关系反映两组变量之间的关系。,例：鸡蛋、猪肉的价格用X1和X2表示；鸡蛋、猪肉的销量用Y1和Y2表示。构造第一组和第二组变量的线性组合： F1=a11X1+ a12X2 Z1=a11Y1+ a12Y2 满足F1和Z1的相关性最大化。典型相关分析,、什么是典型相关分析？典型相关分析是研究两组变量之间相关关系的多元统计分析方法它借用主成分分析降维的思想，分别对两组变量提取主成分，且使两组变量提取的主成分之间的相关程度达到最大，而从同一组内部提取的各主成分之间互不相关，用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系,典型相关关系研究两组变量之间整体的线性相关关系，它是将每一组变量作为一个整体来进行研究而不是分析每一组变量内部的各个变量所研究的两组变量可以是一组为自变量，而另一组变量为因变量；两组变量也可以是同等的地位，但典型相关关系要求两组变量都至少是间隔尺度,MANOVA led hed net WITH arti com man /DISCRIM ALL ALPHA(1) /PRINT=SIG(EIGEN DIM).,信度分析,信度分析用于探索研究事物间的相似性用于评价问卷这种测量工具的稳定性或可靠性，具体来说就是用问卷对同一事物进行重复测量时，所得结果的一致性程度。内在信度：调查表中的一组问题（或整个调查表）是否测量的是同一个概念，也就是这些问题之间的内在一致性如何。最常用的内在信度系数为克朗巴哈系数和折半信度。外在信度：在不同时间进行测量时调查表结果的一致性程度。最常用的外在信度指标是重测信度，即用同一问卷在不同时间对同一对象进行重复测量，然后计算一致程度。,信度分类,信度的判断标准,没有统一的标准，通常：信度系数如果在0.9以上，则该测验或量表的信度甚佳；信度系数在0.8以上都是可接受的；如果在0.7以上，则该量表应进行较大修订，但仍不失其价值；如果低于0.7，问卷的测量效果非常差！注意：在大型量表中，往往一组问题用来集中测量某一方面的信息。此时信度分析应当按问题组来进行，即测量同一信息的一组问题间信度如何，而不是直接测量整个量表的信度。,重测信度,特别适用于事实性量表。相关分析得到的相关系数也就是重测信度系数，一般要求达到0.7以上。缺点对同一样本进行重复测定不一定可行；其被调查者的情况可能随时间发生变化；重复测定可能会受前一次测定的影响。多数学者认为重测间隔一般以24周为宜。,折半信度,在不可能进行重复调查的情况下，将题目分为两半，然后计算两部分各自的信度，以及之间的相关性，以此为标准来衡量整个量表的信度，相关性高则意味着信度好，而相应的信度指标就是折半信度。题目的分半方法有很多种，SPSS采取的是前后分半的方式，如果项目个数为奇数的，则前一半多一个。,评分者信度,考察不同评分人之间对实际得分的影响。所以在数据格式上我们分析的就是每一行，即每一位评分者对得分的影响，而不是每一列的影响。 F test：适用于题目分值为连续性测量尺度。 Friedman chi-square：适用于分值不呈正态或为有序分类时。 Cochran chi-square：适用于题目分值为二分类无序分类时。,定性数据的分析,对定性变量间关系的描述可用交叉列联表。但交叉列联表存在以下缺陷：（1）不能充分分析多变量交互效应，不能有效分析多变量之间的关联。（2）在进行两个变量之间的关联分析时缺乏对其他变量影响的有效控制。（3）不能准确定量描述一个变量对另一个变量的作用幅度。如何避免以上缺陷，充分揭示出定性变量之间的复杂关系？,（1）对数线性模型将概率取对数后分解处理：,其优点是可以把方差分析和线性模型方法相结合，估计模型中各个参数，而这些参数值使各个变量的效应和变量间的交互作用效应得以数量化。（2）Logistic 模型是将概率比取对数后，再进行参数化而获得。设因变量y为二值定性变量，用0和1表示两个不同状态，y=1的概率pP（y=1)是研究对象。若有多个因素影响y的取值，这些因素就是自变量，记为：x1,x2xk(既可以是定性变量也可以是定量变量）。 Logistic 线性回归模型：,

展开阅读全文

应用统计学对应分析等.ppt

最新文档