[电脑基础知识]spss多水平模型简介

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,多水平模型简介,四川大学华西公共卫生学院,卫生统计学教研室,李晓松,概述,层次结构数据的普遍性,经典方法及其局限性,根本多水平模型,多水平模型的应用,概述,80 年代中后期，英美等国教育统计学家开始探讨分析层次结构数据(hierarchically structured data)的统计方法，并相继提出不同的模型理论和算法。,多水平模型(multilevel models)最先应用于教育学领域，后用于心理学、社会学、经济学、组织行为与管理科学等领域，逐步应用到医学及公共卫生等领域。,Harvey Goldstein, UK, University of London, Institute of Education,?Multilevel Models in Educational and Social Research?1987,Anthony Bryk, University of Chicago,Stephen Raudenbush, Michigan State University , Department of Educational Psychology,?Hierarchical Linear Models： Applications and Data Analysis Methods?1992,Nicholas Longford, Princeton University, Education Testing Service,?Random Coefficient Models?1993,多水平主成分分析,多水平因子分析,多水平判别分析,多水平logistic回归,多水平Cox模型,多水平Poisson回归,多水平时间序列分析,多元多水平模型,多水平结构方程模型,ML3 (1994) / MLN (1996) /,MLwiN,(1999),HLM,(Hierarchical Linear Model),SAS (Mixed),SPSS (HLM),STATA (,MLwiN,),两水平层次结构数据,水平2,水平1,层次结构数据的普遍性,“水平 (level) ：指数据层次结构中的某一层次。例如，子女为低水平即水平 1 ，家庭为高水平即水平 2 。,“单位 (unit) ：指数据层次结构中某水平上的一个实体。例如，每个子女是一个水平 1 单位，每个家庭是一个水平 2 单位。,临床试验和动物实验的重复测量,多中心临床试验研究,纵向观测如儿童生长发育研究,流行病学现场调查如整群抽样调查,遗传学家系调查资料,meta,分析资料,层次结构数据为一种非独立数据，即某观察值在观察单位间或同一观察单位的各次观察间不独立或不完全独立，其大小常用组内相关(intra-class correlation，ICC)度量。,例如，来自同一家庭的子女，其生理和心理特征较从一般总体中随机抽取的个体趋向于更为相似，即子女特征在家庭中具有相似性或聚集性(clustering)，数据是非独立的(non independent)。,非独立数据不满足经典方法的独立性条件，采用经典方法可能失去参数估计的有效性并导致不合理的推断结论。,但非独立数据的组内相关结构各异，理论上，不同的结构应采用相应的统计方法。如纵向观测数据常用广义估计方程(GEE)，但有两个局限性：一是对误差方差的分解仅局限于2水平的情形，二是没有考虑解释变量对误差方差的影响。当应变量的协差阵为分块对角阵时，一般采用多水平模型。,经典方法框架下的分析策略,经典的线性模型只对某一层数据的问题进行分析，而不能将涉及两层或多层数据的问题进行综合分析。,但有时某个现象既受到水平1变量的影响，又受到水平2变量的影响，还受到两个水平变量的交互影响(cross-level interaction)。,个体的某事件既受到其自身特征的影响，也受到其生活环境的影响，即既有个体效应，也有环境或背景效应(context effect)。,例如，个体发生某种牙病的危险可能与个体的遗传倾向、个体所属的社会阶层(如饮食文化和口腔卫生习惯)、环境因素(如饮水中氟浓度)等有关。,分解(disaggregation),聚合(aggregation),组内-组间分析(within-between analysis),分解：不满足模型独立常方差的根本假定，回归系数及其标准误的估计无效，且未能区分个体效应与背景效应。一种分析策略是用哑变量拟合高水平单位的固定效应。,聚合：损失大量水平1单位的信息，更严重的是可能导致“生态学谬误(ecological fallacy)。,组内-组间分析：,每个水平2单位内进行分析，计算组内相关(组内效应)；,通过平均或整合得到每个水平2单位的数据，计算组间相关(组间效应)；,忽略水平2的存在，在水平1上进行分析，计算水平1单位间的相关(总效应)。,组内相关系数(intra-class correlation, ICC)被当作是总结多层次数据内部相关的最终统计量，但并没有对误差方差进行解释。,多水平分析的概念为人们提供了这样一个框架，即可将个体的结局联系到个体特征以及个体所在环境或背景特征进行分析，从而实现研究的事物与其所在背景的统一。,经典模型的根本假定是单一水平和单一的随机误差项，并假定随机误差项独立、服从方差为常量的正态分布，代表不能用模型解释的残留的随机成份。,根本的多水平模型,当数据存在层次结构时，随机误差项那么不满足独立常方差的假定。模型的误差项不仅包含了模型不能解释的反响变量的残差成份，也包含了高水平单位自身对反响变量的效应成份。,多水平模型将单一的随机误差项分解到与数据层次结构相应的各水平上，具有多个随机误差项并估计相应的残差方差及协方差。构建与数据层次结构相适应的复杂误差结构，这是多水平模型区别于经典模型的最主要特征。,多水平模型由固定与随机两局部构成，与一般的混合效应模型的不同之处在于，其随机局部可以包含解释变量，故又称为随机系数模型(random coefficient model)，其组内相关也可为解释变量的函数。换言之，多水平模型可对不同水平上的误差方差进行深入和精细的分析。,1. 方差成份模型,(Variance Component Model),假定一个两水平的层次结构数据，医院为水平 2 单位，患者为水平 1 单位，医院为相应总体的随机样本，模型中仅有一个解释变量,x,。,和分别为第 j 个医院中第 i 个患者的反响变量观测值和解释变量观测值，和为参数估计, 为通常的随机误差项。,示水平 2 单位,示水平 1 单位,与经典模型的区别在于。经典模型中的估计为，仅一个估计值，表示固定的截距，而在方差成份模型中为随机变量，可估计,j,个截距值。表示当,x,取 0 时，第,j,个医院在基线水平时,y,的平均估计值。,为平均截距，反映与的平均关系，即当,x,取 0 时，所有,y,的总平均估计值。,亦为随机变量，表示第,j,个医院,y,之平均估计值与总均数的离差值，反映了第,j,个医院对,y,的随机效应。,表示协变量,x,的固定效应估计值。即,y,与协变量,x,的关系在各医院间是相同的，每个医院间,y,的变异与协变量,x,的变化无关。,方差成份模型拟合,j,条平行的回归线，截距不同( )，斜率相同( )。,它将医院的参数估计作为随机变量，并估计其随机效应，提供了这些医院所代表的医院总体特征的信息。,对医院水平残差的假定,对患者水平残差的假定与传统模型一致,水平 1 上的残差与水平 2 上的残差相互独立,，,，,反响变量可表达为固定局部与随机局部之和。模型具有两个残差项，这是多水平模型区别于经典模型的关键局部。,即水平2残差，随机效应、又称潜变量(latent variable),此模型需估计4个参数，除两个固定系数和，还需估计两个随机参数和。其中即为医院水平的方差成份，为患者水平的方差成份。,组内相关的度量,方差成份模型中，反响变量方差为,此即水平 2 和水平 1 方差之和，同一医院中两个患者(用,i,1,，,i,2,表示)间的协方差为：,组内相关(intra-class correlation, ICC),测量了医院间方差占总方差的比例，实际上它反映了医院内个体间相关，即水平 1 单位(患者)在水平 2 单位(医院)中的聚集性或相似性。,由于模型不止一个残差项，就产生了非零的单位内相关。假设为 0，说明数据不具层次结构，可忽略医院的存在，即简化为传统的单水平模型；反之，假设存在非零的，那么不能忽略医院的存在。,水平 2 单位中的水平 1 单位间存在相关，通常的“普通最小二乘法(Ordinary Least Squares OLS)进行参数估计是不适宜的。,进一步，如数据具三个水平的层次结构，如医院、医生和患者三个水平，那么将有两个这样的相关系数，即反映医院之间方差比例的医院内相关，反映医生之间方差比例的医生内相关。,随机系数模型是指协变量的系数估计不是固定的而是随机的，即协变量对反响变量的效应在不同的水平 2 单位间是不同的。,仍以医院与患者两水平数据结构说明随机系数模型根本结构与假设。,随机系数模型,(Random Coefficient Model),与方差成份模型的区别在于。,方差成份模型中协变量的系数估计为固定的，示协变量对反响变量的效应是固定不变的。在随机系数模型中协变量的系数估计为，示每个医院都有其自身的斜率估计，说明协变量对反响变量的效应在各个医院间是不同的。,的假定及其含义与方差成份模型一致。现为随机变量，假定：,表示第,j,个医院的,y,随,x,变化的斜率；表示全部医院的,y,随,x,变化的斜率的平均值(平均斜率)。,是指各医院的,y,随,x,变化的斜率的方差。,示第,j,个医院的斜率与平均斜率的离差值，指上述截距与斜率离差值的协方差，反映了它们之间的相关关系。,即表达为固定局部与随机局部之和。其中，固定效应用均数描述，它决定了全部医院的平均回归线，这条直线的截距即平均截距，直线的斜率即平均斜率。为随机系数。,将模型改记为：,随机效应用方差描述，它反映了各医院之间 y 的变异与协变量 x 的关系。模型随机局部具多个残差项，需估计4个随机参数，即方差、和以及协方差。,模型的反响变量方差为：,说明各医院间 y 的变异与协变量 x 有关，即每条回归线不仅截距不同，且斜率也不同。当 x 取 0 时每个医院 y 的平均估计值不同，且每个医院 y 随 x 变化的斜率不同。,组内相关与解释变量有关,为使模型中每个系数都有一个相应的解释变量，可对截距及其残差定义一个解释变量，取值为1，为简化模型，常省略该解释变量。,下面是包括随机系数的一般形式的两水平模型，即将模型扩展为纳入其它固定局部解释变量的形式：,这里，对模型随机局部采用了新的解释变量，实际上，，。,值得指出，模型随机局部的解释变量常为其固定局部的一个子集，但亦可以不是，即可以在任何水平上测量固定局部或随机局部的解释变量。,反响变量向量的协方差结构,从最根本的两水平数据结构来考察反响变量向量的协方差结构，即只包括随机参数和。对应于方差成份模型，反响变量方差为水平 1 和水平 2 方差之和：,同一个医院所诊疗的两个患者(用，表示)间的协方差为：,以下矩阵表示同一个医院所诊疗的三名患者的协差阵,对两个医院而言，假设一个医院诊疗了三名患者，另一个医院诊疗了两个患者，那么具有 2 个水平 2 单位的反响变量向量 Y 总的协差阵可表达为：,矩阵的这种分块对角结构表达了不同医院所诊疗的患者间的协方差为 0 ，它可进一步扩展到任意多的医院数。将上述矩阵表达为另一种更简略的形式,：,为维的 1 矩阵，为维的单位阵，的下标 2 说明为两水平模型，的维数即水平2单位数，主对角线块的维数即水平1单位数，它们均为方阵。在传统 OLS 估计中，为 0 ，那么该协差阵退化为标准形式的，即残差方差。,考察包括随机系数的一般形式的两水平模型,或简记为,对于具有随机截距与斜率的两水平模型，其反响变量协差阵具有以下典型的分块结构：,矩阵为水平 2 的随机截距与斜率的协差阵，即随机系数协差阵，矩阵为水平 1 的随机系数协差阵。,这里，水平 1 只有一个单一的方差项，可进一步采用表示这些协差阵集。将上述矩阵展开得到：,这是具有分块结构的一个具有 2 个水平 1 单位的水平 2 单位的反响变量协差阵。此即构造反响变量协差阵的一般模式，它同时也概括了拟合水平 1 复杂变异的可能性。,固定与随机参数估计,固定和随机参数的估计方法一般采用“迭代广义最小二乘算法(Iterative Generalized Least Squares，IGLS) (Goldstein，1986)或“限制性迭代广义最小二乘法(Restricted Iterative Generalized Least Squares，RIGLS) (Goldstein，1989)。,现以最根本的两水平方差成份模型来说明固定与随机参数估计的根本思想和步骤。,假定方差的值，那么可直接构造分块对角阵，简记为。直接采用通常的广义最小二乘法(Generalized Least Squares GLS)可获得固定系数的估计：,在初始阶段，假定为 0 ，即假定数据不具有系统结构，那么给出固定系数通常的 OLS 估计，得到粗残差：,将粗残差向量记为：,将粗残差向量形成交叉乘积矩阵，然后再形成交叉乘积矩阵的向量化算子，记为。相应的，也可以形成反响变量协方差阵向量化算子，记为。,对应于 2 个医院，一个诊疗 3 名患者，另一个诊疗 2 名患者，那么和均具有 32+22=13 个元素。因为的期望为,可将这些向量间关系表达为以下线性模型,=,+R=,+,+R,这里，为一个残差向量。将粗残差作为模型的反响变量向量，模型右边包含两个的解释变量，其系数即待估计的随机参数和。通过 GLS 方法获得和的估计，回到初始模型那么获得固定系数新的估计，在随机与固定参数估计间反复迭代直至收敛，此即 IGLS 算法的根底。,1. 重复测量数据的多水平模型,当同一研究对象被重复测量屡次时，测量点即为水平 1 单位，测量点又嵌套(nested)进作为水平 2 单位的个体，这种数据结构具有典型的层次结构特征。,多水平模型的应用,在临床试验和动物实验中，常需对患者或动物的某些指标进行重复测量，以了解不同时间观测指标的变化以及处理因素与观测指标的相互关系；在生长发育研究中，也需对个体生长或发育指标作多时点的重复测量。,常规使用的重复测量数据统计方法，一般要求资料是平衡的，即每一个体有相同次数的重复测量值，这对于实验研究是可行的，但在生长发育研究中，测量常常是不规那么的，这就出现了个体测量时点多少不一、时间间隔不等以及观测值缺失等问题，它增加了传统统计方法拟合个体生长曲线的难度，并引起估计结果不同程度的偏差。,多水平模型技术可有效和方便地处理此类测量模式的数据，提供统计上有效的参数估计，并具有如下几个特点：,(1) 考虑了分布于不同的层次重复测量误差，并给出相应的误差估计值；,(2) 拟合个体生长曲线时不要求相等的时间间隔，在拟合个体生长曲线的同时也估计全部样本的平均曲线；,(3) 不要求每个个体都有同样多的测量点，即缺失测量点并不增加拟合生长曲线的难度；,(4) 便于在生长曲线中引入其它解释变量，如性别、营养状况和地区等，分析其对生长过程的影响。,2. Meta分析是指对具有相同研究假设的多项独立研究结果所进行的合并分析，在合并不同来源的研究资料时可能引入异杂方差(heterogeneous variance)，因此，其数据可看成具有两个水平的层次结构，即研究水平与观察对象水平。,Meta分析的主要目的是为了得到比单一研究更精确的结果估计，进一步的目的那么是分析影响研究结果间差异的因素。,目前，Meta分析主要根据研究的“效应尺度的齐性检验结果，而决定采用固定效应模型或随机效应模型来合并每项研究的“效应尺度。采用多水平模型可较为方便地分析影响研究结果间差异的因素如研究水平上的有关协变量包括样本含量、设计类型等。,3.,离散数据的多水平模型,在流行病学现场调查研究中，流行病学家常对发病率、患病率或死亡率以及它们在地区之间的变异感兴趣。这里的两水平结构是，个体为水平 1，地区为水平 2。,此类研究常常拥有假设干地区某时期的死亡记录和死者个人特征以及地区特征如人口构成或社会经济特征等。研究者可以分析这些解释变量是否能够解释死亡率在地区之间的变异，也可以分析死亡率的差异(比方男性和女性之间)是否在地区之间不同等。,如一项有关孕妇死亡率与孕妇吸烟关系的研究。首先，孕妇可能嵌套在不同的医疗机构和社区中，社区和医疗机构的特征可能影响死亡率以及死亡率与吸烟之间的联系；其次，如果能够获得有关孕妇吸烟的一系列测量，可采用重复测量两水平模型，研究吸烟的改变怎样影响到死亡率的改变，以及更详细地探讨它们之间可能的因果联系。,4. 多变量多水平模型：,在医学研究中，研究者常对个体作几种测量(即测量几个指标)，如收缩压、舒张压和心率，如果将它们作为反响变量一起进行分析，就可以设置多变量模型，分析解释变量诸如年龄、性别、是否锻炼、是否吸烟等与这三个反响变量的关系。此时，是将其作为一个两水平模型，每一个体作为一个水平2单位，3种测量组成水平1单位。,5. 混合反响变量多水平模型,例如，测定人们的吸烟行为，可以测量某人是否吸烟以及吸烟程度如何，我们可将其考虑为一个混合双变量模型，将有关吸烟的影响因素作为模型中的解释变量进行分析。,多水平分析的主要优点：,1. 获得回归系数及其标准误的有效估计；,2. 可在模型固定或随机局部引入任何水平上所测量的协变量，能够探讨各水平单位的特征对反响变量的影响，以及对反响变量在高水平单位甚至是低水平单位之间变异的影响，即这些特征是否可以解释这些变异；,3. 在调整了低水平单位甚至高水平单位的各种特征后，可对高水平单位的残差估计进行排序和比较，用于识别极端的高水平单位。,例如，比较假设干医院某病治愈率的上下，在调整了患者、医护人员的各种特征之后，通过对医院水平残差估计的考察，可以发现某些高度不典型的医院。,假设将其选出作进一步深入的个案调查，那么形成定量的多水平分析和定性调查相结合的研究，有助于探讨更详细的因果机制。这是多水平分析的另一个重要特点。,应用前景,自然界与人类社会广泛存在着层次结构现象，生物系统具有自然的等级或组群结构，人类社会被组织成高度复杂的系统结构。,医学和公共卫生领域研究的一个重要方面是探索疾病发生、开展及其变化的规律性。疾病总是在某种特定的环境中产生和开展的，即个体的结局是由个体和所在环境的特征联合决定的。,无论是观察性研究还是实验性研究，从时空两个维度均可形成数据的层次结构。,多水平模型复杂的误差结构适应并反映了数据相应的层次结构，这是多水平分析区别于经典统计模型的最重要特征。,谢谢！,

展开阅读全文

[电脑基础知识]spss多水平模型简介

最新文档