对数线性模型课件

上传人:痛*** 文档编号:243867632 上传时间:2024-10-01 格式:PPT 页数:43 大小:1.23MB
返回 下载 相关 举报
对数线性模型课件_第1页
第1页 / 共43页
对数线性模型课件_第2页
第2页 / 共43页
对数线性模型课件_第3页
第3页 / 共43页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,二级,三级,四级,五级,*,*,对数线性回归,多元社会统计分析,1,对数线性回归多元社会统计分析1,一、,对数线性模型简介,1,、,对数线性模型基本思想,对数线性模型分析是把列联表资料的网格频数的对数表示为各变量及其交互效应的线性模型,然后运用类似方差分析的基本思想,以及逻辑变换来检验各变量及其交互效应的作用大小,2,一、对数线性模型简介1、对数线性模型基本思想2,区别,方法,列联表,逻辑回归,对数线性模型,作用,分析定类变量和定类变量之间有无关系,分析尺度变量(也可引入类别变量)与二分类别变量之间的因果关系,综合运用方差分析和逻辑回归中的建模方法,应用于纯粹定类变量之间,系统评价各变量间关系和交互作用大小的多元统计方法,优缺点,不需要确定因变量和自变量。但是,卡方检验对三维和三维以上列联表资料的分析有一定困难,即对混杂变量的控制较难,解决了对混杂变量的控制的问题,而且,它能将因变量与自变量的关系用模型表示出来,清晰易理解。,但是,当模型中自变量较多,特别是名义变量较多,或名义变量的类别较多时,分析自变量之间的交互效应就很繁杂,可能需要建立很多哑变量,可以直接分析各种类型的分类变量,对于名义变量,也不需要事先建立哑变量,可以直接分析变量的主效应和交互效应。对数线性模型不仅可以解决卡方分析中常遇到的高维列联表的“压缩”问题,又可以解决,logistic,回归分析中多个自变量的交互效应问题,3,区别 方法列联表逻辑回归对数线性模型作用分析定类变量和定,2,、列联表的四种类型,双向无序列联表;,单向有序列联表;,双向有序且属性不同的列联表;,双向有序且属性相同的列联表,4,2、列联表的四种类型双向无序列联表;4,3,、列联表的优势,约束条件少,清晰,可以快速准确进行判断,5,3、列联表的优势约束条件少5,4,、列联表的劣势:,对于多关系变量(两个以上)研究:不能被清晰解读,失去了对多变量之间的交互联系的分析,进行两变量间关联分析时缺乏统计控制,不能准确定量描述一个变量对另一个变量的作用幅度,6,4、列联表的劣势:对于多关系变量(两个以上)研究:不能被清晰,5,、对数线性模型:多维度列联表解决之道,以及模型自身特点,通过数学方法(方差分析,+,逻辑变换)来描述多元频数分布。,综合性:同时囊括多个变量于一个模型之中。,控制性:可以在控制其他变量的条件下研究两个分类变量之间的关联。,饱和性:将多元频数分布分解成具体的各项主效应和各项交互效应,以及高阶效应,不会漏项。(饱和模型与不饱和模型),定量性:以发生比的形式来表示自变量的类型不同反映在因变量频数分布上的差异。,可检验性:不仅可以对所有参数估计进行检验,使抽样数据可以推论总体,且能够通过不同模型的统计检验结果,对备选模型进行筛选和评价,进而确定具有最大解释能力且最简单的模型。,消除抽样波动所带来的明显的不规则性,7,5、对数线性模型:多维度列联表解决之道,以及模型自身特点 通,6,、,对数线性模型的缺点,对数线性模型更强调的是变量之间的交互效应,它不能直接将因变量用自变量的函数表示出来。,对数线性模型抽象复杂,特别是高维模型,不如线性回归模型易理解,8,6、对数线性模型的缺点 对数线性模型更强调的是变量之间的交互,二、,对数线性模型的基本原理,1,、,与方差分析相关的,在多元方差分析中,以二元方差为例:每一个观测值,y,ij,=+A,i,的效果,+B,j,的效果,+(AB),ij,交互作用,+,ij,9,二、对数线性模型的基本原理1、与方差分析相关的 9,2,、,比数比,比数比是对数线性模型的基础,而比数比又是由比数计算而来。那么什么叫做比数呢?比数是一个事件发生的概率与其不发生概率之比,测量了一个事件发生的可能性。这个数值越高说明结果,2,相对于结果,1,发生的可能性就越高。,10,2、比数比 比数比是对数线性模型的基础,而比数比又是由比数计,F,ij,代表某模型,f,ij,的期望值,令,ij,代表与单元格(,i,j,)有关的期望概率,上表可转化为,11,11,12,12,1=,12,/,11,2=,22,/,21,同理我们可以测量两个两个类别间的比值,称作比数比。,=1/2=,22,21,/,12,21,=F,11,F,22,/F,12,F,21,一个大于,1,的比数比意味着行变量和列变量的第二个(或者第一个)存在正相关;等于,1,无关;小于,1,负相关。,13,1=12/1113,比数比的不变性,不随,1,)总样本量,2,)行边缘分布,3,)列边缘分布的变化而变化。所以,只要关心比数比的估值,那么适用于简单随机样本的最大似然估计就可以被直接应用到分层样本中了。,14,比数比的不变性,不随1)总样本量2)行边缘分布3)列边缘分布,3,、与逻辑变换有关的:对数线性模型的出现,令,R,表示行,,C,表示列,,f,ij,表示第,i,行第,j,列的观测频次。那么期望频次,F,ij,被设定为一个乘积的函数,F,ij,=,R,i,C,j,RC,ij,代表概率里面的总概率值,1,,,R,和,C,分别代表,R,和,C,的边缘效应,,RC,代表,R,与,C,的二维交互效应,而交互效应实质上测量的就是,R,与,C,之间的比数比,当,RC,ij,=1,的时候就是我们熟悉的独立模型。,相乘形式的不好计算,我们将其取对数,15,3、与逻辑变换有关的:对数线性模型的出现令R表示行,C表示列,上两式的数学变换使各种效应项相乘的关系被转换成相加的关系,使各项效应独立化了。,常数效应;,A,因素效应;,B,因素效应;(主效应),A,、,B,两因素的交互效应;,16,16,主效应和多元交互列表涉及因素数量相等;,交互效应的总数则为所有因素各阶组合数之和。,对数线性模型有一个限制条件:,模型中每一项效应的各类参数之和等于,0,;,如果每项效应中只有一类的参数未知,那么可以由已知参数推算出来。,17,主效应和多元交互列表涉及因素数量相等;17,通过上组式子,我们可以计算出线性模型等式右侧的所有参数值。,A,因素效应是行平均值与总平均值之差,B,因素效应是列平均值与总平均值之差,交互效应计算结果表示在除去所有其他分布效应之后两个因素之间的,净关联,。,18,18,常数项只受样本规模和交互单元数的影响;,主效应项反映的是各因素内部类别频数分布的特征,是在总平均频数基础上的“补差”;,如果模型中所有交互效应都等于,0,,我们将会看到虽然每行(列)频数不同,但行(列)频数分布比例却是相同的,都等于原来分类变量的类别分布比例。,19,常数项只受样本规模和交互单元数的影响;19,泊松分布,多项分布,乘积,-,多项分布,所以我们不能直接应用最小二乘法对模型、总体、参数进行估计,但幸运的是,三个抽样模型下的极大似然估计是等同的。但是可以通过迭代再加权最小二乘法,可是运算起来比较繁琐。,4,、分布,20,泊松分布4、分布20,5,、,估计,参数估计通俗的来讲:根据抽样结果来合理地、科学的猜测一下总体的参数大概是什么?或者是在什么范围?点估计就是用样本计算出来的一个参数来估计未知参数;区间估计就是通过样本计算出来一个范围来对位置参数进行估计。,21,5、估计参数估计通俗的来讲:根据抽样结果来合理地、科学的猜测,极大似然法与最小二乘法的区别于联系,最小二乘法所要解决的问题是:为了选出似的模型输出与系统输出尽可能接近的参数估计,用误差平方和即离差平方和的大小来表示接近程度。使离差平方和最小的参数值即为估计值。简单来说,已知点,自己拟合模型也即分布函数(概率密度函数的积分),进行预测。,极大似然估计所要解决的问题是:选择参数,,使已知数据在某种意义下最可能出现。某种意义指的是似然函数最大,此处似然函数就是概率密度函数。也就是经常提到的“模型已知,参数未定”。,22,极大似然法与最小二乘法的区别于联系最小二乘法所要解决的问题是,二者的区别就是,后者需要知道概率密度函数。最小二乘法要的是求出最优的那个参数,而极大似然要求出概率最大(最可能出现的)参数。举个例子,生活中我们一个着眼最合理是哪一个,一个着眼于最可能的是哪一个(极大似然法)当总体服从正态分布时,二者是一样的。,对于最小二乘法,当从模型总体随机抽取,n,组样本观测值后,最合理的参数估计量应该使得模型能最好地拟合样本数据;而对于最大似然法,当从模型总体随机抽取,n,组样本观测值后,最合理的参数估计量应该是使得从模型中抽取该,n,组样本观测值的概率最大。,23,二者的区别就是,后者需要知道概率密度函数。最小二乘法要的是求,密度函数和似然函数(带着参数的密度函数)是相同的,但前者视参数是固定的且数据时变化的,后者视参数变化的且数据时固定的。,(,1,),写出似然函数;,(,2,),对似然函数取对数,并整理;,(,3,),求导数,;,(,4,),解似然方程,24,密度函数和似然函数(带着参数的密度函数)是相同的,但前者视参,三、,对数线性模型的假设检验,1,、,假设检验的作用,统计推论中包括参数估计与假设检验两部分,上面我们已经介绍了参数估计,那估计的可信度有多少,还要经过假设检验。不经过统计检验,研究者便不能肯定得到的参数估计是不是仅仅源于抽样误差,因而不能肯定在总体中是否存在相同情况。所有结论只能限于这个样本之内,不能肯定再抽一个样本能否得到类似结果。,25,三、对数线性模型的假设检验1、假设检验的作用25,2,、,统计量,似然卡方比,根据相关计算,看原假设是否成立。,贝叶斯信息标准,不同模型而言越小的,BIC,越好。,26,2、统计量似然卡方比,根据相关计算,看原假设是否成立。26,3,、对数线性模型的统计检验,四种主要检验:,1,、对于假设模型的整体检验;,2,、分层效应的检验;,3,、单项效应的检验;,4,、单个参数估计的检验。,27,3、对数线性模型的统计检验四种主要检验:27,对数线性模型的统计检验,1,、对于假设模型的整体检验,采用似然比卡方检验(,likelihood-ratio chi-square test,,标为,L,2,),在样本量较大时,,L,2,与皮尔逊卡方统计量的值十分接近。,L,2,优越性:,1,、期望频数采用似然估计方法,因而更加稳健;,2,、可以被分解成若干部分,即各项效应都有对应的似然卡方值,并且它们的似然卡方值之和等于整个模型的似然卡方比值。,28,对数线性模型的统计检
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!