社会统计学(卢淑华版)课件

上传人:晚**** 文档编号:242893394 上传时间:2024-09-11 格式:PPT 页数:37 大小:1.32MB
返回 下载 相关 举报
社会统计学(卢淑华版)课件_第1页
第1页 / 共37页
社会统计学(卢淑华版)课件_第2页
第2页 / 共37页
社会统计学(卢淑华版)课件_第3页
第3页 / 共37页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第八章类别变量与尺度变量关系的假设检验,方差分析,8.1,方差分析的原理,8.2,一元方差分析,8.3,二元方差分析,2024/9/11,1,第一节 方差分析的原理,一、方差分析及其有关术语,1,、什么是方差分析,方差分析通过分析数据的误差判断各总体均值是否相等来检验多个总体均值是否相等,从而研究分类型自变量对数值型因变量的影响。,根据自变量的多少,方差分析可分分为单因素方差、双因素方差分析和多因素方差分析。,2,、因素或因子,因素或因子是指所要检验的对象。,3,、水平或处理,水平或处理是指因子的不同表现。,2024/9/11,2,第一节 方差分析的原理,4,、观察值,观察值是指在每个因素水平下得到的样本数据。,二、,方差分析的基本思想和原理,1,、基本思想,方差分析通过对数据误差来源的分析判断不同总体的均值是否相等。,2,、基本原理,两类误差,随机误差,因素的同一水平,(,总体,),下,由随机因素的影响造成的样本各观察值之间的差异称为随机误差。,2024/9/11,3,第一节 方差分析的原理,系统误差,因素的不同水平,(,不同总体,),下由系统性因素造成的样本各观察值之间观察值的差异称为系统误差。,误差平方和,SS,数据的误差用平方和,(sum of squares),表示,分为组内平方和和组间平方和。,组内平方和,组内平方和是指因素的同一水平下数据误差的平方和,组内平方和只包括随机误差。,组间平方和,组间平方和是指因素的不同水平之间数据误差的平方和,组间平方和既包括随机误差,也包括系统误差。,2024/9/11,4,第一节 方差分析的原理,均方,MS,均方是指平方和除以相应的自由度。,基本原理,若原假设(自变量对因变量没有影响)成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近,1,;若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于,1,。当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响。,三、方差分析的基本假定,1,、每个总体都应服从正态分布,自变量对因变量没有影响,则没有系统性误差,组间平方和中只有随机误差。,2024/9/11,5,第一节 方差分析的原理,对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本。,2,、各个总体的方差必须相同,各组观察数据是从具有相同方差的总体中抽取的。,3,、观察值是独立的,四、问题的一般提法,1,、设因素有,m,个水平,每个水平的均值分别用,1,2,,,m,表示,2,、要检验,m,个水平,(,总体,),的均值是否相等,需要提出如下假设:,H,0,:,1,2,m,H,1,:,1,2,,,m,不全相等,2024/9/11,6,第二节:单因素方差分析,/,一元方差分析,一、数据结构,观察值,(,j,),因素,(,A,),i,水平,A,1,水平,A,2,水平,A,m,1,2,:,:,n,x,11,x,21,x,m,1,x,12,x,22,x,m,2,: :,:,:,: :,:,:,x,1,n,x,2,n,x,mn,2024/9/11,7,第二节:单因素方差分析,/,一元方差分析,二、分析步骤,1,、提出假设,H,0,:,1,=,2,=,=,m,自变量对因变量没有显著影响,H,1,:,1,,,2,,,,,k,不全相等,自变量对因变量有显著影响,注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等,2,、构造检验的统计量,水平的均值,2024/9/11,8,第二节:单因素方差分析,/,一元方差分析,假定从第,i,个总体中抽取一个容量为,n,i,的简单随机样本,第,i,个总体的样本均值为该样本的全部观察值总和除以观察值的个数。计算公式:,式中:,n,i,为第,i,个总体的样本观察值个数,,x,ij,为第,i,个总体的第,j,个观察值。,计算全部观察值的总均值,用全部观察值的总和除以观察值的总个数,计算公式:,2024/9/11,9,第二节:单因素方差分析,/,一元方差分析,计算总误差平方和,TSS,总误差平方和,T,SS,是全部观察值,与总平均值,的离差平方和,反映全部观察值的离散状况,其计算公式为:,计算组间平方和,BSS,组间平方和是各组平均值,组间平方和是各组平均值,与总平均值,的离差平方和,反映各总体的样本均值之间的差异程度,计算公式为:,2024/9/11,10,第二节:单因素方差分析,/,一元方差分析,计算组内平方和,RSS,组内平方和是每个水平或组的各样本数据与其组平均值的离差平方和,该平方和反映的是随机误差的大小,计算公式为:,三个平方和的关系,TSS = BSS + RSS,2024/9/11,11,第二节:单因素方差分析,/,一元方差分析,计算均方,MS,各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是,均方,,也称为方差。均方由误差平方和除以相应的自由度求得,三个平方和对应的自由度分别是:,TSS,的自由度为,n,-1,,其中,n,为全部观察值的个数,BSS,的自由度为,m,-1,,其中,m,为因素水平,(,总体,),的个数,RSS,的自由度为,n,-,m,组间方差,MSB,:,组内方差,MSR,:,2024/9/11,12,第二节:单因素方差分析,/,一元方差分析,3,、计算检验统计量,F,4,、,统计决策,将统计量的值,F,与给定的显著性水平,的临界值,F,进行比较,作出对原假设,H,0,的决策。,例(参见教材,376,页例,1,、,383,页例,2,),为了研究职业对家庭赡养人数的影响,,研究者抽查了某企业,41,名员工的家庭赡养人数,(,如下表,),,试判断,职业对家庭赡养人数是否有影响。,家庭赡养人数,职业,管理人员,3,5,0,5,4,4,2,3,1,3,2,3,3,2,4,2,6,1,工人,1,3,4,4,6,2,3,4,3,5,2,4,技术员,6,4,2,2,3,0,5,3,1,2,1,2024/9/11,13,第二节:单因素方差分析,变量间关系的强度用自变量平方和,(,BSS,),占总平方和,(,TSS,),的比例大小来反映,自变量平方和占总平方和的比例记为,R,2,,即:,其平方根,R,就可以用来测量两个变量之间的关系强度。,三、关系强度的测量,拒绝原假设表明因素,(,自变量,),与观测值之间有显著关系,组间平方和,(,BSS,),度量了自变量,(,行业,),对因变量,(,投诉次数,),的影响效应。只要组间平方和,BSS,不等于,0,,就表明两个变量之间有关系,(,只是是否显著的问题,),。当组间平方和比组内平方和,(,SSE,),大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱。,2024/9/11,14,第三节 双因素方差分析,/,二元方差分析,一、二元方差分析的数学模型,二元方差又称,双因素方差分析,,,用来分析两个因素,(,行因素,Row,和列因素,Column),对试验结果的影响。,设两个自变量,A,和,B,作用于总体,其中自变量,A,有,a,种取值:,A,1,,,A,2,,,,,A,a,,,自变量,B,有,b,种取值:,B,1,,,B,2,,,,,B,b,。,变量,A,的取值为,A,i,、变量,B,的取值为,B,j,时因变量,y,的取值为,y,ij,无交互作用的二元方差分析模型,如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的,二元,方差分析称为无交互作用的,二元,方差分析或无重复,二元,方差分析,(Two-factor without replication),。,2024/9/11,15,因变量,y,与自变量,A,、,B,之间的关系可以表达为以下模型:,ij,相互独立,并且服务正态分布:,有交互作用的二元方差分析模型,如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析,(Two-factor with replication ),。,2024/9/11,16,因变量,y,与自变量,A,、,B,之间的关系可以表达为以下模型:,ijk,相互独立,并且服务正态分布:,K=1,2,,,,,r r,为自变量,A,和,B,每种搭配的重复数,2024/9/11,17,二、无交互作用的二元方差分析,提出假设,2,、,构造,检验统计量,几个基本概念,自变量,y,1j,,,y,2j,,,,,y,aj,观测一次取平均的,因此可以认为变量,A,的影响已经相互抵消,所以行平均值 反映的是自变量,B,对因变量,y,的影响。,2024/9/11,18,2024/9/11,19,自变量,y,i1,,,y,i2,,,,,y,ib,观测一次取平均的,因此可以认为变量,B,的影响已经相互抵消,所以行平均值 反映的是自变量,A,对因变量,y,的影响。,变量,A,的离差平方和,BSS,A,2024/9/11,20,变量,B,的离差平方和,BSS,B,TSS=BSS,A,+BSS,B,+RSS,剩余平方和,RSS,离差平方和之间的关系,2024/9/11,21,计算均方,其中,a-1,是自由度,其中,a-1,是自由度,其中,(a-1),、,(b-1),是自由度,构造检验统计量,2024/9/11,22,用,Excel,进行方差分析,(Excel,分析步骤,),第,1,步:,选择,“,数据,”,下拉菜单,第,2,步:,选择,【,数据分析,】,选项,第,3,步:,在分析工具中选择,【,单因素方差分析,】,,,然后选择,【,确定,】,第,4,步:,当对话框出现时,在,【,输入区域,】,方框内键入数据单元格区域,在,【,】,方框内键入,0.05,(,可根据需要确定,),在,【,输出选项,】,中选择输出区域,确定临界值,并与检验统计量进行比较,得出结论:,2024/9/11,23,例 三个地区家庭人口数的抽样调查如下表所示,试问这三地区的平均家庭人口有没有显著差异?,地区,甲地,乙地,丙地,家庭人口数,2,6,2,6,4,1,4,4,3,13,1,3,5,8,1,8,2,7,4,12,1,6,1,4,5,2,2,2024/9/11,24,三、有交互作用的二元方差分析,提出假设,几个基本概念,总平均值,总平均值是对全部观测值求平均,2024/9/11,25,行平均值,行平均值是对行号相同的全部观测值求平均,列平均值,列平均值是对列号相同的全部观测值求平均,格平均值,格平均值是对行号和列号都相同的全部观测值求平均,2024/9/11,26,总离差平均和,TSS,列间平均和,BSS,A,列间平方和,BSS,A,反映了由变量,A,解释掉的误差,行间平均和,BSS,B,行间平方和,BSS,B,反映了由变量,B,解释掉的误差,2024/9/11,27,交互作用,自变量,A,、,B,在每一格所能解释的全部误差,BSS,剩余误差,RSS,总离差平方和、行间平方和、列间平方和、交互作用、剩余误差之间的关系,2024/9/11,28,平方和的自由度,总平方和,TSS,的自由度,总平方和,TSS,是围绕着均值计算的,独立变化的取值只有,abr-1,,所以总平方和,TSS,的自由度为,abr-1,列间平方和,BSS,A,的自由度,列间平方和,BSS,A,是 围绕着均值计算的,存在 的约束,所以列间平方和,BSS,A,的自由度为,a-1,列间平方和,BSS,B,的自由度,列间平方和,BSS,B,是 围绕着均值计算的,存在 的约束,所以列间平方和,BSS,A,的自由度为,b-1,剩余平方和,RSS,的自由度,剩余平方和,BSS,是围绕着各格,A,i,B,j,的均值计算的,所以剩余平方和,BSS,的自由度为,abr-ab,2024/9/11,29,自由度之间存在与平方和之间同样的关系式:,abr-1,a-1,b-1,abr-ab,?,交互作用,I,A,B,的自由度,交互作用,I,A,B,的自由度,=(abr-1)-(a-1)-(b-1)-(abr-ab)=(a-1)(b-1),交互作用显著性的检验,提出假设,H,0,:,i=1,,,2,,,,,a j=1,,,2,,,,,b,H,1,:,i=1,,,2,,,,,a j=1,,,2,,,,,b,2024/9/11,30,构造检验统计量,确定临界值:,比较临界值与检验统计量,得出结论:,4,、,交互作用不显著情况下,自变量,A,、,B,显著性的检验,交互作用不显著,则交互作用的平方和,I,A,B,合并到误差项,RSS,中,作为总误差,TRSS,,自由度也相应地合并:,abr-a-b+1,2024/9/11,31,自变量,A,的检验,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,自变量,B,的检验,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,2024/9/11,32,5,、交互作用显著情况下,自变量,A,、,B,显著性的检验,交互作用显著情况下,自变量,A,、,B,的检验方法要根据变量,A,和,B,的性质来确定。如果某变量的取值是固定的,则该变量属于固定变量。如果变量所涉及的测试个体是随机选择的,则该变量属于随机变量。根据,A,、,B,性质的不同,可以分为三种模型:,固定模型:,A,、,B,都是固定变量,对于固定模型,,F,检验分母项就用剩余误差项(,RSS,)的均方,变量,A,的检验,检验统计量:,2024/9/11,33,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,变量,B,的检验,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,混合模型:,A,和,B,中有一个固定变量,另一个是随机变量,以,A,为固定变量,,B,为随机变量为例,固定变量,A,的检验,,F,检验分母项用交互误差项(,I,A,B,)的均方,2024/9/11,34,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,随机变量,B,的检验,,F,检验分母项用剩余误差项(,RSS,)的均方,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,2024/9/11,35,随机模型:,A,、,B,都是随机变量,变量,A,的检验,,F,检验用交互误差项,I,A,B,的均方,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,变量,B,的检验,,F,检验用交互误差项,I,A,B,的均方,检验统计量:,根据给定的显著性水平,,查出,临界值 。如果 ,,则不拒绝原假设。否则,拒绝原假设。,2024/9/11,36,2024/9/11,37,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!