资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第十一章,定量资料分析,第十一章 定量资料分析,目,录,第一节,资料的整理与录入,第二节,单变量统计分析,第三节,双变量统计分析,第四节,多变量统计分析,目 录 第一节 资料的整理与录入 第二节 单变量,回顾,:,社会调查的一般程序,准备,阶段,调查,阶段,研究,阶段,总结,阶段,回顾:社会调查的一般程序 准备 阶段 调查 阶段 研究 阶,第一节,资料的整理与录入,?,一、资料的审核,?,资料审核是资料处理的第一步工作。它是指,研究者对所收集的原始资料(主要是问卷),进行初步的审阅,校正错填、误填的答案,,剔出乱填、空白和严重缺答的废卷。其目的,是使得原始资料具有较高的准确性、完整性,和真实性,从而为后续资料整理录入与统计,分析工作打下较好的基础。,第一节 资料的整理与录入?一、资料的审核?资料审核是资料,?,在资料审核中,如发现问题,可以分别不同,情况予以处理:,?,(,1,)调查中已发现并经认真核实后确认的错,误,可由调查者代为更正。,?,(,2,)资料中的可疑之处或明确有错误与出入,的地方,应设法进行补充调查。,?,(,3,)无法进行或无需进行补充调查的情况下,,剔除那些明显错误的或无把握的资料,保,证真实性和准确性。,?在资料审核中,如发现问题,可以分别不同情况予以处理:?(,?,资料审核的,方法,主要有两种,即逻辑审核与,计算审核。,?,逻辑审核,,即核查资料的内容是否合乎逻辑,和常识,项目之间有无互相矛盾之处,与其,他有关资料进行对照是否有明显出入等等。,?,计算审核,,是针对数字资料进行的审查。要,检查计算有无错误。度量单位有没有错,前,后数字之间有无相互矛盾之处等等。,?资料审核的方法主要有两种,即逻辑审核与计算审核。?逻辑审,在前面介绍问卷设计时,我们曾指出,编码就是给每个,问题及答案一个数字作为它的代码。,从资料处理的角度看,编码就是用阿拉伯数字来代替问,卷每一个问题的回答,或者说是将问卷中的答案转换,成数字的过程。下面两个表就是一份问卷中前几个问,题的答案和编码。,二、资料的转换,在前面介绍问卷设计时,我们曾指出,编码就是给每个问题及答案一,在对问卷中的问题进行编码时,要给不同的问题,分配合适的栏码,即指定该问题的编码值在,整,个数据文件,中所处的位置。,这种栏码有时在问卷设计时就印在问卷上,(,每,页的右边,用一条竖线与问题及答案隔开,),,,但也有很多情况下是在问卷收回后编码时再,指定。,在对问卷中的问题进行编码时,要给不同的问,三、数据录入,?,录入方法:,?,1,登录表法,?,直接录入,?,光学扫描,?,条形码,三、数据录入?录入方法:?1登录表法?直接录入,四、数据清理,有效范围清理,对于问卷中的任何一个变量来说,它的有,效编码值往往都有某种范围,而当数据中的数字,超出了这一范围时,可以肯定这个数字一定是错,误的。,四、数据清理 有效范围清理 对于问,有效范围数据清理,有效范围数据清理,逻辑一致性清理,?,逻辑一致性清理则是从另一种角度来查,找数据中所存在的问题。其基本思路是依据,问卷中的问题相互之间所存在的某种内在的,逻辑联系,来检查前后数据之间的合理性。,?,例如,性别,/,怀孕次数,;,无孩子,/,子女个数,年龄,未婚,/,配偶职业收入等,;,独生子女,/,兄妹个数,年龄,逻辑一致性清理?逻辑一致性清理则是从另一种角度,数据质量抽查,?,一个很简单的例子:,?,假设某个案的数据在“文化程度”这一变量上输错了,,问卷上填答的答案是,2(,初中,),,编码值也是,2,,但数据录,入时却错敲成了,3(,高中及中专,),。,由于,3,这个答案在正常有效的编码值范围中,因此,前一,种方法检查不出这一错误。同时,这一变量值与其他变,量之间又没有前述那样的逻辑联系,因此后一种方法也,用不上。,数据质量抽查?一个很简单的例子:?假设某个案的数据在“,第二节,单变量统计分析,?,一、单变量描述统计,?,单变量统计分析可以分为两个大的方面,即描述统计和,推论统计。描述统计的主要目的在于用最简单的概括形,式反映出大量数据资料所容纳的基本信息。它的基本方,法包括集中趋势分析、离散趋势分析等。而推论统计的,主要目的,则是用从样本中所得到的数据资料来推断总,体的情况,它主要包括区间估计和假设检验等。,第二节 单变量统计分析?一、单变量描述统计?单变量统计分,描述统计,1.,内容,?,搜集数据,?,整理数据,?,展示数据,2.,目的,?,描述数据特征,?,找出数据的基本规律,0,25,50,Q1,Q2,Q3,Q4,¥,描述统计 1.内容?搜集数据?整理数据?展示数据 2.,推断统计,1.,内容,?,参数估计,?,假设检验,2.,目的,?,对总体特征作出,推断,样,本,总体,推断统计 1.内容?参数估计?假设检验 2.目的?对总,描述统计与推断统计的关系,反映客观,现象的数,据,总体内在的,数量规律性,推断统计,(利用样本信息和概率,论对总体的数量特征进,行估计和检验等),概率论,(包括分布理论、大数定律,和中心极限定理等),描述统计,(统计数据的搜集、整,理、显示和分析等),统计学探索现象数量规律性的过程,描述统计与推断统计的关系 反映客观现象的数据 总体内在的数量,集中趋势分析,?,集中趋势分析指的是,用一个典型值,来反映,一组数据的,一般水平,,或者是反映这组数,据向这个典型值集中的情况。,?,这样一个典型值就被称为集中统计量。,集中趋势分析?集中趋势分析指的是用一个典型值来反映一组数据,?,按照处理方式不同集中统量可分为几类,两,最常见的集中趋势有,算术平均值,、,众数和中,位数,三种。用得最多的是平均数。,?,1,定类层次:众值(众数,),?,其意义为,在众多数值中,出现次数最多的,一个数值。,?,(,1,)原始资料,求众值,?,例如:,2,,,3,,,5,,,5,,,5,,,6,,,6,,,7,,,8,?,出现次数最多的是,5,,其,M,0=5,?按照处理方式不同集中统量可分为几类,两最常见的集中趋势有,?,(,2,)次数资料,求众值,?,例如:江村女青年找对象的标准,标,准,相,貌,人,品,文,化,健,康,职,业,能,力,经济,条件,政治,条件,家庭,背景,感,情,人,数,55,122,51,104,13,29,16,13,6,82,其次数最多的为人品,122,人次,所以,M0=,人品,?(2)次数资料,求众值?例如:江村女青年找对象的标准 标,?,(,3,)分组的频数表中,频数最大的区间的组,中值就是众值,区间,组中值,频数,75-79,77,1,70-74,72,3,65-69,67,5,60-64,62,10,55-59,57,4,50-54,52,2,表中频数最大的为,10,,,对应的区间是,60-64,,,其组中值是,62,,所以众,值,=62,。,如果在一个次数中出现,两个邻近的次数较多者,,众数是二次数多的组中,值的平均值,?(3)分组的频数表中,频数最大的区间的组中值就是众值,?,2,定序层次:中位值(中位数)(单选),其意义为按大小顺序排列,处在一群数据中央位置的数值。,(,1,)原始资料,求中位值,例如:有,9,个人,他们的月工资分别如下:,47,,,42,,,50,,,51,,,92,,,112,,,71,,,83,,,108,首先作排列处理,从小到大排列,42,,,47,,,50,,,51,,,71,,,83,,,92,,,108,,,112,其次求中央位置,Md,的位置,=,(,N+1,),2=,(,9+1,),2=5,最后求中位置,Md=71,?2 定序层次:中位值(中位数)(单选)其意义为按大小顺,(,3,)定距层次:算术平均数,?,通常称平均数,又称均数或均值。英文为,Mean,,,故以,M,表示。如果是由变量,X,计算得来的就记为,(读,X,杠),现在一般都以,表示样本的平均数,,以,U,表示总体的平均数。,?,算术平均数就是各个变量值相加求和再除以变量,的总次数。,x,X,X,X,X,X,N,n,1,2,?,?,?,?,X,N,?,X,X,=,=,(3)定距层次:算术平均数?通常称平均数,又称均数或均值,离散量数分析,?,离散趋势指的是测量值围绕中心值,比如平均值,的分布。极差就是个简单例子。如我们可以报,告说平均年龄是,37.9,,范围是从,12,到,89,岁。,?,离散(中)量数分析,指的是用一个特别的数值来反,映,一组数据相互之间的离散(中)程度,.,即各组数据,相对于平均数的差异程度,(离中程度)。差异程度,小,平均数的代表性高;差异程度大,代表性低。,?,它与集中量数一起分别从两个不同的侧面描述和揭,示一组数据的分布情况。共同反映出资料分布的全,面特征,同时它还对现各集中量数的代表性做出补,充说明。,离散量数分析?离散趋势指的是测量值围绕中心值比如平,二、单变量推论统计,?,区间估计,?,以样本统计量的抽样分布为理论依据,按一,定概率要求,由样本统计量的值来估计总体,参数的值所在的范围,叫做总体参数的区间,估计。,?,区间估计的实质就是在一定的可信度(置信,度)下,用样本统计值的某个范围来估价总,体的参数值,。范围的大小反映的是这种估计,的精确性问题,而可信度高低反映的是这种,估计的可靠性或和握性问题。,二、单变量推论统计?区间估计?以样本统计量的抽样分布为理,?,区,间估计的可靠性或把握性是指用某个区间去估计总体,参数时,成功的可能性有多大。可以解释为:如果从总,体中重复抽取,100,次,约有,95%,次所抽取样本的统计值的,某个区间中都将包含总体的参数值,那么就说这个区间,估计的可靠性为,95%,。,?,区间估计的结果通常可以用下述方式来表述:“我们有,95%,的把握认为,全市职工的月工资收入在,182,元至,218,元之间。”或者“全省人口中,女性占,50%-52%,的可能,性为,99%,”,。,?区间估计的可靠性或把握性是指用某个区间去估计总体参数时,,课堂练习题,例:调查某厂职工的工资状况,随机抽取,900,名工人做样本,调,查得到他们的月平均工资为,186,元,标准差为,42,元。求,95%,的置信度下,全厂职工的月平均工资的置信区间是多少?,解,将调查资料代入总体均值的区间估计公式得,总体均值的置信区间为,183.26-188.74,当将置信度提高到,99%,,总体的置信区间为,182.39-189.61,元,(随着可靠性的提高,所估计的区间扩大了,但估计的精确性,就相应地降低了。,例:从某工厂随机抽取,400,名工人进行调查,结果表明女工的比,例为,20%,。现在要求在,90%,的置信度下,估计全厂工人中女,工比例的置信区间。,解,带入总体百分数的区间估计公式,得,16.7%-23.%,课堂练习题 例:调查某厂职工的工资状况,随机抽取900名工人,(二),假设检验,?,利用样本信息,根,据一定的概率,对,总体参数或分布的,某一假设作出拒绝,或保留的决断,称,为假设检验。,?,假设是对总体参数,的一种看法,?,总,体,参,数,包,括,总,体,均,值,、,比,例,、,方差等,?,分,析,之,前,必,需,陈,述,(二)假设检验?利用样本信息,根据一定的概率,对总体参,假设检验的基本思想,.,因此我们拒,绝假设,?,=,50,.,如果这是总,体的真实均值,样本均值,?,=50,抽样分布,H,0,这个值不像我,们应该得到的,样本均值,.,20,假设检验的基本思想.因此我们拒绝假设?=50,总体,?,?,?,?,?,?,?,假设检验的过程,(提出假设,抽取样本,作出决策),抽取随机样本,均值,?,X,=20,?,?,?,?,我认为人口的平,均年龄是,50,岁,提出假设,拒绝假设,!,作出决策,总体?假设检验的过程(提出假设,第三节,双变量统计分析,?,一、交互
展开阅读全文