CHAP4 为分析做好准备

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第四章,为分析作好准备（数据预处理）,9/22/2024,1,本章内容,引言,4.1 数据说明,4.2 整理数据文件,4.3 对数据进行分类汇总,4.4 对观测量加权处理,4.5 定义和应用变量集,练习题：,作业1,9/22/2024,2,引言,当数据窗中已经建立或读入了一个数据文件后，就可以对该数据文件进行分析了。但在许多情况下，SPSS的分析过程往往对数据的格式有特殊的要求，需要对数据文件进行调整，然后对数据进行统计分析。,9/22/2024,3,4.1 数据说明 P6466,数据背景：,美国某研究机构对近三千名高中学生的数学能力进行了研究，探求是什么因素导致某些学生具有数学才能，数据编号Data04-01。,一个人的数学才能可能与以下三个方面有关：人口学因素、所学的有关数学课程和其他因素。,根据上述方面的因素，在研究时进行了有关的测试（5个部分：人口学因素、智力测试、所设数学课程、有关成绩、学习态度问卷）,共28个原始变量,变量信息：P65-66,9/22/2024,4,4.2 整理数据文件,在许多情况下，SPSS的分析过程往往对数据有特殊的要求，需要对数据文件进行进一步的加工处理。一般的包括：,观测量数据的排序（,Data-Sort Cases）,为观测量排秩（,Transform-Rank Cases）,数据转换（,Transform-Count）,对变量值重新编码（,Transform-Recode）,对变量值自动编码,（,Transform-Automatic Recode）,计算产生新变量,（,Transform-Compute）,数据文件的转置（,Data-Transpose）,拆分数据文件（,Data-Split Files）,合并数据文件（,Data-Merge Files）,9/22/2024,5,4.2.1 观测量数据的排序,根据某些变量值重新排列各观测量Case在数据文件中出现的先后顺序，如：按高矮排队、按成绩排名等,菜单：DATA+Sort Cases,a.,选择,Sort by,变量,b.,升序或降序,如,data04-01,数据文件，按想象力测试分数“,visual”,变量排序（降序）,9/22/2024,6,4.2.2 为观测量排秩,求某个变量值的秩(Rank), 用一个新变量（r+原名）保存，而不改变观测量Case原来的顺序，如：求名次,菜单： Transform+Rank Cases,a.,选变量：每个变量产生一个秩变量,b.,选择秩的排列方式：将最小的数值的秩定为1（升序）或将最大的数值的秩定为1（降序）,c.,是否分组(,BY,变量)：分别从1开始排名，如对男女生分别排名,d.Ties（,结值）的不同处理方式:,Mean,Low,High,Sequential,9/22/2024,7,4.2.3 数据转换,每个受调查的学生在高中选修了多少门数学课程，将统计结果放在新变量mathcrs，而原来高中所开设的5门数学课程中，1表示选课，0表示未选。,菜单： Transform+Count,a.,新变量名（,Target Variable）：,mathcrs,b.,参与统计的数值型变量：5门数学课程变量名,c. Define Values：,1,（,当5个变量的值为1时，,Count,计数）,d . If：,可设置条件,9/22/2024,8,4.2.4 对变量值重新编码,经常需要将一些定距变量重新编码称为定序变量，以便进行统计分析，,如年龄老中青，收入高中低，受教育年限高中及以下、大专、大本及以上,菜单： Transform+ Recode,例子P69-70：,将对父母受教育程度,faed,、,maed,的9级，归纳合并成3级（高中及以下、大专、大本及以上）,对,Q04、Q05、 Q06、 Q08、 Q10,和,Q11,这6个反面问题重新编码，成为正面问题。,9/22/2024,9,4.2.5 对变量值自动编码,当分类编码不具有连续性数值时，产生的空单元格会降低一些运算过程的能力和增加对内存的需求。此外，一些统计过程不能用字符型变量值，有些统计运算过程需要用整数值表示因子水平。SPSS提供了Automatic Recode自动编码命令，将数值型变量和字符型变量转变为连续整数。,菜单： Transform-Automatic Recode,例子p70-71：在data04-01中，将grades(学生等级评定)变量中共有7个变量值（2-8），现用Automatic Recode命令自动编码，成为newgrade（从最小值开始编码Lowest value）,9/22/2024,10,4.2.7 数据文件的转置,行列互换：数据文件的行-列，列-行,菜单： Data+Transpose,a.,选变量，没选的将不转置,b.,从源变量框中选择要作为“名称变量”的变量进入,Name Variable（,可缺）,9/22/2024,11,4.2.8 拆分数据文件,在进行数据处理时经常要对数据文件中的观测量进行分组分析，但有些分析功能没有设置对分组变量的选择项。如想使用Descriptives功能分别求男生、女生的平均分数。在进行分析之前必须对该数据文件进行拆分。,这里的“拆分”，是对观测量的分组，非真的拆分文件。,菜单：,Data+Split File,选择要分组的变量(Weight Cases 命令，对观测量加权处理。如：,在一个样本中，如果女性的比例过高，可能需要给予女性数据较低的权重值，以抵消它们比例过高引起的影响,在进行频数分布分析时（crosstabs列联表，交叉表），已知单元格频数，要进行卡方检验，也需要以加权方式处理数据,在当前数据文件中如果存在一个表明相同的变量值出现频数的变量时，应该定义该变量为加权变量。,在选择加权变量时应该注意以下三点：,加权变量中含有零、负数或缺失值的观测量将被排除在分析之外,分数值有效,一旦对数据进行了加权处理，一直有效，直到关闭或改变权重,9/22/2024,17,4.4 对观测量加权处理（续）,菜单： DataWeight Cases,选择是否对观测量进行加权处理,选择加权变量,例子: 某地区城、乡普及教育情况（列联表），请回答,城、乡各种学历占整个地区受教育人数的百分比,城、乡各种学历占整个地区本种学历人数的百分比,城、乡普及教育情况是否有差别（,卡方检验，,Chi-square）,学历,地区,大学,高中,初中,小学,城市,110,1161,2499,3163,乡村,14,620,1648,3196,9/22/2024,18,4.5 定义和应用变量集,在data04-01数据中变量较多，其中有些变量在进行某个统计分析时不使用，SPSS可以将不使用的变量“遮蔽”，而将经常使用的变量定义为一个变量集。从而方便用户的操作，提高工作效率。,定义变量集：,UtilitiesDefine Sets,应用已定义的变量集：,UtilitiesUse Sets,9/22/2024,19,练习题,作业1.DOC,9/22/2024,20,

展开阅读全文

CHAP4 为分析做好准备

最新文档