资源描述
第二章,统计数据的收集与预处理,主要内容,2.1 统计数据的收集 2.2 SPSS数据文件的建立 2.3 SPSS数据文件的编辑 2.4 SPSS数据加工,2.1统计数据的收集,2.1.1 问卷设计 1问卷的构成 (1)标题 (2)导语(前言) (3)正文 (4)结束语,2.1统计数据的收集,2.1.1 问卷设计 2问卷的问题类型 (1)封闭型问题(是否式、选择式、评判式) (2)开放型问题,2.1统计数据的收集,2.1.1 问卷设计 3问卷中量表的主要类型 (1)连续评分量表 (2)分项评分量表(Likert量表) (3)排序量表,2.1统计数据的收集,2.1.1 问卷设计 4问卷设计的注意事项 (1)目的明确 (2)先易后难,先简后繁 (3)提出的问题要具体,避免提一般性问题 (4)单选问题的备选答案应完整划分答案空间 (5)多选题的备选答案必须分布在两个以上的维度上,并且至少有一部分不是互相排斥的 (6)问题的陈述及备选答案不能有多重含义 (7)问题设计的用语要含义明确,不能让应答者产生不同的理解 (8)在问题的陈述中,要对所询问行为的时间、方式、目的做必要的限定,2.1统计数据的收集,2.1.1 问卷设计 4问卷设计的注意事项 (9)对于得不到诚实回答而又必须了解的数据,可以通过变换问题的提法来获得相应的数据,或者通过了解相对数据来判断总体的情况 (10)问卷不能太长,以2030分钟为宜;商场拦截类的问卷,以35分钟为宜,2.1.2 问卷分析 信度分析 效度分析,2.1统计数据的收集,主要内容,2.1 统计数据的收集 2.2 SPSS数据文件的建立 2.3 SPSS数据文件的编辑 2.4 SPSS数据加工,2.2 SPSS数据文件的建立,2.2.1 统计数据的度量尺度 名义尺度(Norminal) 即定类尺度,它仅仅是一种标志,用于区分变量的不同值,类别数据之间没有次序关系。例如,人口的性别、商品的名称、身份证、商店类型等。 定序尺度(Ordinal) 是对事物之间等级或顺序差别的一种测度。例如,考试成绩(优、良、中、差)、人的身高等级(高、中、矮)、学历等级(博士、硕士、学士)等。 间隔尺度(Scale),定距尺度(Interval),是对事物类别或次序之间间距的测度。例如,100分制考试的成绩、重量、温度等。,定比尺度(Ratio),是指能够测度值之间比值的一种计量尺度。例如,员工的月收入、企业产值等。,2.2 SPSS数据文件的建立,统计数据的度量尺度,说明: 不同的度量尺度的统计数据在SPSS的数据文件中,对应不同的变量数据类型。 名义尺度-数值型、字符型 定序尺度-数值型、字符型 间隔尺度-数值型,2.2 SPSS数据文件的建立,2.2.2、SPSS数据文件的特点,样本,变量,变量值,个案,2.2 SPSS数据文件的建立,2.2.3 输入数据建立数据文件 SPSS数据文件的建立包括两个方面,首先进行数据的结构定义,其次录入数据。 (1)数据的结构定义 结构定义包括:名称、类型、宽度、小数、标签、值、缺失值、列、对齐、度量标准、角色,2.2 SPSS数据文件的建立,(1)数据的结构定义 名称 命名规则: 高版本的SPSS的变量名长度可多达64位,但是由于老版本的SPSS变量名长度应在8位之内,为了避免与低版本及其他软件出现兼容问题,高版本变量名一般仍控制在8位之内且尽量避免中文,必要的中文说明可以放在Label栏中加以说明。 首字符应以英文字母开头,后面可以跟除了!、?、*之外的字母或数字。下划线、圆点不能为变量名的最后一个字符。 变量名必须唯一且不区分大小写字母。允许汉字作为变量名,汉字总数一般不超过4个。 变量名不能与SPSS的保留字相同。SPSS的保留字包括:all、by、eq、ge、gt、leIt、ne、not、or、to、with。系统不区分变量名的大小写。,2.2 SPSS数据文件的建立,(1)数据的结构定义 变量类型,2.2 SPSS数据文件的建立,(1)数据的结构定义 变量类型 具体说明如下表所示:,2.2 SPSS数据文件的建立,(1)数据的结构定义 变量宽度 设置变量宽度。一般无需调整,直接采取默认值。它的大小可通过Width栏后边的微调按钮调整 小数位数 若变量类型为数值型,则可设置变量的小数位数,其他类型的变量则不能设置。小数位数默认为两位 变量名标签 考虑到与低版本的兼容问题,变量名最好限制为8位以内,并且尽量避免中文,这就有可能不能完全描述清楚变量的信息,此时就可在标签中对变量名做进一步的说明。 利用Label栏,不仅可以对变量详细说明,而且还可以采用中文,大大方便了用户对变量的理解。,2.2 SPSS数据文件的建立,(1)数据的结构定义 变量值标签(Values) 变量值标签是对变量的可能取值附加的进一步说明,标签内容最多可以有120个字符,通常仅对类型或分类变量的取值指定值标签 例如,将变量Departmt定义为数值型变量时,可以按照下表中规定的值和值标签,具体定义方法见下图。,2.2 SPSS数据文件的建立,(1)数据的结构定义 缺失值 SPSS统计软件的另一特点就是可以通过制定缺失值的方式来定义缺失数据,这样就可以更好地利用其他的有效数据。 列宽 定义变量在数据窗口中显示的宽度。 对齐 定义变量值显示的对齐方式,默认对齐方式为数值变量在右边,字符串变量在左边,此设置只影响数据编辑器中的显示。 度量标准 根据统计数据的类型定义度量尺度,度量尺度在数据分析中的作用不是很明显,但是如果用户要进行交互式绘图就必须定义好度量尺度。,2.2 SPSS数据文件的建立,(1)数据的结构定义 缺失值 SPSS统计软件的另一特点就是可以通过制定缺失值的方式来定义缺失数据,这样就可以更好地利用其他的有效数据。 角色 输入:变量将用作输入(例如预测变量、自变量)。 目标:变量将用作输出或目标(例如因变量)。 两者:变量将同时用作输入和输出。 无:变量没有角色分配。 分区:变量用于将数据划分为单独的训练、检验和验证样本。 拆分:设定此角色是为与SPSS Modeler 相互兼容,具有此角色的变量不会在SPSS Statistics 中用作拆分文件变量。,2.2 SPSS数据文件的建立,(2)数据的录入 录入数据的一般方法 逐行录入 从Word或Excel中直接复制粘贴到数据文件中 连续粘贴相同值 录入带有变量值标签的数据 输入定义了变量值标签的数据时,可以直接输入变量值,也可以通过下拉列框的形式输入,如图,从中选择值标签即可。,2.2 SPSS数据文件的建立,2.2.4 从其他数据文件导入数据建立数据文件 (1)直接打开 选择菜单“文件打开数据”,弹出“打开文件”对话框左键单击“文件类型”,即可看到SPSS所能打开的数据文件类型,如下表所示,2.2 SPSS数据文件的建立,2.2.4 从其他数据文件导入数据建立数据文件 (1)直接打开,说明: 其中用的最多的是直接打开Excel的数据文件。 在打开Excel格式的文件时,SPSS默认将Excel工作表中的全部数据读到SPSS数据编辑窗口中,但也可指定仅读取工作表某个区域内的数据。 如果Excel工作表文件第一行或指定读取区域内的第一行上存储了变量名信息,则应选择打开对话框上的复选框“从第一行数据中读取变量名”,即以工作表第一行或指定读取区域内的第一行上的文字信息作为SPSS的变量名;如果不选此项,SPSS的变量名将自动取名为V1、V2等。,2.2 SPSS数据文件的建立,2.2.4 从其他数据文件导入数据建立数据文件 (2)数据库查询方式 如果数据为数据库格式的文件,可以同用数据库查询的方式导入数据到SPSS中。其操作步骤如下: 第1步 选择菜单“文件打开数据库新建查询”,弹出数据库向导窗口。这里显示了所有可以打开的数据源类型。 第2步 用户根据打开文件的向导选择要打开的文件类型并逐步打开文件。,2.2 SPSS数据文件的建立,2.2.4 从其他数据文件导入数据建立数据文件 (3)从文本文件导入 文本格式的数据文件是一种最通用格式的数据文件,SPSS提供了专门读取文本文件的功能。 选择菜单“文件打开文本数据”,弹出“打开文件”对话框,选择要导入的文本文件名后会出现文本数据的向导,该向导是一个分为6步的打开向导,根据文本文件的格式和导入数据的需求进行每一步的设置即可。,主要内容,2.1 统计数据的收集 2.2 SPSS数据文件的建立 2.3 SPSS数据文件的编辑 2.4 SPSS数据加工,2.3 SPSS数据文件的编辑,2.3.1 数据文件的合并 SPSS提供两种形式的合并:一是横向合并,从外部文件中增加变量到当前数据文件中;二是纵向合并,指从外部数据文件中增加观测量到当前数据文件中。,横向合并,+,纵向合并,+,2.3 SPSS数据文件的编辑,2.3.1 数据文件的合并 (1)横向合并,单击“浏览”按钮选择要合并的SPSS数据文件的文件名,从左边文本框中选择需合并的变量到此框中,2.3 SPSS数据文件的编辑,2.3.1 数据文件的合并 (1)横向合并 纵向合并数据文件的操作方法同横向合并的方法类似,操作不再赘述,但需注意以下几点: 两个待合并的SPSS数据文件的内容合并起来应具有实际意义; 两个数据文件的结构最好一致; 不同数据文件中含义相同的变量最好用相同的变量名,数据类型要相同,2.3 SPSS数据文件的编辑,2.3.2 数据文件的拆分 SPSS 23版本在“数据”菜单中提供了两种方法:一是“拆分文件”,这种拆分并不是要把一个数据文件分成几个数据文件,而是按照需求,根据变量对数据进行分组,为以后的分组统计分析提供便利;二是“拆分为文件”,这种拆分是将拆分后的数据写入新的 SAV 文件,按拆分变量的值或值标签生成多个SAV文件。,2.3 SPSS数据文件的编辑,2.3.2 数据文件的拆分 1.拆分文件 在进行数据分析的时候,有时需要对数据文件按某个变量进行拆分,这种拆分并不是要把数据文件分成几个,而是根据实际情况,根据变量对数据进行分组,为以后的分组统计分析提供便利。 第一步 数据组织 第二步 打开主对话框 第三步 选择拆分方式 第四步 按产品分组统计销售总量和销售总额,2.3 SPSS数据文件的编辑,2.3.2 数据文件的拆分 2.拆分为文件 拆分为文件是将数据文件按拆分变量的值或值标签,拆分为多个数据文件。 第一步 数据组织 第二步 打开“将数据集拆分为单独的文件”对话框 第三步 拆分文件生成设置,2.3 SPSS数据文件的编辑,2.3.3数据的选取 数据的选取即按条件选取观测量进行分析 选择观测量的目的 有时为了进行特定的分析,需要从所有的数据资料中选择一些数据进行统计分析。例如:有学生的成绩数据,如果只分析男同学的成绩,则要进行选择观测量为男性的数据。,2.3 SPSS数据文件的编辑,2.3.3数据的选取 第一步 数据组织 第二步 打开“选择观测量”对话框 第三步 指定选择个案的方式 第四步 设置选中个案的输出形式 第五步 设置选择个案的条件,2.3 SPSS数据文件的编辑,2.3.3数据的加权 所谓权重是指同一个观测量值在所有的观测量里出现的次数或频率。SPSS的观测量加权功能是在数据文件中选择一个变量,这个变量里的值是相应的观测量出现的次数,这个变量叫做权变量。 SPSS中指定加权变量的本质是数据复制,例如表2-5是工人每天生产产品的数量,第一行数据表示当天生产产品 数量为20的工人有3个,将“工人数”作为加权变量后,实际是将数据转换成表2-6所示的数据进行分析。,表2-5,表2-6,2.3 SPSS数据文件的编辑,2.3.3数据的加权,说明: 一旦指定了加权变量,在以后的分析处理中加权是一直有效的,直到取消加权为止; 只有数值型的变量才能作为加权变量。,主要内容,2.1 统计数据的收集 2.2 SPSS数据文件的建立 2.3 SPSS数据文件的编辑 2.4 SPSS数据加工,2.4.1变量的计算,2.4 SPSS数据加工,输入新生成的变量的变量名,输入计算的式子,SPSS中提供的用于计算的函数,利用这些函数可以生成指定分布的随机数、生成给定参数的概率密度函数等。,2.4 SPSS数据加工,2.4.2 数据可视分箱 SPSS提供的数据可视分箱功能可将连续的数值型数据按由小至大的顺序加以分组(测量值由最低分至最高分分组),从而可将等距或比率变量转换为间断变量,2.4 SPSS数据加工,2.4.2 数据可视分箱 见书Page 38例2-5,选择“转换可视分箱”,弹出右图所示的变量选择对话框,将需要划分组段的变量“评价结果”选择到此框中。,2.4 SPSS数据加工,2.4.2 数据可视分箱 见书Page 38例2-5,单击此按钮设置组段分割点,输入存储组段值的新变量的名称,2.4 SPSS数据加工,2.4.2 数据可视分箱,图中提供了三种自动划分组段的方法,(2)按相等比例的观测值数目进行分组 : 在“分隔点数量”栏内输入断点的数目,系统自动将每组观测值数目的比例输出到“宽度”内,(1)按照变量值等间距划分 : 在“第一个分割点的位置”输入第一个断点处的取值 在“宽度”栏内输入一个组段内变量值的长度,“分割点数量”栏内自动出现断点的数目,(3)基于变量的均值和标准差来产生组段划分,2.4 SPSS数据加工,2.4.2 数据可视分箱 划分组段后的结果,2.4 SPSS数据加工,2.4.3 数据重新编码 数据的重新编码是将变量重新赋值,即将数据文件中的原变量的值按照某种一一对应的关系生成新变量值,可以用这个新变量值替代原变量值,也可以生成一个新变量,分别对应菜单: 转换重新编码为相同变量 转换重新编码为不同变量 通常在作统计分析前需要对收集到的数据作一些变换处理,SPSS提供的变量重新赋值的功能即可做这样的处理。,2.4 SPSS数据加工,2.4.3 数据重新编码,单击该按钮进行转换规则的设置,设置新变量的变量名和标签,重新编码为不同数据,根据原变量的值生成新变量的值,2.4 SPSS数据加工,2.4.3 数据重新编码,单击“添加”按钮将设置好的新、旧变量值转换规则添加到右面的文本框中。 有几条规则就应设置几次,并添加到文本框中。,根据转换要求设置原来变量的值或值的范围,再设置新的变量对应的值,The End,
展开阅读全文