《SPSS数据的预处理》PPT课件.ppt

资源描述

第3章SPSS数据的预处理,本章重点：数据的排序选择观测量变量计算数据选取,计数分类汇总数据分组数据预处理的其他功能,3.1数据的排序,数据排序的目的及注意事项数据排序实例,3.1.1数据排序的目的及注意事项,数据排序是指将数据编辑窗口中的数据按照一个或多个指定变量的变量值升序或降序重新排列。这里所说的变量也叫做排序变量。排序变量只有一个的排序称为单值排序；排序变量有多个的排序称为多重排序。多重排序中，第一个指定的排序变量称为主排序变量；其他则依次为第二排序变量、第三排序变量等。多重排序时，数据首先按照主排序变量的大小进行排序，然后对那些具有相同主排序变量值的数据再按照第二排序变量值的次序进行排序。在进行数据排序时应注意以下几点：（1）数据排序是将整行的数据进行排序的，而不是只对某个变量进行排序。（2）多重排序中指定排序变量的次序是很关键的。排序时先指定的变量优于后指定的变量。多重排序可以在按某个变量值升序排序的同时再按其他变量值降序排序。（3）数据排序以后，原有数据的排列次序将被打乱。因此，有必要注意保留数据的原始排列顺序。,3.1.2数据排序实例,3.2选择观测量,在数据处理过程中，有时需要从数据文件中选取一部分观测量，将筛选出来的观测量进行统计分析。选择观测量的操作步骤如下：（1）在数据编辑窗口中，执行“Data/SelectCase”命令，弹出如图3-1所示的“SelectCase”对话框。（2）在该对话框中的“Select”选项中选择挑选数据子集的方式。（3）在“SelectCase”对话框中选择挑选数据子集的方式后在“Output”选项中指定未选中的观测量的处理方式。（4）单击“OK”按钮后，即可在数据编辑窗口根据不同的输出方式得到选择观测量的结果数据文件。,图3-1“SelectCase”对话框,3.3变量计算,变量计算的目的SPSS算术表达式SPSS条件表达式SPSS函数变量计算实例,3.3.1变量计算的目的,变量计算的目的主要有以下几点：,1.数据的转换处理,数据的转换处理是在原有数据的基础上，计算产生含有更丰富信息的新数据。如，根据职工的基本工资、失业保险、奖金等数据计算实际月收入；根据购房者的贷款总额和按揭方案计算比率指标以评价其风险大小；根据顾客的消费总金额和消费时间计算平均消费以预测理想客户等。,2.对数据的原有分布状态进行转换,由于数据分析和建模中某些模型对数据分布有一定的要求，因此可以利用变量计算对数据的分布进行转换。,简单条件表达式是由关系运算符、常量、变量及算术表达式等组成的式子。其中，关系运算符包括有大于、小于、等于、不等于、大于等于、小于等于。,1.简单条件表达式,3.3.2SPSS算术表达式,在变量计算过程中，应根据实际需要指出按照什么方法计算变量。这里的方法一般都以SPSS算术表达式的形式给出。SPSS算术表达式是由常量、变量、算术运算符、圆括号、函数等组成的式子。,3.3.3SPSS条件表达式,条件表达式是一个对条件进行判断的式子。其结果有两种取值：如果判断条件成立，则结果为真；如果判断条件不成立，则结果为假。条件表达式包括：简单条件表达式和复合条件表达式。,复合条件表达式又称为逻辑表达式，是由逻辑运算符号、圆括号和简单条件表达式等组成的式子。其中，逻辑运算符包括有：&或AND（并且）、或OR（或者）、或NOT（非）。NOT的运算最优先，其次是AND，最低是OR。可以通过圆括号改变这种运算次序。,2.复合条件表达式,3.3.4SPSS函数,根据函数功能和处理的变量类型，SPSS函数大致可以分成8种类型，分别是：,1.算术函数,算术函数主要用来完成一些特定的算术计算功能。函数值和参数通常为数值型。,2.统计函数,统计函数一般用来计算基本描述统计量，函数值和参数通常为数值型。,3.分布函数,分布函数用来产生一个服从某种统计分布的随机数序列。函数值为数值型。,4.逻辑函数,逻辑函数用来进行逻辑判断。逻辑函数的函数值有两个取值：如果判断结果为真，则函数值为1；如果判断结果为假，则函数值为0。,5.字符串函数,字符串函数主要用来对字符型数据进行处理。字符串函数的参数和函数值有时为字符型，有时也可以是数值型。,6.日期型函数,日期函数主要是对日期进行处理。日期函数的函数值为日期型或数值型。,7.缺失值函数,缺失值函数主要用于判断缺失值。,8.其他函数,除上述的函数之外，SPSS还有一些辅助函数。,3.3.5变量计算实例,本例对某公司员工的福利待遇进行调查，计算每个员工根据职称的不同，每月应发的工资。如员工的职称为4的工资增加1；职称为6的工资增加3%；职称为8的，工资增加5，要求根据这三个条件来计算每个员工每月的应发工资。,3.4数据选取,数据选取的目的数据选取实例,数据选取主要有以下几个目的：,3.4.1数据选取的目的,1.提高数据分析效率,如果数据量较大会在一定程序上影响计算和建模的效率，因此，可以依据一定的抽样方法从总体上抽取少量样本，后面的分析只针对样本进行，这样会大大提高分析的效率。当然，抽取出的样本应具有总体代表性，否则分析的结果可能会有一些偏差。,2.检验模型的需要,在数据分析中，所建的模型是否能够较完整准确地反映数据的特征，是否能用于以后的数据预测，这些问题都是人们极为关心的。为了验证模型一般可依据一定的抽样方法只选择部分样本参与数据建模，其余的数据用于模型检验。,3.4.2数据选取实例,本节以选取“员工基本情况”数据文件中工资“gz”大于1500的个案为例，介绍数据选取的具体操作步骤。,3.5计数,计数目的计数区间计数实例,SPSS实现的计数是对所有个案或满足某条件的部分个案，计算若干个变量中有几个变量的值落在指定的区间内，并将计数结果存入一个新变量中的过程。因此，SPSS实现计数的关键步骤是：（1）指定哪些变量参与计数，计数的结果存入哪个新变量中（2）指定计数区间,3.5.1计数目的,3.5.2计数区间,在使用SPSS实现计数时，计数区间显得特别重要。计数区间可以有以下几种描述形式：单个变量值（Value）系统缺失值（System-missing）系统缺失值或用户缺失值（Systemoruser-missing）给定最大值和最小值的区间（nthroughm）小于等于某指定值的区间（Lowestthroughn）大于等于某指定值的区间（nthroughhighest）,3.5.3计数实例,本例以“员工基本情况”数据文件为例，介绍计数区间的操作方法。假设本例需要计数该数据文件中工资“gz”小于或等于1500的个案。,3.6分类汇总,分类汇总的目的分类汇总实例,3.6.1分类汇总的目的,进行分类汇总的目的是为了对两个或多个类别的数据进行比较，得出这些类别之间存在的差异。SPSS要实现分类汇总应涉及到以下两个方面的重要内容：按照哪个变量进行分类。对哪个变量进行汇总，并指定对汇总变量计算哪些统计量。,3.6.2分类汇总实例,本例以常见的银行存取款为例，使用分类汇总分析城镇人口与农村人口的一次平均存（取）款金额是否存在着差异。,3.7数据分组,数据分组的目的SPSS的单变量值分组SPSS的组距分组SPSS的分位数分组,3.7.1数据分组的目的,数据分组就是根据统计研究的需要，将数据按照某种标准重新划分为不同的组别。在数据分组的基础上进行的频数分析，更能够概括和体现数据的分布特征。另外，分组还能够实现数据的离散化处理等。,SPSS的单变量值分组是把每一个变量值作为一组，这种分组方法通常只适合于离散变量且变量值较少的情况。在SPSS中进行单变量值分组的步骤如下：（1）打开要进行分组的数据文件，本例以“员工基本情况”数据文件为例。（2）执行“Transform/AutomaticRecode”命令，弹出如图3-2所示的单变量分组窗口。,3.7.2SPSS的单变量值分组,图3-2单变量分组窗口,（3）在该窗口中选择变量“gz”到“VariableNewName”框中，如图3-3所示。（4）在“NewName”框中输入存放分组结果的变量名，并单击“NewName”按钮，如图3-4所示。,图3-4输入存放分组结果的变量名,图3-3选择变量,（5）选择按升序进行分组，即“Lowestvalue”单选按钮，然后单击“OK”按钮，如图3-5所示。（6）返回数据编辑窗口后，其分组结果如图3-6所示。,图3-6分组效果,图3-5确认设置,在连续变量或变量值较多的情况下，数据分组通常采用组距分组。组距分组是将全部变量值依次划分为若干个区间，并将这一区间的变量值作为一组。组距分组中的关键问题主要有以下两个。,3.7.3SPSS的组距分组,1.分组数目的确定,数据应分成多少组比较适合，通常与数据本身的数据个数有关。由于分组的目的之一是为了观察数据分布的特征，因此，组数的确定应以能够清楚地显示数据分布特征和规律为原则。组数太少会使数据的分布过于集中，而组数太多又会使数据的分布过于分散，这样都不便于观察数据分布的特征和规律。,2.组距的确定,组距是一个组的上限与下限之差。组距可根据全部数据的最大值和最小值及组数来确定，即：组距（最大值最小值）/组数当上述问题确定以后，便可以实施分组操作了。在SPSS分组操作时应注意指定分组变量、定义分组区间和指定存入分组结果的变量。,在连续变量或变量值较多的情况下，分位数分组是一种较为有效而快捷的分组方法。分位数分组与上述的组距分组非常类似，不同的是，分位数分组中各组的下限值和上限值是由分位数决定的。分位数分组中也应首先确定分组数目。依据的原则同组距分组一样。在确定分组数目之后，应计算相应的分位数。分位数是将全部数据按升序排序并等分成n份后相应分位点上的变量值。,3.7.4SPSS的分位数分组,3.8数据预处理的其他功能,数据转置加权处理数据拆分,SPSS的数据转置就是将数据编辑窗口中数据的行和列互换。如以“员工基本情况”数据文件为例进行数据转置，其具体操作步骤如下：（1）打开“员工基本情况”数据文件。（2）执行“Data/Transpose”命令，弹出数据转置窗口，如图3-7所示。（3）在该窗口的左侧选择要保留的变量到“Variable(s)”框中，如图3-8所示。,图3-8选择变量,图3-7数置转换窗口,3.8.1数据转置,（4）在“NameVariable:”框中添加转置后数据文件标记，然后单击“OK”按钮，如图3-9所示。如果略去本步骤，则转置后数据各变量名默认为VAR00001、VAR00002、VAR00003等。（5）此时，SPSS将自动完成转置，并将转置后的结果显示在数据编辑窗口中，同时产生一个名为Case_lbl的新变量，用来存放原数据文件中的各变量名，如图3-10所示。,图3-8选择变量,图3-7数置转换窗口,在SPSS中指定加权处理的操作步骤如下：（1）首先打开数据文件。（2）执着行“Data/WeightCases”命令，弹出如图3-11所示的指定加权变量窗口。（3）在该窗口中选择“WeightCasesby”单选按钮，再将要作为权数的变量添加到该框中即可，如图3-12所示。,图3-12设置加权变量,图3-11指定加权变量窗口,3.8.2加权处理,在SPSS中进行数据拆分的步骤如下：（1）打开要进行数据拆分的数据文件。（2）执行“Data/SplitFile”命令，打开数据拆分窗口，如图3-13所示。（3）在该窗口中选择要拆分的变量到“GroupsBasedon”框中，如图3-14所示。,图3-14选择拆分变量,图3-13数据拆分窗口,3.8.3数据拆分,（4）单击“OK”按钮，即可对所选变量进行拆分，其结果如图3-15所示。,图3-15数据拆分效果,

展开阅读全文