spss第四章数据文件的操作与变换课件

资源描述

第四章数据文件操作与变换41 定义时间系列日期型变量定义时间系列日期型变量数据定义日期说明：1、执行后，在数据窗口中为每个时间单位对应一个新的数值变量，变量名后带“_”，如 YEAR_,DAY_,MONTH_ 等。最后还附加了一个具有描述意义的字符变量DATE_。2、如果在这之前已经定义了一组时间系列变量，则新建立的变量将全部替代原有的时间系列。3、若选择Cases Are 框中的 Not dated，则删除以前定义过的所有时间系列变量。4.2 排序个案排序个案数据排序个案说明：1、排序变量可以是一个，也可以是多个。若为多个排序变量，则首先按第一个变量进行排序，在第一个排序变量的值相同时，再按第二个排序变量排序，依次类推。2、排序方式有两种：升序或降序。4.3 数据文件转置变换数据文件转置变换数据数据变换变换说明：1、转置后形成一个新的数据文件，应该保存为另一个文件名。2、如果未将全部变量移入Variables框中，则转置后的数据文件中会将未选择变量的值全部丢失。3、转置后生成的新变量均为数值型，所以非数值型变量一般不进行转置。4、转置后生成一个新变量case_lbl,用来存放进行转置的原变量名。5、命名变量无：系统会自动给转置后的新变量赋予var001,var002,var003。有：以命名变量的值为基础，对转置后的新变量进行命名。k+命名变量的值+1,2,3.或A、B、C.4.4 数据文件的合并数据文件的合并合并数据文件有两种方式：1、增加观测量 2、增加变量一、增加观测量a.sav b.sav说明：（1）不配对合并：保留两个数据文件中的配对变量，同时将未配对变量加入合并后的数据文件中。（2）配对合并：两个文件中的各一个变量，其含义相同，类型也相同，但变量名不同。通过配对合并可将这两个变量合成一个变量，其变量名仍然以工作数据文件中的变量名显示。注意：配对合并时，两个变量一定要具有相同的变量类型，宽度不一定相同，但当前工作数据文件中的变量宽度应大于或等于外部数据文件中的变量的宽度，否则合并后外部文件的观测量中相应变量值无法显示。（3）合并的同时可剔除变量（4）为变量改名：未配对变量框中的变量可改名。（5）可生成表明观测量来源的新变量：选中将个案源表示为变量.4.5 分类汇总分类汇总一、分类汇总的概念分类汇总就是按分类变量的不同取值对观测量进行分组，对每组观测量求描述统计量，生成新数据文件。在新数据文件中对应分类变量的每一个值产生一个观测量。(qxn.sav)若选择年龄作为分类变量，身高、体重作为汇总变量，函数选择为平均值，则分类汇总生成的数据文件如下：若选择年龄、性别为分类变量，身高、体重作为汇总变量，函数选择为平均值，则分类汇总生成的数据文件如下：二、分类汇总的方法1从主菜单中单击“数据”展开下拉菜单，选择“汇总”，弹出“汇总数据”对话框。2在左侧的源变量框中选择一个或多个变量作为分类变量进入“分组变量”框中。3、在左侧的源变量框中选择一个或多个变量作为汇总变量进入“变量摘要”框中，即要求对这些变量的值进行分类汇总。4名称与标签：单击此按钮可以修改分类汇总生成的新变量的名称及标签。如果不选择该选项，则系统自动给每个新变量赋予一个默认的变量名：在原始变量名后面加下划线和汇总函数名。5函数：确定汇总变量的描述项。系统的默认函数为平均值。单击该按钮，弹出“汇总数据：汇总函数”对话框：6 个案数：选择此项，将源变量分组中的观测量数目作为一个新个案数：选择此项，将源变量分组中的观测量数目作为一个新变量保存在生成的数据文件中。在右边的框中输入您为该变量取的变量保存在生成的数据文件中。在右边的框中输入您为该变量取的变量名，也可以保留使用系统指定的默认变量名。变量名，也可以保留使用系统指定的默认变量名。7关于新数据文件的存储方式关于新数据文件的存储方式（1）将分类汇总产生的新数据放在当前文件中将分类汇总产生的新数据放在当前文件中 (2)将分类汇总产生的新数据以新的数据集显示将分类汇总产生的新数据以新的数据集显示 (3)将分类汇总产生的新数据以新的文件名保存。将分类汇总产生的新数据以新的文件名保存。8单击单击“确定确定”执行分类汇总功能。执行分类汇总功能。4.6 拆分数据文件拆分数据文件数据数据拆分文件拆分文件4.7 选择观测量选择观测量数据选择个案4.8 对观测量作加权处理对观测量作加权处理采集数据时，若相同观测量（观测量的各变量值均相同）出现采集数据时，若相同观测量（观测量的各变量值均相同）出现多次，通过设置一个频数变量，可以使具有相同变量值的观测量在多次，通过设置一个频数变量，可以使具有相同变量值的观测量在数据表中只出现一次。数据表中只出现一次。但是，在进行统计分析时，为了原始数据的真实情况，必须对观但是，在进行统计分析时，为了原始数据的真实情况，必须对观测量作加权处理。例如，如下图所示的数据文件中，变量测量作加权处理。例如，如下图所示的数据文件中，变量“频数频数”中记录的是相同观测量出现的次数。若不作加权处理，则在统计分中记录的是相同观测量出现的次数。若不作加权处理，则在统计分析时将析时将“频数频数”当作一个普通的变量看待，数据文件中的观测量数当作一个普通的变量看待，数据文件中的观测量数总共被认为是总共被认为是5个。个。(qz.sav)可按下列步骤对数据文件作加权处理：可按下列步骤对数据文件作加权处理：1在主菜单中单击在主菜单中单击“数据数据”，展开下拉菜单，从下拉菜单中选择，展开下拉菜单，从下拉菜单中选择“加权个案加权个案”选项，弹出对观测量作加权处理的对话框。选项，弹出对观测量作加权处理的对话框。2选择对观测量作加权处理的方式。选择对观测量作加权处理的方式。请勿对个案加权：对数据文件不作加权处理。这是系统默认状请勿对个案加权：对数据文件不作加权处理。这是系统默认状态。态。加权个案：选择此项表示要求作加权处理。加权个案：选择此项表示要求作加权处理。3当在上一步中选择了当在上一步中选择了“加权个案加权个案”选项后。从左边源变量列表选项后。从左边源变量列表框中选择一个作为权变量的变量名，单击向右箭头按钮，送入框中选择一个作为权变量的变量名，单击向右箭头按钮，送入“频频率变量率变量”下面的矩形框中。在此我们选择变量名下面的矩形框中。在此我们选择变量名“频数频数”作为加权作为加权变量。变量。4单击单击“确定确定”，执行观测量加权。，执行观测量加权。在执行加权处理后，从表面上看，数据文件没有发生任何变化，在执行加权处理后，从表面上看，数据文件没有发生任何变化，但是在随后进行统计分析时，会将频数变量的值重复计入到观测量但是在随后进行统计分析时，会将频数变量的值重复计入到观测量出现的次数中。出现的次数中。4.9 对个案内的值计数对个案内的值计数有时候，我们要对某些变量值有时候，我们要对某些变量值出现在一个观测量中出现在一个观测量中的次数进的次数进行统计，例如，下图所示是对读者作的关于平时经常阅读的杂志种类的问行统计，例如，下图所示是对读者作的关于平时经常阅读的杂志种类的问卷调查数据，其中回答卷调查数据，其中回答“y”表示平时经常阅读该杂志，回答表示平时经常阅读该杂志，回答“n”表示不经表示不经常阅读。为了了解每位被调查者经常阅读的杂志有几种，需要对每个观测常阅读。为了了解每位被调查者经常阅读的杂志有几种，需要对每个观测量中变量值为量中变量值为“y”出现的次数进行计数。这类问题可以通过菜单项出现的次数进行计数。这类问题可以通过菜单项“对个对个案内的值计数案内的值计数”的功能予以实现。的功能予以实现。(js.sav)(js.sav)其操作步骤如下：其操作步骤如下：1.在主菜单中单击在主菜单中单击T“转换转换”，展开下拉菜单，从下拉菜单中选择，展开下拉菜单，从下拉菜单中选择“对个案对个案内的值计数内的值计数”。2.2.执行执行“对个案内的值计数对个案内的值计数”操作后，观测量中特定变量值出现的次数，操作后，观测量中特定变量值出现的次数，将通过创建一个新的变量（称为目标变量将通过创建一个新的变量（称为目标变量)来保存及显示。来保存及显示。3 3在主对话框左边的源变量列表框中选择要进行计数的变量名（中国青在主对话框左边的源变量列表框中选择要进行计数的变量名（中国青年），单击向一右箭头按钮，将它送入年），单击向一右箭头按钮，将它送入“变量变量”下方的矩形框中。下方的矩形框中。4 4单击单击“定义值定义值”图标按钮，弹出选择计数变量值对话框。图标按钮，弹出选择计数变量值对话框。5、重复、重复3、4两步，将剩下的变量送入两步，将剩下的变量送入“变量变量”下方的矩形框下方的矩形框中，并分别定义计数变量值。中，并分别定义计数变量值。6、使用条件表达式定义观测量子集。、使用条件表达式定义观测量子集。7、单击、单击“确定确定”，开始统计观测量中特定变量值出现的次数。，开始统计观测量中特定变量值出现的次数。4.10 对变量值重新编码对变量值重新编码在采集数据时，得到的数据往往是多种多样的。为了便于统计分析，有时候我们不得不对原始数据重新编码。根据数据文件的具体情况，在SPSS中存在有两种不同的编码方式：1、重新编码为相同变量 2、重新编码为不同变量一、重新编码为相同变量（e410-1)在上述数据文件中，按下列要求对salary 进行重新编码：salary=30000,1 30000 salary=45000,2 45000 salary60000,4 其操作步骤为：二、重新编码为不同的变量例：e410-2要求：对口味变量进行如下编码：好：1 较好：2 一般：3 差：4其操作步骤如下：1、2、3、注：可一次同时对多个变量进行编码，但是这些变量必须具有相同的数据类型。如：4.11 个案等级排序个案等级排序个案等级排序个案等级排序是根据某变量观测值的大小，按一定顺序排秩，生成一代表其秩次的新变量，数据本身顺序并不改变。它与“排序个案”不同，“排序个案”是根据某变量观测值的大小将数据重新排列，并不生成新变量。个案等级排序个案等级排序的操作步骤如下：注：此处的注：此处的“排序标准排序标准”必须是数值型的，非数值型需转换成数值型。必须是数值型的，非数值型需转换成数值型。结：处理同秩变量的不同方式身高低平均值高顺序等级到唯一值149 1 1 1 1151 2 2.5 3 2 151 2 2.5 3 2157 4 4 4 3161 5 5 5 4163 6 6 6 5 168 7 7 7 64.12 自动重新编码自动重新编码在许多统计分析过程中，当分类变量不是连续数时，产生的空在许多统计分析过程中，当分类变量不是连续数时，产生的空白单元会降低系统性能且增加对存储容量的需求。而且，某些过程白单元会降低系统性能且增加对存储容量的需求。而且，某些过程不允许使用字符型变量作为衡量因素水平的标准，而要求使用连续不允许使用字符型变量作为衡量因素水平的标准，而要求使用连续整数值。采用自动编码可以将字符串和数值转换成连续整数，以满整数值。采用自动编码可以将字符串和数值转换成连续整数，以满足某些分析过程的特殊需要。自动编码的操作过程如下足某些分析过程的特殊需要。自动编码的操作过程如下:(e412-1)4.13 创建时间变换创建时间变换利用已存在的时间系列变量值，通过函数变换产生新变量，这些利用已存在的时间系列变量值，通过函数变换产生新变量，这些新变量的值在许多时间系列的分析过程中将要用到。时间系列变换新变量的值在许多时间系列的分析过程中将要用到。时间系列变换的操作如下：的操作如下：建立新变量时可使用的函数建立新变量时可使用的函数1、差值（差分）、差值（差分）(e413-1)按差分的阶数可分为一阶差分、二阶差分，其计算方法为：按差分的阶数可分为一阶差分、二阶差分，其计算方法为：2、季节性差分、季节性差分(e413-2)在计算季节性差分之前，必须先定义一个包含有周期成份的日期时间变量。在计算季节性差分之前，必须先定义一个包含有周期成份的日期时间变量。3、中心移动平均值中心移动平均值(413-3)围绕当前值在一定范围内对变量的值求平均值。围绕当前值在一定范围内对变量的值求平均值。跨度为跨度为2 时：时：40.75=(48+38)/2+(38+39)/2)/2跨度为跨度为3 时：时：41.67=(48+38+39)/34、向前移移动平均值、向前移移动平均值求当前值的前方一定范围内的原始变量值的均值。求当前值的前方一定范围内的原始变量值的均值。5.运行中位数运行中位数围绕当前值在一定范围内对原始变量值求出中值。围绕当前值在一定范围内对原始变量值求出中值。跨度为2 时：40.75=(48+38)/2+(38+39)/2)/2跨度为3 时：39=mid(48,38,39)6、累加求和累加求和(e413-6)计算从第一个变量值起直到当前变量值的总和。计算从第一个变量值起直到当前变量值的总和。7.延迟延迟当前变量的值等于相隔为延迟阶数的前面的变量值。当前变量的值等于相隔为延迟阶数的前面的变量值。8、提前、提前当前变量的值等于相隔为前移阶数的后面的变量的值。当前变量的值等于相隔为前移阶数的后面的变量的值。9、平滑4.14 替换缺失值替换缺失值在分析带有缺失值的观测数据时,通常将带有缺失值的观测量排除在分析数据范围之外,但在进行时间系列的统计分析时,不能将带有缺失值的观测量排除在外.此时可用替换缺失值的方法进行处理.其操作步骤如下:替换缺失值的方法替换缺失值的方法:1、序列平均值、序列平均值:用整列变量值的均值替代缺失值。如果变量值中用整列变量值的均值替代缺失值。如果变量值中含有多个缺失值，则它们都将由同一个值替换。含有多个缺失值，则它们都将由同一个值替换。(e414-1)2、邻近点的平均值、邻近点的平均值:用周围数据点的均值替换缺失值。用周围数据点的均值替换缺失值。邻近点的跨度邻近点的跨度:分别在缺失值前后选取的数据的点数。分别在缺失值前后选取的数据的点数。3、邻近点的中位数、邻近点的中位数:用周围数据点的中值来替换缺失值。用周围数据点的中值来替换缺失值。(e414-2)4、线性插值：通过线性插值的方法来替换缺失值。、线性插值：通过线性插值的方法来替换缺失值。(e414-3)5、邻近点的线性趋势、邻近点的线性趋势:采用最小二乘法对数据点进行线性拟合，用采用最小二乘法对数据点进行线性拟合，用拟合得到的数值替换缺失值。拟合得到的数值替换缺失值。

展开阅读全文

spss第四章数据文件的操作与变换课件

最新文档