2数据文件的建立与编辑

资源描述

精心整理其次讲：数据文件的建立与编辑管理一、数据文件的建立1、测量方式Measure运用统计学方法分析时特别强调“对号入座”。SPSS中变量有三种测量方式，分别是：尺度变量Scale依次变量Ordinal、分类变量Nominal：各对应与统计学中的计量资料、等级资料以及计数资料包括二分类与无序多分类。在SPSS的默认的状况下，全部的数值、文字输入都将被作为Scale处理，不同的是输入数值将完整保存，而文字全都是被转变为。2、定义变量Variable View 运行SPSS后，将进入Data Editor界面，如下：窗口顶部显示为“SPSS Data Editor”，说明此时此刻所看到的是SPSS的数据管理窗口。这是一个典型的Windows软件界面，有菜单栏、工具栏。特殊的，工具栏下方的是数据栏，数据栏下方那么是数据管理窗口的主界面。该界面和EXCEL极为相像，由假设干行和列组成，每行对应了一条记录Case，每列那么对应了一个变量Variable。由于此时此刻我们没有输入任何数据，所以行、列的标号都是灰色的。请留意第一行第一列的单元格边框为深色，说明该数据单元格为当前单元格。假如干脆输入数据很可能不能满意统计分析的要求，所以首先要定义变量。单击Variable View：这就是变量定义窗口，我们须要对变量名称Name、类型Type、宽度Width、小数位数Decimals、变量标签Label、变量值标签Values、缺失值Missing、显示数据的宽度Columns、对齐方式Align、测量方式Measure。Name：总长度不行以超过8个字符4个汉字；系统不分大小写，首字符必需是字母或汉字，其后可接字母或数字，尽量不要在变量名称中运用标点符号或运算符号例如：？、！、*等；不行以将下划线 “_”和圆点“.”作为变量名的最终一个字符但是在中文输入法，例如清华紫光时上述法那么有时不成立；变量名不行运用“all、and、by、eq、ge、gt、le、ne、not、or、to、with等SPSS系统保存字。Type：在SPSS系统中，共有8种类型的变量设置，单击Type： Numeric：标准数值型；这是系统默认型别，可以在width和decimal中调整总长度与小数位数小数点也占一位。 Comma：带逗号的数值型；整数局部从右向左每3位加一个逗号；例如原始数据是6789.401，假如选择comma，那么遵照6,789.401录入；在data view中SPSS将它复原为6789.401。 Dot：带句号的数值型；整数局部从右向左每3位加一个圆点而小数点表达为逗号；例如原始数据是7889.12，假如选择dot，那么遵照7.889,12录入；在data view中SPSS仍将表达为7.889,12。 Scientific notation：科学计数型；例如原始数据为78.123，输入时仍可遵照78.123输入，但是SPSS将会把它转变为7.8E+017.8123101表达。 Date：日期型；运用者可以从系统提示的日期显示形式中选择自己须要的；例如选择dd-mmm-yyyy，那么2009年2月20日应当输入为20-FEB-2009；假如选择mm/dd/yyyy，那么应当输入为02/20/2009。但是无论是何种输入方式，data型资料将不能干脆参加运算，必需通过有关的日期转换函数转换后才行。 Dollar：带美元符号的数值型；运用者可以从系统供应的形式中选择，系统将自动生成美元符号。默认为11位数1000亿，假如超出将遵照科学计数法表达，同时数据前加美元符号。 Custom currency：自定义数值型；共有5种形式，系统将其分别命名为CCACC为custom currency的简写，A表示第一种至CCE，可以在edit-option-currency选项卡中作定义，定义之后可以从sample output预览修改结果。 String：字符串型；选择该中表达类型后，运用者可以在data view中输入中文或英文。字符串型变量不能参加统计运算，而且字符串中大小写字母将被系统分辨为两个完全不同的字符。Width：输入时的变量值宽度，默认为8位。Decimals：小数位数，默认为2位。Label：变量标签；用于说明变量所代表的实际意义，特殊对于在name中无法精确表达的变量名称可以通过标签具体说明。Values：变量值标签；用于具体说明变量值的具体意义，特殊是对于分类变量或等级变量往往用具体数值代替分类或等级，此时最好定义数值的变量标签以备分析与查阅便利。例如变量名称为sex，其label为调查对象性别，values分别是0代表男性、1代表女性。Missing：缺失值定义；在统计数据录入过程中有时会遇到视察值不详或数据录入失误，此时可以定义缺失值。 No missing values：无缺失值，系统默认。 Discrete missing values：离散的缺失值；例如性别的取值定义为0男，1女；但是在输入过程中有时可能会误录为3或其他非0、1数值，此时可以设定2、3、4为缺失值，假如在数据输入时出现2、3、4系统将遵照缺失值处理，该单元格为一个空格。 Range plus one optional discrete miss：定义某一个范围，同时还有一个不在此范围的单一数值作为缺失值区间；例如人群身高调查，正确的数值介于0，1.9，可在low中填入1.9，high中可以随意填一个特别大的数值如1000。以上定义时时可以与frequencies吩咐结合运用。Columns：显示时的变量值宽度；显示宽度不影响机内计算，只影响显示。Align：对齐方式；可选择左/中/右对齐。Measure：意义如前所述；该项设置在绘制交互作用统计图时特别有用。通常，即使是分类变量与等级变量，输入时仍旧将变量当作数值录入，并在values中说明，使得这些变量参加统计分析。3、数据的录入：单击Data View选项卡，将鼠标移到单元格上，单击该单元格就可以输入数据。要留意数据编排的依次：变量编排方向数据输入方向在SPSS中变量以及数据编排的依次是有必须规律的：变量总是在最上方，从左到右编排；而数据总是在所对应的变量下方，自上而下编排；这一特点与Excel不同，在Excel中变量所对应的数值既可以横排，也可以纵排。另外，要留意变量值的格式Type，一旦在variable view中定义完毕，就要遵照要求输入，否那么系统会将其作为缺失值处理。* 请将课本P8-9，例2.1的数据输入SPSS中。* 请将课本P13，习题1、2的数据输入SPSS中4、查看变量信息与文件信息：变量值输入之后可以用Utilities菜单中的Variable吩咐，或单击工具栏中的“”图标，即可翻开变量信息对话框。对话框显示的是光标所在位置变量值对应的变量信息。该对话框中的第一行是变量名name，其后有“”号，表示该变量是字符串变量string；变量标签栏label没有信息；第三行是变量格式type，A表示字符串型，8表示长度；往下是缺失值定义missing values，none表示没有规定缺失值；接着是测量方式measurement，表示为分类变量nominal，所以该变量所对应的变量值11、12、15没有大小之别，仅仅起区分作用。假如数据库中有很多变量，假如要一一点击查看比拟麻烦，可以通过查看文件信息，显示该数据库中全部变量的信息。具体操作方法为：UtilitiesFile Info，我们将在结果输出窗口SPSS Viewer看到该数据库变量信息。二、数据文件的编辑整理1、数据文件的编辑与管理File菜单新建翻开翻开数据库从文本文档读取保存另存为显示数据文件信息建立数据缓冲区打印打印预览切换效劳器停顿运算最近运用过的数据最近运用过的文件退出New：在新建下有5个吩咐，分别是新建数据data、新建语法输入syntax、新建输出窗口output、新建草稿输出draft output和新建脚本script。事实上，当进入SPSS后系统就已经生成了一个空数据文件；对于SPSS旧版本的用户，也可通过syntax对话框建立新数据。Open：翻开选项下同样也有5个吩咐，根本与新建一样。在翻开.xls文件时请先退出Excel，否那么系统提示出错；翻开后Excel文件中的全部数据都会忠实再现，默认type为numeric，measure为scale；而.xls文件中的文字有时会将消逝，可通过定义type为string，以及复制粘贴的方法再现。请留意excel文件的变量以及数据编排方式，否那么在读取数据后还要作进一步转换。在工具栏中有其快捷按钮“”。Open Database：即所谓的ODBC接口Open Database Capture；该接口为微软所建立，被大多数的数据库如MS Access软件和办公软件如MS Office所支持，通过它应用程序可以干脆访问以构造化查询语言SQL作为数据访问标准的数据库系统。Read Text Data：事实上该功能可以用Open吩咐完成。请留意文.txt文件中变量以及变量值的编排规那么，否那么在读取数据后还要作进一步转换。Save：请刚好保存文件；save吩咐将保存文件中的全部内容；有时在我们处理数据的过程中系统会生成一些临时的变量，假如不想将它们也一起保存，可以采纳save as吩咐，选择想保存的变量名称另存为其他文件。在工具栏中有其快捷按钮“”。Display Data Info：会在SPSS Viewer中输出数据文件的信息以及数据文件中所包含的变量的信息。Cache Data：假如系统从远程SQL数据库中调用数据将会很费时间，运用该吩咐会将数据全部读入暂存盘，建立数据缓冲区，大大加快运行速度；假如处理本机的数据，该吩咐的提速效果不明显。Print/Print Preview：可以修改打印机设置，并在打印前预览打印效果。在工具栏中有其快捷按钮“”。Switch Server：该吩咐主要用于运用SPSS效劳器SPSS Server客户端的计算机。Stop Processor：强制停顿SPSS运行。Recent Used Data/Files：用于快速翻开最近运用的数据或文件。Exit：退出程序，请刚好保存输入数据。2、数据文件的编辑与管理Edit菜单撤销操作复原所撤销动作剪切复制粘贴粘贴变量去除找寻系统参数设置该菜单下的吩咐与Word或Excel中的功能根本一样；须要说明的主要是paste variables与find。Paste Variables：在运算时我们可能会用到存在于其他.sav文件中的变量及其所对应的变量值。通常的做法是选择该变量的变量值，复制粘贴到新的数据文件中，但是这样作仅仅拷贝了变量值，而对于该变量的其他信息，例如type、label、values等信息仍旧须要重新定义；运用paste variables吩咐那么可拷贝该变量的变量设置信息。留意该吩咐须在variable view中运用。Find：查找制定变量中的制定数据；例如要查找SPSS自带的1991 U.S. general social survey文件中age变量为50的个体。首先翻开该文件，在data view中单击age变量所在列的任一单元格，点击find或干脆从工具栏中点击，在弹出的对话框中键入50，点击OK即可。3、数据文件的编辑与管理Data菜单定义变量属性拷贝数据属性生成时间系列周期插入变量插入视察单位转到视察单位排序行列转置变更排列格式合并变量或视察单位分类汇总正交设计拆分文件选择特定视察单位加权Define Variable Properties：该吩咐所供应的功能主要是针对nominal和ordinal类型的变量，可以在该吩咐的对话框中完成variable view中一些主要设置，例如type、label、value、missing、measure的设置；它的最大好处在于可以快速定义这些属性比方通过复制另外一个类似变量的属性，以及给出一个类似频数分布表的直观视图。Copy Data Properties：该吩咐与edit菜单下的paste variable相像，同时define variable properties也可以供应类似功能将源变量的数据属性复制至目标变量。与前面不同的是在该吩咐下，源变量与目标变量可以不同在同一数据中。Define Dates：自动生成时间变量，主要应用于时间序列模型。Inset Variable：有时在编辑好的数据中要添加新变量，通过该吩咐可以在选择的位置前插入一个新变量，而后通过上面的所介绍的吩咐例如define variable properties、Copy Data Properties，设置其具体属性。在工具栏中有一样功能的快捷按钮“”。Inset Case：添加新视察单位，可以在当前行case前插入新case，在工具栏中有一样功能的快捷按钮“”。Go to Case：到达指定记录号的视察单位case，该吩咐在视察单位极多时特别有用。在工具栏中有一样功能的快捷按钮“”。Sort Case：可以将某个变量的变量值从大到小或从小到大排列；便于输入完毕后进展查找，纠错。Transpose：通过该吩咐可以将原先的case转变为一个variable，而variable那么转变为case。该吩咐在读取一些以标准格式记录的数据时特别有用，尤其是这些数据的case很多时。例如我们读取一个.txt文件，该文件中的记录不是很标准，经过转置后可以订正。系统在执行该吩咐过程中生成一个临时变量case_lbl，在后续的保存过程中可通过save as将其除去。Restructure：很多时候遵照“标准格式”输入的数据不必须可以马上满意我们的分析要求。例如，在重复测量模型中，我们须要将同一个体屡次的测量值并排在同一行上才可以分析，但是原始数据并非如此，请翻开anxiety.sav。这是原始格式这是志向的格式运行该吩咐，系统将弹出以下向导选项一：将选择的变量转变为视察单位将横行数据转换为纵列。选项二：将选择的视察单位转变为变量将纵列数据转换为横行。选项三：调用transpose吩咐。在本例中，我们相将一列scores变为一行scores，所以选择选项二；按“下一步” Identifier Variable：ID变量，即如何确定每个case。 Index Variable：索引变量，即如何确定因素或水平。本例中每个subject就代表一个case，所以将subject选入Identifier Variable；因素有一个，但是有4个水平重复了4次，所以将trail选入Index Variable；干脆点击“完成”。Merge Files：用于合并数据，包括了两个过程，纵向合并add cases，横向合并add variables。 Add Cases：从外部的数据文件中增加记录case到当前数据文件中，当前的文件中变量的个数不变更，但是视察单位数增多。例如探究者探究某人群的血磷值的分布状况，先期视察了10例；而后又视察了15例；两次视察的变量都是血磷值，变量没有变更，为了分析便利考虑将两次的结果合并，称为纵向合并。对话框左侧代表的是当前与外部数据文件中不匹配的变量名称，“*”号表示为当前数据文件中的变量，“+”号那么表示外部文件数据集中的变量；右侧的对话框中表示已经匹配的变量名称。有两种方法可以add cases。一种是重命名匹配法renamepair，另外那么是强行匹配法选择两个匹配变量pair。 Add Variables：从外部文件添加变量variable到当前文件中；例如，某探究者视察某人群的血磷值，而后又视察了一样人群的年龄、性别，为了分析须要将两次结果合并，称为横向合并；合并前后相比，观测对象没有变更，但是视察的变量增多了。横向合并对两个数据的要求比拟高，系统默认是遵照一样的记录号进展合并，或者运用一个关键变量key variables进展匹协作并。假如两个数据文件的记录数cases不一样多，那么会丧失局部记录，甚至合并失败。现有两个文件，损伤1与损伤2。损伤1中包含了190号病例其中有缺号的性别、年龄、血小板值；损伤2那么包含了11100号病例的收缩压、舒张压、脑损伤状况。 New working data file框中显示了新数据集中将出现的全部变量，“*”号表示为当前数据文件中的变量，“+”号那么表示另外数据集中的变量；excluded variable表示不会出此时此刻新数据中的变量，由于来自于外部文件的“id号”变量与当前文件中的变量重名，所以被系统自动解除。假如遵照系统默认，两份数据的记录并不一样，合并后会出错。因此选择match cases on key variable in sorted files，有三种状况：both files provide cases两个文件供应的全部记录、external files is keyed table以当前的文件为主，合并后的文件中只存在当前的cases、working data files is keyed table以外部的文件为主，合并后的文件中只存在外部的cases。很明显后两种做法信息将有损失，所以选择第一种；而后将“id号”选入key variable中，按OK后系统弹出以下对话框：假如关键变量没有遵照升序排列，合并将失败所以切记：在将两份数据横向合并之前必需将它们各自遵照匹配变量的升序进展排列，运用之前的sort cases吩咐。由于两份数据均已经排要求排列过，所以干脆点击“确定”即可。合并后的数据中将即有当前数据的cases又有外部数据的cases。Aggregate：所谓的分类汇总就是遵照必须的分组依据将观测对象分组，并对每组的对象分别进展统计描述。其功能与之后介绍的统计描述有些重复不如专用描述吩咐功能强大，但是该吩咐的执行结果即分类汇总的结果既可以作为新文件保存，也可以用它替换当前数据。例如将血磷值遵照不同的分组分类汇总；break variable即为分组变量，在这里是“组别”，aggregate variable为要描述的变量，这里为“血磷值”；将组别与血磷值分别选入对应位置后即可定义汇总函数function以及汇总后新产生的变量的名称与标签name & label。系统默认将产生一个汇总数据文件；当然也可以选择将当前文件替换replace working data file。Split File：拆分文件；该吩咐虽然也将原数据遵照必须要求分组，但是吩咐本身不再有统计描述功能，仅具有aggregate吩咐中的分类功能，通常与统计描述的吩咐一起结合运用。一旦运用该功能，Data Editor下方的状态栏将会显示；假如将来进一步的统计分析不须要对原文件拆分后续的统计分析吩咐大多都有分组因素，通常不须要将cases拆分，请将拆分数据复原。Orthogonal Design：正交表设计；该吩咐供应了设计Generate与生成Display正交表的功能。但是该吩咐所生成的正交表与理论课教材中的表格不同，表此时此刻其表头中不出现误差列，请留意。其具体操作见方差分析。Select Cases：很多时候我们不须要分析全部数据，而是遵照某种要求分析其中的一局部比方对于食管癌病例，探究者仅仅想探究原发病例，对于其他部位转移来的病例不想探究，可以采纳该吩咐。现探究者想分析cars.sav文件中，产于美国的汽车的输出功率。选择if condition is satisfied，弹出如下对话框：该对话框左侧为待选变量，右侧上部为表达式显示区，下部的窗口内有待选众多函数Functions。将origin变量选入右上框中，键入“1”在variable view中，产于美国的汽车，变量值对应的value为1，点击continue，可以看到：在该对话框的下部，Unselected cases are，系统默认为filtered，被过滤的cases仍旧存在于原数据文件中；假如要将这些被过滤的数据删除，那么选deleted建议少用。被过滤掉的数据，其记录号上将被加上斜杠以示区分，同时系统将自动产生一个名为filter_$的指示变量，被过滤掉的数据为0，反之为1：Weight Cases：在SPSS系统中，通常每一行就是一个Case，但是这一规定有时将会使输入数据特别繁琐；现某探究者要探究两种药物的疗效是否有别，分别视察了A药100例30例无效，70例有效，B药100例21例无效，79例有效；遵照默认要求数据文件中必需至少设定两个变量，分别是：药物1A，2B以及治疗效果0无效，1有效，每行代表一个case，在输入数据时要输200行！假如干脆运用有效或无效的频数将大大削减输入工作量。因此遇到上述状况时，通常增加一个变量：频数干脆将30、70、21、79输入工作区中，但必需为系统指定分析时调用该列频数，这就是weight cases过程。具体运用将在卡方检验中详述。4、数据文件的编辑与管理Transform菜单通过计算生成新变量设定伪随机函数的种子计数并生成新计数变量重新编码覆盖原变量或生成新变量等级化连续型数值变量排序并生成新变量自动排序自动生成时间序列变量填充时序变量中的缺失值完成尚未完毕的转换吩咐 Transform菜单主要集中了一些对变量进展转换的过程，例如对原始数据进展函数运算、重新编码、排秩次等。它们在统计分析的预处理中起着特别重要的作用。在这些吩咐中最重要的是compute吩咐，其他transform菜单下的吩咐可以看成是对compute吩咐在某些方面的强化。Compute：该吩咐是transform菜单中最经常运用的吩咐，用于给新变量赋值。 Target Variable对话框为新变量的变量名称，变量名的定义法那么与前述name的设定一样；下方可以定义该变量的type与label：在target variable下方的对话框中是存在于当前文件中的全部变量，点击其中的随意一个，其右边的按钮将显示为可用，可以将该变量选入右上方的Numeric Expression对话框中。Numeric Expression用于对新变量赋值，我们既可以干脆输用键盘输入，或者运用左下方系统供应的软键盘，也可以从右下方的function中选择适宜的函数。假如并非全部数据都要参加计算新变量，那么可以调用IF选项，该选项的功能与DataSelect cases相像：软键盘区的一些运算符号：表示：系统的逻辑运算符号，从左到右分别为“and”、“or”、“not”。：表示底数的乘方，例如8的2/3次方可以输为8*2/3，系统显示为4。 Function中函数的设定一些常用的函数：对数转换：LG10(num) 、LN(num) 抗体滴度、病原体含量、变异系数等正态性转换倒数转换：干脆用1/变量值波动很大的数据正态性转换平方根转换：SQRT(num)满意泊松分布的数据或轻度偏态数据正态性转换角度转换：平方根反正弦ARSIN(num)与SQRT(num)联用率或百分比的正态性转换确定统计量求曲线下面积Cumulative Distribution Functions:CDF.BINOM(quant, n, prob)二项分布 CDF.CHISQ(quant, df)卡方分布 CDF.F(quant, df1, df2)F分布 CDF.NORMAL(quant, mean, stddev)正态分布 CDF.POISSON(quant, mean)泊松分布 CDF.T(quant, df)Students t分布 CDFNORM(z)标准正态分布留意以上函数所示曲线下面积表示左侧面积*某探究者随机抽样调查160名正常人，测得其脉搏均数为67次/分，标准差为5.7次/分；请问其中脉搏超过70次/分的人约有多少?假设脉搏满意正态分布*确定某地人群的脉搏均数为67次/分，标准差为5.7次/分；某探究者随机抽样调查160名正常人，请问抽到脉搏均数超过70次/分的样本可能性有多大?假设脉搏满意正态分布*依据以往经历，一般的胃溃疡患者有20发生胃出血；现某医院观测65岁以上胃溃疡病人304例，有80例发生胃出血，问老年患者是否较简单发生胃出血？*为了探究两种新药物疗效，探究者用一种常用药物作为参照，每组视察10例患者，各组均数与标准差如下：甲药均数为22，标准差为7；乙药均数为16，标准差为7；参照药物均数为13，标准差为8；问是否可以认为三种药物的疗效不全一样？*卫生标准规定儿童化装品含菌量不得超过500个/ml，现检查此种化装品1ml，测得细菌数目为502个，问此种化装品是否合格？确定曲线下面积求统计量Inverse Distribution Functions： IDF.CHISQ(p, df)卡方分布 IDF.F(p, df1, df2)F分布 IDF.NORMAL(p, mean, stddev)正态分布 IDF.T(p, df)Students t分布留意以上函数中的p表示曲线左侧面积*确定p=0.021，df1=6，df2=12，求F值为多少？*确定自由度为211时，双侧概率值为0.0001，求t值？*在标准正态分布曲线下，单侧曲线下面积为0.178时，u值为多少？*请计算cars.sav文件中日本车的功率输出比值马力/车重吨注：1磅 = 0.45359237 公斤Random Number Seed：用于设定伪随机函数的随机种子。在默认状况下，系统产生的随机种子并非固定，随机数字无法重复；可以通过该吩咐人为设定一个随机种子，以后全部的伪随机函数在计算时都会以该种子起先，结果可以重现；而且设定伪随机函数对真随机函数没有任何影响。例如探究者要将10只试验动物随机分成两组，两组动物数要求相等；可以先将试验动物遵照必须的依次编号，例如体重大小，从低到高依次为110号，运用random number seed吩咐设定随机种子序号为1号；运用compute吩咐，新建立一个变量为“随机号”，即产生伪随机数，其函数表达式为UNIFORM (MAX)，规定随机数值中较小的5个为甲组，剩下的为乙组。在运用同一个随机数种子的状况下，通过UNIFORM函数产生的伪随机数值将完全重复。Count：用于查看某个数值在变量的取值过程中是否出现，并给满意条件的视察单位一个标识。比方探究者想知道日本车中，车重介于30004000磅的有那些。翻开cars.sav，点击count：该对话框与compute相像，左上target variable为新变量名称，右上target label为变量标签，左以下出了存在于当前数据文件中的全部变量；现有两个条件限制；分别是车重以及欧洲车。先点击if，定义origin变量值为3系统只将日本车选入再将weight变量选入右下对话框中，点击define values，在range中填入3000与4000，点击add，continue，设定完毕：点击ok，系统执行后将产生一列新变量为count，入选的被赋值为1，落选的为0；美国车与欧洲车均没有参加计数，所以它们在count列表现为缺失值，系统显示为空白单元格。Recode：在count吩咐中系统将遵照变量值是否满意条件生成取值为0或1的新变量；但是有时探究者并不想使之取值为0或1，而是其他数值，或干脆覆盖当前的变量值，这时我们就会考虑recode吩咐。例如探究者想将第2组观测对象的血磷值按大小重新编码，当血磷值小于1时取值为0，12时取值为10包括1和2，大于2时取值为20。依据题意点击recodeinto different variables：左边窗口中是文件中的全部变量，中间窗口是须要对其进展重新编码的变量，右边为输出的新变量名称；if为限制条件，先将其次组选入：新旧变量的变量值转换点击old and new values：左边为旧变量，右边为新变量；该对话框的左半边与count吩咐中define values对话框相像；请留意，全部的范围都是包含了端点值的，而且前面的设定优先于后面的，所以依据题意先定义range 1 through 2，确保血磷值为1以及2的会被新定义为10；然后在定义range lowest through 1，由于1已经被上一步操作运用所以不会出现重复编码的问题；同理range 2 through highest，点击continue完成编码；最终点击change使刚刚的设定生效，点击ok完成。Categorize Variables：该吩咐用于将连续型变量自动遵照要求分成等间距的几组。例如探究者想将患者的血磷按其大小，等间距自动分成5组：将“血磷值”选入create categories，只需把number of categories中的4改成5即可。系统将产生新变量“n血磷值”，其变量值就是分组后的组号。Rank Cases：该吩咐的某些功能与data菜单中的sort cases重复，但是与之不同的是可以按分组因素排序，而且在排序之后将产生一个新变量。 Assign rank 1 to 选项框确定将秩次1赋给最小值还是最大值；display summary tables用于确定是否在结果窗口内输出报表；rank types那么用于定义编秩方法，常用的为rank秩分数，其他较少运用；ties用于定义一样数值的处理方式。将“组别”选至by中，将“血磷值”选入variable中，运行后系统将产生一列新变量“r血磷值”。Automatic Recode：自动排序，在排序后产生一个新变量可以自定义名称，功能与rank cases重复，新变量的变量值就是秩次遇到一样的数值取平均秩次。与rank cases不同的是该吩咐不分组。Create Time Series：自动生成时间序列，在时序模型分析时采纳Replace Missing Values：用于时间序列模型数据的预处理，当序列中存在缺失值时，采纳适当的方法进展填充，并将结果存入一个新变量。Run Pending Transform：用于接着运行上次未完成的变量转换，在通常运用过程中极少运用。

展开阅读全文

2数据文件的建立与编辑

最新文档