spss教程81406_装配图网

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,2003年11月30日,西南农业大学网络及现代教育技术中心,*,Statistical Program for Social Sciences,SPSS for Windows,第一章,SPSS,初步数据分析实例详,解,1.1 数据的输入和保存,1.1.1,SPSS,的界面,1.1.2 定义变量,1.1.3 输入数据,1.1.4 保存数据,1.2 数据的预分析,1.2.1 数据的简单描述,1.2.2 绘制直方图,1.3 按题目要求进行统计分析,1.4 保存和导出分析结果,1.4.1 保存文件,1.4.2 导出分析结果,以,SPSS 10.0,版,1.5 打开其他文件格式,1.5.1 直接打开,1.5.2 使用数据库查询打开,1.5.3 使用文本导入向导读入文本文件,1.6编辑数据文件,1.6.1定义新变量,1.6.2 数据录入技巧,1.7进一步整理数据文件-,Data,菜单,1.7.1 用于数据管理的菜单项,1.7.2 正交设计菜单项,2003年11月30日,西南农业大学网络及现代教育技术中心,例1.1 某克山病区测得11例克山病患者与13名健康人的血磷值(,mmol,/L),如下, 问该地急性克山病患者与健康人的血磷值是否不同？,患者: 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11,健康人: 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87,2003年11月30日,西南农业大学网络及现代教育技术中心,让我们把要做的事情理理顺：首先要做的肯定是打开计算机（废话），然后进入,Windows，,在进入,SPSS,后，具体工作流程如下：,将数据输入,SPSS，,并存盘以防断电。,进行必要的预分析（分布图、均数标准差的描述等），以确定应采用的检验方法。,按题目要求进行统计分析。,保存和导出分析结果。,下面就按这几步依次讲解。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.1 数据的输入和保存,1.1.1,SPSS,的界面,2003年11月30日,西南农业大学网络及现代教育技术中心,1.1.2 定义变量,该资料是定量资料，设计为成组设计，因此我们需要建立两个变量，一个变量代表血磷值，习惯上取名为,X，,另一个变量代表观察对象是健康人还是克山病人，习惯上取名为,GROUP。,选择菜单,Data=Insert Variable。,点击,Variable View，,将变量名改为,GROUP,和,X。,现在，第一、第二列的名称均为深色显示，表明这两列已经被定义为变量，其余各列的名称仍为灰色的“,var,”，,表示尚未使用。同样地，各行的标号也为灰色，表明现在还未输入过数据，即该数据集内没有记录。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.1.3 输入数据,在,Data View,中输入相应的数据，一个单元格输入一个数据，,Group,中输入1代表患者，2代表健康人。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.1.4 保存数据,选择菜单,File=Save，,由于该数据从来没有被保存过，所以弹出,Save as,对话框,2003年11月30日,西南农业大学网络及现代教育技术中心,1.2 数据的预分析,1.2.1 数据的简单描述,首先我们需要知道数据的基本情况，如均数、标准差等。选择,Analyze=Descriptive Statistics=,Descriptives,菜单，系统弹出描述对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,该对话框可分为左右两大部分，左侧为所有可用的侯选变量列表，右侧为选入变量列表。我们只需要描述,X，,用鼠标选中,X，,单击中间的，变量,X,的标签就会移入右侧，注意这时,OK,按钮变黑，表明已经可以进行分析了，单击它，系统会弹出一个新的界面如下所示：,该窗口上方的名称为,SPSS Viewer，,即（结果）浏览窗口，整个的结构和资源管理器类似，左侧为导航栏，右侧为具体的输出结果。结果表格给出了样本数、最小值、最大值、均数和标准差这几个常用的统计量。从中可以看到，24个数据总的均数为1.2846，标准差为0.4687。,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,我们以上的做法对吗？当然有问题！光看总的描述是不够的，还应当看看分组的描述情况。这里要用到文件分割功能，请切换回数据管理窗口，选择,Data=Split File,菜单，系统弹出文件分割对话框如下：,选择单选按钮,Organize output by groups，,将变量,GROUP,选入右侧的选入变量框，单击,OK,钮，此时界面不会有任何改变，但请再做一次数据描述，你就可以看到现在数据是分,Group=1,和,Group=2,两种情况在描述了！从描述可知两组的均数和标准差分别为1.5209、1.0846和0.4218、0.4221。,如果定义了文件分割，则它会在以后的所有统计分析中起作用，直到你重新定义文件分割方式为止。,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,1.2.2 绘制直方图,统计指标只能给出数据的大致情况，没有直方图那样直观，我们就来画个直方图瞧瞧！选择,Graphs=Histogram，,系统会弹出绘制直方图对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,将变量,X,选入,Variable,选择框内，单击,OK,按钮。此时结果浏览窗口内会绘制出如下两个直方图：,2003年11月30日,西南农业大学网络及现代教育技术中心,两组的数据没有特别偏的分布，也没有十分突出的离群值，因此无须变换，可以直接采用参数分析方法来分析。综合设计类型，最终确定采用成组设计两样本均数比较的,t,检验来分析。,最后，我们还要取消变量分割，免得它影响以后的统计分析，再次调出变量分割对话框，选择单选按钮中的“,Analyze all cases, do not,creat,group”，,单击,OK,按钮就可以了。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.3 按题目要求进行统计分析,下面我们要用,SPSS,来做成组设计两样本均数比较的,t,检验，选择,Analyze=Compare Means=Independent-Samples T test，,系统弹出两样本,t,检验对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,将变量,X,选入,test,框内，变量,group,选入,grouping,框内，注意这时下面的,Define Groups,按钮变黑，表示该按钮可用，单击它，系统弹出比较组定义对话框如右图所示：,该对话框用于定义是哪两组相比，在两个,group,框内分别输入1和2，表明是变量,group,取值为1和2的两组相比。然后单击,Continue,按钮，再单击,OK,按钮，系统经过计算后会弹出结果浏览窗口，首先给出的是两组的基本情况描述，如样本量、均数等（糟糕，刚才的半天工夫白费了），然后是,t,检验的结果如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,Independent Samples Test,Independent Samples Test,2003年11月30日,西南农业大学网络及现代教育技术中心,可见该结果分为两大部分：第一部分为,Levene,s,方差齐性检验，用于判断两总体方差是否齐，这里的检验结果为,F,= 0.074，,p,= 0.788，,可见在本例中方差是齐的；第二部分则分别给出两组所在总体方差齐和方差不齐时的,t,检验结果，由于前面的方差齐性检验结果为方差齐，第二部分就应选用方差齐时的,t,检验结果，即上面一行列出的,t,= 2.568，,=21,，,p,=0.018。,从而最终的统计结论为按,=0.05,水准，拒绝,H,0,，,认为克山病患者与健康人的血磷值不同，从样本均数来看，可认为克山病患者的血磷值较高。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.4 保存和导出分析结果,1.4.1 保存结果文件,显然，最方便快捷、最符合信息时代特征的就是第三种方法，在结果浏览窗口中（注意：一定要在结果浏览窗口中）选择菜单,File=Save，,由于该结果也从来没有被保存过，所以弹出和前面保存数据时极为相似的一个,Save as,对话框，和前面相比，他唯一的区别就是文件的保存类型只有,View Files(*.,spo,),一种。好，闲言少叙，在文件名框中键入“,Li1_1”,并回车，该结果文件就会按文件名,Li1_1.,spo,被存储。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.4.2 导出分析结果,文件倒是保存了，但问题还没有完全解决：我们从来写文章什么的都用的是文字处理软件，尤其是,WORD，,可,WORD,不能直接读取,SPO,格式的文件，怎么办呢？没关系，,SPSS,提供了将结果导出为纯文本格式或网页格式的功能，在结果浏览窗口中选择菜单,File=Export，,系统会弹出,Exprot,Output,对话框如下,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,最上方的,Export,下拉式列表可以选择输出的内容，可以为含图表的输出文档、无图表的输出文档和只有统计图表三种；中部的,Exprot,File,对话框则填入输出的目标文件名；左下方的,Export What,单选框可以选择输出结果的哪些部分，可以是所有结果、所有可见结果或只输出选择的结果，一般选输出所有可见结果；右下方的输出文件类型下拉式列表已被我打开，可见里面有网页格式和纯文本格式两种，在一切按所需选择完毕后按,OK,钮，则结果文件就会输出为你想要的类型。,好，到这里，就象我们刚开始所说的一样，你实际上已经完全掌握了,SPSS,的基本使用方法。我们以后将要做的工作就是“百尺竿头，更进一步”，将从下一章开始详细介绍,SPSS,各个模块的精确用法，使大家能尽快的从,SPSS,新手向,SPSS,高手过度。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.5 打开其他格式的数据文件,1.5.1 直接打开,SPSS,现在可以直接读入许多格式的数据文件，其中就包括,EXCEL,各个版本的数据文件。选择菜单,File=Open=Data,或直接单击快捷工具栏上的“”按钮，系统就会弹出,Open File,对话框，单击“文件类型”列表框，在里面能看到直接打开的数据文件格式，分别是：,2003年11月30日,西南农业大学网络及现代教育技术中心,1.5.2 使用数据库查询打开,SPSS,可以直接打开许多类型的数据文件，但这并不是说它可以打开所有类型的数据文件（废话），比如,FoxPro 3.0,以上版本的*.,dbf,文件就不能直接打开（有兴趣的话你可以试试）。为此，,SPSS,还提供了另一个适用范围更广、但使用上较为专业的数据接口数据库查询。,实际上，,SPSS,在这里使用的是一种叫,ODBC(Open Database Capture),的数据接口，该接口被大多数数据库软件和办公软件（如,MS Office）,支持，通过它，应用程序可以直接访问以结构化查询语言（,SQL）,做为数据访问标准的数据库管理系统。,由于,SPSS 10.0,可以直接打开,EXCEL,所有系列的数据文件，因此数据库查询接口的用处不是很大。但是，在9.0及以前的版本中，该查询仍是直接打开,EXCEL 95、97,及2000数据文件的唯一办法。,2003年11月30日,西南农业大学网络及现代教育技术中心,ODBC,数据引擎是独立与各种应用软件，直接安装到,Windows,系统中的，因此你所用的系统中,ODBC,所支持的数据类型取决于所安装的,ODBC,引擎的情况。还好，大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件（如,MS Office）。,不过有一点要提醒大家，许多机器的,OBDC,数据引擎安装有问题（尤其是,D,版），在,SPSS,中使用它往往要死机。,选择菜单,File=Open Database=New Query，,系统会弹出数据库向导的第一个窗口，其中会列出你使用的机器上已安装的所有数据库驱动程序，选中所需的数据源，然后单击下一步，向导会一步一步的提示你如何做，直至将数据读入,SPSS。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.5.3 使用文本导入向导读入文本文件,选择菜单,File=Read Text Data，,系统就会弹出,Open File,对话框，对！和前面的情况完全一样，只是文件类型自动跳到了,Text (*.txt)。,实际上，该功能在,SPSS,中已被整合到了,Open File,对话框中之所以在菜单上保留该条目有两个原因：1. 读入纯文本的情况非常普遍，放在这里更加醒目；2. 为了和,SPSS,老版本的使用上保持兼容。,例2.1 现有一数据文件以纯文本的形式存为“,c:Li2_1.txt”，,且第一行为变量名，请将其读入,SPSS。,解：在,Open File,对话框选中相应的文件名并单击“确定”，系统会自动启动文本导入向导对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,1.6编辑数据文件,在,SPSS,中，数据文件的编辑、整理等功能被集中在了,Data,和,Transform,两个菜单项中，这两个菜单的内容如下所示：,Data,菜单项,Transform,菜单项,2003年11月30日,西南农业大学网络及现代教育技术中心,1.6.1定义新变量,直接定义新变量大多数情况下我们需要从头定义变量，在,SPSS 10.0,中，定义变量只需单击左下方的,Variable View,标签就可以切换到变量定义界面开始定义新变量。如,Li1_1.,sav,的变量定义如下所示：,2003年11月30日,西南农业大学网络及现代教育技术中心,以变量,x,为例：变量名为,x，,类型为,Numeric，,宽度为4，小数位数2位（因小数点还要占一位，故整数位只有一位），变量标签位为“血磷值”。右侧在图中未能看到的依次为,Values，,用于定义具体变量值的标签；,Missing，,用于定义变量缺失值；,Colomns,，,定义显示列宽；,Align，,定义显示对齐方式；,Measure，,定义变量类型是连续、有序分类还是无序分类。,使用该窗口，我们可以一次定义许多新变量，不会象老版本那样一个一个的定义了。,2003年11月30日,西南农业大学网络及现代教育技术中心,标签和老版本不同，现在变量标签和变量值标签被分开设置，变量标签就在,Label,框中直接输入，变量值标签则在它右侧的,Value,框定义。以,group,为例，单击,Value,框右半部的省略号，会弹出变量值标签对话框如右：,上部的两个文本框分别为变量值输入框和变量值标签输入框，分别在其中输入“1”和“克山病患者”，此时下方的,Add,钮变黑，单击它，该变量值标签就会被加入下方的标签框内。与此类似定义变量值“2”为“健康人”，最后按,OK，,变量值标签就设置完成。此时你做任何分析，在结果中都有相应的标签出现。如果你现在就想看效果，切换回,Data View,界面，然后选择菜单,View=Value Labels，,怎么样，看到了吗？,2003年11月30日,西南农业大学网络及现代教育技术中心,缺失值单击,missing,框右侧的省略号，会弹出缺失值对话框如下：,界面上有一列三个单选钮，默认值为最上方的“无缺失值”；第二项为“不连续缺失值”，最多可以定义3个值；最后一项为“缺失值范围加可选的一个缺失值”,2003年11月30日,西南农业大学网络及现代教育技术中心,Compute Variable,对话框这主要用于对原变量通过一定的计算，产生新变量的方法。,例3.2 在,li1_1.,sav,中建立新变量,temp，,令其值当血磷值大于1时为2，否则为1。,首先给变量,temp,均赋值为1，然后将血磷值大于1的记录其,temp,变量值改为2即可。,第一步：选择菜单,Transform=Compute，,弹出,Compute Variable,对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,左上角为需要计算的变量名，在其中键入“,temp”，,此时“,Type&,Lable,”,按钮就会变黑，喜欢精确的朋友可以在这里对,temp,进行详细的定义；左下方为候选变量列表，现在还用不着；中部为类似计算器的软键盘，可以用鼠标按键输入数字和符号，这里我们直接输入“1”，输入的内容回立刻在右上方的数值表达式窗口中出现；软键盘右侧为函数窗口，可以在这里找到并使用所需的,SPSS,函数；这次也用不到。好，现在“,OK”,按钮已经变黑，单击他，系统就会自动生成一个新变量,temp，,并且取值均为1。,2003年11月30日,西南农业大学网络及现代教育技术中心,第二步，再次选择菜单,Transform=Compute，,系统也再次弹出这个对话框,将数值表达式窗口中的1改为2，然后单击中下部的“,If”,按钮，系统弹出记录选择对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,Count,对话框,Count,对话框用于计算某个值或某些值在某个变量的取值中是否出现（好象有点拗口），比如我们想看看有哪些记录的血磷值在23之间，选择菜单,Transform=Count，,系统弹出,Count,对话框如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,Target Variable,框中用于指定记录变量值是否出现的变量名，在这里输入,temp2；,选中血磷值(,x)，,将其选入,Variables,窗口，此时“,Define Values”,按钮变黑，单击它，系统弹出变量值定义窗口如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,左半部为变量值定义窗口，可以定义某个值、系统缺失值、系统或用户定义缺失值、变量值范围、小于某值或大于某值。我们这里是第四种情况：选择,Range，,在,through,两侧分别键入2、3，然后单击已变黑的“,Add”,按钮，“2,thru 3”,就会被加入“,Values to Count”,框内。然后单击“,Continue”，,再单击,Count,对话框的“,OK”，,可以看到系统自动生成变量,temp2，,其中10、11号记录因血磷值介于2和3之间，,temp2,取值为1，其余的记录,temp2,取值均为0。,2003年11月30日,西南农业大学网络及现代教育技术中心,Recode,对话框,Recode,对话框用于从原变量值按照某种一一对应的关系生成新变量值，可以将新值赋给原变量，也可以生成一个新变量。,例2.3 在,Li1_1.,sav,中生成新变量,temp3，,当血磷值小于1时取值为0，12时取值为10，大于2时取值为20。,解：选择菜单,Transform=Record=Into Different Variables，,2003年11月30日,西南农业大学网络及现代教育技术中心,1、,Output Variable,框：选入,x,2、Output Variable Name,框：键入,temp3：,单击,Change,钮,3、选中,x-temp3：,单击,Old and New Values,钮：,4、,Range:Lowest through,单选钮：键入1：,New Value Value,单选钮：键入0：单击,Add,钮,5、,Range: through,单选钮：两侧分别键入1、2：,New Value Value,单选钮：键入10：单击,Add,钮,6、,Range: All other values,单选钮：,New Value Value,单选钮：键入20：单击,Add,钮,7、单击,Continue,8、,单击,OK,步骤：,2003年11月30日,西南农业大学网络及现代教育技术中心,Categorize Variables,对话框,Categorize Variables,对话框用于将连续性变量自动按要求分成等间距的几类。其界面非常简单，许多东西都是我们所熟悉的，唯一特别的是右下方的,number of categories,框，用于输入变量的等级数，默认为4，比如我们希望将血磷值按大小分成5个等级，先将血磷值选入,Create Categories,框，然后将下面的4改为5，单击,OK，,就会看到系统产生了一个新变量,nx,（,即,number of x,之意），其取值就对应了血磷值相应的5个等级（15）。重复一下，具体操作步骤为：,1、,reate,Categories,框：选入,x,2、Number of categories,框：5,3、,OK,2003年11月30日,西南农业大学网络及现代教育技术中心,Rank Cases,对话框,例2.4 请分组计算血磷值的秩和。,解：选择菜单,Transform=Rank Cases，,弹出,Rank Cases,对话框,2003年11月30日,西南农业大学网络及现代教育技术中心,将血磷值选入,Variable,框，分组变量选入,By,框，单击,OK,即可。系统会建立一个新变量,rx（,即原变量名前加,r,表示,Rank,之意），其取值为,x,分组的秩次。,解释一下,Rank Cases,对话框的其他几个零件：,左下角的,Assign Rank 1 to,框架用于选择将秩次1赋给最小值还是最大值；,中下部的,Display summary tables,复选框用于确定是否在结果窗口内输出结果报表；,Rank Types,钮用于定义秩次类型，有,Rank（,秩分数）、,Savage,评分（新变量值按指数分布）、,Fractional rank（,新变量值是秩分数除以非缺失值观测量的权重之和）、,Fractional rank %（,新变量值是秩分数除以非缺失值观测量数乘100）、,Sum of case weights（,新变量值是各观测量的权重之和）、,Ntiles,（,新变量值是按所选变量的百分位数分组的组序号），默认值为,Rank。,单击,More,按钮，还会有更多的设置，这里就不再讲了。,2003年11月30日,西南农业大学网络及现代教育技术中心,Automatic Record,对话框,Create Time Series,对话框,Replace Missing Value,对话框,该对话框用于按原变量值的大小生成新变量，变量值就是原值的大小次序，功能和,Rank Cases,对话框重复（等价于相同值观测量当作一个记录处理的情况）。,用于自动生成时间序列变量,用于填充缺失值，结果存入一个新变量。填充方法有：序列的均数、相邻若干点的均数、相邻若干点的中位数、线性内插、线性外延，默认值为序列的均数。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.6.2 数据录入技巧,连续多个相同值的输入,如前面,group,变量有连续多个1，如果直接输入，可以在第一格内输入1并回车，然后回到刚才的单元格并单击右键，选择,copy，,最后用拖放方式选中所有应输入1的单元格，单击右键并选择,paste，,所有选中的单元格就会都被刚才拷贝的1填充。,将,EXCEL,数据直接引入,SPSS,Excel,已经打开原数据，并且数据量较少的时候，可以直接用拷贝粘贴的方法将数据引入,SPSS：,先在,EXCEL,中选中所有的数据（不包括变量名），然后选择拷贝命令；然后切换到,SPSS，,最好使行1列1单元格成为当前单元格，然后执行粘贴命令，数据就会全部转入,SPSS，,再定义相应的变量即可。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.7进一步整理数据文件-,Data,菜单,在许多情况下，我们需要先对数据进行一些整理（如分组、合并、加权等）才能将其用于最终的统计分析。这些功能基本上都集中在,Data,菜单项中，下面我们就对这些对话框做逐一介绍。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.7.1 用于数据管理的菜单项,1.7.1,Sort Cases,对话框主要用于对数据排序。,2003年11月30日,西南农业大学网络及现代教育技术中心,例2.5 对数据集,li1_1.,sav,按,group,升序，,x,降序的次序排列。,解：选择菜单,Data=Sort Cases，,系统弹出,Sort Cases,对话框，该对话框并不复杂，其中比较特殊的是下方的,Sort Order,单选钮，有升序和降序两种选择。请注意，该单选钮是和上方的,Sort By,框一起使用的，具体方法如下：,确认升序单选钮被选择，将,Group,选入,Sort By,框；,选择降序单选钮，将,x,选入,Sort By,框。,请注意：,group,和,x,后面分别跟着,Ascending,和,Descending，,表明前者是按升序、后者按降序排列；由于,Group,在前，因此排序时以,Group,优先。,2003年11月30日,西南农业大学网络及现代教育技术中心,Transepose,对话框,该对话框用于对数据进行行列转置，可以在原数据文件中指定一个变量记录转置后的变量名。原变量名则自动保存在系统产生的名为,case_,lbl,的字符变量中。,该对话框也非常简单，左侧为候选变量框；右上方为,Variable,框，用于选入需要转置的变量，一般应选入除名称变量外的所有其他变量，如果有变量未选入，则转置时会被自动丢弃；右下方为,Name Variable,框，用于指定原数据文件中记录转置后变量名的字符变量，但不是必需的，此时系统会将新变量自动按,var001、var002.,的顺序命名。,2003年11月30日,西南农业大学网络及现代教育技术中心,Merge Files,对话框,用于合并数据文件，实际上包括了两个对话框，分别对应了两种合并方式：,1. 从外部数据文件中增加记录到当前数据文件中，称为纵向合并，用,Add Cases,对话框完成，相互合并的数据文件中应该有相同的变量。选择菜单,Data=Merge Files=Add Cases，,系统首先弹出打开数据文件对话框，选中需要添加的数据文件并按,OK，,系统才弹出,Add Cases,对话框，左侧显示的是新、老数据文件中不匹配的变量名，右侧显示的是已经匹配的变量名。可以用,Rename,按钮对不匹配变量改名（先选中）或用鼠标强行匹配（即先按,Ctrl,键选中匹配的两个变量再单击,Pair,钮）。右下方的,Indicate case source as variable,复选框用于定义一个新变量以区分哪些记录是后来添加的。选择停当后单击,OK，,该操作就完成了。,2003年11月30日,西南农业大学网络及现代教育技术中心,实际上右侧显示的是将要包括在合并后数据集中的变量，如果有哪个你不需要，把它弄到左侧框中即可。,2. 从外部数据文件增加变量到当前数据文件，称为横向合并，用,Add Variable,对话框完成，相互合并的数据文件中应包含同样的记录。选择菜单,Data=Merge Files=Add Variable,对话框，系统同样先弹出打开数据文件对话框，单击,OK,后弹出和前面相似的,Add Variable,对话框。按需选择即可。,2003年11月30日,西南农业大学网络及现代教育技术中心,Aggregate,对话框,用于对数据进行分类汇总，所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量值求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,上图中各个零件的含义如下：,Break Variables,框：用于选择分组变量；,Aggregate Variables,框：用于选择被汇总的变量；,Name&Label,钮：用于定义新产生的汇总变量的名称和标签；,Function,钮：用于定义汇总函数，共有三组函数，以最常用的第一组为例，可选的函数有均数、同组的第一个观测值、最后一个观测值、同组记录数、标准差、最小值、和、最大值共8个；,Save Number of cases in break group as variable,复选框：用于定义一个新变量以存储同组的记录数；,Create new data file,单选钮：定义一个新文件以存储汇总的结果，右侧的,File,钮用于具体文件名的定义，默认文件名为,AGGR.,sav,；,Replace working data file,单选钮：用汇总的结果替换原来的数据。,2003年11月30日,西南农业大学网络及现代教育技术中心,例2.6 计算,Li1_1.,sav,中两组的血磷值标准差。,解：该题完全可以用更简单的方法完成，这里只是演示一下汇总对话框的用法。,1、,Break Variables,框：,Group,2、Aggregate Variables,框：,x,3、Function,钮：(,Standard deviation,单选钮：,Continue,钮),4、,Replace working data file,单选钮：选中,5、,OK,2003年11月30日,西南农业大学网络及现代教育技术中心,Split File,对话框,用于将数据文件分组进行处理，该对话框我们在第一章时已经使用过了，这里再介绍一下各个对话框元素的用途：,Analyze all cases,单选框：和下面的两个单选框为一组，选中本框不拆分文件；,Compare groups,单选框：按所选变量拆分文件，各组分析结果紧挨在一起便于相互比较；,Organize output by groups,单选框：按所选变量拆分文件，各组分析结果单独放置；,Groups based on,框：用于选择拆分数据文件的变量；,Sort the file by grouping variables,单选框：将数据按所用的拆分变量排序；,File is already sorted,单选框：数据保持原状，不按所用的拆分变量排序。,2003年11月30日,西南农业大学网络及现代教育技术中心,Select Cases,对话框,很多时候我们不需要分析全部的数据，而是按某种要求分析其中的一部分（比如只分析男性的身高、只对前200个数据进行分析以了解大概情况），这时使用,Select Cases,对话框可以大大简化工作。该对话框界面如下所示：,2003年11月30日,西南农业大学网络及现代教育技术中心,2003年11月30日,西南农业大学网络及现代教育技术中心,其中主要的对话框元素为：,All cases,单选钮：和下面的4个单选钮为一组，选中它则分析所有的记录；,If condition is satisfied,单选钮：只分析满足条件的记录；,If,按钮：和,If,单选钮一起使用，单击后弹出,If,对话框；,Random sample of cases,单选钮：从原数据中按某种条件抽样；,Sample,按钮：和,Random,单选钮一起使用，可以设定按百分比抽取记录，或者精确设定从前若干个记录中抽取多少个记录；,Based on time or case range,单选钮：基于记录序号来选择记录；,2003年11月30日,西南农业大学网络及现代教育技术中心,Range,按钮：和,Based,单选钮一起使用，用于输入记录序号范围；,Use filter variable,单选钮：使用筛选指示变量来选择记录，必需在下面选入一个筛选指示变量，该变量取值为非0的记录将被选中，进入以后的分析；,Filtered,单选钮：和下面的,Deleted,单选钮为一组，表示未被选中的记录只是被隔离，这些记录的记录号会被加上斜杠以示区别；,Deleted,单选钮：未被选中的记录将被删除，一般不要使用。,当对数据集做出筛选后，所做的筛选将在以后的分析中一直有效，直到再次改变选择条件为止。同时在多数情况下，系统会自动产生一个名为,filter_$,的筛选指示变量，被选中的记录该变量取值为1，反之则为0。,2003年11月30日,西南农业大学网络及现代教育技术中心,Weight Cases,对话框,在默认情况下，每一行就是一条记录，这在多数情况下没有什么问题，但有时却非常麻烦，想想看如果你需要计算一个四格表卡方，有100例，如果每一行就是一条记录，你就需要输入100条记录！如果希望在计算过程中利用不同的变量对数据进行加权处理，就需要用到,Weight Cases,对话框。该对话框的使用极为简单，界面上有两个单选钮，分别是不权重记录和用某变量权重记录，如果选择后者，则需要选中一个权重变量。,2003年11月30日,西南农业大学网络及现代教育技术中心,Data,菜单中的其余对话框,Define dates,对话框：可以自动生成时间变量。,Insert Variable,命令：在当前列插入新变量。,Insert cases,命令：在当前行插入新记录。,Goto,cases,对话框：到达指定记录号的记录，该命令在记录数极多时（1000条以上）非常有用。,2003年11月30日,西南农业大学网络及现代教育技术中心,1.7.2 正交设计菜单项,正交设计不包含在,SPSS/BASE,模块中，因此由于解密范围的问题，有的盗版中不含该菜单项。,在,SPSS,中可以直接进行正交设计，,Orthogonal Design,子菜单项就是专门用于完成该任务的，具体做法用下面的例子说明如下：,2003年11月30日,西南农业大学网络及现代教育技术中心,解：选择,Data-Orthogonal Design-generate，,弹出的就是正交设计窗口，操作如下：,1、,Factor name,框：输入,A；,单击,ADD,钮；,2、确定变量,A,被选中，单击,Define value,钮；,3、,Value,列：头三行分别输入1、2和3，代表变量,A,的三个水平；单击,continue,钮；,4、,Factor name,框：输入,B；,单击,ADD,钮；,5、确定变量,B,被选中，单击,Define value,钮；,6、,Value,列：头两行分别输入1、2，代表变量,B,的两个水平；单击,continue,钮；,7、单击,OK,例2.7 做,A、B,两个因素的正交设计，,A,因素有三个水平，,B,因素有两个水平。,2003年11月30日,西南农业大学网络及现代教育技术中心,在第7步定义完后，对话框应如下图所示：,2003年11月30日,西南农业大学网络及现代教育技术中心,在其他没有用到的选择项中，各种,LABELS,当然适用于定义相应的各种标签的；,Data Files,单选框组用来定义产生的数据文件是存为制定的文件名，还是直接替换当前工作文件；而,Define Value,对话框中的,Auto fit,框可以自动填充从1到你输入的那个数值这么多个水平的定义。,这里我们直接替换当前工作文件，在这个自动产生的正交设计数据集中，前两个变量就是要分析的,A,和,B，,各个水平已经按正交设计的要求排列好了。后面的,status_,和,card_,变量是系统产生的,LOG,变量，可以不管它。现在你再建立一个结果变量，输入实验结果，就可以进行正交设计的分析了。,2003年11月30日,西南农业大学网络及现代教育技术中心,附件:论统计软件中的数据录入格式,统计分析是科研中的必要环节，统计软件则是进行统计分析的利器。但是，在计算机已逐渐普及的今天，统计软件却仍让人感到几分神秘：除了大型统计软件都还没有中文版这一原因，统计软件在许多小的方面也有自己的特点，往往就是这些小地方就会让许多人深入宝山而空返。今天我们就来谈谈使用统计软件时一个最基本而又非常重要的问题数据录入格式。,简言之，我们平时往往用表格的形式来记录数据，这并无不妥。问题在于当进行统计分析时，如果我们直接将数据按平时记录的格式来进行分析，那就很可能不得其门而入因为大多数统计软件对数据格式都有着特定的格式要求，下面我们就举一些常见的情况来解释这一问题。,2003年11月30日,西南农业大学网络及现代教育技术中心,1. 单组或多组数据,平时我们多记录成第1组、第2组、第3组. 等等，如表一左侧所示。样本含量相等或不等。主要用于成组资料比较的,t、F,或秩和检验等。这种记录格式姑且称为统计表格格式，在各种统计软件中，该数据通用的分析格式如表一右侧所示，我们把这种格式称为统计分析格式。,2003年11月30日,西南农业大学网络及现代教育技术中心,统计分析格式1 , 0.11 , 0.21 , 0.32 , 0.42 , 0.53 , 0.63 , 0.73 , 0.83 , 0.9,表一,统计表格格式,看出来区别了吗？统计分析格式中第一列为“分组变量”，指示所在的组号；第二列为原始数据。现在再回到,SPSS,等统计软件的菜单去，做,one-way ANOVA（,成组的方差分析）知道怎么选变量了吧！,2003年11月30日,西南农业大学网络及现代教育技术中心,2. 配伍组数据,平时的记录格式同上面相似。主要用于配伍组资料比较或秩和检验等。见表二：,表二,统计表格格式,统计分析格式,1 , 1 , 0.11 , 2 , 0.22 , 1 , 0.32 , 2 , 0.43 , 1 , 0.53 , 2 , 0.6,统计分析格式中第一列为“第一分组变量”，指示所在的组号；第二列为“第二分组变量”，指示在该组的序号，第三列为原始数据；,2003年11月30日,西南农业大学网络及现代教育技术中心,3. 单组成对数据,变量名分别为：,X、Y，,要求样本含量相等。主要用于配对计量资料比较的,t、,秩和检验；直线回归与相关；曲线拟合等，格式见表三。,表三,统计表格格式,统计分析格式,0.1 , 0.4,0.2 , 0.5,0.3 , 0.6,两种格式没有区别，但请注意，如果配对资料转用方差分析来处理，则相应的也要变换格式。,2003年11月30日,西南农业大学网络及现代教育技术中心,4. 多组成对数据主要用于协方差分析，格式见表四。,表四,统计表格格式,统计分析格式,1 , 0.1 , 0.3,1 , 0.2 , 0.4,2 , 0.5 , 0.8,2 , 0.6 , 0.9,2 , 0.7 , 1.0,在统计分析格式中，第一列为对子组号，第二列与第三列分别为该组的对子,X、Y。,2003年11月30日,西南农业大学网络及现代教育技术中心,第二章,SPSS,功能介绍及其应用举例,描述性统计分析,Descriptive Statistics,菜单,均数间的比较,Compare Means,菜单,一般线性模型,General Linear Model,菜单,相关分析,Correlate,菜单,多元线性回归与曲线拟合,Regression,菜单,对数线性模型,Loglinear,菜单,聚类分析与判别分析,Classify,菜单,因子分析与对应分析,Data Reduction,菜单,信度分析与多维尺度分析,Scale,菜单,非参数检验,Nonparametric Tests,菜单,Survival,菜单,第一节,SPSS,的,主要分析工具,Analyze,菜单,2003年11月30日,西南农业大学网络及现代教育技术中心,1、描述性统计分析,Descriptive Statistics,菜单,1.1,Frequencies,过程的特色是产生频数表,1.2,Descriptives,过程进行一般性的统计描述；,1.3,Explore,过程用于对数据概况不清时的探索性分析；,1.4,Crosstabs,过程则完成计数资料和等级资料的统计描述和一般的统计检验，我们常用的,X2,检验也在其中完成。,描述性统计分析是统计分析的第一步，做好这第一步是下面进行正确统计推断的先决条件。,SPSS,的许多模块均可完成描述性分析，但专门为该目的而设计的几个模块则集中在,Descriptive Statistics,菜单中，最常用的是列在最前面的四个过程：,2003年11月30日,西南农业大学网络及现代教育技术中心,2、均数间的比较,Compare Means,菜单,该菜单集中了几个用于计量资料均数间比较的过程。具体有：,2.1 Means,过程对准备比较的各组计算描述指标，进行预分析，也可直接比较。,2.2 One-Samples T Test,过程进行样本均数与已知总体均数的比较。,2.3 Independent-Samples T Test,过程进行两样本均数差别的比较，即通常所说的两组资料的,t,检验。,2.4 Paired-Samples T Test,过程进行配对资料的显著性检验，即配对,t,检验。,2.5 One-Way ANOVA,过程进行两组及多组样本均数的比较，即成组设计的方差分析，还可进行随后的两两比较。,2003年11月30日,西南农业大学网络及现代教育技术中心,3、一般线性模型,General Linear Model,菜单,一般线性模型可不是用一章就可以说清楚的，因为它包括的内容实在太多了。,那么，究竟我们用到的哪些分析会包含在其中呢？简而言之：凡是和方差分析粘边的都可以用他来做。比如成组设计的方差分析（即单因素方差分析）、配伍设计的方差分析（即两因素方差分析）、交叉设计的方差分析、析因设计的方差分析、重复测量的方差分析、协方差分析等等。因此，能真正掌握,GLM,菜单的用法，会使大家的统计分析能力有极大地提高。,实际上一般线性模型包括的统计模型还不止这些，我这里举出来的只是从用,SPSS,作统计分析的角度而言的一些。,2003年11月30日,西南农业大学网络及现代教育技术中心,好了，既然一般线性模型的能力如此强大，那么下属的四个子菜单各自的功能是什么呢？请看：,3.1,Univariate,子菜单：四个菜单中的大哥大，绝大部分的方法分析都在这里面进行。,3.2 Multivariate,子菜单：当结果变量（应变量）不止一个时，可用他来分析。,3.3,Repeted,Measures,子菜单：顾名思义，重复测量的数据就要用他来分析；用前两个菜单似乎都可以分析出来结果，但在许多情况下该结果是不正确的，应该用重复测量的分析方法才对。,3.4 Variance Components,子菜单：用于作方差成份模型的（这个模型实在太深，不是一时半会说的请的，所以我在这里就干脆不讲了）。,2003年11月30日,西南农业大学网络及现代教育技术中心,4、相关分析,Correlate,菜单,在数据分析中经常要遇到分析两个或多个变量间关系的情况，有时是希望了解某个变量对另一个变量的影响强度，有时则是要了解变量间联系的密切程度，前者用下一章将要讲述的回归分析来实现，后者则需要用到本章所要讲述的相关分析实现。,SPSS,的相关分析功能被集中在,Analyze,菜单的,Correlate,子菜单中，他一般包括以下三个过程：,2003年11月30日,西南农业大学网络及现代教育技术中心,4.1,Bivariate,过程此过程用于进行两个/多个变量间的参数/非参数相关分析，如果是多个变量，则给出两两相关的分析结果。这是,Correlate,子菜单中最为常用的一个过程，实际上我们对他的使用可能占到相关分析的95%以上。,4.2 Partial,过程如果需要进行相关分析的两个变量其取值均受到其他变量的影响，就可以利用偏相关分析对其他变量进行控制，输出控制其他变量影响后的相关系数，这种分析思想和协方差分析非常类似。,Partial,过程就是专门进行偏相关分析的。,4.3 Distances,过程调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析，前者可用于检测观测值的接近程度，后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。,2003年11月30日,西南农业大学网络及现代教育技术中心,5、多元线性回归与曲线拟合,Regression,菜单,回归分析是处理两个及两个以上变量间线性依存关系的统计方法。回归分析就是用于说明这种依存变化的数学关系。下面三个过程是,Regression,菜单的子菜单，是,SPSS,提供的用于回归分析的工具：,5.1,Linear,过程调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中，用户还可根据需要，选用不同筛选自变量的方法（如：逐步法、向前法、向后法，等）。,5.2,Curve Estimation,过程,Curve Estimation,过程可以用与拟合各种各样的曲线，原则上只要两个变量间存在某种可以被它所描述的数量关系，就可以用该过程来分析。但这里我们要指出，由于曲线拟合非常的复杂，而该模块的功能十分有限，因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析，或者采用其他专用的模块分析。,2003年11月30日,西南农业大学网络及现代教育技术中心,5.3,Binary Logistic,过程所谓,Logistic,模型，或者说,Logistic,回归模型，就是人们想为两分类的应变量作一个回归方程出来，可概率的取值在01之间，回归方程的应变量取值可是在实数集中，直接做会出现01范围之外的不可能结果，因此就有人耍小聪明，将率做了一个,Logit,变换，这样取值区间就变成了整个实数集，作出来的结果就不会有问题了，从而该方法就被叫做了,Logistic,回归。,随着模型的发展，,Logistic,家族也变得人丁兴旺起来，除了最早的两分类,Logistic,外，还有配对,Logistic,模型，多分类,Logistic,模型、随机效应的,Logistic,模型等。由于,SPSS,的能力所限，对话框只能完成其中的两分类和多分类模型，下面我们就介绍一下最重要和最基本的两分类模型。,2003年11月30日,西南农业大学网络

展开阅读全文

spss教程81406

最新文档