SPSS在统计分析中的运用上机

资源描述

.SPSS在统计分析中的运用第一章数据文件的建立及基本统计描述21.1SPSS的启动及数据库的建立21.1.2SPSS简介21.1.2启动SPSS软件包31.1.3数据文件的建立41.2数据的编辑与整理71.2.1数据窗口菜单栏功能操作71.2.2Date数据功能71.2.3Transform变换及转换功能81.2.4数据的编辑91.2.5SPSS对变量的编辑151.3基本统计描述181.3.1描述统计分析过程181.3.2频数分析201.4交叉列联表分析311.4.1交叉列联表的形成321.4.2两变量关联性检验（Chi-squareTest卡方检验）34第二章均值比较检验与方差分析372.1单个总体的t检验（One-SampleTTest）分析372.2.1两个独立样本的t检验（Independent-samplesTTest）392.2.2两个有联系总体间的均值比较（Paired-SampleTTest）422.3单因素方差分析442.4双因素方差（Univariate）分析过程48第三章相关分析553.1相关分析553.1简单相关分析553.2偏相关分析58附录SPSS函数62第一章数据文件的建立及基本统计描述1.1SPSS的启动及数据库的建立1.1.2SPSS简介SPSS（StatisticsPackageforSocialScience）forWindows是一种运行在Windows系统下的社会科学统计软件软件包。SPSS软件包集数据整理、分析过程、结果输出等功能为一体，采用窗口操作界面，统计分析方法涵盖面广，用户操作使用方便，输出数据表格图文并貌，并且随着它的功能不断完善，统计分析方法不断充实,大大提高了统计分析工作的效率。从1968年由美国斯坦福大学开发使用至今，已经拥有全球数以万计的用户，分布在通信、医疗、银行、证券、保险、制造、商业、市场研究、科学教育等众多的行业领域，成为世界上应用最广泛的专业统计软件之一。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。SPSS设有专门的绘图系统，可以根据使用者的需要将给出的数据绘制各种图形，能够满足用户的不同需求。一 SPSS的运行方式SPSS提供了3种基本运行方式：完全窗口菜单方式，程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发，编写自己的SPSS命令程序，通过语句直接运行。这里只介绍完全窗口菜单管理方式，这种操作方式简单明了，除数据输入工作需要键盘外，大部分的操作命令、统计分析方法的实现是通过菜单、图标按钮、对话框来完成的，非常适用于一般的统计分析人员和一般统计方法的应用者。SPSS中使用的对话框主要有两类，一类是文件操作对话框，文件操作对话窗口操作与Windows应用软件操作风格一致。另一类是统计分析对话框，统计分析对话框可以分为主窗口和下级窗口，在该类对话框中，选择参与分析的各类变量及统计方法是对话框的主要任务。有关对话框的详细操作将在后面的统计方法的实验中解释。二 SPSS的实验环境要求1、系统运行环境SPSS10.0以上版本软件包可以工作在两种模式下，单机模式和作为网络系统的用户界面模式。SPSSforWindows软件包可以运行在微软公司的Windows98、WindowsNT4.0、WindowsME、Windows2000和WindowsXP操作系统之下。由于统计分析软件的数据量比较大，所以系统运行需要大于16M以上空间。2、辅助软件环境SPSS可以直接将SPSS数据文件保存为Excel工作表，也可以直接打开一个Excel工作表，因此，为了方便数据录入（许多人对Excel工作表编辑比较熟习），应在操作系统下安装一个Excel软件。另外，许多数据在处理之前可能保存在某个数据库中，例如FoxBase、Sybase、SQL_Server、Oracle等等，如有需要从数据库中获取数据的分析，应在操作系统下安装相应的数据库管理系统。三 SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口。数据编辑窗口与微软的Exdel类似，但SPSS的统计功能更多。SPSS的结果输出窗口是显示统计分析的结果，此窗口的内容可以以结果文件.spo的形式保存。数据编辑窗口和结果输出窗口的详细描述将在有关SPSS的数据文件建立的内容中查到。四 SPSS的帮助系统SPSS对一些基本模块中的统计提供了帮助，可以通过单击Help菜单中的StatisticsCoach命令，选择所需要的统计指导。1.1.2启动SPSS软件包当用户在操作系统下运行SPSS软件后，计算机屏幕上出现一个对话框，如图1.1所示：图1.1SPSS启动后操作对话框对话框包括一个六选一单选对话框和一个复选对话框，其内容为：l Runthetutorial运行操作指南；l Typeindata输入数据选项，建立新的数据集时可选择此项；l Runanexistingquery运行一个已经存在的数据文件选项；l CreatenewqueryusingDatabaseWizard用数据库处理工具建立新文件；l Openanexistingdatesource打开一个已经存在的数据文件；l Openanothertypeoffile打开其他类型的文件。l Dontshowthisdialoginthefuture是一复选对话框，选中该复选项后，下次启动SPSS时将不会显示对话框，直接显示数据编辑窗口。1.1.3数据文件的建立当对话框选择Typeindata后，点击OK，系统将显示出SPSS软件包数据编辑主窗口，数据文件的建立就是在数据编辑窗口中完成的。数据编辑窗口可以显示两张表，分别是DataView（见图1.2）和VariableView（见图1.3），通过点击下端的2个同名窗口标签按钮实现相互切换。标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏图1.2SPSSforWindows主窗口示意图状态栏当前数据栏显示区滚动条数据编辑区是SPSS的主要操作窗口，是一个二维平面表格，用于对数据进行各种编辑；标尺栏由纵向标尺栏和横向标尺栏，横向标尺栏显示数据变量，纵向标尺栏显示数据顺序（如时间顺序）。DataView表可以直接输入观测数据值或存放数据，表的左端列边框显示观测个体的序号，最上端行边框显示变量名。VariableView表用来定义和修改变量的名称、类型及其他属性，如图1.3所示。图1.3VariableView表在VariableView表中，每一行描述一个变量，依次是：Name：变量名。变量名必须以字母、汉字及开头，总长度不超过8个字符，共容纳4个汉字或8个英文字母，英文字母不区别大小写，最后一个字符不能是句号。Type：变量类型。变量类型有8种，最常用的是Numeric数值型变量。其它常用的类型有：String字符型，Date日期型,Comma逗号型（隔3位数加一个逗号）等。Width：变量所占的宽度。Decimals：小数点后位数。Label：变量标签。关于变量涵义的详细说明。Values：变量值标签。关于变量各个取值的涵义说明。Missing：缺失值的处理方式。Columns：变量在DateView中所显示的列宽（默认列宽为8）。Align：数据对齐格式（默认为右对齐）。Measure：数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等。定义了变量的各种属性后，回到DataView表中，就可以直接在表中录入数据。输入数据后可以点击Save或Saveas作为数据文件保存。另外对于统计分析的结果也可以作为文件保存起来。为了在统计分析过程中能有效的利用其它软件产生的数据，SPSS软件编辑窗口除可以使用*.sav扩展名数据文件，还可以直接打开和保存下述类型的文件。SPSSDOS版本产生的数据文件*.sys；Excel报表程序产生的数据文件*.xls；DBASE数据库格式文件*.dbf；SAS统计软件产生的数据文件。1.2数据的编辑与整理当录入数据之后，就可以对原始数据进行整理和分析，关于数据的整理和分析都是在数据窗口完成的。下面将介绍SPSS统计分析软件在数据窗口的主要操作方式和菜单相应的功能。1.2.1数据窗口菜单栏功能操作数据编辑窗口的主菜单如图1.4所示，主菜单中的具体功能包括：图1.4SPSS主菜单1.File：文件操作。2.Edit：文件编辑。3.View：视图编辑。4.Data：数据操作。5.Transform：数据转换。6.Analyze：统计分析方法。7.Graphs：图形编辑。8.Utilities：实用程序。9.Windows：窗口控制。10.Help：帮助。在统计分析过程中常用的功能主要集中在数据操作、数据转换、数据分析、统计图形的建立与编辑等操作。1.2.2Date数据功能数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能，如图1.5所示。这个菜单是SPSS统计软件数据整理的特有功能菜单。它的功能包括：对变量、观测量的编辑处理；对变量数据的变换；对观察量数据整理。这些功能为各种统计分析要求提供极其灵活了数据整理功能，用户可以根据不同统计分析对数据的要求对数据进行整理。图1.5Data菜单项示意图拷贝数据属性定义变量属性插入一个变量定义日期变量定位观测量插入观测量重构数据结构数据文件转置观测量排序标识重复观测量分类或不分类汇总合并数据文件观测量加权选择观测量拆分数据文件正交设计一、定义和编辑变量、观测量的命令DefineVariableProperties用于定义变量属性；CopyDataProperties由外部文件和工作文件拷贝数据变量和属性；DefineDates定义或编辑日期变量格式；InsertVariable在数据编辑窗口插入一个变量；InsertCase在数据编辑窗口插入一个观测量；GotoCase光标跳转到某一指定观测量。二、变量数据变换的命令SortCases对观测量进行排序；Transpose对观测量进行转置；Restructure对现有的观测量进行重新构造，形成新格式的数据文件；MergeFile把外部文件数据合并到工作文件中；Aggregate对数据进行分类或不分类汇总，产生新文件或代替工作文件。IdentifyDuplicateCases标识重复观测量；OrthogonalDesign进行正交设计。三、观察量数据整理的命令SplitFile拆分数据文件的观测量，观测量进行条件分组；SelectCases选择观测量；WeightCases对观测量进行加权处理。通过选择上述命令，可以实现对数据的整理编辑。1.2.3Transform变换及转换功能数据编辑窗口的Transform菜单为用户创建和定义复杂的数据提供了方便的功能，如图2.3所示。它与Data菜单共同使用，可对基本的数据进行重新编辑，形成新的变量和观测量。这个菜单主要对变量进行操作，分为三部分的功能。这些功能也为各种统计分析要求提供极其灵活了数据处理功能。产生新的分组变量创建时间序列变量创建计数变量变量值重新编码计算产生新变量运行其它转换程序设定随机数种子观测量排秩变量值自动编码创建代替缺失值变量图1.6Transform菜单项示意图一.通过基本变量创建各种新变量；Compute计算产生新变量，SPSS提供了10类100多个函数，通过该菜单可以用表达式产生一个新变量；RandomNumberSeed创建随机数种子；CreateTimesSeries创建时间序列变量；二.创建各种参数变量；Count创建一个计数变量，用于统计计数；Recode对变量值重新编码；RankCases为观测量排秩，求得的秩在数据窗口作为一个新变量保存；CategorizeVariables建立新的分组变量，使数据分成若干个组；AutomaticRecode对变量值自动编码，产生一个连续的变量值编码；ReplaceMissingValues创建替代缺失值变量；三.运行其它自定义的转输程序。RunPendingTransform运行其它转换程序。在一般的情况下，通过Date菜单和Transform菜单的操作就可以实现对原始数据的整理和变换。1.2.4数据的编辑在DataView中，用鼠标左键单击数据表左边框的观测个体序号，这一行值就会被选中，用鼠标左键单击上边框的变量名，这个列就被选中，和其它Windows中的操作类似，也可以用鼠标对选中一部分单元格，选中的行、列、单元格后，单击鼠标右键，可以对它们进行复制、删除、剪切等操作。如果需要对已经输入的数据进行修改，就要对已经存在的数据进行编辑，SPSS有许多数据编辑功能。下面介绍几种常用的数据编辑功能。一、插入一个新观测量（Case）插入一个新观测量（数据）的命令是InsertCases。在数据窗口主菜单上单击DateInsertCases命令，可以在光标所在位置的前上一行插入一行新的观测个体，可以输入新的观测数据。二、查找指定的观测量（数据）查找指定的观测数据的命令是GotoCase。在数据窗口单击DateGotoCase，弹出一个对话框，如图1.7所示：输入要找的观测量的序号后，点OK按钮，数据表中光标就会指到选定的观测量个体。图1.7GoToCase对话框三、观测数据排序建立数据文件sys-1：基本结构如下，数据上机时自行录入性别受教育年限年薪刚工作年薪年龄给观测量数据排序的命令是SortCases。在数据窗口单击DateSortCases，打开SortCases对话框（见图1.8）。图1.8SortCase对话框从对话框左侧的变量列表中选择排序变量，点击右箭头按钮加入Sortby框中，然后在SortOrder栏中选择排序顺序：Ascending观测个体按照选定的排序变量值由小到大的升序排列；Descending观测个体按照选定的排序变量值降序排列。注意：观测个体.排序变量可以是一个或多个，当选择多个排序变量时，首先按第一个变量值排序，然后在第一个变量取值相同的那些个体中再按第二个变量值排序，依次类推。注意在排序的时候，观测个体整行的值一同变到新位置，而不是只有排序变量那一列变动。但数据表中左边框上的序号并不随着变动，因此，为了保留原始数据的信息，最好自己定义一个变量来记录观测个体的序号。四、在数据中选取子集如果需要从数据文件中选取一部分数据，可以在数据编辑窗口单击DataSelectCase，打开SelectCase对话框，如图1.9所示：图1.9SelectCase对话框在该对话框的Select栏中选择挑选数据子集的方式（单选）：l Allcase：选择所有数据；l Ifconditionissatisfied:按指定条件选择数据。单击If按纽，打开SelectCase：If对话框，如图1.10所示，先选择变量，然后定义条件。RandomSampleofcases：对观察值进行随机抽样。单击Sample按纽，打开SelectCase：Randomsample对话框。如图1.11所示。图1.10SelectCase：If对话框在SampleSize栏中有两种选择方式，一种是大概抽样（Approximately）,即键入抽样比例后由系统随机抽样；另一种是精确抽样（(Exactly)，要求输入从第几个观察值起抽取多少数据。图1.11SelectCase：RandomSample对话框l Basedontimeorcaserange：顺序抽样。单击Range按纽，打开SelectCase:Range对话框，用户自行定义从第几个观察值开始抽到第几个观察值结束。l Usefiltervariable：用指定变量作过滤。先选择一个变量，系统自动在数据管理器中将该变量值为0的观测单位标上删除记号，系统对标有删除记号的观测单位不作分析。选择了挑选数据子集的方式后，单击OK，在数据窗口可看到新的变量filter_s。五、数据分类汇总（数据分组汇总）建立数据库文件sys-2：基本结构如下，数据上机时自行录入姓名性别班级数学物理用户可以根据需要对数据按指定的变量的数值进行归类分组汇总。以上述建立的数据库的学生成绩为例，如果按照性别对数学成绩进行汇总，可以使用分类汇总命令实现。具体操作如下。1.指定分类变量和汇总变量。打开建立的数据库，在数据窗口单击DateAggregate命令，打开AggregateDate对话框。如图1.12所示：图1.12AggregateDate对话框2.在变量名列表框中选择分类变量”性别”进入BreakVariable(s)。3.在变量名列表框中选择汇总变量”Math”进入AggregateVariable(s)。4.单击Function按纽，打开AggregateDate：Function对话框，如图1.13所示。在此对话框中可以选择平均值、数据和、标准差的形式，特别值形式，百分数形式、频数形式等其中之一的方法进行分类汇总。选择分类汇总的函数形式后返回AggregateDate对话框中。图1.13AggregateDate：AggregateFunction对话框5.在AggregateDate对话框中指定汇总文件的保存路径。有两种选择：一种是选中创建新数据文件，通过File按纽，重新指定结果文件名。一种是替代原来数据文件，用分类汇总结果覆盖当前编辑窗口的数据。6.单击Name&Label按纽，可以重新指定结果文件中的变量名并加入变量标签。SPSS默认的结果文件中的变量名为原变量名最后加上_1.7.如果希望在结果文件中保存各分类组的数据个数，可以选择Savenumberofcaseinbreakgroupasvariable项。最后单击OK，可得相应的数据文件。六、缺失值的替代方式如果用户希望对缺失值进行定义，可以采用以下的操作：在数据窗口点击TransformReplaceMissingValues,打开ReplaceMissingValues，对话框，如图.1.14.所示：图1.14ReplaceMissingValues对话框在变量中选择具有缺失值的变量进入NewVariable框内，系统可以自动产生替代缺失值的新变量，也可处定义新变量。然后在Method的下拉菜单中选择缺失值的替代方式。五种方式依次是：Seriesmean用该变量所有非缺失值的平均值替代缺失值；Meanofnearlypoint用缺失值相邻点的的非缺失值的平均数据替代缺失值；Medianofnearlypoint用缺失值相邻点的的非缺失值的中位数替代缺失值；Linearinterpolation用缺失值相邻点的的非缺失值的中点值替代缺失值；Lineartrendatpoint用线性拟合方式替代缺失值。七、数据秩（序）的确定如果用户需要对已有的数据变量排秩（序），如对数据SYS-2中的数学成绩分别排出名次，可以在数据窗口采用以下操作。1.单击TransformRandCases，打开RandCases对话框。2.从左边变量名列表框中选择变量”数学”（也可选择多个变量）进入Variable(s)框中，选择变量”班级”进入By框中，则系统排序时将按照进入By的变量值“班级”进行分别排序。如图1.15所示：图1.15RandCases对话框3.单击Ties按纽，选择Ties（Ties是指两个或两个以上的数据相等的情况）的处理方式。由于秩与数据个数是一一对应的，当数据有相同的时，确定它们相应的秩有三种处理方式：对应秩的Mean平均值、Low最小值和high最大值。如本例选择最大值。选择后返回在主对话框。点击OK，就可以在数据窗口看到排序结果。RankTypes按纽提供排秩方式。单击RankTypes按纽，打开types对话框，从中选择排秩类型，排秩类型从左到右依次是：Rank普通排序（系统默认）,新变量的值就是秩；Fractionalrankas%累计百分数排序；Savagescore以指数分布为基础的原始分排序；SumofCaseweights以分组例数之和的权重排序；Fractionalrank以秩变量除以分组例数之和排序；Ntile先给定一个大于1的整数，系统按照此数的范围确定秩。1.2.5SPSS对变量的编辑一、插入一个新变量插入一个新变量的命令是InsertVariable。在数据窗口单击DataInsertVariable，会在光标所在位置的前一列插入一个新的变量，变量名字和属性可以在VariableView窗口中定义。二、已存在的变量生成新变量对于已存在的数据变量，根据需要进行计算生成新变量的命令是Compute。在数据窗口单击TransformCompute，打开ComputeVariable对话框，如图1.16所示。在对话框左上方TargetVariable栏中，键入即将生成的新变量的名称，并单击Type&Lable按纽确定变量标签及数据类型。对话框的左下栏中给出了数据文件中所有可用的变量列表，我们可以用右箭头按钮从中选取所需的变量进入右上方的NumericExpression栏中，该栏存放运算表达式，运算表达式中所需要的常用函数可以从下的Functions列表中直接选取。这些常用函数（见附录）和其它语言中的函数名称类似，在框中按字母顺序排列，用鼠标选中某个函数，用Functions右面的上箭头按钮加入数值表达式中，对话框中间是一个小键盘，可以用来输入数字、运算符号等。ComputeVariable对话框的下面还有一个if按钮，可以选一部分满足某种条件的观测个体来做运算，不满足条件观测，其新变量值缺失。图1.16ComputeVariable对话框如图1.16表示的是数据SYS-2中每个学生的数学和物理总成绩。在ComputeVariable对话框中填好新变量名称和运算表达式后，点击OK按钮，就可以在数据文件中看到，已经生成了一个新变量Total。三、产生计数变量如果用户需要对满足某项条件的数据进行计数，可以使用Count命令。以学生成绩数据SYS-2为例，说明具体操作步骤：在数据窗口单击TransformCount,打开CountOccurrenceofValuewithinCases对话框，如图1.17所示：图1.17CountOccurrenceofValuewithinCases对话框先在TargetVariable中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到NumericVariables框中，再单击DefineValues按纽，打开ValuetoCount对话框。如图1.18所示：图1.18CountValueswithinCases：ValuetoCount对话框在上面的对话框中，确定需要计数的数值，其Value值的设置项依次是：Value:输入某个值为清点对象；System-missing:以系统的缺失值为清点对象；System-orusermissing:以系统或用户指定的缺失值为清点对象；Range:指定数值的计数区域：其中包括：（）through（）在框内指定下限和上限lowestthrough（）:在框内只指定上限；（）highestthrough:在框内只指定下限。图中给出的是计算达到优良标准，即学生达到80分以上课程数。确定了计数数值后，单击Add，使选择结果进入Valuestocount框内。单击Continue按纽，返回主对话框中。如果需要，可以单击If按纽确定计数条件。最后点OK可在数据窗口得到计数变量。四、变量分组（编码）与自动分组（编码）Transform菜单下还有以上两条分组（编码）命令。对变量数据的重新分组（编码），是指给每个变量值重新赋予一个码来描述他们的某些属性。码数相同的即为一组。比如，可以对年龄重新分组，19岁及以下年龄赋予一个编码1，20-29岁的年龄码赋予2，30-39岁年龄码赋予3，依此类推，这些码只能取正整数值。从某种程度上来讲，编码也可以看做分组：一个组对应一个组号，这样就把这些人按年龄分为几个组，一目了然。变量重新编码命令为Recode，自动重新编码命令为AutomaticRecode。Automatic两者的区别是：AutomaticRecode命令是SPSS系统自动设定码为正整数，而Recode可以根据用户的需要指定特别的码值。自动编码的具体操作为：在数据窗口单击TransformAutomaticRecode打开AutomaticRecode。对话框，从左侧的变量列表中选出被将重新编码的原变量，在NewName按钮右边空白栏中输入新的码值的变量名，点NewName按钮放到上面的栏中。对话框底下有两个选项，以确定编码是从最小的开始，还是从最大的开始，点OK执行这条命令。需要注意的是，码与秩是不同的，请读者在学习时注意它们的区别。如果用户需要自定义分组的条件，可选择Recode命令。Recode命令有两个选项，分别是：IntoSameVariables：数据编码后新的码值直接放到原来的变量中；IntoDifferentVariables：数据编码后新的码值存到一个新变量中。为了避免数据丢失，尽量不要轻易选择前者。选择后者的Recode命令对话框如图1.19所示，图1.19RecodeIntoDifferentVariables对话框选择需要重新分组（编码）的变量进入NumericVariableOutput框中，并在右边的OutputVariable框中定义新的变量名及变量标签，单击OldandNewValues按纽，打开对话框，OldandNewValues对话框最左侧有六个选项，用来确定原变量的取值区间（或单个变量值），它们将被赋予一个相同的新码值，新的码值在右上方的NewValue栏中填入。填好后Add按钮就被激活了，单击此按钮，就把这个旧的变量区间（值）以及新的码值到Old-News栏中。重复以上步骤，把所有的区间一个一个都输入后，点Continue按钮回到RecodeIntoDifferentVariables菜单，点OK按钮执行命令，即在数据窗口可得到需要的分组赋值变量。1.3基本统计描述在建立了数据文件之后，需要对数据作进一步的考察，如了解数据的基本特征，如数据的均值、标准差、四分位点，数据的分布形态等，这个过程称为对数据进行基本统计描述。所以说，数据的基本统计描述的目的是：了解数据的基本特征和基本分布形状，为进一步分析做好充分准备。u 本节主要内容：数据的基本统计描述方法：频数分析、探索分析及交叉列联表分析等。1.3.1描述统计分析过程描述统计分析是对数据进行基础性描述。可以得出数据的平均值(Mean)、和(sum)、标准差(Stddeviation)、最大值(Max)、最小值(Min)、方差(Variance)、极差(range)、平均值标准误(S.E.Mean),峰度(Kurtosis)、偏度（Skewness）等统计量。以数据库SYS-2为例，介绍描述统计分析的具体操作步骤如下：1、首先打开数据表SYS-2，按照AnalyzeDescriptivesStatisticsDescriptives打开Descriptives对话框，如图1.20所示图1.20Descriptives主对话框从左边源变量中选择一个或者几个变量进入右框中，单击Options按钮，打开Options对话框，如图1.21所示（本例选两个）图1.21DescriptivesOptions对话框在对话框中最上面一行是Mean：均值，sum：算术和l Dispersion离差栏Std.Deviation标准差Minimum最小值Variance方差Maximum最大值Range极差S.E.mean均值的标准误l Distribution分布状态栏Skewness偏度Kurtosis峰度l DisplayOrder栏，选择输出方式：VariableList按变量表次序；Alphabetic按字母顺序；AscendingMeas按平均值升序；DescendingMeans按平均值降序。如在此例中选择按平均值升序项，返回主对话框，单击OK，在输出窗口得描述统计分析输出表。表1.1DescriptiveStatistics基本描述统计表1.3.2频数分析对于一组数据，考察不同的数据出现的频数，或者是数据所落入指定的区域内的频数，可以了解数据的分布状况。数据文件SYS-1是一个公司职员表，其中有性别、年龄，受教育年限等五个变量，具体操作如下：1、打开数据文件SYS-1后，单击AnalyzeDescriptiveStatisticsFrequencies打开频数分析对话框如图1.22所示。图1.22频数分布主对话框2、在左边的变量框中选中一个或多个变量送入Variable(s)。3、选中Displayfrequencytables要求输出分布表。4、单击Statistics按钮，得到对话框图1.23。在Frequencies:Statistics对话框中选择要求输出的统计量。图1.23Frequencies:Statistics对话框l PercentileValues百分数选择项栏（复选项）Quartile四分位数，Cutpointsequalgroups等分位点百分位数（取值范围在2100之间）。Percentile(s)自定义百分数。l Dispersion离差栏（见1.3.1基本统计描述过程）l CentralTendency中心趋势栏Mean算术平均值（均值）,Median中位数,Mode众数,Sum算术和.l Distribution分布状态栏在本例中选择四分位点、10等分的百分位点；标准差、方差、最大、最小值；全距、均值、均值的标准误，中位数、偏度、峰度等复选项。5、单击Chart按钮，得到Frequencies:Chart对话框图1.24.在对话框中有l ChartType图形栏（单选），选择输出的图形类型。None不输出图形（系统默许）Barcharts条形图Piecharts饼图Histograms直方图Withnormalcurve直方图中显示正态曲线（只有选择直方图时才能选择）。l ChartValues栏，选择图形中分类值的表现形式。Frequencies直方图纵轴为频数，饼图中每块表示属于该组观测值频数；Percentage直方图纵轴为百分比，饼图中每块表示该组的观测量数占总数的百分比。图1.24Frequencies:Chart对话框6、单击Format按钮，得到对话框图1.25。图1.25Frequencies:Format对话框在Frequencies:Format对话框中：l Orderby排序栏，表示频数分布表的排列顺序。(单选)Ascendingvalues按变量值升序排列（系统默许）。Descendingvalues按变量值降序排列。Ascendingcounts按变量各种取值发生的频数升序排列。Descendingcounts按变量各种取值发生的频数降序排列。如果设置了直方图，频数表将按照变量值顺序排列。l MultipleVariables多变量输出表格设置(单选)。Comparevariables将所有变量的结果输出在一个表中。Organizeoutputbyvariables为每一个变量输出一个表。l Suppresstableswithmorethan_categories控制频数表输出的分类数复选项。Maximumnumberofcategories分类数最大参数值，默许值是10.本例中均选择系统默认项。点击OK，得到输出表1.2.表1-2(a)Statistics统计分析表年龄NValid70Missing0Mean均值42.66Std.ErrorofMean均值的标准误1.223Std.Deviation标准差10.232Skewness偏度.775Std.ErrorofSkewness偏度的标准误.287Kurtosis峰度-.010Std.ErrorofKurtosis峰度的标准误.566Minimum最小值24Maximum最大值70Percentiles百分数1033.002035.002536.003036.004038.005039.006042.607046.707550.008052.009059.00表1-2（b）频数表年龄Frequency频数Percent%ValidPercentCumulativePercentValid2422.92.92.93022.92.95.73222.92.98.63345.75.714.33422.92.917.13545.75.722.936710.010.032.93745.75.738.63868.68.647.13957.17.154.34134.34.358.64211.41.460.04322.92.962.94411.41.464.34534.34.368.64611.41.470.04722.92.972.94911.41.474.35022.92.977.15111.41.478.65222.92.981.45322.92.984.35511.41.485.75711.41.487.15811.41.488.65934.34.392.96122.92.995.76622.92.998.67011.41.4100.0Total70100.0100.0表1.2（c）直方图从上面的表和直方图中可以观察到该公司32岁至47岁之间的人数最多，占到总人数的60%以上。1.3.3探索分析过程探索分析是对数据进行初步的观察分析，主要的分析项目有：u 观察数据的分布特征：可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性，包括考察数据中是否存在异常值等。u 正态分布检验：检验数据是否服从正态分布。u 方差齐性的检验：用Levene检验比较各组的方差是否相等。以数据库SYS-2提供的学习成绩数据为例，对各班的数学成绩按照性别进行数据的分布、按照性别检验其数学成绩的方差是否相等。打开数据库SYS-2，具体操作步骤：1、单击Analyze-Descriptivestatistics-Explore，打开Explore主对话框：如图1.26所示：图1.26探索分析主对话框（1）从左侧的变量列表中选出变量”数学”，送入DependentList栏；（2）选择”性别”作为因子变量，送入FactorList栏。有了因子变量，SPSS会把所有的观测个体按照因子变量的取值分成若干各组，再分组考察DependentList中的各个变量，如果不选择因子变量，SPSS会对全部观测来做探索分析。（3）选择”班级”标识变量送入LabelCase栏，当输出涉及到观测量时，使用该变量值标识各观测量。（4）在Display栏中选择输出项，依次是Both选择项，输出图形与描述统计量（系统默认），只输出描述统计量和只输出图形。本例中选择默认项。2、单击Statistics统计量按钮，打开Statistics对话框,选择统计输出量。有四个选择项，分别是：Descriptives基本统计描述。同时指定均值的置信区间的置信度，系统默认为95。M-估计（M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化）；Outliers输出分析数据中五个最大值和五个最小值；Percentiles输出百分数。本例中选择Descriptives和Outliers后，返回主对话框。如图1.27所示。图1.27探索分析Statistics对话框单击Plots图形按钮，打开Plots对话框，如图1.28所示。图1.28探索分析Plots对话框对话框中有四个选择栏：l Boxplot箱图选择栏。Factorlevelstogether因变量按因素水平分组（系统默认）；Dependentstogether所有因变量生成一个并列箱图（本例中选择项）；None不显示箱图。箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的水平线段是数据的最大值（奇异点除外），中间矩形箱子的底所在位置是数据的第一个四分位数（即25分位数），箱子顶部所在位置是数据的第三个四分位数据（即75分位数）。箱子中间的水平线段刻画的是数据的中位数（即50分位数）。l Descriptive描述图形栏（复选项）。Stem-and-leaf茎叶图（系统默认）Histogram直方图l Normalityplotswithtest(复选项)，正态分布检验并输出Q-Q图。l SpreadvslevelwithLeveneTest栏，对所有的散布层次图，同时输出回归直线的斜率以及方差齐性的Levenes检验，但如果没有指定分组变量，此选择项无效。四个单选项依次为：None：不产生回归直线的斜率和方差齐性检验（系统默认）；PowerEstimation转换幂值估计（对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图）选项；Transformed变换原始数据选择项（可在参数框中选择数据变换类型）；Untransformed不变换变换原始数据选择项。本例中选择茎叶图，正态分布检验，方差齐性检验等。4、单击Option按纽，打开Option对话框如图1.29所示。可选择缺失值的处理方式，SPSS提供三种处理方式：图1.29探索分析Option对话框Excludecaseslistwies剔除带缺失值的观测量（系统默认）。本例选择此项。Excludecasespairwise剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。Reportvalues输出频数表时同时输出缺失值。5、单击OK，得到相应的输出结果如表1.3所示。表1.3Explore探索分析表1.3（a）CaseProcessingSummary数据概述性别Cases数据Valid有效值Missing缺失值Total总数N个数Percent百分比NPercentNPercent数学女33100.0%0.0%33100.0%男47100.0%0.0%47100.0%表1-3（b）Descriptives基本统计描述表性别StatisticStd.Error数学女Mean均值78.821.93495%ConfidenceIntervalforMean置信区间LowerBound置信下限74.88UpperBound置信上限82.765%TrimmedMean修正均值79.35Median中位数79.00Variance方差123.403Std.Deviation标准差11.109Minimum最小值46Maximum最大值99Range极差53InterquartileRange四分位间距12.50Skewness偏度-.771.409Kurtosis峰度1.320.798男Mean均值78.641.51495%ConfidenceIntervalforMeanLowerBound置信下限75.59UpperBound置信上限81.695%TrimmedMean78.78Median81.00Variance107.714Std.Deviation10.379Minimum53Maximum98Range45InterquartileRange16.00Skewness-.367.347Kurtosis-.533.681表1.3（c）ExtremeValues极端值（按照性别输出数学成绩的五个最大值及五个最小值）性别CaseNumber班级Value数学女Highest180199278296375194474192570189Lowest111462315738164412266514267男Highest179298277196376294473291571190(a)Lowest1225325262341624726356163aOnlyapartiallistofcaseswiththevalue90areshowninthetableofupperextremes.表1.3(d)TestsofNormality正态分布检验表性别Kolmogorov-Smirnov(a)Shapiro-WilkStatisticdfSig.StatisticdfSig.数学女.09733.200(*).96333.324男.11047.200(*).97147.291*Thisisalowerboundofthetruesignificance.aLillieforsSignificanceCorrection从表1.3（d）的检验结果可以看出，由于假设检验的P值均大于0.05，故可以认为男女生的数学成绩分布都近似地服从正态分布。表1.3(e)TestofHomogeneityofVariance方差齐性检验LeveneStatisticdf1df2Sig.数学BasedonMean基于均值.045178.833BasedonMedian基于中位数.023178.880BasedonMedianandwithadjusteddf基于中位数及修正的自由度.023176.348.880Basedontrimmedmean基于修正的均值.033178.856由表1.3（e）得出方差齐性检验的P值为0.8以上，故认为男女生数学成绩的方差是相等的。表1.3(f)Stem-and-LeafPlots茎叶图数学Stem-and-LeafPlotforSEX=女FrequencyStem&Leaf1.00Extremes(=46)一个极端值1.005.71.006.43.006.6783.007.2349.007.5667788994.008.23347.008.55667892.009.242.009.69Stemwidth:10Eachleaf:1case(s)表1.3（g）NormalQ-QPlots正态分布Q-Q图上图中间的斜线是服从正态分布的标准线。从上面的分布图中看出，除个别极端点外，数据点都在斜线周围波动，故可以认为女生的数学成绩近似服从正态分布。表1.3（h）DetrendedNormalQ-QPlots离散正态分布图从上面的离散正态分布图中看出，除个别极端点外，离散点都在2的周围波动，故可以认为女生的数学成绩近似服从正态分布。表1.3（i）按照性别绘制的数学成绩的箱图从上面的箱图中可以得出结论：女生的数学成绩的平均水平比男生低且分散程度小，但有一个极端值。1.4交叉列联表分析当观察的现象与两个因素有关时，如某种服装的销量受价格和居民收入影响；某种产品的生产成本受原材料价格和产量的影响等等，交叉列联表分析可以比较好的反映出两个因素之间有无关联性，两因素与现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务：u 根据收集的样本数据，产生二维或多维交叉列联表；u 在交叉列联表的基础

展开阅读全文

SPSS在统计分析中的运用上机

最新文档