SPSS统计分析基础教程(PPT430)

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,统计学实践,主讲：李晓军,E-mail,：,lixj111,第,1,章数据分析概述与软件入门,1.1 SPSS,软件概述,1.1.1 SPSS,简介,SPSS,（,Statistics Package for Social Science,）,for Windows,是一种运行在,Windows,系统下的社会科学统计软件软件包。,SPSS,的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。,一、功能强大,（,1,）囊括了各种成熟的统计方法与模型，为统计分析用户提供了全方位的统计学算法，为各种研究提供了相应的统计学方法。,（,2,）提供了各种数据准备与数据整理技术。,（,3,）自由灵活的表格功能。,（,4,）各种常用的统计学图形。,二、,SPSS,的实验环境要求,（,1,）系统运行环境,SPSS10.0,以上版本软件包可以工作在两种模式下，单机模式和作为网络系统的用户界面模式。,（,2,）辅助软件环境,三、,SPSS,的主要界面,SPSS,的主要界面有数据编辑窗口和结果输出窗口。,四、,SPSS,的帮助系统,SPSS,对一些基本模块中的统计提供了帮助，可以通过单击,Help,菜单中的,Statistics Coach,命令，选择所需要的统计指导。,SPSS,附加模块,功能,SPSS Advanced,一般线性模型、混合线性模型、对数线性模型、生存分析等,SPSS Categories,对应分析、感知图、,Proxscal,等,SPSS Complex Sample,多阶段复杂抽样技术等,SPSS Conjoint,正交设计、联合分析等，适用于市场研究,SPSS Exact Test,精确,P,值计算、随机抽样,P,值计算等,SPSS Maps,在地图上展示数据等,SPSS Missing Value Analysis,缺失数据的报告与填补等,SPSS Regression,Logistic,回归、非线性回归、,Probit,回归等,SPSS Tables,交互式创建各种表格（如堆积表、嵌套表、分层表等）,SPSS Trends,Arima,模型、指数平滑、自回归等,五、,SPSS,的运行方式,SPSS,提供了,3,种基本运行方式：完全窗口菜单方式，程序运行方式、混合运行方式。程序运行方式和混合运行方式是使用者从特殊的分析需要出发，编写自己的,SPSS,命令程序，通过语句直接运行。,SPSS,中使用的对话框主要有两类，一类是文件操作对话框，文件操作对话窗口操作与,Windows,应用软件操作风格一致。另一类是统计分析对话框，统计分析对话框可以分为主窗口和下级窗口，在该类对话框中，选择参与分析的各类变量及统计方法是对话框的主要任务。,1.1.2,spss,的安装,一、启动,Windows,后，把,SPSS,系统安装软盘（或光盘）插入软驱（或光驱），并找到,SPSS,的安装程序的可执行文件,Setup.exe,。,二、双击,Setup.exe,文件，安装程序向导将给出每一步操作的提示。在出现,Welcome,（欢迎）,窗口后，选择,Next,进入下一步。,三、安装程序显示,Software License Agreement,对话框时，选择,Yes,接受显示的协议条款。,1.2,spss,操作入门,1.2.1,spss,软件的启动与退出,单击,Windows,的,开始,按钮，在,程序,菜单项,SPSS for Windows,中找到,SPSS 10.0 for Windows,并单击。,1.2.2 SPSS,的,5,个窗口,（,1,）数据编辑窗口（,SPSS Data Editor,）,Spss,处理数据的工作全在此窗口进行。,（,2,）结果管理窗口（,SPSS Output viewer,）,此窗口用于存放分析结果。左边是目录区，右边是内容区。,（,3,）草稿结果窗口（,SPSS Draft Viewer,）,草稿结果是结果的一种简化文本格式。实际上就是,WORD,所兼容的,rtf,超文本格式，因此可以在没有安装,SPSS,的,PC,机上使用文字编辑软件打开。,（,4,）语法编辑窗口（,SPSS Syntax Editor,）,（,5,）脚本窗口（,SPSS Script Editor,）,1.2.3 SPSS,的四种运行方式,一、菜单对话方式,首先打开,SPSS,软件，然后选择菜单,File Open file,。,然后，利用菜单,Analyze Descriptive Statistics Frequencies,，,二、程序方式,在,Syntax,编辑窗口中键入以下程序：,Get file=c:program files,spss,employee,data.sav,.,Frequencies variables =,jobcat,/order = analysis,。,只需要选择菜单,Run All,，运行该程序也一样会出现相同的分析结果。,三、,Include,命令方式,当编写,Syntax,程序时，如果发现将要编写的程序语句正好是另一个,Syntax,文件的内容；或者发现所需要的程序语句其实是几个,Syntax,文件的总和是，除了可以通过“,Copy”,、“,Paste”,的方法利用资源，生产一个新的,Syntax,文件外，还可以利用,Include,命令。,Include ,c:sytaxsample.sps,.,四、,spss,Production,Faccility,方式,在,Windows,的程序菜单中，,spss,菜单组除了有“,spss,for windows”,项之外，还有一个“,spss,production facility”,。,（,1,）单击,Syntax,框下的“,Add”,按钮，到,C,盘根目录下打开“,syntaxsample,”,。,（,2,）单击,Syntax,框下的“,Edit”,按钮，对程序进行编辑。,（,3,）单击右下角的“,uesr,prompts”,按钮，添加对程序的交互分析界面。,（,4,）单击“,Browse”,按钮制定结果保存路径，单击“,export options”,按钮还可以制定结果保存格式。,1.2.4,spss,的四种输出结果,1,、表格格式,2,、文本格式,3,、标准图与交互图,4,、结果的保存和导出,第,2,章数据录入与数据获取,本章主要解决两个问题：,第一个问题，根据问题类型的不同，将会从开放题、单选题和多选题的录入方式为例进行介绍。,第二个问题，重点介绍如何用,SPSS,直接读取,Excel,类型和文本格式的数据，以及如何用,ODBC,接口读取数据库文件。,2.1.1,统计软件中数据的录入格式,（,1,）不同观测对象的数据不能在同一记录中出现，即同一观测数据应当独占一行。,（,2,）每一个观测量指标或影响因素只能占据一列的位置，即同一指标的数量观测值都应当录入到同一个变量中去。,2.1,数据格式概述,即：一个观测占一行，一个变量占一列,在录入数据时，归纳为以下三步：,第一步：定义变量名；,第一步：指定每个变量的各种属性；,第一步：录入数据。,变量名不能与,spss,保留字相同，,spss,的保留字有,ALL,、,END,、,BY,、,EQ,、,GE,、,GT,、,LE,、,LT,、,NE,、,NOT,、,OR,、,TO,、,WITH,。,2.1.2,变量属性介绍,一、变量的储存类型,SPSS,中，变量有三种的基本类型：数值型、字符型和日期型。,标准,数值型,逗号,数值型,圆点,数值型,科学技术法,数值型,美元,数值型,用户自,定义型,数值型：,数值型的数据是,0-9,的阿拉伯数字和其他符号，如美元符号、逗号或圆点组成的。,字符型：,字符型数据的默认显示宽度为,8,个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。,注意：在输入数据时不应输入引号，否则双引号将会作为字符型数据的一部分。,日期型：,日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多，,SPSS,以菜单方式列出日期型数据的显示格式以供用户选择。事实上，,SPSS,存储中的日期型变量是该实践与,1582,年,10,月,14,日零点相差的秒数。,关于日期型格式的几点说明：,“,m”,在年与日（字母,y,与,d,）之间表示月份；在时与秒（字母,h,与,s,）之间表示“分”钟。,“,mmm,”,表示要求书写英文月份单词的前三个字母组成的缩写。,“,ddd,”,三个字母,d,表示要求用从元月一日算起的日数表示日期。,指定了日期变量的格式，不一定在输入时就使用指定的格式。可以输入用“,/”,或“,”,作分隔符的具体日期，回车后，系统将自动将输入的格式转化为指定的格式，显示在单元各种。,二、变量的测量尺度,在,SPSS,中使用,Measure,属性对变量的测量尺度进行定义。,（,1,）定类尺度（,Nominal Measurement,）,：定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。,特点：其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。,在,spss,中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。,（,2,）定序尺度（,Ordinal Measurement,）,：定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。,特点：由于定序变量只能侧度类别之间的顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只能排序，不能进行运算。,（,3,）定矩尺度（,Interval Measurement,）,：定矩尺度是对事物类别或次序之间间距的测度。,特点：不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定居变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。,（,4,）定比尺度（,Scale Measurement,）：,定比尺度是能够测算两个测度值之间比值的一种计量尺度，它的测量结果同定距变量一样表现为数值。,特点：定必变量是测量尺度的最高水平，它除了具有其他三种测量尺度的全部特点外，还具有可计算两个侧度至之间笔直的特点，因此它可以进行加、减、乘、除运算，而定居变量值可进行加减运算。,三、变量名与变量标签值,Label,：定义变量名标签,Value,：定义变量值标签,四、缺失值,Spss,中缺失值有用户自定义缺失值和系统缺失值两大类。,在,SPSS,中，对字符型变量，默认的缺失值为空格；对数值型变量，默认的缺失值为零。,2.2,数据的直接录入,2.1.1,操作界面说明,标尺栏,菜单栏,工具栏,数据输入区,数据编辑区,窗口标签,标题栏,状态栏,当前数据栏,显示区滚动条,Data View,表可以直接输入观测数据值或存放数据，表的左端列边框显示观测个体的序号，最上端行边框显示变量名。,Variable View,表用来定义和修改变量的名称、类型及其他属性，如图所示。,如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量,Var00001,Var00002,等。,在,Variable View,表中，每一行描述一个变量，依次是：,Name,：,变量名。变量名必须以字母、汉字及,开头，总长度不超过,8,个字符，共容纳,4,个汉字或,8,个英文字母，英文字母不区别大小写，最后一个字符不能是句号。,Type,：,变量类型。变量类型有,8,种，最常用的是,Numeric,数值型变量。其它常用的类型有：,String,字符型，,Date,日期型,Comma,逗号型（隔,3,位数加一个逗号）等。,Width,：,变量所占的宽度。,Decimals,：,小数点后位数。,Label,：,变量标签。关于变量涵义的详细说明。,Values,：,变量值标签。关于变量各个取值的涵义说明。,Missing,：,缺失值的处理方式。,Columns,：,变量在,Date View,中所显示的列宽（默认列宽为,8,）。,Align,：数据对齐格式（默认为右对齐）。,Measure,：,数据的测度方式。系统给出名义尺度、定序尺度和等间距尺度三种（默认为等间距尺度）。,为了在统计分析过程中能有效的利用其它软件产生的数据，,SPSS,软件编辑窗口除可以使用*,.,sav,扩展名数据文件，还可以直接打开和保存下述类型的文件：,SPSS DOS,版本产生的数据文件*,.sys,；,Excel,报表程序产生的数据文件*,.,xls,；,DBASE,数据库格式文件*,.dbf,；,SAS,统计软件产生的数据文件。,2.2.2,开放题和简单单选题的录入,一、在,spss,中定义变量,录入数据的第一步是定义变量属性，随后才能进行数据录入。,二、开放题的录入,三、单选题的录入,单选题的录入可以采用字符直接录入、字符代码,+,值标签、数值代码,+,值标签三种方式。,2.2.3,多选题的录入,一、多重二分法（,Multiple Dichotomy Method,）,所谓多重二分法，是在编码的时候，对应每一个选项都要定义一个变量，有几个选项就有几个变量，这些变量均为二分类，他们各自代表对一个选项的选择结果。,二、多重分类法（,Multiple Category Method,）,多重分类法，也是利用多个变量对一个多选题的答案进行定义，应该用多少个变量，由被访者实际可能给出的最多答案数而定。,三、多选题录入在,spss,中的实现,2.3,外部数据的获取,SPSS,读入非,SPSS,类型的文件数据，有三种主要方式：直接打开，利用文本导向读入文本数据以及利用数据库,OBDC,接口读入数据。,2.3.1,电子表格数据如何导入,spss,中,SPSS,中可以直接读入许多常用格式的数据文件，选择菜单,File Open Data,或直接单击快捷键工具栏上的快捷按钮，系统就会弹出,Open File,对话框，单击“文件类型”列表框，在里面能够看到可以直接打开的数据文件格式。,2.3.2,文本数据如何导入,spss,中,第一步：首先，在,Open File,文件框中选中文件，单击“打开”，系统会自动启动文本倒入向导对话框。,第二步：选择“,NO”,并单击“下一步”按钮。,用某种字符区分,固定宽度,第三步：分别选择“,Delimited”,和“,yes”,然后单击“下一步”按钮。,第四步,第五步,第六步,第七步,2.4,数据的保存,2.4.1,存为,spss,格式,2.4.2,存为其他数据格式,第,3,章数据管理,3.1,变量级别的数据管理,对变量进行操作的内容主要集中于,Transform,菜单中，包括新变量的生成、记录的排序、对变量进行计数等。,计算新变量：,就是用,Compute,过程。,变量转换：,包括,Recode,、,Visual,Bander,、,Count,、,Rank Case,、,Automatic Recode,这五个过程。,专用过程：,包括建立时间序列、缺失值代替和设定随机种子三个过程。,Run Pending Transforming,：,用于执行编程中被挂起的数据整理操作。,计算产生新变量,变量值自动编码,设定随机数种子,创建代替缺失值变量,创建时间序列变量,运行其它转换程序,变量值重新编码,创建计数变量,观测量排秩,连续变量进行分段,3.1.1,计算新变量,计算新变量的功能就是在原有,spss,数据文件的基础上，根据用户的要求，使用,spss,算术表达式及函数，对所有记录或满足,SPSS,条件表达式的记录，计算出一个新结果，并将结果存入一个用户指定的变量中。,一、常用基本概念,（,1,）,spss,算术表达式,spss,算术表达式是由常量、,spss,变量名、,spss,的算术运算符、圆括号等组成的式子。,（,2,）,spss,函数,spss,提供了多达,70,多种函数，分为八大类：算术函数、统计函数、分布函数、逻辑函数、字符串函数、日期时间函数、缺失值函数和其它函数。,（,3,）,spss,条件表达式,通过,spss,的算术表达式和函数可以对所有记录计算一个结果，如果仅希望对部分记录进行计算，则应当利用,spss,的条件表达式指定对那些记录进行计算。,二、,compute,过程的分析实例,例,3.1,统计英语成绩在,60,分以上的学生的数学和语文的平均成绩。,例,3.2,计算工人工资的所得税。,学生自己练习。,3.1.2,对变量值进行分组合并,一、对连续变量进行分组,在,SPSS,中可以将连续变量转换为离散（等级或定序）变量，按照某种一一对应的关系生成新变量值，可以将新值赋给原变量。,Recode,过程和,Visual,Bander,过程都可以完成这一任务，但前者给为简单和常用。,例,3.3,当学生英语成绩小于,60,时取值为“不及格”，大于等于,60,且小于,70,为“及格”，大于等于,70,且小于,80,为“较好”，大于等于,80,为“优秀”。,二、分类变量类别的合并,Recode,过程也常用于合并某个分类变量的几个水平为一个水平。,将上例,grade,中优秀、良好和及格三个等级合并为一个等级“,PASS”,，将,grade,的等级“不及格”转换为“,NOPASS”,。,3.1.3,连续变量的可视化分段,VISUAL,Bander,用于将连续变量进行分段，该过程使用百分位数、标准差范围或者等间距方式将连续变量划分为若干组段，并采用图形化操作的方式。,例,3.4,对数学成绩进行分段，假设现在希望按变量,math,将学生分为,5,组，,60,分,以下为第一组，,60,分以上的按照等间距的方式分为,4,组。,3.1.4,将字符变量转换为数值变量,用,automatic recode,将字符变量转换为数值变量。,3.1.5,变量的编秩,所谓编秩，就是对记录按照某个变量值大小来排序。,Rank case,过程就是用来排序的一个专用过程。,例：根据性别分组计算数学成绩的秩次。,3.1.6 Transform,菜单中的其它功能,（,1,）,count,过程,如果用户需要对满足某项条件的数据进行计数，可以使用,Count,命令。,先在,Target Variable,中指定一个变量（可以是已经存在的变量或新变量），并定义变量标签，然后指定要统计的变量加到,Numeric Variables,框中，再单击,Define Values,按纽，打开,Value to Count,对话框。,Value:,输入某个值为清点对象；,System-missing:,以系统的缺失值为清点对象；,System-or user missing:,以系统或用户指定的缺失值为清点对象；,Range:,指定数值的计数区域：其中包括：,（）,through,（）在框内指定下限和上限,lowest through,（）,:,在框内只指定上限；,（）,highest through:,在框内只指定下限。,（,2,）,random Number Seed,过程：,用于设定伪随机函数的随机种子。,3.2,文件级别的数据管理（一）,数据编辑窗口的,Data,菜单为用户创建和定义数据提供了方便的功能。这个菜单是,SPSS,统计软件数据整理的特有功能菜单。它的功能包括：对变量、观测量的编辑处理；对变量数据的变换；对观察量数据整理。,（,1,）简单命令,：包括插入变量、插入记录和到达某条记录，他们的功能实际上都可以用鼠标在数据表界面上直接完成，很少会使用菜单来调用。,（,2,）常用的简单过程,：包括排序、拆分文件、选择记录和加权记录。,（,3,）变量与数据文件属性导向,：用于定义数据字典，或者将于定义的数据字典直接引入当前数据文件。,（,4,）数重构过导向：,用于进行数据转置，或者对重复测量数据表进行长型、宽型记录间的转换。,（,5,）文件合并过程：,将几个数据文件合并为一个大的,spss,数据文件，含横向合并和纵向合并两种情况。,（,6,）正交设计过程：,实际上是联合分析模块的一部分，用于生成实施联合分析所需要的设计。,（,7,）其他过程,：包括定义日期变量过程、数据汇总过程和查找重复记录导向。,定义变量属性,定义变量日期,插入观测量,拷贝数据属性,插入一个变量,定位观测量,观测量排序,重构数据结构,分类或不分类汇总,正交设计,数据文件转置,合并数据文件,标识重复观测量,拆分数据文件,选择观测量,观测量加权,3.2.1,记录排序,一、排序的两种方法,：,（,1,）在数据表格的变量名处单击右键，弹出的右键菜单最后两项就是“,sort Ascending”,和“,Sort Descending”,。,（,2,）对于多变量排序，则需要使用,Sort Cases,过程来进行。,二、多变量排序需要注意的三点：,（,1,）在多重排序中，制定排序变量名是很关键的，先指定的变量在排序时必然优先于后制订的变量。,（,2,）可以指定按某变量值升序排序的同时按另一变量值降序排序，或相反。,（,3,）排序以后，原来记录数据的排列次序将被打乱。,3.2.2,记录拆分,Split File,分割文件的功能是把当前工作分割成两个或两个以上的组，随后的分析将对每个组进行。,3.2.3,记录筛选,Select Cases,：当用户不需要分析全部的数据，而是按要求分析其中的一部分，使用该选择。,All case,：选择所有数据；,If condition is satisfied:,按指定条件选择数据。,Random Sample of cases,：对观察值进行随机抽样。,Use filter variable,：,用指定变量作过滤。先选择一个变量，系统自动在数据管理器中将该变量值为,0,的观测单位标上删除记号，系统对标有删除记号的观测单位不作分析。,Based on time or case range,：,顺序抽样。单击,Range,按纽，打开,Select Case: Range,对话框，用户自行定义从第几个观察值开始抽到第几个观察值结束。,3.2.4,加权记录,Weight Cases,：设定某变量为频数变量。,3.2.5,数据汇总,所谓分类汇总就是按指定的分类变量对观测值进行分组，对每组记录的各变量求指定的描述统计量，结果可以存入新数据文件，也可以替换当前数据文件。,一、汇总的概念,二、进行分类汇总的方法,1,、打开“,data”,菜单，选择“,Aggregate”,，展开,aggregate data”,对话框。,2,、在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量（,Break,Variables,）框中。,3,、在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量,（,Aggregate,Variables,）框中，即要求这些变量的值进行分类汇总,。,4,、“,name& label”,（名称与标签）：单击此按钮可以修改组合后所生成新变量名称以及标签：可以在,name,后面的矩形框中输入新变量名。在,Label,后面的矩形框中输入新变量标签。单击“,continue”,按钮继续。,5,、“,Function”,（函数）选择此项可以确定汇总变量的描述内容；系统默认函数为平均数。,3.3,文件级别的数据管理（二）,3.3.1,数据字典的定义与应用,在大型的数据分析项目中，数据管理是非常重要的一个环节，为了保证工作质量，数据处理人员往往会事先定义好一个非常详细的数据格式，包括变量格式、变量标签、标签值、缺失值定义等，这被称为数据字典。,一、变量属性定义导向：,Define Variable Properties,具体说来，可以列出所选变量的所有值；分辨没有值标签的值，并且提供自动给出值标签的功能；可以将另一个变量的属性拷贝到所选变量，也可以将所选变量的属性拷贝到其他变量。,二、复制数据文件属性导向,Copy Data Properties,过程用于将定义好的数据字典直接应用到当前文件中。,操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中，还可以进行自行定义，只选择某些变量，或者某些属性进行拷贝，这无疑大大提高了连续性项目对原有资源的利用程度。,3.3.2,查找重复记录,Identifying Duplicate Cases,：用于查找重复记录。,运行结束后，结果窗口会给出本次操作的信息汇总：,3.3.3,数据文件的重新排列与转置,一、数据的长型与宽型格式：,长型格式和宽型格式指的是重复测量数据的两种不同的排列方式。,由于重复测量模型可以使用不同的统计模型加以分析，因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题。,二、长型格式转换为宽型格式：,Restructure,。,选择,Data Restructure,，系统就会弹出下图导向。,三、数据转置,Transpose,：用于对数进行行列转置，数据文件的转置就是将数据编辑窗口中数据的行列互换，即将记录转为变量，将变量转为记录后，重新显示在数据编辑窗口中。,Variable(s,),：,放入将要行列转置的变量名。在数据文件中，未放入栏中的变量会遗失。字符串变量不能转换，如强迫转换，变量值转变为系统缺失值。,Name variable,：变量命名栏，在左侧源变量栏中选择一个变量，放入,name variable,栏，技改变量的数据作为转置后的变量名。,3.3.4,多个数据文件的合并,纵向连接：几个数据集中的数据相加，组成一个新的数据集，新数据集中的记录是原来几个数据集中记录数的总和。,横向连接：指的是按照记录的次序，或者某个关键变量的数值，将不同数据集中的不同变量合并为一个数据集，新数据集中的变量数是所有原数据集中不重名变量的总和。,一、数据文件的纵向连接,纵向合并实质就是将两个数据文件的变量列，按照各个变量名的含义，一一对应的进行首尾相接。,纵向合并必须遵循两个条件：,第一，两个合并的,spss,数据文件，其内容合并是有实际意义的。,第二，为方便,spss,数据文件的合并，在不同的数据文件中，最好起相同的名字，变量类型和变量长度也要尽量相同。,Unpaired variable,：不匹配变量栏。指变量名相同而变量定义不同的变量，或变量名不同的变量。,Variable in new working data,：新工作数据变量栏。,Indicate case source as variable,：指示记录来源的变量选项,/,二、数据文件的横向合并,横向合并的实质是将两个数据文件的记录，按照记录对应，一一进行左右对接。,横向合并遵循三个条件：,第一，如果不是按照记录号对应的规律进行合并，则两个数据文件必须至少有一个变量名相同的公共变量，这个变量是两个数据文件横向合并的依据，成为关键变量。,第二，如果是使用关键变量进行合并的对应，则两个数据文件都必须事先按关键变量进行升序排列。,第三，为方便,SPSS,文件的合并，在不同的数据文件中，数据含义不相同的列，变量名不应取相同的名称。,Excluded Variables,：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作区中。,New Working Data,：新工作数据变量栏。,Match Case on Key Variable in sort,：,排序文件中按关键变量匹配记录选项。,Both files provide case,：由外部文件和当前数据量两者提供记录。,External file is keyed table,：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。,Working Data File is keyed table,：当前数据为关键表。,Key Variables,：,关键变量栏，在拒绝变量选择某变量作为关键变量。,Indicate case source as variable,：,指示记录来源的变量选项。,第,4,章连续性变量的统计描述与参数估计,4.1,连续变量的统计描述概述,4.1.1,统计描述中的可用工具,（,1,）各种初步汇总描述方法,频数、百分位数。,（,2,）各种统计描述指标,均值、标准差、四分位数间距。,（,3,）统计表,（,4,）统计图,4.1.2,连续变量的统计描述指标体系,（,1,）集中趋势,（,Central Trend,）：,均数（,Mean,）,中位数（,Median,）,众数（,Mode,）,总合（,Sum,）,（,4,）其他趋势,百分位数指标（,Percentile,）、,M,统计量（,M-Estimators),、极端值（,Outlier,）。,（,2,）离散趋势（,Dispersion Trend,）,标准差（,Std. Deviation,）、方差（,Variance,）、全距（,Range,）、最小值（,Minimum,）、最大值（,Maximum,）、标准误（,S.E. Mean,）,（,3,）分布特征（,Distribution Tendency,）,偏度系数（,Skewness,）和峰度系数（,Kurtosis,）,4.1.3,spss,中的相应功能,1,、,Spss,的用于连续变量统计描述的过程，均集中在,Descriptive Statistics,子菜单中。,（,1,）,Frequencies,：产生原始数据的频数表，并能计算各种百分位数。,控制频数表输出范围类型的最大数目,（,2,）,Descriptive,过程,该过程用于一般性的统计描述，相对于,Frequencies,过程而言，它不能绘制统计图。,（,3,）,Explore,过程,该过程用于对连续性资料分布状况不清楚时的探索性分析，它可以计算许多描述统计量，给出各种统计图，并进行简单的参数估计。,（,4,）,Ratio,过程,用于对两个连续性变量计算相对比指标。,2,、,Compares means,均值比较,means,过程：,means,过程的优势在于各组的描述指标被放在一起便于相互比较，并且如果需要，可以直接输出结果，无须再次调用其它过程。,4.2,集中趋势的的描述指标,4.2.1,算术平均,算术平均（,Arithmetic Mean,）是最常用的描述输送距分布的集中趋势的统计良。总体均数（,Population Mean,）用希腊字母表示，样本均数常用表示。,一、算术平均数的定义和性质,二、均数的意义,任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。,但平均数在高度概括观测数据从而使问题简化的同时，却丢失了某些有用的信息，一方面它把各个观测数据之间的差异性掩盖了起来，另一方面由于平均数对于个别极端值反应比较灵敏，因而平均数在某些情况下可能具有一定的欺骗性。,三、均数的适用范围,严格的讲平均数指示用于定距变量。但有时对于定序变量，求平均等级也可以使用平均数。,4.2.2,中位数,中位数（,Median,）是将总体各单位的标志值按大小顺序排列，处于中间位置的那个标志。,一、中位数的定义,对于未分组的原始资料，首先必须将标志值按大小顺序。设排序结果为：,则中位数就可以按下列方式确定：,二、中位数的适用范围,4.2.3,其他集中趋势指标,一、截尾均数,由于均数较易受极端之的影响，因此可以考虑将数据排序后，按照一定的比例去掉最两端的数据，只是用中部的数据来求均数。如果截尾均数河源均数相差不大，则说明数据不存在极端值，或者两侧极端值的影响正好抵消；反之，则说明数据中有极端值，此时截为均数更好地反映数据的集中趋势。,常用的截尾均数有,5%,截尾均数，即两端各去掉,5%,的数据。,二、几何均数,几何均数适用于原始数据分布不对称，但经过对数转换后称对称分布的资料。,几何均数世纪上就是对数转换后的数据,lgX,的算术平均数的反对数。,四、调和均数,它实际上是观察值,X,倒数之均数的倒数。,三、众数（,Mode,）,众数指的是样本数据中出现频次最多的那个数。,众数适用于任何层次的变量，特别适用于单峰对称的情况，是比较两个分布是否接近首先要考虑的参数。,在,SPSS,中，众数可以在,Report,子菜单和,Tables,子菜单的全部报表过程和制表过程中计算出来。,在,SPSS,中，调和均数可以在,Report,子菜单的,4,个报表过程过程中计算出来。,4.3,离散趋势的描述指标,4.3.1,全距（,Range,）,又称为极差，是一组数据中最大值（,Maximun,）与最小值（,Minimum,）之差。,极差反映的是变量分布的差异范围或离散程度，在总体中，任何两个标志值之差都不可能超过极差。,极差存在两点不足：,一是它仅仅取决于两个极端之的水平，不能反映其间的变量分布情况，提供的信息太少。,二是它容易受个别极端值的影响，不符合稳健型的要求。,4.3.2,方差和标准差,一、方差（,Variance,）和标准差（,Standard Deviation,）的定义,将离均差平方和（,Sum of Squares of Deviation from Mean,，,SS,）除以观察例数,N,，就得到方差：,方差越大，数据分布离散程度越大。,对于样本数据而言，方差的计算公式为：,将方差开方，就得到标准差。对于同性质的数据来说，标准差越小，表明数据的变异程度越小，即数据越整齐，数据的分布范围越集中；标准差越大，表明数据的变异程度越大，即数据越参差不齐，分布越分散。,二、方差和标准差的适用范围：,方差和标准差的适用范围应当是正态分布。,4.3.3,百分位数、四分位数与四分位数间距,分位差是对极差指标的一种改进，是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。,一、分位数,分位数：,是一种位置指标，用,P,X,表示。一个百分位数,P,X,将一组观测之分为两部分，理论上有,x%,的观测值比它小，（,100-x,）,%,的观测值比它大。,四分位数（,quartile,）、十分位数（,decile,）、百分位数（,percentile,），他们分别是用,3,个点、,9,个点、,99,个点将数据,4,等分、,10,等分和,100,等分后各分位点上的值。,二、四分位数,四分位数：,实际上是三个数值的总称，分别是,P,25,、,P,50,、,P,75,分位数。,很显然，中间的分位数是中位数，因此通常所说的四分位数是指,第一个四分位数（下四分位数）和第三个四分位数（上四分位数）。,上下四分位数的差值称为四分位数间距：,QR=Q,3,-Q,1,4.3.4,变异系数,当需要比较两组数据离散程度大小的时候，往往直接使用标准差来进行比较并不合适。这可以被分为两种情况：,（,1,）测量尺度相差太大；,（,2,）数据量纲不同。,在以上情形中，就应当消除测量尺度和量纲的影响，而变异系数（,Coefficient of Variance,），它是标准差和其平均数的比率。,4.4,连续变量统计描述实例,4.4.1,数据背景介绍,4.4.2,使用,Explore,过程进行分析,探索分析是对数据进行初步的观察分析，主要的分析项目有：,观察数据的分布特征：可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性，包括考察数据中是否存在异常值等。,正态分布检验：检验数据是否服从正态分布。,方差齐性的检验：用,Levene,检验比较各组的方差是否相等。,1,、单击,Analyze-Descriptive statistics-Explore,，打开,Explore,主对话框：,一、分析操作,（,3,）在,Display,栏中选择输出项，依次是,Both,选择项，输出图形与描述统计量（系统默认），只输出描述统计量和只输出图形。本例中选择默认项。,（,1,）从左侧的变量列表中选出变量”身高”，送入,Dependent List,栏。,（,2,）选择”性别”作为因子变量，送入,Factor List,栏。有了因子变量，,SPSS,会把所有的观测个体按照因子变量的取值分成若干各组，再分组考察,Dependent List,中的各个变量，如果不选择因子变量，,SPSS,会对全部观测来做探索分析。,2,、单击,Statistics,统计量按钮，打开,Statistics,对话框,选择统计输出量。,（,1,）,Descriptives,基本统计描述。同时指定均值的置信区间的置信度，系统默认为,95,。,（,2,）,M-,估计（,M,估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化）。,（,3,）,Outliers,输出分析数据中五个最大值和五个最小值。,（,4,）,Percentiles,输出百分数。,3,、单击,Plots,图形按钮，打开,Plots,对话框。,（,1,）,Boxplot,箱图选择栏,Factor levels together,因变量按因素水平分组（系统默认）；,Dependents together,所有因变量生成一个并列箱图（本例中选择项）；,None,不显示箱图。,（,2,）,Descriptive,描述图形栏,Stem-and-leaf,茎叶图,Histogram,直方图,（,3,）,Normality plots with test(,复选项,),，正态分布检验并输出,Q-Q,图。,None,：不产生回归直线的斜率和方差齐性检验；,Power Estimation,转换幂值估计（对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图）选项；,Transformed,变换原始数据选择项；,Untransformed,不变换变换原始数据选择项。,（,4,）,Spread,vs,level with,Levene,Test,栏，对所有的散布,层次图，同时输出回归直线的斜率以及方差齐性的,Levene,s,检验。,4,、单击,Option,按纽，打开,Option,对话框如图所示。可选择缺失值的处理方式，,SPSS,提供三种处理方式：,（,1,）,Exclude cases,listwies,剔除带缺失值的观测量（系统默认）。,（,2,）,Exclude cases,pairwise,剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。,（,3,）,Report values,输出频数表时同时输出缺失值。,5,、单击,OK,，得到相应的输出结果如表所示。,二、基本的分析结果,三、输出百分位数和极端值列表,身高,Stem-and-Leaf Plot for,sex=,男,Frequency Stem & Leaf,1.00 15 . 9,.00 16 .,9.00 16 . 555778999,20.00 17 . 00000000011112334444,24.00 17 . 555555555556677777788889,12.00 18 . 000000122234,3.00 18 . 668,Stem width: 10,Each leaf: 1,case(s,),箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的水平线段是数据的最大值（奇异点除外），中间矩形箱子的底所在位置是数据的第一个四分位数（即,25,分位数），箱子顶部所在位置是数据的第三个四分位数据（即,75,分位数）。箱子中间的水平线段刻画的是数据的中位数（即,50,分位数）。,4.4.3,使用其他过程过程进行分析,一、,Descriptive,过程的结果,二、,Frequencies,过程的结果,4.5,连续性变量的参数估计,根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断（,Statistical Inference,），它可以被分为参数估计和假设检验两大类。,4.5.1,正态分布,一、正态分布的定义,若连续性随即变量,X,的概率分布密度函数为,则称随机变量,X,服从正态分布（,Normal Distribution,）,二、正态分布的特征,（,1,）正态分布是一条对称曲线，关于均数对称，因此均数被称为正态分布的位置参数。,（,2,）曲线是单峰，在均值出达到最高点。,（,3,）正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。,（,4,）曲线无论向左或向右延伸，都越来越接近横轴，但不会与横轴相交，以横轴为渐近线。,（,5,）约,68%,的个体的取值与平均数在距离一个标准差之内。,（,6,）约,95%,的个体取值与平均数的距离在,1.96,个标准差之内。,（,7,）,99%,个体的取值与平均数的距离在,2.58,个标准差。,三、标准正态分布（,Standard Normal Distribution,）,将原来的正态分布转换为标准正态分布。,在,SPSS,中的,Descriptive,过程可以将原变量转换为标准正态分布的得分，只需要选中主对话框左下角的,Save standardized values as variables,复选框即可。,四、偏度和峰度,（,1,）偏度（,Skewness,）：偏度是用来描述变量取值分布形态的统计量，只分布不对称的方向和程度。样本偏度系数：,偏态的方向指的应当是长尾的方向，而不是高峰的位置。,(2),峰度（,Kurtosis,）：峰度用来描述变量取值分布形态陡缓的统计量，是指分布图形的的尖削程度或峰凸程度。样本的峰度系数：,4.5.2,参数的点估计,参数的点估计就是选定一个适当的样本统计量作为参数的估计量，并计算出估计值。,对于所选统计量是否适于作参数估计量，有无偏性、一致性和有效性三个评选标准。,无偏性,是指虽然估计量的值不全等于参数，但应在真实值附近摆动。,一致性,是指样本容量越大，估计值离真实值的差异应当越小。,有效性,是指如果两个统计量都符合上述要求，则应当选取误差更小的一个作为估计值。,在许多种情况下，样本统计量本身往往就是相应的总体参数的最佳估计，此时就可以直接取相应的样本统计量作为总体参数的点估计。,一、矩法,二、极大似然估计法,该方法的原理是在已知总体的分布，但未知其参数值时，在待估参数的可能取值范围内进行搜索，使似然函数值最大的那个数值为极大似然估计值。,三、稳健估计值,稳健估计值的是该统计量具有稳健性，当数据存在异常值时受影响较小，而且对大部分的分布而言都很好。,文件估计有,M,估计、,R,估计等不同方法。,SPSS,中数出的,M,估计量有,4,种，它们分别是,Huber,、,Andrews,、,Hampel,和,Tukey,所提出的，实际上就是所用的函数不同。一般而言，,Huber,适用于数据接近正态分布的情况，另外三种则适用于数据中许多异常值的情况。如果,M,估计量里平均数和中位数较远，则数据中可能存在异常值。此时，应该用,M,估计量替代平均数以反映集中趋势。,4.5.3,参数的区间估计,一、标准误,标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。,二、区间估计的计算,结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间，该区间称为总体参数的,1-a,可信区间或置信区间（,Confidence Interval,）。,对于任意可信度的区间情况，总体均值在,100,（,1-a,）,%,可信区间为：,第,5,章分类变量的统计描述与参数估计,5.1,分类变量的统计描述概述,5.1.1,分类变量的统计描述指标体系,一、频数分布情况描述,各个类别的样本数和所占比例分别称为频数（绝对频数）和百分比（构成比）。,累计频数是指本类别及较低类别出现的次数之和，累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。,根据类别的有序性，分类变量可以分为有序分类变量（,Ordinal Variable,）和无序分类变量（,Nominal Variable,）。,当集中趋势显著时，用众数（,Mode,）作为总体的代表值。,二、集中趋势的描述,所谓众数，使之出现次数最多的那个数。如果只有一个众数称为单众数，多于一个的称为复众数。,（,1,）比（,Ratio,）：比指的是两个有关指标之比,A/B,，用于反映两个指标在数量,/,频数上的大小关系。,三、使用相对数进行深入描述,（,2,）构成比（,Proportion,）,率是一个时间概念，或者说具有速度、强度含义的指标，用于说明某个时间发生的频率或强度。,分观察对象为,K,部分（,A,1,、,A,2,、,A,k,），其中某一个,/,多个部分的例数占总例的比例未构成比，它描述某个事物内部各构成部分所占的比重。,（,3,）率（,Rate,）,5.1.2,分类变量的联合描述,当一共有两个分类变量时，这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表，也称列联表。,当观察的现象与两个因素有关时，如某种服装的销量受价格和居民收入影响；某种产品的生产成本受原材料价格和产量的影响等等，交叉列联表分析可以比较好的反映出两个因素之间有无关联性，两因素与现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务：,1,、根据收集的样本数据，产生二维或多维交叉列联表；,2,、在交叉列联表的基础上，对两两变量间是否存在关联性进行检验。,5.2,分类变量的统计描述实例,5.2.1,使用,Frequencies,过程输出频数表,具体操作,:,Analysis Descriptive Statistics Frequencies,

展开阅读全文

SPSS统计分析基础教程(PPT430)

最新文档