SPSS统计分析基础教程课件

资源描述

统计学实践统计学实践1第1 1章数据分析概述与软件入门1.1 SPSS软件概述1.1.1 SPSS简介 SPSS（Statistics Package for Social Science）for Windows是一种运行在Windows系统下的社会科学统计软件软件包。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等，具体内容包括描述统计、列联分析，总体的均值比较、相关分析、回归模型分析、聚类分析、主成份分析、时间序列分析、非参数检验等多个大类，每个类中还有多个专项统计方法。第1章数据分析概述与软件入门1.1 SPSS软件概述2一、功能强大（1）囊括了各种成熟的统计方法与模型，为统计分析用户提供了全方位的统计学算法，为各种研究提供了相应的统计学方法。（2）提供了各种数据准备与数据整理技术。（3）自由灵活的表格功能。（4）各种常用的统计学图形。一、功能强大（1）囊括了各种成熟的统计方法与模型，为统计分析3SPSS统计分析基础教程课件41.1.2 spss的安装一、启动Windows 后，把SPSS 系统安装软盘（或光盘）插入软驱（或光驱），并找到SPSS的安装程序的可执行文件Setup.exe。二、双击 Setup.exe 文件，安装程序向导将给出每一步操作的提示。在出现Welcome（欢迎）窗口后，选择Next进入下一步。三、安装程序显示Software License Agreement对话框时，选择Yes接受显示的协议条款。1.1.2 spss的安装一、启动Windows 后，把S51.2 spss操作入门1.2.1 spss软件的启动与退出单击Windows 的开始按钮，在程序菜单项SPSS for Windows中找到SPSS 16.0 for Windows并单击。1.2 spss操作入门1.2.1 spss软件的启动与退出61.2.2 SPSS的窗口（1）数据编辑窗口（SPSS Data Editor）Spss处理数据的工作全在此窗口进行。1.2.2 SPSS的窗口（1）数据编辑窗口（SPSS Da7SPSS统计分析基础教程课件8（2）结果管理窗口（SPSS Output viewer）此窗口用于存放分析结果。左边是目录区，右边是内容区。（2）结果管理窗口（SPSS Output viewer）此91.2.3 SPSS的四种运行方式一、菜单对话方式首先打开SPSS软件，然后选择菜单File Open file。然后，利用菜单Analyze Descriptive Statistics Frequencies，1.2.3 SPSS的四种运行方式一、菜单对话方式然后，利用10二、程序方式在Syntax编辑窗口中键入以下程序：Get file=c:program filesspssemployee data.sav.Frequencies variables=jobcat/order=analysis。只需要选择菜单Run All，运行该程序也一样会出现相同的分析结果。二、程序方式在Syntax编辑窗口中键入以下程序：Get f11三、Include命令方式当编写Syntax程序时，如果发现将要编写的程序语句正好是另一个Syntax文件的内容；或者发现所需要的程序语句其实是几个Syntax文件的总和是，除了可以通过“Copy”、“Paste”的方法利用资源，生产一个新的Syntax文件外，还可以利用Include命令。Include c:sytaxsample.sps.三、Include命令方式当编写Syntax程序时，如果发现12第2章数据录入与数据获取spss数据分析的一般步骤：（1）.spss数据准备阶段：数据编辑窗口中定义数据结构，录入和修改spss数据。（2）.spss数据的加工整理阶段（3）.spss数据的分析阶段（4）.spss分析结果的阅读和解释第2章数据录入与数据获取spss数据分析的一般步骤：132.1.1 统计软件中数据的录入格式（1）不同观测对象的数据不能在同一记录中出现，即同一观测数据应当独占一行。（2）每一个观测量指标或影响因素只能占据一列的位置，即同一指标的数量观测值都应当录入到同一个变量中去。2.1 数据格式概述数据格式概述即：一个观测占一行，一个变量占一列2.1.1 统计软件中数据的录入格式2.1 数据格式概述即：14在录入数据时，归纳为以下三步：第一步：定义变量名；第一步：指定每个变量的各种属性；第一步：录入数据。变量名不能与spss保留字相同，spss的保留字有ALL、END、BY、EQ、GE、GT、LE、LT、NE、NOT、OR、TO、WITH。2.1.2 变量属性介绍变量属性介绍在录入数据时，归纳为以下三步：2.1.2 变量属性介绍15一、变量的储存类型SPSS中，变量有三种的基本类型：数值型、字符型和日期型。标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型：数值型的数据是0-9的阿拉伯数字和其他符号，如美元符号、逗号或圆点组成的。一、变量的储存类型SPSS中，变量有三种的基本类型：数值型、16字符型：字符型数据的默认显示宽度为8个字符位，系统不区分变量名中的大小写字母，并且不能进行数学运算。注意：在输入数据时不应输入引号，否则双引号将会作为字符型数据的一部分。字符型：字符型数据的默认显示宽度为8个字符位，系统不区分变量17日期型：日期型数据是用来表示日期或时间的。日期型数据的显示格式有很多，SPSS以菜单方式列出日期型数据的显示格式以供用户选择。日期型：日期型数据是用来表示日期或时间的。日期型数据的显示格18关于日期型格式的几点说明：“m”在年与日（字母y与d）之间表示月份；在时与秒（字母h与s）之间表示“分”钟。“mmm”表示要求书写英文月份单词的前三个字母组成的缩写。“ddd”三个字母d表示要求用从元月一日算起的日数表示日期。指定了日期变量的格式，不一定在输入时就使用指定的格式。可以输入用“/”或“”作分隔符的具体日期，回车后，系统将自动将输入的格式转化为指定的格式，显示在单元各种。关于日期型格式的几点说明：“m”在年与日（字母y与d）之间表19二、变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义。（1）定类尺度（Nominal Measurement）：定类尺度是对事物的类别或属性的一种测度，按照事物的某种属性对其进行分类或分组。特点：其值仅代表了事物的类别和属性，即能测度类别差异，不能比较各类之间的大小，所以各类之间没有顺序和等级。对定类尺度的变量只能计算频数和频率。在spss中，能适用定类尺度的数据可以是数值型，也可以是字符型变量。使用定类变量对事物进行分类时，必须符合穷尽原则和互斥原则。二、变量的测量尺度在SPSS中使用Measure属性对变量的20（2）定序尺度（Ordinal Measurement）：定序尺度是对事物之间的等级或顺序差别的一种测度，可比较优劣或排序。特点：由于定序变量只能侧度类别之间的顺序，无法测出类别之间的准确差值，即测量数值不代表绝对的数量大小，所以其测量结果只能排序，不能进行运算。（3）定距尺度（Interval Measurement）：指如身高、体重、血压等连续数值型数据，也包括人数、商品件数等离散数值型数据特点：不仅能将事物区分为不同类型并进行排序，而且可能准确指出类别之间的差距是多少；定距变量通常以自然或物理单位为计量尺度，因此测量结果往往表现为数值，所以计量结果可以进行加减运算。（2）定序尺度（Ordinal Measurement）：定21三、变量名与变量标签值Label：定义变量名标签Value：定义变量值标签三、变量名与变量标签值Label：定义变量名标签22四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大类。在SPSS中，对字符型变量，默认的缺失值为空格；对数值型变量，默认的缺失值为零。四、缺失值Spss中缺失值有用户自定义缺失值和系统缺失值两大232.2 数据的直接录入2.2.1 操作界面说明标尺栏菜单栏工具栏数据输入区数据编辑区窗口标签标题栏状态栏当前数据栏显示区滚动条2.2 数据的直接录入2.2.1 操作界面说明标尺栏菜单栏工24Variable View表用来定义和修改变量的名称、类型及其他属性，如图所示。如果输入变量名后回车，将给出变量的默认属性。如果不定义变量的属性，直接输入数据，系统将默认变量Var00001,Var00002等。Variable View表用来定义和修改变量的名称、类型及25Name：变量名。Type：变量类型。变量类型有8 种，最常用Numeric数值型。Width：变量所占的宽度。Decimals：小数点后位数。Label：变量标签。关于变量涵义的详细说明。Values：变量值标签。关于变量各个取值的涵义说明。Missing：缺失值的处理方式。Columns：变量在Date View 中所显示的列宽（默认为8）。Align：数据对齐格式（默认为右对齐）。Measure：数据的测度方式。定距尺度、定序尺度和定类距尺度三种。Name：变量名。262.2.2单选题的录入单选题的录入单选题的录入可以采用字符直接录入、字符代码+值标签、数值代码+值标签三种方式。2.2.2单选题的录入272.2.3多选题的录入一、多重二分法（Multiple Dichotomy Method）所谓多重二分法，是在编码的时候，对应每一个选项都要定义一个变量，有几个选项就有几个变量，这些变量均为二分类，他们各自代表对一个选项的选择结果。二、多重分类法（Multiple Category Method）多重分类法，也是利用多个变量对一个多选题的答案进行定义，应该用多少个变量，由被访者实际可能给出的最多答案数而定。2.2.3多选题的录入一、多重二分法（Multiple Di28三、多选题录入在三、多选题录入在spss中的实现中的实现三、多选题录入在spss中的实现292.3 数据的保存2.3.1 存为spss格式2.4.2 存为其他数据格式2.3 数据的保存2.3.1 存为spss格式30Excluded Variables：拒绝变量名。外部文件与当前数据的同变量，拒绝加到新工作区中。New Working Data：新工作数据变量栏。Match Case on Key Variable in sort：排序文件中按关键变量匹配记录选项。Both files provide case：由外部文件和当前数据量两者提供记录。External file is keyed table：外部文件为关键表，以当前数据为基准，外部文件匹配当前数据的关键变量值，如匹配成功，外部文件的新变量值加入到当前数据的新变量中，匹配不成功则不加入。Working Data File is keyed table：当前数据为关键表。Key Variables：关键变量栏，在拒绝变量选择某变量作为关键变量。Indicate case source as variable：指示记录来源的变量选项。Excluded Variables：拒绝变量名。外部文件与31SPSS统计分析基础教程课件32第4章连续性变量的统计描述与参数估计4.1 连续变量的统计描述概述4.1.1 统计描述中的可用工具（1）各种初步汇总描述方法频数、百分位数。（2）各种统计描述指标均值、标准差、四分位数间距。（3）统计表（4）统计图第4章连续性变量的统计描述与参数估计4.1 连续变量的统计334.1.2 连续变量的统计描述指标体系（1）集中趋势（Central Trend）：均数（Mean）中位数（Median）众数（Mode）总合（Sum）4.1.2 连续变量的统计描述指标体系（1）集中趋势34（4）其他趋势百分位数指标（Percentile）、M统计量（M-Estimators)、极端值（Outlier）。（2）离散趋势（Dispersion Trend）标准差（Std.Deviation）、方差（Variance）、全距（Range）、最小值（Minimum）、最大值（Maximum）、标准误（S.E.Mean）（3）分布特征（Distribution Tendency）偏度系数（Skewness）和峰度系数（Kurtosis）（4）其他趋势（2）离散趋势（Dispersion Tren35SPSS统计分析基础教程课件364.1.3 spss中的相应功能1、Spss的用于连续变量统计描述的过程，均集中在Descriptive Statistics子菜单中。（1）Frequencies：产生原始数据的频数表，并能计算各种百分位数。4.1.3 spss中的相应功能1、Spss的用于连续变量统37控制频数表输出范围类型的最大数目控制频数表输出范围类型的最大数目38（2）Descriptive过程该过程用于一般性的统计描述，相对于Frequencies过程而言，它不能绘制统计图。（2）Descriptive过程该过程用于一般性的统计描述，39（3）Explore 过程该过程用于对连续性资料分布状况不清楚时的探索性分析，它可以计算许多描述统计量，给出各种统计图，并进行简单的参数估计。（3）Explore 过程该过程用于对连续性资料分布状况不清40SPSS统计分析基础教程课件41（4）Ratio 过程用于对两个连续性变量计算相对比指标。（4）Ratio 过程用于对两个连续性变量计算相对比指标。42SPSS统计分析基础教程课件432、Compares means 均值比较2、Compares means 均值比较44means过程：means过程的优势在于各组的描述指标被放在一起便于相互比较，并且如果需要，可以直接输出结果，无须再次调用其它过程。means过程：means过程的优势在于各组的描述指标被放在454.2集中趋势的的描述指标4.2.1 算术平均算术平均（Arithmetic Mean）是最常用的描述输送距分布的集中趋势的统计良。总体均数（Population Mean）用希腊字母表示，样本均数常用表示。一、算术平均数的定义和性质4.2集中趋势的的描述指标4.2.1 算术平均46二、均数的意义二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一个平均数总是一个平衡点。但平均数在高度概括观测数据从而使问题简化的同时，却丢失了某些有用的信息，一方面它把各个观测数据之间的差异性掩盖了起来，另一方面由于平均数对于个别极端值反应比较灵敏，因而平均数在某些情况下可能具有一定的欺骗性。三、均数的适用范围三、均数的适用范围严格的讲平均数指示用于定距变量。但有时对于定序变量，求平均等级也可以使用平均数。二、均数的意义任何一个平均数值首先是同类现象的平均数。任何一474.2.2 中位数中位数（Median）是将总体各单位的标志值按大小顺序排列，处于中间位置的那个标志。一、中位数的定义对于未分组的原始资料，首先必须将标志值按大小顺序。设排序结果为：则中位数就可以按下列方式确定：二、中位数的适用范围4.2.2 中位数中位数（Median）是将总体各单位的标志484.2.3其他集中趋势指标一、截尾均数由于均数较易受极端之的影响，因此可以考虑将数据排序后，按照一定的比例去掉最两端的数据，只是用中部的数据来求均数。如果截尾均数河源均数相差不大，则说明数据不存在极端值，或者两侧极端值的影响正好抵消；反之，则说明数据中有极端值，此时截为均数更好地反映数据的集中趋势。常用的截尾均数有5%截尾均数，即两端各去掉5%的数据。4.2.3其他集中趋势指标一、截尾均数49二、几何均数二、几何均数几何均数适用于原始数据分布不对称，但经过对数转换后称对称分布的资料。几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数。二、几何均数几何均数适用于原始数据分布不对称，但经过对数转换50四、调和均数它实际上是观察值X倒数之均数的倒数。三、众数（Mode）众数指的是样本数据中出现频次最多的那个数。众数适用于任何层次的变量，特别适用于单峰对称的情况，是比较两个分布是否接近首先要考虑的参数。在SPSS中，众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来。在SPSS中，调和均数可以在Report子菜单的4个报表过程过程中计算出来。四、调和均数三、众数（Mode）众数适用于任何层次的变量，特514.3 离散趋势的描述指标4.3.1全距（Range）又称为极差，是一组数据中最大值（Maximun）与最小值（Minimum）之差。极差反映的是变量分布的差异范围或离散程度，在总体中，任何两个标志值之差都不可能超过极差。极差存在两点不足：一是它仅仅取决于两个极端之的水平，不能反映其间的变量分布情况，提供的信息太少。二是它容易受个别极端值的影响，不符合稳健型的要求。4.3 离散趋势的描述指标4.3.1全距（Range）524.3.2 方差和标准差一、方差（Variance）和标准差（Standard Deviation）的定义将离均差平方和（Sum of Squares of Deviation from Mean，SS）除以观察例数N，就得到方差：方差越大，数据分布离散程度越大。对于样本数据而言，方差的计算公式为：将方差开方，就得到标准差。对于同性质的数据来说，标准差越小，表明数据的变异程度越小，即数据越整齐，数据的分布范围越集中；标准差越大，表明数据的变异程度越大，即数据越参差不齐，分布越分散。二、方差和标准差的适用范围：方差和标准差的适用范围应当是正态分布。4.3.2 方差和标准差一、方差（Variance）和标准534.3.3 百分位数、四分位数与四分位数间距分位差是对极差指标的一种改进，是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标。常用的分位差有四分位差、十分位差、百分位差。一、分位数一、分位数分位数：是一种位置指标，用PX表示。一个百分位数PX将一组观测之分为两部分，理论上有x%的观测值比它小，（100-x）%的观测值比它大。四分位数（quartile）、十分位数（decile）、百分位数（percentile），他们分别是用3个点、9个点、99个点将数据4等分、10等分和100等分后各分位点上的值。4.3.3 百分位数、四分位数与四分位数间距分位差是对极差指54二、四分位数二、四分位数四分位数：实际上是三个数值的总称，分别是P25、P50、P75分位数。很显然，中间的分位数是中位数，因此通常所说的四分位数是指第一个四分位数（下四分位数）和第三个四分位数（上四分位数）。上下四分位数的差值称为四分位数间距：QR=Q3-Q1二、四分位数四分位数：实际上是三个数值的总称，分别是P25、554.3.4 变异系数当需要比较两组数据离散程度大小的时候，往往直接使用标准差来进行比较并不合适。这可以被分为两种情况：（1）测量尺度相差太大；（2）数据量纲不同。在以上情形中，就应当消除测量尺度和量纲的影响，而变异系数（Coefficient of Variance），它是标准差和其平均数的比率。4.3.4 变异系数当需要比较两组数据离散程度大小的时候，往564.4 连续变量统计描述实例4.4.1 数据背景介绍4.4.2 使用Explore过程进行分析探索分析是对数据进行初步的观察分析，主要的分析项目有：观察数据的分布特征：可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性，包括考察数据中是否存在异常值等。正态分布检验：检验数据是否服从正态分布。方差齐性的检验：用Levene检验比较各组的方差是否相等。4.4 连续变量统计描述实例4.4.1 数据背景介绍571、单击Analyze-Descriptive statistics-Explore，打开Explore主对话框：一、分析操作一、分析操作（3）在Display栏中选择输出项，依次是Both选择项，输出图形与描述统计量（系统默认），只输出描述统计量和只输出图形。本例中选择默认项。（1）从左侧的变量列表中选出变量”身高”，送入Dependent List栏。（2）选择”性别”作为因子变量，送入Factor List栏。有了因子变量，SPSS会把所有的观测个体按照因子变量的取值分成若干各组，再分组考察Dependent List中的各个变量，如果不选择因子变量，SPSS会对全部观测来做探索分析。1、单击Analyze-Descriptive stati582、单击Statistics统计量按钮，打开Statistics对话框,选择统计输出量。（1）Descriptives基本统计描述。同时指定均值的置信区间的置信度，系统默认为95。（2）M-估计（M估计在计算时对所有观测量赋予权重，随观测量距分布中心的远近而变化）。（3）Outliers输出分析数据中五个最大值和五个最小值。（4）Percentiles输出百分数。2、单击Statistics统计量按钮，打开Statisti593、单击Plots 图形按钮，打开Plots对话框。（1）Boxplot 箱图选择栏 Factor levels together因变量按因素水平分组（系统默认）；Dependents together 所有因变量生成一个并列箱图（本例中选择项）；None不显示箱图。（2）Descriptive 描述图形栏Stem-and-leaf 茎叶图Histogram 直方图（3）Normality plots with test(复选项)，正态分布检验并输出Q-Q图。None：不产生回归直线的斜率和方差齐性检验；Power Estimation转换幂值估计（对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图）选项；Transformed 变换原始数据选择项；Untransformed不变换变换原始数据选择项。（4）Spread vs level with Levene Test栏，对所有的散布层次图，同时输出回归直线的斜率以及方差齐性的Levenes检验。3、单击Plots 图形按钮，打开Plots对话框。（1）604、单击Option按纽，打开Option对话框如图所示。可选择缺失值的处理方式，SPSS提供三种处理方式：（1）Exclude cases listwies 剔除带缺失值的观测量（系统默认）。（2）Exclude cases pairwise 剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量。（3）Report values 输出频数表时同时输出缺失值。5、单击OK，得到相应的输出结果如表所示。4、单击Option按纽，打开Option对话框如图所示。可61二、基本的分析结果二、基本的分析结果62SPSS统计分析基础教程课件63三、输出百分位数和极端值列表三、输出百分位数和极端值列表64SPSS统计分析基础教程课件65身高 Stem-and-Leaf Plot forsex=男 Frequency Stem&Leaf 1.00 15.9 .00 16.9.00 16.555778999 20.00 17.00000000011112334444 24.00 17.555555555556677777788889 12.00 18.000000122234 3.00 18.668 Stem width:10 Each leaf:1 case(s)身高 Stem-and-Leaf Plot for66箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的水平线段是数据的最大值（奇异点除外），中间矩形箱子的底所在位置是数据的第一个四分位数（即25分位数），箱子顶部所在位置是数据的第三个四分位数据（即75分位数）。箱子中间的水平线段刻画的是数据的中位数（即50分位数）。箱图中，最底部的水平线段是数据的最小值（奇异点除外），顶部的674.4.3使用其他过程过程进行分析一、Descriptive过程的结果二、Frequencies过程的结果4.4.3使用其他过程过程进行分析二、Frequencies68SPSS统计分析基础教程课件694.5 连续性变量的参数估计根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断（Statistical Inference），它可以被分为参数估计和假设检验两大类。4.5.1 正态分布一、正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布（Normal Distribution）4.5 连续性变量的参数估计根据样本数据对总体的客观规律性作70二、正态分布的特征（1）正态分布是一条对称曲线，关于均数对称，因此均数被称为正态分布的位置参数。（2）曲线是单峰，在均值出达到最高点。（3）正态分布曲线的尖削与标准差有关。因此标准差被称为正态分布曲线的尺度参数。（4）曲线无论向左或向右延伸，都越来越接近横轴，但不会与横轴相交，以横轴为渐近线。（5）约68%的个体的取值与平均数在距离一个标准差之内。（6）约95%的个体取值与平均数的距离在1.96个标准差之内。（7）99%个体的取值与平均数的距离在2.58个标准差。二、正态分布的特征（1）正态分布是一条对称曲线，关于均数对称71三、标准正态分布（Standard Normal Distribution）将原来的正态分布转换为标准正态分布。在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分，只需要选中主对话框左下角的Save standardized values as variables 复选框即可。三、标准正态分布（Standard Normal Distr72四、偏度和峰度（1）偏度（Skewness）：偏度是用来描述变量取值分布形态的统计量，只分布不对称的方向和程度。样本偏度系数：偏态的方向指的应当是长尾的方向，而不是高峰的位置。四、偏度和峰度（1）偏度（Skewness）：偏度是用来描述73(2)峰度（Kurtosis）：峰度用来描述变量取值分布形态陡缓的统计量，是指分布图形的的尖削程度或峰凸程度。样本的峰度系数：(2)峰度（Kurtosis）：峰度用来描述变量取值分布形态744.5.2 参数的点估计参数的点估计就是选定一个适当的样本统计量作为参数的估计量，并计算出估计值。对于所选统计量是否适于作参数估计量，有无偏性、一致性和有效性三个评选标准。无偏性是指虽然估计量的值不全等于参数，但应在真实值附近摆动。一致性是指样本容量越大，估计值离真实值的差异应当越小。有效性是指如果两个统计量都符合上述要求，则应当选取误差更小的一个作为估计值。在许多种情况下，样本统计量本身往往就是相应的总体参数的最佳估计，此时就可以直接取相应的样本统计量作为总体参数的点估计。一、矩法一、矩法4.5.2 参数的点估计参数的点估计就是选定一个适当的样本统75二、极大似然估计法该方法的原理是在已知总体的分布，但未知其参数值时，在待估参数的可能取值范围内进行搜索，使似然函数值最大的那个数值为极大似然估计值。三、稳健估计值稳健估计值的是该统计量具有稳健性，当数据存在异常值时受影响较小，而且对大部分的分布而言都很好。二、极大似然估计法76文件估计有M估计、R估计等不同方法。SPSS中数出的M估计量有4种，它们分别是Huber、Andrews、Hampel和Tukey所提出的，实际上就是所用的函数不同。一般而言，Huber适用于数据接近正态分布的情况，另外三种则适用于数据中许多异常值的情况。如果M估计量里平均数和中位数较远，则数据中可能存在异常值。此时，应该用M估计量替代平均数以反映集中趋势。文件估计有M估计、R估计等不同方法。SPSS中数出的M估计量774.5.3 参数的区间估计一、标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量。二、区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间，该区间称为总体参数的1-a可信区间或置信区间（Confidence Interval）。对于任意可信度的区间情况，总体均值在100（1-a）%可信区间为：4.5.3 参数的区间估计一、标准误78SPSS统计分析基础教程课件79第5 5章分类变量的统计描述与参数估计5.1分类变量的统计描述概述5.1.1分类变量的统计描述指标体系一、频数分布情况描述各个类别的样本数和所占比例分别称为频数（绝对频数）和百分比（构成比）。累计频数是指本类别及较低类别出现的次数之和，累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比。根据类别的有序性，分类变量可以分为有序分类变量（Ordinal Variable）和无序分类变量（Nominal Variable）。第5章分类变量的统计描述与参数估计根据类别的有序性，分类变80当集中趋势显著时，用众数（Mode）作为总体的代表值。二、集中趋势的描述二、集中趋势的描述所谓众数，使之出现次数最多的那个数。如果只有一个众数称为单众数，多于一个的称为复众数。（1）比（Ratio）：比指的是两个有关指标之比A/B，用于反映两个指标在数量/频数上的大小关系。三、使用相对数进行深入描述三、使用相对数进行深入描述当集中趋势显著时，用众数（Mode）作为总体的代表值。二、集81（2）构成比（Proportion）率是一个时间概念，或者说具有速度、强度含义的指标，用于说明某个时间发生的频率或强度。分观察对象为K部分（A1、A2、Ak），其中某一个/多个部分的例数占总例的比例未构成比，它描述某个事物内部各构成部分所占的比重。（3）率（）率（Rate）（2）构成比（Proportion）率是一个时间概念，或者说825.1.2 分类变量的联合描述当一共有两个分类变量时，这汇总因分类变量的各类别交叉而成的复合频数表被称为行*列表，也称列联表。当观察的现象与两个因素有关时，如某种服装的销量受价格和居民收入影响；某种产品的生产成本受原材料价格和产量的影响等等，交叉列联表分析可以比较好的反映出两个因素之间有无关联性，两因素与现象之间的相关关系。因此，数据交叉列联表分析主要包括两个基本任务：1、根据收集的样本数据，产生二维或多维交叉列联表；2、在交叉列联表的基础上，对两两变量间是否存在关联性进行检验。5.1.2 分类变量的联合描述当一共有两个分类变量时，这汇总83SPSS统计分析基础教程课件845.2分类变量的统计描述实例5.2.1使用Frequencies过程输出频数表具体操作:Analysis Descriptive Statistics Frequencies5.2分类变量的统计描述实例5.2.1使用Frequenci85SPSS统计分析基础教程课件861、打开数据，单击AnalyzeDescriptive Statistics Crosstabs对话框。2、如果是二维列联表分析，可以将行变量选择进入Row(s)中，将列变量选择进入Column(s)框中。如进行三维以上的列联表，可以将其它变量作为控制变量选到Layer框中。多控制变量可以是同层次的也可以是逐层叠加的。5.2.2 使用使用Crosstabs过程输出列联表过程输出列联表1、打开数据，单击AnalyzeDescriptive S873、Display clustered bar chart选择项，可以指定绘制各变量交叉频数分布柱形图。Suppress table表示不输出列联表，只有在分析行列变量间关系时选择此项。此例中不选择这一项。4、单击Cell按纽，打开Crosstabs：Cell Display对话框，如图所示。从对话框中指定列联表单元格中的输出内容。在 Counts框中选择Observed 观察值(系统默认)或Expected期望频数。在Percentages框内选择Row行百分比、Column列百分比及Total总百分比。在Residuals框中选择输出残差。其中Standardize为标准化残差。Adj.standardize 为修正的标准化残差。3、Display clustered bar chart选88SPSS统计分析基础教程课件895.3 多选题的统计描述5.3.1 多选题的描述指标体系在多选题分析中比较特别的描述指标有：（1）应答人数：是指选择了本项人数。（2）应答人数百分比（Percent of Cases）：选择该项的人占总人数的比例。（3）应答人次：选择本选项的人次。（4）应答次数百分比（Percent of Responses）：在作出的选择中，选择该项的人数占总次数的比例。5.3 多选题的统计描述5.3.1 多选题的描述指标体系在多905.3.2 分析实例操作步骤：Analyze Multiple Response Frequencies1、Define Sets过程该过程指定变量组成一个多重响应或多重两分数集，并应用于频数表和交叉列表。2、Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表。3、Crosstabs过程该过程提供带有另一种变量的，已定义的多重或多重两分数据集交叉表。5.3.2 分析实例操作步骤：Analyze M915.4 分类变量的参数估计5.4.1 二项分布的参数估计一、二项分布二项分布又称为贝努里（Bernoulli）分布，是一种具有广泛应用的离散型随机变量的概率分布。二项分布研究的是试验仅有两种结果的分布（这种试验称为贝努里试验），如某产品质量合格与不合格等。其定义为：设有n 次试验，各次试验是相互独立的，每次试验某事件出现的概率都是p，某事件不出现的概率都是1-p，记为q，则对于某事件出现k（k=0,1,2,n）次的概率分布为：5.4 分类变量的参数估计5.4.1 二项分布的参数估计一、92二、二项分布检验(Binomial Test)当研究对象属于二项总体时，可以用二项分布来检验假设，判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下：1、提出假设2、计算统计量值和p 值3、根据p 值作出统计判断。例掷一枚球类比赛用的挑边器40 次，出现A 面和B 面在上的次数。如表所示，试问这枚挑边器是否均匀？二、二项分布检验(Binomial Test)当研究对象属于93解：（1）在SPSS 中输入表中的数据（变量名为Y）。选择主菜单的Analyze=Nonparametric Tests=Binomial Test。（2）显示如图所示的Binomial Test（二项检验）主对话框，把Y选入Test Variable，其它选项采用默认值。（3）单击主对话框中的OK按钮，输出结果如下：从结果可以看出，p=0.017=0.05，认为该挑边器不是均匀的。解：（1）在SPSS 中输入表中的数据（变量名为Y）。（3）94第6章数据报表的呈现6.1 spss报表概述6.1.1 spss中的报表功能1、base模块2、original模块3、Custom Tables模块6.1.2 报表的基本绘制步骤第6章数据报表的呈现6.1 spss报表概述956.2表格入门6.2.1 表格基本框架行（Row）指的是形成表格的横行元素；列（Column）指的是形成表格纵列的元素；行、列元素相交就会形成一个最简单的二维表，行、列元素不同取值的组合就确定了一个单元格（Cell）。层（Layer）指的是表格中的第三个维度。6.2表格入门6.2.1 表格基本框架96SPSS统计分析基础教程课件976.2.3单元格的数据类型1、分类变量.包括了名义型和有序尺度两大类。2、连续变量包括间距尺度和比率尺度两大类。（1）集中趋势指标：均数、中位数、众数、最大值、最小值。（2）离散趋势指标：全距、标准误、标准差、方差。（3）百分位数：第5、25、75、95、99百分位数其任一指定的百分位数。（4）百分比：按相应合计方向当前变量的行、列、层、表格合计百分比。（5）其他：例数、有效例数、综合等。3、汇总项6.2.3单元格的数据类型1、分类变量.986.2.4 集中基本表格类型1、叠加表（Stacking）叠加表指的是在同一张表格中对两个变量进行描述，或者说表格中有一个维度的元素是由两个以上的变量构成。2、交叉表（Crosstabulation）它的两个维度都是由两个分类变量的各类别构成。3、嵌套表（Nesting）两个变量被放置在同一个表格维度中，即该维度是由两个变量的各种类别组合而成。4、多层表（Layers）如果制定了层元素，表格就由二维扩展到三维，即多层表。5、复合表格6.2.4 集中基本表格类型1、叠加表（Stacking）996.3 用Original Tables模块制表6.3.1 功能简介（1）Multiple Response Sets（2）Basic Tables（3）General Tables（4）Multiple Response Tables（5）Tables of Frequencies6.3 用Original Tables模块制表6.3.1 1006.3.2 Basic Tables过程例2：请将数据文件Cars.sav中的汽车数据分为不同的产地和气缸数计算其引擎功率、引擎重量的频数和均数，用适当的报表形式给出，并要求给出类别合计。6.3.2 Basic Tables过程例2：请将数据文件C1011、表格框架的设定1、表格框架的设定102SPSS统计分析基础教程课件1032、统计量的添加与格式的设置2、统计量的添加与格式的设置104SPSS统计分析基础教程课件1053、添加汇总项3、添加汇总项1064、空单元格的设置4、空单元格的设置1075、添加标题与说明文字、添加标题与说明文字5、添加标题与说明文字1086、标签排列格式的调整、标签排列格式的调整6、标签排列格式的调整1097、最终完成表格绘制、最终完成表格绘制7、最终完成表格绘制1106.3.3 General Tables 过程1、表格框架的设定、表格框架的设定6.3.3 General Tables 过程1、表格框架111SPSS统计分析基础教程课件1122、添加汇总项、添加汇总项2、添加汇总项1136.4用Custom Tables模块自由制作6.4.1操作主界面6.4用Custom Tables模块自由制作6.4.1操作1146.4.2 简单实例分析1、表格框架的绘制：选中左侧列表中变量的图标，按下左键不放，移动鼠标，此时鼠标携带着变量图标一起移动。将其拖入画布内，当鼠标接近行/列边框时，相应地边框会变红，表明该变量已经找到位置。6.4.2 简单实例分析1、表格框架的绘制：选中左侧列表中变1152、连续变量统计量的设置（1）选中画布上的Horsepower图标，此时界面左下方Define框组中的Summary Statistics 浮动钮已经可以用，单击该钮后即弹出连续变量汇总统计量设定的对话框图。（2）如果计算某一个统计量，使用连接两框的统计按钮将其移入右侧。例如如果希望先计算频数，则在用最右侧的上下移动钮将其移动到均数上方即可。2、连续变量统计量的设置（1）选中画布上的Horsepowe1163、分类变量汇总项的设置选择分类变量Cylinder，则Define框组中的该浮动按钮可用，单击后弹出如下界面：3、分类变量汇总项的设置选择分类变量Cylinder，则De117Totals and Subtotals Appear框组：用于设定汇总和子项汇总的标签是在左上部显示还是在右下部显示。Show框组：用于设定某项是否显示，Ttotal选项用于要求计算汇总栏，Missing选项要求将用户定义的的缺失值按缺失值处理方式处理，该选择不影响系统缺失。Empty选项用于控制是否在表格中输出无案例的类别。而最右侧的Other选项则控制是否显示未提供值标签的类别。Exclude框：用于指定部显示某些类别。Display框组：直观的显示该分类变量各类的显示方式、顺序、汇总等。Totals and Subtotals Appear框组：1184、显示标签的调整将表格画布切换为正常视图，然后在Cylingder的变量名标签出单击右键，则弹出相应的右键菜单。4、显示标签的调整将表格画布切换为正常视图，然后在Cylin1196.4.3 其他选项卡功能1、Test Statistics功能6.4.3 其他选项卡功能1、Test Statistics1202、Titles 选项卡2、Titles 选项卡1213、Options选项卡3、Options选项卡1226.5 表格的编辑6.5.1 基本编辑操作1、两种不同的编辑窗口（1）嵌套窗口编辑模式选中相应表格使用右键菜单上的SPSS Pivot table Object Edit，或者双击鼠标左键。（2）单独窗口编辑模式选中相应表格使用右键菜单上的SPSS Pivot table Object Ope。，6.5 表格的编辑6.5.1 基本编辑操作1232、表格元素的选择方式2、表格元素的选择方式1243、单元格内容编辑3、单元格内容编辑1256.5.2主要编辑菜单功能介绍1、Edit菜单6.5.2主要编辑菜单功能介绍1、Edit菜单1262、format菜单对单元格的字体、阴影、颜色等属性修改对表格进行各个选项的精细设置对单元格的字体、阴影、颜色等属性修改对表格进行各个选项的精细设置选用新的表格模版表格的行、列自动按内容多少调整为最小。将列标题纵向显示2、format菜单对单元格的字体、阴影、颜色等属性修改对表1273、View菜单和Insert菜单3、View菜单和Insert菜单1284、Pivot菜单4、Pivot菜单1296.5.3 表格属性的详细设置单击菜单Format到Table Properties即可弹出表格属性对话框。（1）general选项卡6.5.3 表格属性的详细设置单击菜单Format到Tabl130（2）Footnotes选项卡（2）Footnotes选项卡131（3）Cell Formats选项卡（3）Cell Formats选项卡132（4）Borders选项卡（4）Borders选项卡1336.6参数估计6.6参数估计1346.6.1参数估计的一般问题一、估计量与估计值所谓参数估计（Parameter estimation）就是用样本统计量去估计总体的参数。如果我们将总体参数笼统地用一个符号来表示，参数估计也就是如何用样本统计量来估计总体参数。用于估计的样本统计量用符号表示，我们把称为统计量（estimator）。估计值（estimated value）就是用来估计总体参数时计算出来的估计量的具体数值。6.6.1参数估计的一般问题一、估计量与估计值135二、点估计与区间估计参数的估计方法有点估计（point estimate）和区间估计（interval estimate）两种。（一）点估计所谓点估计就是由样本x1,x2,xn确定一个统计量用它来估计总体的未知参数，称为总体参数的估计量。当具体的样本抽出后，可求出样本统计量的值。用它作为总体参数的估计值，称作总体参数的点估计。二、点估计与区间估计参数的估计方法有点估计（point es136 某连续生产线上生产的灯泡的使用寿命X服从正态分布N（，2），其中和2是未知总体参数。从中随机抽取5只灯泡，测得使用寿命分别为1529小时、1513小时、1600小时、1527小时、1111小时。试估计和2。从总体中抽取一个样本，构造适当的统计量，来估计对应的总体参数。某连续生产线上生产的灯泡的使用寿命X服从正态分布137评价点估计量优劣的标准：1、无偏性（unbiasedness）无偏性是指估计量的抽样分布的数学期望等于被估计的总体参数。参数不等于抽样分布的均值（有偏估计量）参数等于抽样分布的均值（无偏估计量）偏差评价点估计量优劣的标准：参数不等于抽样分布的均值（有偏估1382、有效性（Efficiency）2、有效性（Efficiency）139参数的抽样分布的抽样分布参数的抽样分布的抽样分布140SPSS统计分析基础教程课件141 自正态总体抽样时，总体均值与总体中位数相同，而中位数的标准误差大约比均值的标准误差大25%。因此，样本均值更有效。的抽样分布的抽样分布自正态总体抽样时，总体均值与总体中位数相同，而1423、一致性（consistency）两个不同容量样本的点估计量的抽样分布3、一致性（consistency）两个不同容量样本的点估计143（二）区间估计的样本的样本使得使得置信度置信度1-1-区间估计是在点估计的基础上，给出总体参数估计的一个区间范围，该区间通常是由样本统计量加减抽样误差得到的。（二）区间估计的样本使得置信度1-区间估计是在点估计的基础1446.6.2 一个总体参数的区间估计（一）总体方差已知时总体均值的区间估计一、总体均值的区间估计一、总体均值的区间估计当总体服从正态分布且方差已知时，或者总体不是正态分布但大样本时，样本均值的抽样分布均为正态分布，期数学期望为总体均值，方差为。而样本均值经过标准化以后的随机变量则服从标准正态分布。6.6.2 一个总体参数的区间估计（一）总体方差已知时总体均145显著性水平置信度显著性水平下，在1-置信水平下的置信区间：显著性水平置信度显著性水平下，在1-置信水平下的置信146例题：一批零件的长度服从正态分布，从中随机抽取9件，测得其平均长度为21.4毫米。已知该批零件长度的标准差为0.15毫米，试以95%的把握程度，估计该批零件平均长度的存在区间。例题：一批零件的长度服从正态分布，从中随机抽取9147例题：某大学从该校学生中随机抽取100人，调查到他们平均每天参加体育锻炼为26分钟。试以95%的置信水平估计该大学全体学生平均每天参加体育锻炼的时间（已知总体方差为36）。例题：某大学从该校学生中随机抽取100人，调查到148例题：一家保险公司收集到36个投保人组成的随机样本，得到每个投保人的年龄如表：试建立投保人年龄的90%置信区间。例题：一家保险公司收集到36个投保人组成的随机样本，得到每个149（二）总体方差未知时总体均值的区间估计（二）总体方差未知时总体均值的区间估计如果总体服从正态分布，则无论样本容量如何，样本均值的抽样分布都服从正态分布。这时，只要总体方差已知，即使在小样本的情况下，也可以建立总体均值的置信区间。但是，如果总体方差未知，而且是在小样本的情况下，则需要用样本方差替代总体方差，这时样本均值经过标准化以后的随机变量则服从自由度为（n-1）的t分布。（二）总体方差未知时总体均值的区间估计如果总体服从正态分布，150-3-2-101230.00.10.20.30.4标准正态分布自由度为20的t-分布自由度为10的t-分布显著性水平下，的1-置信区间：-3-2-101230.00.10.20.30.4标准正态分151例题：已知某灯泡的寿命副总正态分布，现从一批灯泡中随机例题：已知某灯泡的寿命副总正态分布，现从一批灯泡中随机抽取抽取16只，测得其寿命如下：只，测得其寿命如下：试建立该批灯泡使用寿命95%的置信区间。例题：已知某灯泡的寿命副总正态分布，现从一批灯泡中随机抽取1152是否为大样本n30值是否已知值是否已知总体是否近似正态分布用样本标准差s估计用样本标准差s估计将样本容量增加到n30以便进行区间估计是是是是否否否否总体均值区间估计程序是否为大样本值是否已知值是否已知总体是否近用样本标准差s153二、总体比例的区间估计二、总体比例的区间估计二、总体比例的区间估计154显著性水平下，P在1-置信水平下的置信区间：显著性水平下，P在1-置信水平下的置信区间：155 某企业在一项关于职工流动原因的研究中，从企业前职工的总体中随机抽选了200人组成一个样本。在对其进行访问时，有140说他们离开该企业是由于同管理人员不能融洽相处。试对由于这种原因而离开企业的人员的真正比率构造95%的置信区间。某企业在一项关于职工流动原因的研究中，从企业前职156三、总体方差的区间估计三、总体方差的

展开阅读全文

SPSS统计分析基础教程课件

最新文档