第2讲.SPSS描述性统计分析

资源描述

,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,Click to edit Master title style,第二章,SPSS,描述性统计分析,本章主要内容：,SPSS,频数分析,SPSS,描述统计分析,SPSS,探索性分析,SPSS,列联表分析,统计分析的目的，是研究总体的数量特征。但,是，实践中能够得到的往往是从总体中随机抽,取的一部分观察对象，它们构成了样本。通过,对样本样本的研究，来对总体的实际情况作出,可能的判断。,因此，在数据收集、整理完毕，进行深入分析,之前，首要的工作就是去了解数据的整体情,况，随后才能做深入的推断。,为了实现上述的分析，往往有两种实现方式：,1,）数值计算，通过数值来准确的反映数据的,基本统计特征；,2,）图形绘制，即绘制常见的,基本统计图形，通过图形来直观展现数据的分,布特点。通常，两种方式混合使用。,SPSS,的许多模块均可完成描述性分析，但专,门为该目的而设计的几个模块则集中在菜单栏,的“分析描述统计”子菜单中。,SPSS,频数分析概述：,频数分析是描述性统计中最常用的方法之一，他能够了解变量,取值的状况，对把握数据分布特征非常有用。,频数分析过程是专门为产生频数表而设计的。它不仅可以产生,详细的频数表，还可以按要求给出某百分位的数值以及常用的,条形图、饼图等统计图。,整体分析与设计的内容,SPSS,频数分析,一、操作,（实践数据：产品的销售量,.sav,）,1,）菜单,“,分析描述统计频率,”,。,2,）对话框中，左侧选择一个或多个,待分析变量，移入右侧。,3,）,“,显示频率表格,”,，勾选该复选,框，可输出频数分析表。,整体分析与设计的内容,SPSS,频数分析,二、几个重要的设置对话框,“,统计量,”,按钮对应的对话框：,1,）四分位数：,显示,25%,、,50%,、,75%,的分位数。,2,）割点：,勾选后可输入数值,A,，将数据平分为,A,等分。例如，输入,5,，表示输出,20%,、,40%,、,60%,、,80%,的百分位数。,3,）百分位数：,选中后，可激活右侧的文本框和列表。可输入、更改和删除自定义的百分位数。,输出反映数据离散程度的统计量。,输出反映数据集中程度的统计量。,输出描述数据分布形状及特征的统计量。,整体分析与设计的内容,SPSS,频数分析,“,图表,”,按钮对应的对话框：,注：,1,）选择直方图选项，则不能再设置图表值,选项。,2,）在选中直方图选项后，可以进一步选择,在直方图上显示正态曲线。,3,）仅适用于连续型的数值型变量。,“,格式,”,按钮对应的对话框：,将所有变量集中在一个图形中输出，以便比较。,每个变量单独输出一个图形,。,控制频数表输出的分类数量，当频数表的分组数大于设定值时，禁止其输出。用以避免产生巨型表格。,整体分析与设计的内容,SPSS,的频数分析,基本统计信息汇总表,。,N,表示进行统计分析的样本总量；,Valid,表示有效样本量：,Missing,表示缺失样本数目。,Percentiles,列出了销售数据的四分位数,频数分析表,。,Frequency,表示变量值落在某个区间（或类别）中的次数；,Percent,是各频数占总样本数的百分比；,Valid Percent,是有效百分比；,Cumulative Percent,是累积百分比，指各百分比逐级累加起来的结果。,三、输出结果分析,整体分析与设计的内容,SPSS,的频数分析,从图形特征看，数据呈右偏分布。历史销售数据总体数值偏,大；同时，最大值,“,27,”,差不多是最小值,“,14,”,的一倍，说明这种产品的销售量不是很稳定，具有较大的波动性。,整体分析与设计的内容,SPSS,的描述统计分析,一、原理,统计量是研究随机变量变化综合特征的重要工具，描述性统,计量的分类如下：,对数据特征的描述,集中趋势,离散程度,分布形态,均值,众数,中位数,其他指标,全距,标准差,方差,离散系数,其他指标,偏度,峰度,整体分析与设计的内容,SPSS,的描述统计分析,1,、集中趋势,集中趋势是指一组数据向某一中心值靠拢的倾向。,均值（,Mean,）：反映了某变量所有取值的集中趋势或平均水平。,均值往往会受到异常大和异常小的数值影响，所以对于严重的偏态分,布，均值会失去应有的代表性。,众数（,Mode,）：分布数列中最常出现的标志值，频数或频率最大。,众数适用于单峰对称的情况。对于多峰的分布则不适用。,中位数（,Median,）：指将分布数列中各单位的标志值依其大小顺序排列，位于中间位置的标志值称为中位数。,中位数来描述连续变量，会损失很多信息。例如，其他变量比中位数大多少或小多少等。,整体分析与设计的内容,SPSS,的描述统计分析,2,、刻画离散程度的描述性统计量,离散程度是指一组数据远离其中心值的程度，即考察数据分布的,疏密程度。,全距（,Range,）：也称,“,范围,”,，是数据中最大值和最小值之差，又称,“,极差,”,。,Range,=,最大值,-,最小值,全距说明了数据的整体变动范围，但不能反映其间变量分布情况。,标准差（,Standard Deviation,）：指变量取值距离均值的平均离散程度的统计量。,方差（,Variance,）：是标准差的平方。,方差在使用上存在一点不足：量纲不统一。,整体分析与设计的内容,SPSS,的描述统计分析,3,、刻画分布形态的描述性统计量,分布形态是指数据是否对称,偏斜程度如何,分布陡缓程度如何等。,偏度（,Skewness,）：是描述变量取值分布形态对称性的统计量。,当偏度值为,0,，说明数据对称分布；当偏度值大于,0,，表示变量取值,右偏，在直方图中有一条长尾拖在右边；当偏度值小于,0,，表示变,量取值左偏，在直方图中有一条长尾拖在左边。,峰度（,Kurtosis,）：用来描述变量取值分布形态陡缓程度的统计量，是指分布图形的尖峰程度。,当数据分布和标准正态分布陡缓程度相同时，峰度为,0,；峰度大于,0,说明数据分布比正态分布陡峭，为尖峰分布；峰度小于,0,为平峰分布。,整体分析与设计的内容,SPSS,的描述统计分析,二、操作,描述性统计分析过程是统计描述应用最多的一个过程。在这个过程中，,可以将原始数据转换为标准值，并以变量形式保存，供以后分析。,菜单：,“,分析描述统计描述,”,。,示例数据,：,奥斯卡获奖者年龄,.sav,标准化处理，同时产生相应的,Z,得分，并作为新变量保存在数据窗口。新变量为原变量名,+,前缀,Z,。,标准化的计算公式：,X,i,是变量,X,的第,i,个取值；,S,是标准差。,整体分析与设计的内容,SPSS,的描述统计分析,三、输出分析,N,栏显示男、女样本容量相同；从均值上看女,男；男的全距,和标准差都小于女的，说明男演员获奖年龄波动幅度小于女,演员；从峰度和偏度看，两组数都不服从正态分布。,整体分析与设计的内容,SPSS,探索性统计分析,一、方法原理,探索性数据分析（,Exploratary Data Analysis,，简称,EDA,）的基本思想,是从数据本身出发，而不拘泥于模型假设；采用灵活的方法来探讨数,据分布的大致情况，为进一步结合模型的研究提供线索，为传统的统,计推断提供良好的基础，并且减少盲目性。,在实践中，数据分析往往分两个步骤，即探索性数据分析和实证分,析。探索性数据分析是从复杂的数据中分离出数据的基本模式和特,点，让分析者发现其中的规律，以便选择分析方法；而对于探索性数,据分析中发现的数据规律，分析者需要使用特定的统计模型进行实证,分析，以确定规律是否正确。,一般的，探索性分析主要考察以下内容：,1,）检查数据是否有错，并决定是否删除异常数据。,2,）获得数据分布特征。,3,）对数据初步观察，发现一些内在规律。,整体分析与设计的内容,SPSS,探索性统计分析,二、操作,探索性数据分析过程用于计算指定变量的探索性统计量和有关的图,形。从这个过程中可以获得箱图、茎叶图、直方图、各种正态检验,图、频数表、方差齐性检验等结果，以及对非正态或正态非齐性数据,进行变换，以表明和检验连续变量的数值分布情况。,菜单：“分析描述统计探索”（,示例数据：中国南北城市温差,.sav,）,因变量列表，即待分析变量列表。可从左侧列表中选择一个或多个变量。,因子列表，用作数据分组分析。如果选择了多个变量，则组合分组。,标注个案，可选择一个变量做标签。当发现异常值时，可利用该变量做标记。若不选这个变量，系统默认以,id,变量为标签。,整体分析与设计的内容,SPSS,探索性统计分析,二、按钮对应的界面介绍,统计量对话框,输出前面所讲述的各个描述统计量，并可设置均值的置信区间。,求出中心趋势的最大似然比的稳健估计量。,界外值要求输出显示,5,个最大值与最小值。在输出窗口被表明为极端值。,输出结果显示,5%,10%,25%,50%,75%,90%,和,95%,的百分位数。,“选项”对话框,从所有分析中，将因变量或分组变量中带有缺失值的观测量予以剔除。,从当前分析中，将有缺失值的观测量均予以剔除。,将分组变量中的缺失值单独分组进行统计。,整体分析与设计的内容,SPSS,探索性统计分析,二、按钮对应的界面介绍,“图”对话框,箱图。,1,）按因子水平分组，每个因变量生成一个单独的箱图，便于组间比较。,2,）不分组：所有因变量生成一个复合的箱图。,描述性图。分茎叶图和直方图两种。,输出显示正态概率与离散正态概率图。,幂估计：,对每一组数据产生一个中位数的自然对数与四分位数的自然对数的散列点图，达到方差齐次性要求的幂次估计；并据此散布图，来估计将各组方差转换成同方差所需的幂次。,转换：,对原始数据进行变换。可在下拉列表中选择转换的幂值。,未转换：,不对数据进行转换，产生原始数据的散布图。,注：,“无”是不产生该选项的图形。,整体分析与设计的内容,SPSS,探索性统计分析,三、输出结果,北方城市温度标准差大于南方城市，说明北方城市一年温度变化较南方大。从分布形态上来看，南方城市为尖峰、右偏特征；北方城市表现为平峰，左偏特征。,基本信息汇总，无缺失值。,整体分析与设计的内容,SPSS,探索性统计分析,三、输出结果,茎叶图。,1,）,Frequency,表示观测值频数；,2,）,Stem,（茎）表示实际观测值除以图下方茎宽（,Stem Width,）的整数部分；,3,）,Leaf,（叶），表示观测值除以茎宽的小数部分。,4,）“,Each Leaf”,：表示每片叶子代表,n,个观测量。,茎叶图在反映整体趋势的同时，还能反映具体的数值大小，因此，在分析小样本时优势明显。,M,估计量：,1,）,Huber,，稳健估计量；,2,）,Tukey,，复权估计量；,3,）,Hampel,，非稳健估计量；,4,）,Andrew,，波估计量。,例子中来看：两者差距较大，差异性明显。南方温度均值都高于北方，数据呈正偏态分布，平均值受影响较大。,整体分析与设计的内容,SPSS,探索性统计分析,三、输出结果,箱图：,1,）中间粗线为中位数；,2,）方框两端分别表示上四分位数（,75%,）和下四分位数（,25%,）；,3,）两者之间的距离为四分位数间距。,-,可知，整个方框内包括了中间,50%,的样本数据；,4,）方框外的上、下两个细线分别表示除去异常值外的最大、最小值；,5,）箱图的上、下两端的圆圈和星号，表示异常值。,基本概念：,1,）上四分位数和下四分位数之间的差，称为四分位数差（,IQR,，,InterQuartile Range,）。,2,）大于上四分位数的,1.5,倍四分位数差，或小于下四分位数的,1.5,倍四分位数差，称为异常值。,3,）极端异常值，是超出,3,倍四分位数差的值,整体分析与设计的内容,SPSS,列联表统计分析,一、方法原理,在实践中，研究者往往希望对两个甚至多个分类变量的频数分,析进行联合观察。例如，考察不同年龄阶段和不同行业的人群,购买商品房的意愿，就需要将年龄和行业这两个分类变量交叉,起来构成复合频数表，简称为列联表。,列联表是指一个频率对应两个变量的表（一个变量用来对行分,类，另一个变量用来对列分类），经常被用于分析调查结果，,其基本的任务有两个：,1,）根据收集到的样本数据产生二维或多维交叉列联表。,2,）在列联表的基础上，对两两变量之间是否存在相关性进行分,析。,整体分析与设计的内容,SPSS,列联表统计分析,一、方法原理,交叉列联表：,两个或两个以上的变量交叉分组后想成的频数分布表。一个二,维,r,x,c,的列联表如下所示：,整体分析与设计的内容,SPSS,列联表统计分析,一、方法原理,行列变量间关系：,行、列变量的独立性检验。,独立性检验是指对列联表中行变量和列变量无关的这样一个零假设进行的检,验，即检验行、列变量之间是否独立。常用的衡量变量间相关程度的统计量,是简单相关系数，但在交叉列联表分析中，由于行、列变量往往不是连续等,距变量，不符合计算简单相关系数的前提要求，所以一般采用的检验方法是,卡方检验，其公式为：,实际观察频数,期望频数,观察频数和期望频数之间距离的一种度量指标。值越小，说明行、列之间相关程度越密切。,SPSS,在自动计算统计量之后，会给出,相应的概率,P,值，通过比较概率,P,和显,著性水平值,a,大小，来判断是否接受零,假设。,Pa,拒绝零假设，认为行、列,变量不独立；否则，接受零假设。,整体分析与设计的内容,SPSS,列联表统计分析,二、操作,菜单：“分析描述统计交叉表,”,示例数据：大学生身体素质调查,.sav,1,）选择行、列变量,行：选择一个或多个变量，作,为列联表的行变量。,列：选择若干变量，作为列联,表的列变量。,2,）选择层变量,进行三纬或多维列联表分析，可,选择控制变量，添加至“层,1,的,1”,选项组的列表框。该变量决定列,联表的层。若要增加另外的控制,变量，首先单击,“,下一张”按钮，,再选入另一个变量。选择“上一,张”按钮，可以重新选择以前确定,的变量。,显示条形图,不输出表格，只输出统计量,整体分析与设计的内容,SPSS,列联表统计分析,三、按钮所对应的对话框界面,1,）“精确”按钮,精确检验对话框,由此计算的显著性水平低于,0.05,时被认为是显著的。此方法适用于较大的数据集。当数据少或没有明显的分布特征时候，得到的结论可能不稳定。,对精确显著性水平的无偏估计。它先从一个参考样本中重复抽取样本量相同的子样本，再通过子样本的显著性水平推导总样本的显著性水平。使用大数据量的情况。,由此计算的显著性水平低于,0.05,时被认为是显著的，即行、列存在相关性。选中复选框，表示：只有当精确检验方法对单个检验的计算时间低于限制条件时，才用它取代蒙特卡洛方法。,整体分析与设计的内容,SPSS,列联表统计分析,三、按钮所对应的对话框界面,2,）“统计量”按钮,卡方检验,计算,Pearson,相关系数，检测变量的线性相关程度；计算,Spearman,相关系数，检验秩次之间的关联。两者取值介于,-1,（完全负相关）和,1,（完全正相关）之间。取值为,0,，则表示两者不存在线性相关性。,两个有序变量的对称关联程度，取值范围,-11.,取,0,表示低度或无线性关系。,关联性检验，是对,Gamma,系数的非对称性推广。,对相关的有序变量进行非参数相关检验，适合行、列数相同的表。,反映忽略定序变量之间相关关系的非参数关联程度。,取值,01.,取,0,表示无关联；越接近,1,，关联度越高。,自变量用于预测因变量时，该检验反映预测误差。等于,1,，表明自变量完全预测因变量；等,0,，则表明自变量无助于预测因变量。,也用来反映关联程度，,01,1,）,Kappa,：内部一致性；,2,）,Risk,：反映一个因素与某事件发生的关联度大小。,3,）,McNemar,：用于两个二分变量的非参数检验。,检验两个二分变量独立性的统计量,整体分析与设计的内容,SPSS,列联表统计分析,三、按钮所对应的对话框界面,3,）“单元格”按钮,如果行、列具有统计上的相互独立意义，将显示期望的或预测的观测值频数。,即单元格中的观测值减预测值之差。,即,Pearson,残差，其均值等,0,，标准差等,1,非整数权重的处理方式选择。,整体分析与设计的内容,SPSS,列联表统计分析,四、输出结果,1),性别与体重级别的双因素交叉作用下的列联表分析，研究,性别,对,体重级别,有无显著影响。,（上机实践时，温习该过程）,a,）列联表情况,1,）,Count,：实际频数,2,）第二行数据：行百分比，表示这种体重级别的男生占所有男生数量的百分比；,3,）第三行数据：列百分比，表示这种体重级别的男生占所有这种体重级别学生的百分比；,4,）第四行数据：合计百分比，表示第一行的频数在所有交叉单元格中所占的百分比。,整体分析与设计的内容,SPSS,列联表统计分析,四、输出结果,b,）独立性检验情况,上面的分析，从百分比角度说明男、女学生体重级别差别较大；而不同性别的学生，体重级别有无显著性差异，还需要借助于卡方检验。,第一列卡方检验的零假设是男女学生体重无明显差异，系统默认显著性水平是,0.05.,由于卡方检验概率,P,值都小于,0.05,，则拒绝零假设，从而认为不同性别的学生体重有明显差异。,第一列是检验统计量名称；第二列为各检验统,计量的观测值；第三列为自由度；第四列为概,率,P,值。,整体分析与设计的内容,SPSS,列联表统计分析,四、输出结果,c,）统计图形情况,从图中可以直观的看到，,性别对体重级别影响的显,著性。,整体分析与设计的内容,SPSS,列联表统计分析,四、输出结果,2),教育背景与身高级别的双因素交叉作用下的列联表分析，研究,教育,背景,对,身高级别,有无显著影响。,（上机实践时，参照,1,自行练习）,要求：简要说明步骤，并对统计输出加以解释，并形成到,Word,文档中，,作为上机实践的一次作业。,

展开阅读全文

第2讲.SPSS描述性统计分析

最新文档