spss描述性统计分析

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,SPSS 19(,中文版,),统计分析实用教程,电子工业出版社,42,SPSS 19(,中文版,),统计分析实用教程,电子工业出版社,41,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,SPSS 19(,中文版,),统计分析实用教程,电子工业出版社,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,SPSS 19(,中文版,),统计分析实用教程,电子工业出版社,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,SPSS 19(,中文版,),统计分析实用教程,电子工业出版社,39,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,SPSS 19(,中文版,),统计分析实用教程,电子工业出版社,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第四章,描述性统计分析,主要内容,4.1,基本描述性统计量的定义及计算,4.2,频数分析,4.3,描述性分析,4.4,探索性分析,4.5,交叉列联表分析,4.6,多选项分析,4.1,基本描述性统计量的定义及计算,4.1,基本描述性统计量简介,4.1.1,描述集中趋势的统计量,1.,均值（,Mean,）,2.,众数（,Mode,）,3.,中位数（,Median,）,4.,总和（,Sum,）,5.,百分位数（,Percentile Value,）,4.1,基本描述性统计量的定义及计算,4.1.2,描述离散程度的统计量,1.,样本方差（,Variance,）,2.,样本标准差（,Std. deviation,）,3.,极差（,Range,）,4.,均值标准误差（,Standard Error of Mean,）,4.1,基本描述性统计量的定义及计算,4.1.3,描述总体分布形态的统计量,1.,偏度（,Skewness,）：,是描述取值分布形态对称性的统计量；偏度系数大于0，表示其数据分布形态有一条长尾拖在右边，称为右偏或正偏，偏度系数小于0,表示其数据分布形态有一条长尾拖在左边，称为左偏或负偏。偏度系数的绝对值越大，与正态分布相比越偏斜。,2.,峰度（,Kurtosis,）：,是描述变量取值分布形态陡缓的统计量；峰度系数等于0，表明数据分布的陡峭程度与正态分布相同。峰度系数大于0时为尖峰分布，表明数据分布的陡峭程度比正态分布大，峰度系数小于0时为平峰分布，表明数据分布的陡峭程度比正态分布小。,4.1,基本描述性统计量的定义及计算,4.1.3,描述总体分布形态的统计量,来自于正态总体的偏度及峰度均近似为0，可,以利用偏度和峰度的值是否接近0作为检验是否是正态分布的重要依据。,主要内容,4.1,基本描述性统计量的定义及计算,4.3,描述性分析,4.4,探索性分析,4.5,交叉列联表分析,4.6,多选项分析,4.2,频数分析,4.2,频率分析,4.2.1,基本概念及统计原理,频率就是一个变量在各个变量值上取值的个案数，分析时不考虑其实际取值。基本统计分析往往从频率分析开始。通过频率分析能够了解变量取值的状况，对把握数据的分布特征是非常有用的。,例如，调查消费者拥有数码产品的数量，首先分析受访者的总人数、家庭收入情况、受教育程度、性别等，获取样本是否具有总体代表性、抽样是否存在系统偏差等信息。这些可以通过频率分析来实现，,经过频率分析可以得到如下结果：,（,1,）频率分布表：该表中包含频率、各频率占总样本数的百分比、有效百分比、累计百分比。,（,2,）统计图：用统计图形展示变量的取值状况，频率分析中提供的统计图形可以是条形图、饼图或者直方图。,4.2,频率分析,4,.2.2,SPSS,实例分析,【,例,4-1】,以下是调查问卷中针对被调查人设置的两个问题：,1,、您的家庭月收入大约是：（请包括所有工资、奖金、津贴等在内，以人民币为单位）单选,500-1000,.1 1000-1999,2 2000-2999,3,3000-3999,4 4000-4999,5 5000-5999,6,6000-6999,7 7000-7999,8 8000-8999,9,9000-9999,10 10000,及以上,11,2,、您的教育程度：（指您受过的最高或正在接受的教育程度）单选,没有受过正式教育,/,小学,.1,初中,.,2,高中,/,中专,/,技校, .,3,大专,/,大学非本科,/,高职高专,4,大学本科,.,5,研究生及以上,.6,从问卷中收集到的数据如表,4.1,所示,试对收集到的数据进行频数分析,4.2,频率分析,第,1,步数据组织：,根据表,4.1,生成,SPSS,数据文件，建,2,个变量：“收入”、“教,育”，度量标准均为序号。,第,2,步频率分析设置：,选择菜单：“分析,描述统计,频率”，,打开“频率（,F,）”对话框，将“教育”和,“收入”加入到“变量”列表框中。,打开“统计量”对话框，选中“百分位数”,“众数”，并在“百分位数”中添加,30.0,、,60.0,、,90.0,；,打开“图表”对话框，选中“直方图”及后,面的复选框,家庭月收入,受教育程度,3,5,1,5,2,5,1,5,1,5,6,4,10,5,4,5,表,4.1,4.2,频率分析,第,3,步主要结果及分析：,统计量表,变量“教育”的频率分布表,统计量,教育,收入,N,有效,835,836,缺失,1,0,众数,5,3,百分位数,30,4.00,3.00,60,5.00,4.00,90,5.00,7.00,表中分别显示两个分析变量“教育”及“收入”的有效个案数、缺失值个数、及两个分析变量的“众数”及对应于,30%,、,60%,及,90%,的百分位数。,教育,频率,百分比,有效百分比,累积百分比,有效,1,8,1.0,1.0,1.0,2,39,4.7,4.7,5.6,3,114,13.6,13.7,19.3,4,165,19.7,19.8,39.0,5,456,54.5,54.6,93.7,6,53,6.3,6.3,100.0,合计,835,99.9,100.0,缺失,系统,1,.1,合计,836,100.0,表中显示了变量“教育”在各个取值上出现的次数（频率）、其频率占所有个案中的百分比、有效百分比及累积百分比。,4.2,频数分析,变量“收入”的频率分布表,收入,频率,百分比,有效百分比,累积百分比,有效,0,2,.2,.2,.2,1,87,10.4,10.4,10.6,2,152,18.2,18.2,28.8,3,157,18.8,18.8,47.6,4,137,16.4,16.4,64.0,5,88,10.5,10.5,74.5,6,85,10.2,10.2,84.7,7,52,6.2,6.2,90.9,8,27,3.2,3.2,94.1,9,9,1.1,1.1,95.2,10,8,1.0,1.0,96.2,11,32,3.8,3.8,100.0,合计,836,100.0,100.0,表中显示了变量“收入”在各个取值上出现的次数（频率）、其频率占所有个案中的百分比、有效百分比及累积百分比。,4.2,频数分析,变量“教育”的直方图,变量“收入”的直方图,表中显示了变量“教育”的直方图，从图上可以看出受访者教育程度同正态分布相比左偏，不具备明显的正态分布。,表中显示了变量“收入”的直方图，从图上可以看出受访者家庭收入同正态分布相比右偏，不具备明显的正态分布。,主要内容,4.1,基本描述性统计量的定义及计算,4.2,频数分析,4.4,探索性分析,4.5,交叉列联表分析,4.6,多选项分析,4.3,描述性分析,4.3,描述性分析,4.3.1,基本概念及统计原理,描述性分析主要用于输出变量的各类描述性统计量的值，通过上一节的学习可知，频率分析同样可以做到，都是以计算数值型单变量的统计量为主。描述性统计分析没有图形功能，也不能生成频率表，但描述性分析可以将原始数据标准化为,Z,分数，并以变量形式存入数据文件中，以便后续分析时应用。,4.3,描述性分析,4.3.2,实例分析,【例,4-2,】图,3-38,是,5,岁儿童体重、身高、胸围的部分,SPSS,数据，试对儿童身高作描述性统计分析。（数据文件：,data3-8.sav,）,第,1,步打开数据文件,data4-2.sav;,第,2,步描述性分析设置：,选择菜单“分析,描述统计,描述” ，打开“描述性”主对话框，将要分析的变量“身高”加入“变量”列表框中。,打开“描述：选项”对话框，选中“均值”、“标准差”、“最小值”、“最大值”、“峰度”、“偏度”及显示顺序的“变量列表”等选项。,4.3,描述性分析,第,3,步运行结果及分析：,描述性分析结果表,描述统计量,N,极小值,极大值,均值,标准差,偏度,峰度,统计量,统计量,统计量,统计量,统计量,统计量,标准误,统计量,标准误,身高,96,99.3,125.0,109.891,5.9633,.350,.246,-.446,.488,有效的,N,（列表状态）,96,表中分析变量“身高”的个案数、所有个案中的极大值、极小值、均值、标准差及偏度和峰度,主要内容,4.1,基本描述性统计量的定义及计算,4.2,频数分析,4.3,描述性分析,4.5,交叉列联表分析,4.6,多选项分析,4.4,探索性分析,4.4,探索性分析,4.4.1,基本概念及统计原理,与前面介绍的两种分析方法相比，探索性分析更加强大，它是一种在对资料的性质、分布特点等完全不清楚的情况下，对变量进行更深入研究的描述性统计方法。在进行统计分析前，通常需要寻求和确定适合所研究的问题的统计方法，,SPSS,提供的探索性分析是解决此类问题的有效办法。,探索性分析提供了很多关于数据的概括分析和图表直观描述的方法，不仅对个案数据有效，而且还可以针对分组个案。在输出常用描述性统计量的基础之上，探索性分析增加了有关数据详细分布特征的文字与图形表述，如茎叶图、箱图等，显得更加详细、完整，还可以以方差齐性为目的的变量交换提供线索，,有助于用户制定更进一步分析的方案。,4.4,探索性分析,4.4.2,实例分析,【,例,4-3】,下表是某班,3,门课程对应成绩的统计数据，试对其作探索性分析并做是否服从正态分布的检验。,第,1,步数据组织：,定义,2,个变量，分别为：“科目”、“成绩”，“科目”的度量标准为“名义”，“成绩”的度量标准为“度量”。,第,2,步探索分析设置：,选择菜单“分析,描述统计,探索”，打开“探索” 对话框，将“成绩”字段移入“因变量列表”，“科目”移入“因子列表”。,科目,1,1,1,1,1,1,2,2,2,成绩,83,74,73,30,60,95,73,11,16,科目,2,2,2,3,3,3,3,3,3,成绩,75,56,19,85,91,11,55,32,56,4.4,探索性分析,打开,“,统计量,”,对话框，选中,“,描述性,”,及,“,M-,估计量,”,选项；,打开,“,探索：图,”,对话框,，选中“按因子水平分组”、“茎叶图”、“带检验的正态图”等选项。,打开“探索：选项”，选中“按列表排除个案”选项。,第,3,步运行结果及分析：,“,成绩,”按科目分组的案例处理摘要表,案例处理摘要,科目,案例,有效,缺失,合计,N,百分比,N,百分比,N,百分比,成绩,语文,6,100.0%,0,.0%,6,100.0%,数学,6,100.0%,0,.0%,6,100.0%,英语,6,100.0%,0,.0%,6,100.0%,表中显示“成绩”按“科目”分组后各组的有效个案数、个案缺失数及缺失比例等。,4.4,探索性分析,描述性统计量表,表中显示“成绩”按“科目”分组后各分组的描述性统计量，左表中只显示的是”语文“分组的均值、均值的,95%,置信区间的上下限、中值、方差、标准差、极大,/,小值、偏度、峰度等。,描述,科目,统计量,标准误,成绩,语文,均值,69.17,9.156,均值的,95%,置信区间,下限,45.63,上限,92.70,5%,修整均值,69.91,中值,73.50,方差,502.967,标准差,22.427,极小值,30,极大值,95,范围,65,四分位距,34,偏度,-1.085,.845,峰度,1.617,1.741,4.4,探索性分析,M,均值估计量,表中提供了四种估计方法，每种估计方法的加权量在表下方给出，对于有异常值或极端值的数据,M,均值估计有很好的稳定性，用,M,估计值代替均值或中位数，结果更准确。根据样本值的权重不同，可以得到不同的估计量,M-,估计器,科目,Huber,的,M-,估计器,a,Tukey,的双权重,b,Hampel,的,M-,估计器,c,Andrews,波,d,成绩,语文,72.54,75.78,72.88,76.05,数学,41.42,41.13,41.67,41.13,英语,56.68,55.60,55.00,55.60,a.,加权常量为,1.339,。,b.,加权常量为,4.685,。,c.,加权常量为,1.700,、,3.400,和,8.500,d.,加权常量为,1.340*pi,。,4.4,探索性分析,科目,Kolmogorov-Smirnov,a,Shapiro-Wilk,统计量,df,Sig.,统计量,df,Sig.,成绩,语文,.235,6,.200,*,.929,6,.573,数学,.277,6,.165,.827,6,.102,英语,.170,6,.200,*,.946,6,.706,a. Lilliefors,显著水平修正。,*.,这是真实显著水平的下限。,表中显示了按科目分为的3个分组的两种检验方法的正态性检验结果，包括各分组的统计量、自由度及显著性水平，以K-S方法的“语文”分组为例分析：其自由度sig.=0.200,明显大于0.05，故应接受原假设，认为”语文“分组中的数据服从正态分布。,正态检验表,4.4,探索性分析,箱图,箱图中显示成绩按科目分成的三个分组，每个分组中的数据绘制成对应的箱体。每一个箱体上方那条线的取值代表该分组中最大值，下方那条线的取值代表最小值。箱体自身的三条线从上到下分别代表3/4分位点、中位点、1/4分位点的取值。,4.4,探索性分析,语文成绩的标准,Q-Q,图及趋降标准,Q-Q,图,上图为“科目=语文”分组的成绩标准Q-Q图，,Q-Q,图可以用来检验数据是否服从某种分布，在,Q-Q,图中，检验数据是否较好地服从给定分布的标准有两个：看标准,Q-Q,图上的数据点与直线的重合度；,Q-Q,趋势图上的点是否关于直线,Y=0,在较小的范围内上下波动。从上图中可以看出，”科目=语文“的分组中的数据与直线重合度较好，故很好地服从正态分布，这与前面的正态检验表中的结果是一致的。,主要内容,4.1,基本描述性统计量的定义及计算,4.2,频数分析,4.3,描述性分析,4.4,探索性分析,4.6,多选项分析,4.5,交叉列联表分析,4.5,交叉表分析,4.5.1,基本概念及统计原理,1.,交叉表分析的概念,在实际分析中，常需要分析多个变量之间，一个变量是否对其他变量的取值存在影响，分析变量之间是否存在关系，这种分析就称为交叉表分析，用于定类型变量之间的关系分析。,交叉表是两个或多个变量交叉分组后形成的频数分布表，主要用于研究定类型变量之间有无相关性，给出了变量在不同取值下的数据分布。交叉表分析根据样本数据，产生二维或多维交叉表，并在产生交叉表的基础上，对两两变量间是否存在一定的相关性进行分析。,4.5,交叉表分析,2,交叉表分析的相关关系的主要检验方法,在分析中，难以在交叉表中直接发现行、列变量之间的关系及关系强度，需要借助非参数检验方法和度量变量间相关程度的统计量进行分析，通常采用检验和相关性检验。,卡方统计检验：常用于检验行列变量之间是否相关。,列联系数：用于名义变量之间的相关系数计算。,V系数（Phi and Cramers V）：常用于名义变量之间的相关系数计算。,4.5,交叉表分析,4.5.2 SPSS,实例分析,【,例,4-4】,在设置学生评价实验教学的调查表中，,“,实验准备,”,是其中的一项指标，为分析,“,实验准备,”,情况与评价结果的关系，建立的,SPSS,数据文件中的部分数据如下图所示，变量值标签如下表所示。（参见数据文件：,data4-4.sav,。）,变量,实验准备,评价结果,值与,值标签,1,差,1,差,2,一般,2,一般,3,准备充分,3,优,4.5,交叉列联表分析,第,1,步数据组织：,数据文件中建立两个变量：,“,实验准备,”,、,“,评价结果,”,，两个变量均为数值型或字符型的分类变量，其度量标准为,“,名义,”,，保存为,SPSS,数据文件,data4-3.sav,。,第,2,步交叉表分析设置：,选择菜单：,“,分析描述统计交叉表,”,，打开,“,交叉表,”,对话框，将,“,实验准备,”,及,“,评价结果,”,字段分别加入,“,行,(s),”,及,“,列,(c),”,列表框中。,打开,“,统计量,”,对话框，选中,“,卡方,”,选项。,打开,“,单元显示,”,对话框，选中,“,观察值,”,及,“,四舍五入单元格计数,”,选项，二者都是缺省设置。,4.5,交叉表分析,第,3,步主要结果及分析：,案例处理摘要,案例处理摘要,案例,有效的,缺失,合计,N,百分比,N,百分比,N,百分比,实验准备 * 评价结果,50,100.0%,0,.0%,50,100.0%,案例处理摘要表,给出了数据基本信息，包括参与分析的有效个案数、缺失信息等。在本例中，每个变量有50,个有效个案参与分析，无缺失值。,4.5,交叉表分析,第,3,步主要结果及分析：,实验准备* 评价结果交叉表,表中给出了数据的33交叉表，与原始数据在形式上基本一致,实验准备* 评价结果交叉制表,计数,评价结果,合计,差,一般,优,实验准备,差,12,3,0,15,一般,9,8,1,18,准备,充分,0,13,4,17,合计,21,24,5,50,4.5,交叉表分析,第3步主要结果及分析：,卡方检验结果表,表中显示行、列变量通过卡方检验给出的独立性检验结果。共使用了三种检验方法。上表各种检验方法显著水平sig.都远远小于0.05,所以有理由拒绝实验准备与评价结果是独立的假设，即认为实验准备这个评价指标是同评价结果是相关的。,卡方检验,值,df,渐进,Sig. (,双侧,),Pearson,卡方,22.907,a,4,.000,似然比,29.897,4,.000,线性和线性组合,20.357,1,.000,有效案例中的,N,50,a. 3,单元格,(33.3%),的期望计数少于,5,。最小期望计数为,1.50,。,4.5,交叉表分析,第3步主要结果及分析：,分组条形图,本条形图相当于是实验准备*评价结果交叉表的直观表示，用图形表示可更直观地得出各种情况的比较。,主要内容,4.1,基本描述性统计量的定义及计算,4.2,频数分析,4.3,描述性分析,4.4,探索性分析,4.5,交叉列联表分析,4.6,多,重响应,分析,4.6,多,重响应,分析,4.6.,1,基本概念及统计原理,1.基本概念,多重响应分析是对多选项问题的分析方法。多选项问题要求问题的答案都是序号变量或名义变量，并且允许选择的答案可以有多个的问题。,多选项问题在问卷调查中普遍存在，要求被调查者从问卷中给出的若干个可选答案中选择一个以上的答案。,例如，调查消费者拥有的数码产品的种类，有如下的选项：,（,1,）数码相机（,2,）数码摄像机（,3,）,MP3,（,4,）,DVD,机,很显然，该问题可选的答案在一个以上，对于此类的多选项问题，通常，在,SPSS,中处理此类问题的一般步骤为以下两大步骤：,（,1,）将多选项问题分解,;,（,2,）利用频数分析或者列联表分组下的频数分析方法进行分析。,4.6,多,重响应,分析,2,多选项问题的分解方法,（,1,）多选项二分法：,该分解方法是将多选项问题中的每个答案视为一个SPSS变量，每个变量只取0或1两个值，分别表示选择该答案或没有选择该答案。,（,2,）多选项分类法：,其分解的基本思想是估计多选项问题最多可能出现的答案个数，然后为每个答案定义一个SPSS变量，变量取值为多选项问题中的可选答案。,4.6,多,重响应,分析,4.6.2 多重响应分析Spss实例分析,【,例,4-5】,对,50,个消费者进行调查，拥有的数码产品的种类，有如下的选项：,（,1,）数码相机（,2,）数码摄像机（,3,）,MP3,（,4,）,DVD,机,可多选，按性别统计拥有各种数码产品的数量（data4-5.sav)。,第,1,步分解多选项问题，定义多选项变量集；,分解多项式：,按照二分法分解多选项问题，下表为此多选项问题的前7组数据的二分法记录表，其中性别1为男性，2为女性，其他数据中的1表示拥有该产品，0表示没有。,4.6,多,重响应,分析,定义多选项变量集：,选择菜单“分析多重响应定义变量集”，打开“定义多重响应集”对话框，将“数码相机”、“数码摄像机”、“MP3”、“DVD机”字段加入“集合中的变量”列表框中，“将变量编码为”选择为“二分法”，“计数值”设为1，输入多响应集的名称为“dp”，单击“添加（A）”按钮，将定义好的数据集添加到“多响应集”列表中。,第2步进行多重响应交叉分组下的频数分析：,选择菜单“分析多重响应交叉表”，弹出“多响应交叉表”对话框，将第1步中建立的多响应集$dp添加到“列”列表框中作为交叉表的列，将“sex”字段添加到“行”列表框作为作为交叉表的行，确定“sex”的定义范围为最小值1、最大值2。,4.6,多,重响应,分析,第3步主要结果及分析：,多重响应分析个案摘要,多重响应交叉分析结果,个案摘要,个案,有效的,缺失,总计,N,百分比,N,百分比,N,百分比,sex*$dp,45,90.0%,5,10.0%,50,100.0%,左表中给出参与分析的个案数和缺失值的信息。,sex*$dp,交叉制表,数码产品,a,总计,数码相机,数码摄像机,MP3,DVD,机,sex,男,计数,15,16,22,13,30,女,计数,9,7,13,8,15,总计,计数,24,23,35,21,45,百分比和总计以响应者为基础。,a.,值为,1,时制表的二分组。,右表中显示的是多重响应交叉表分析的频数表。从表中可以看出，男性拥有数码产品的数量高于女性，各种数码数码产品中，拥有MP3的人数最多。,The End,

展开阅读全文

spss描述性统计分析

最新文档