SPSS基本统计分析.ppt

资源描述

第五章 SPSS基本统计分析描述性统计分析 SPSS的主要分析工具 Analyze菜单报告 Reports描述性统计分析 DescriptiveStatistics菜单表格 Tables均数间的比较 CompareMeans菜单一般线性模型 GeneralLinearModel菜单相关分析 Correlate菜单多元线性回归与曲线拟合 Regression菜单对数线性模型 Loglinear菜单聚类分析与判别分析 Classify菜单因子分析与对应分析 DataReduction菜单信度分析与多维尺度分析 Scale菜单非参数检验 NonparametricTests菜单时间序列分析 Timeseries 描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决条件 SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在DescriptiveStatistics菜单中包括 Frequencies 频数分析过程特色是产生频数表主要针对分类变量 Descriptives 数据描述过程进行一般性的统计描述主要针对数值型变量 Explore 数据探察过程用于对数据概况不清时的探索性分析Crosstabs 多维频数分布交叉表分析列联表分析 Ratiostatistics 比率分析 5 1频数分析 5 1 1频数分析的目的和基本任务1 目的基本统计分析往往从频数分析开始通过频数分析能够了解变量取值的状况对把握数据的分布特征是非常有用的 2 基本任务 1 频数分析的第一个基本任务是编制频数分布表频数 Frequency 即变量值落在某个区间或某个类别中的次数百分比 Percent 即各频数占总样本数的百分比有效百分比 ValidPercent 即各频数占有效样本数的百分比这里有效样本数总样本缺失样本数累计百分比 CumulativePercent 即各百分比逐级累加起来的结果最终取值为100 2 频数分析的第二个任务是绘制统计图条形图 BarChart 用宽度相同的条形的高度或长短来表示频数分布变化的图形适用于定序和定类变量的分析饼图 PieChart 用圆形及圆内扇形的面积来表示频数百分比变化的图形以利于研究事物内在结构组成等问题直方图 Histograms 用矩形的面积来表示频数分布变化的图形适用于定距型变量的分析注变量的计量尺度 a定类 CategoryScale 只能计次b定序 OrdinalScale 计次排序c定距 IntervalScale 计次排序加减d定比 RatioScale 计次排序加减乘除 5 1 2频数分析的基本操作 1 选择菜单Analyze DescriptiveStatistics Frequencies 2 将若干频数分析变量选择到Variable s 框中 3 单击Chart按钮选择绘制统计图形在ChartValues框中选择条形图中纵坐标或饼图中扇形面积的含义其中Frequencies表示频数 Percentages表示百分比输出百分位数输出四分位数显示25 50 75 的百分位数将数据平均分为所设定的相等等份可输入2 100的整数如键入4则输出第25 50 75百分位数自定义百分位数可输入0 100的整数离散趋势分布形态栏集中趋势栏输出统计量对话框 5 1 3SPSS频数分析的扩展功能1 计算分位数 PercentileValues 分位数是变量在不同分位点上的取值分位点在0 100之间一般使用较多的是四分位点 Quartiles 即将所有数据按升序排序后平均等分成四份各分位点依次是25 50 75 于是四分位数便分别是25 50 75 点所对应的变量值此外还有八分位数十六分位数等 SPSS提供了计算任意分位数的功能用户可以指定将数据等分为n份 Cutpointsfornequalgroups 还可以直接指定分位点 Percentile 2 计算其他基本描述统计量SPSS频数分析还能够计算其他基本统计量其中包括描述集中趋势 CentralTendency 的基本统计量描述离散程度 Dispersion 的基本统计量描述分布形态 Distribution 的基本统计量等 Format对话框控制频数表输出的分类数量默认为10 多变量框中可设定多变量表格输出的格式设置频数表输出的格式选择频数表中排列顺序按变量升序排列此为默认按变量降序排列按变量各种取值发生的频数的升序排列按变量各种取值发生的频数的降序排列 3 频数分布表格式 Format 的定义 1 调整频数分布表中数据的输出顺序 Orderby 频数分布表中的内容的输出顺序可以按变量值的升序输出 Ascendingvalues 按变量值的降序输出 Descendingvalues 按频数的升序输出 Ascendingcounts 按频数的降序输出 Descendingcounts 2 multiplevariables单选框组如果选择了两个以上变量作频数表则comparevariables可以将所有变量的结果在同一个频数表过程输出结果中显示便于互相比较 organizeoutputbyvariables则将结果在不同的频数表过程输出结果中显示每一个变量一张表 3 压缩频数分布表 Suppresstableswithmorethanncategories 如果变量取值的个数或取值区间的个数太多频数分布表将很庞大此时可以压缩它 SPSS默认如果变量取值的个数或取值区间的个数大于10 则不输出相应的频数分布表应用中可以修改该值 5 1 4频数分析的应用举例利用居民储蓄调查数据进行频数分析有以下两个分析目标目标一分析储户的户口和职业的基本情况目标二分析储户一次存款金额的分布并对城镇储户和农村储户进行比较分析目标一分析储户的户口和职业的基本情况 1 户口和职业两个变量都是定类型变量可通过基本频数分析实现 2 职业变量的取值分类数目较多为使频数分布表更一目了然应对内容的输出顺序进行调整单击Format按钮选择Descendingcounts按频数的降序输出 3 单击Chart按钮指定输出户口变量的饼图和职业变量的条形图目标二分析储户一次存款金额的分布并对城镇储户和农村储户进行比较 1 分析思路 1 由于存取款金额数据为定距型变量直接采用频数分析不利于对其分布形态的把握因此考虑依据第三章中的数据分组功能对数据分组后再编制频数分布表 2 进行数据拆分并分别计算城镇储户和农村储户的一次存取款金额的四分位数并通过四分位数比较两者分布上的差异 2 分析过程 1 数据分组将存取款金额重新分成五组五组区间分布为少于500元 500 2000元 2000 3500元 3500 5000元 5000元以上分组后进行频数分析并绘制带正态曲线的直方图 2 利用SPSS的频数分析计算所有样本的存取款金额的四分位数然后按照户口类型对数据进行拆分 Splitfile 并重新计算分位数分别得到城镇户口和农村户口的存取款金额的四分位数 5 2计算基本描述统计量 5 2 1基本描述统计量常见的基本描述统计量有三大类刻画集中趋势的统计量刻画离中趋势的统计量刻画分布形态的统计量 1 刻画集中趋势的描述统计量集中趋势是指一组数据向某一中心值靠拢的倾向 1 均值 Mean 即算术平均数是反映某变量所有取值的集中趋势或平均水平的指标如某企业职工的平均月收入其计算公式为 2 中位数 Median 即一组数据按升序排序后处于中间位置上的数据值如评价社会的老龄化程度时可用中位数 3 众数 Mode 即一组数据中出现次数最多的数据值如生产鞋的厂商在制定各种型号鞋的生产计划时应该运用众数 4 均值标准误差 StandardErrorofMean 描述样本均值与总体均值之间的平均差异程度的统计量其计算公式为其中为总体标准差 n为样本单位数 2 刻画离散程度的描述统计量离散程度是指一组数据远离其中心值的程度如果数据都紧密地集中在中心值的周围数据的离散程度较小说明这个中心值对数据的代表性好相反如果数据仅是比较松散地分布在中心值的周围数据的离散程度较大则此中心值说明数据特征是不具有代表性的常见的刻画离散程度的描述统计量如下 1 全距 Range 也称极差是数据的最大值 Maximum 与最小值 Minimum 之间的绝对离差 2 方差 Variance 也是表示变量取值离散程度的统计量是各变量值与算数平均数离差平方的算术平均数其计算公式为 3 标准差 StandardDeviation StdDev 表示变量取值距离均值的平均离散程度的统计量其计算公式为标准差值越大说明变量值之间的差异越大距均值这个中心值的离散趋势越大 3 刻画分布形态的描述统计量数据的分布形态主要指数据分布是否对称偏斜程度如何分布陡峭程度等刻画分布形态的统计量主要有两种 1 偏度 Skewness 描述变量取值分布形态对称性的统计量其计算公式为当分布为对称分布时正负总偏差相等偏度值等于0 当分布为不对称分布时正负总偏差不相等偏度值大于0或小于0 偏度值大于0表示正偏差值大称为正偏或右偏偏度值小于0表示负偏差值大称为负偏或左偏偏度绝对值越大表示数据分布形态的偏斜程度越大 2 峰度 Kurtosis 描述变量取值分布形态陡峭程度的统计量其计算公式为当数据分布与标准正态分布的陡峭程度相同时峰度值等于0 峰度大于0表示数据的分布比标准正态分布更陡峭为尖峰分布峰度小于0表示数据的分布比标准正态分布平缓为平峰分布 5 2 2计算基本描述统计量的操作 1 选择菜单Analyze DescriptiveStatistics Descriptives 出现如下窗口 2 将需计算的数值型变量选择到Variable s 框中 3 单击Option按钮指定计算哪些基本描述统计量出现如下窗口 Options对话框基本统计量当Variables框中有多个变量时此框确定其输出顺序按Variables框中的排列顺序输出按各变量的字母顺序输出按均值的升序排列按均值的降序排列分布在上面窗口中用户可以指定分析多变量时结果输出的次序 DisplayOrder 其中 Variablelist表示按变量在数据窗口中从左到右的次序输出 Alphabetic表示按字母顺序输出 AscendingMeans表示按均值升序输出 DescendingMeans表示按均值降序输出至此 SPSS便自动计算所选变量的基本描述统计量并显示到输出窗口中 5 2 3计算基本描述统计量的应用举例1 利用居民储蓄调查数据对一次存款金额变量计算基本描述统计量有以下分析目标计算存款金额的基本描述统计量并分别对城镇储户和农村储户进行比较分析首先按照户口对数据进行拆分 Splitfile 然后计算存取款金额的基本描述统计量 2 分析储户一次存款的数量是否存在不均衡现象分析假设储户一次存款金额服从正态分布跟据3原则异常值通常为3个标准差范围之外的值可通过对数据的标准化处理来判断标准化的数学定义为通过标准化可以得到一系列新变量值通常称为标准化值或z分数计算标准化值可以通过对话框中的复选框savestandardizedvaluesasvariables来实现并将结果保存在一个新变量中该变量的命名规则为字母z 原变量名的前七个字符接下来可对新变量进行排序并浏览其标准化值的取值情况可以发现z分数值得绝对数大于3的储户是存在的对其分组为三组 za53并进行频数分析可以发现存款金额存在一定的不均衡现象 5 3交叉分组下的频数分析 5 3 1目的和基本任务1 目的交叉分组下的频数分析又称列联表分析通过前面的频数分析能够掌握单个变量的数据分布情况在实际分析中不仅要了解单个变量的分布特征还要分析多个变量不同取值下的分布进而分析变量之间的相互影响和关系对于这种涉及两个或两个以上变量分布情况的研究通常要利用交叉分组下的频数分析来完成 2 基本任务 1 根据收集到的样本数据产生二维或多维交叉列联表 2 在交叉列联表的基础上对两两变量间是否存在一定的相关性进行分析 5 3 2交叉列联表的主要内容编制交叉列联表是交叉分组下频数分析的第一个任务交叉列联表是两个或两个以上的变量交叉分组后形成的频数分布表例职工基本情况数据按职称和文化程度编制的二维交叉列联表见下页表上表中的职称变量称为行变量 Row 文化程度称为列变量 Column 行标题和列标题分别是两个变量的变量值或分组值表格中间是观测频数 ObservedCounts 和各种百分比 16名职工中本科专科高中初中的人数分别为4 4 5 3 构成的分布称为交叉列联表的列边缘分布高级工程师工程师助理工程师无技术职称的人数分别为3 4 6 3 构成的分布称为交叉列联表的行边缘分布 4个本科学历职工中各职称的人数分别是1 1 2等这些频数构成的分布称为条件分布即在行变量列变量取值条件下的列变量行变量的分布在交叉列联表中除了频数外还引进了各种百分比例如表中第一行中的33 3 33 3 33 3 分别是高级工程师3人中各学历人数所占的比例称为行百分比 Rowpercentage 一行的百分比总和为100 表中第一列的25 0 25 0 50 0 分别是本科学历4人中各职称人数所占的比例称为列百分比 Columnpercentage 一列的列百分比总和为100 表中的6 3 6 3 12 5 等分别是总人数16人中各交叉组中人数所占的百分比称为总百分比 Totalpercentage 所有格子中的总百分比之和也为100 5 3 3交叉分组下的频数分析的基本操作 1 菜单选项Analyze DescriptiveStatistics Crosstabs 出现窗口如下该框中的变量作为分布表中的行变量和列变量该框中的变量作为控制变量决定频数分布表中的层可有多个控制变量显示每一组中各变量的分类条形图只输出统计量不输出多维列联表 Crosstabs对话框 2 如果进行二维列联表分析则将行变量选择到Row s 框中将列变量选择到Column s 框中如果Row s 和Column s 框中有多个变量名 SPSS会将行列变量一一配对后产生多张二维列联表如果进行三维或多维列联表分析则将其他变量作为控制变量选到Layer框中多控制变量间可以是同层次的也可以是逐层叠加的可通过Previous或Next按钮确定控制变量间的层次关系 3 选择Displayclusteredbarcharts选项指定绘制各变量交叉分组下频数分布条形图 Suppresstables表示不输出列联表在仅分析行列变量间关系时可选择该选项 4 单击Cells按钮指定列联表单元格中的输出内容窗口如下 Crosstabs的CellDisplay对话框选择在列联表中输出的统计量包括观测量数百分比残差输出观测量的实际数量如果行和列变量在统计上是独立的或不相关的那么会在单元格中输出期望的观测值的数量输出单元格中观测量的数目占整行全部观测量数目的百分比输出单元格中观测值的数目占整列全部观测量数目的百分比输出单元格中观测量的数目占全部观测量数目的百分比计算非标准化残差计算标准化残差计算调整后残差 SPSS默认列联表单元格中只输出观测频数 Observed 为便于分析通常还应指定输出Percentage框中的行百分比 Row 列百分比 Column 总百分比 Total Counts框中的Expected表示输出期望频数 Residuals框中的各个选项表示在各个单元格中输出剩余其中 Unstandardized为非标准化剩余定义为观测频数期望频数 Standardized为标准化剩余又称Pearson剩余定义为 5 单击Format按钮指定列联表各单元格的输出排列顺序 Ascending表示以行变量取值的升序排列是SPSS默认项 Descending表示以行变量取值的降序排列 6 单击Statistics按钮指定用哪种方法分析行变量和列变量间的关系窗口如下其中 Chi Square为卡方检验 5 3 4交叉列联表行列变量间关系的分析对交叉列联表中的行变量和列变量之间关系进行分析是交叉分组下频数分析的第二个任务为了理解行列变量之间的关系可以从分析两个极端的例子出发 1 年龄与工资收入的交叉列联表一 2 年龄与工资收入交叉列联表二表一中表示年龄与工资收入呈正相关关系表二表示年龄与工资收入呈负相关关系但大多数情况下观测频数分散在列联表的各个单元格中不容易直接发现行列变量之间的关系强弱程度此时就要借助非参数检验方法通常用的方法是卡方检验交叉列联表的卡方检验卡方检验属假设检验的范畴步骤如下 1 建立原假设在列联表分析中卡方检验的原假设为行变量与列变量独立 2 选择和计算检验统计量列联表分析卡方检验统计量是Pearson卡方统计量其数学定义为其中 r为列联表的行数 c为列联表的列数为观察频数为期望频数 ExpectedCount 期望频数的计算方法是其中 RT是指定单元格所在行的观测频数合计 CT是指定单元格所在列的观测频数合计 n是观测频数的合计期望频数的分布反映的是行列变量互不相干下的分布例如具有本科学历的高级工程师的期望频数是0 75的计算公式是3 4 16 0 75 这里期望频数可以理解为总共16个职工的学历分布是25 25 31 3 18 8 如果遵从这种学历的总体比例关系高级职称三人的学历分布也应为25 25 31 3 18 8 于是期望频数为3 25 3 25 3 31 3 3 18 8 同理可以理解总共16个职工的职称分布为18 8 25 37 5 18 8 本科学历4人的期望频数分别为4 18 8 4 25 4 37 5 4 18 8 卡方统计量观测值的大小取决于两个因素第一列联表的单元格子数第二观测频数与期望频数的总差值在列联表确定的情况下卡方统计量观测值的大小取决于观测频数与期望频数的总差值当总差值越大时卡方值也就越大实际分布与期望分布的差距越大表明行列变量之间越相关反之表明行列变量之间越独立那么在统计上卡方统计量的观测值究竟达到什么程度才能断定行列变量不独立呢由于该检验中的pearson卡方统计量近似服从卡方分布因此可依据卡方理论找到某自由度和显著性水平下的卡方值即卡方临界值 3 确定显著性水平 SignificantLevel 和临界值显著性水平是指原假设为真却将其拒绝的风险即弃真的概率通常设为0 05或0 01 在卡方检验中由于卡方统计量服从自由度为行数 1 列数 1 的卡方分布因此在行列数目和显著性水平确定时卡方临界值是可唯一确定的 4 结论和决策对统计推断做决策通常有两种方式根据统计量观测值和临界值比较的结果进行决策如果卡方观测值大于临界值则认为实际分布与期望分布之间的差距显著可以拒绝原假设断定列联表的行列变量间不独立存在相关关系反之接受原假设根据统计量观测值的概率p值和显著性水平比较的结果进行决策如果p值小于等于则认为卡方观测值出现的概率是很小的拒绝原假设断定列联表的行列变量间不独立存在依存关系反之接受原假设什么是P值是一个概率值如果原假设为真 P 值是抽样分布中大于或小于样本统计量的概率被称为观察到的或实测的显著性水平双侧检验的P值左侧检验的P值右侧检验的P值利用P值进行检验决策准则若p 值不拒绝H0若p 值拒绝H0 5 3 5交叉分组下的频数分析应用举例利用居民储蓄调查数据进行分析实现以下目标 1 分析城镇和农村储户对未来收入状况的变化趋势是否持相同的态度 2 分析城镇和农村储户对什么合算的认同是否一致分析 1 该问题列联表的行变量为户口列变量为未来收入状况在列联表中输出各种百分比期望频数剩余标准化剩余显示各交叉分组下频数分布柱形图并利用卡方检验方法对城镇和农村储户对该问题的态度是否一致进行分析 2 该问题列联表的行变量为户口列变量为什么合算在列联表的基础上进行卡方检验

展开阅读全文