资源描述
,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,Click to edit Master title style,SPSS,频数分析概述:,频数分析是描述性统计中最常用的方法之一,他能够了解变量,取值的状况,对把握数据分布特征非常有用。,频数分析过程是专门为产生频数表而设计的。它不仅可以产生,详细的频数表,还可以按要求给出某百分位的数值以及常用的,条形图、饼图等统计图。,整体分析与设计的内容,SPSS,频数分析,一、操作,(实践数据:产品的销售量,.sav,),1,)菜单,“,分析描述统计频率,”,。,2,)对话框中,左侧选择一个或多个,待分析变量,移入右侧。,3,),“,显示频率表格,”,,勾选该复选,框,可输出频数分析表。,第1页/共30页,SPSS频数分析概述:整体分析与设计的内容 SPSS频数分析,1,整体分析与设计的内容,SPSS,频数分析,二、几个重要的设置对话框,“,统计量,”,按钮对应的对话框:,1,)四分位数:,显示,25%,、,50%,、,75%,的分位数。,2,)割点:,勾选后可输入数值,A,,将数据平分为,A,等分。例如,输入,5,,表示输出,20%,、,40%,、,60%,、,80%,的百分位数。,3,)百分位数:,选中后,可激活右侧的文本框和列表。可输入、更改和删除自定义的百分位数。,输出反映数据离散程度的统计量。,输出反映数据集中程度的统计量。,输出描述数据分布形状及特征的统计量。,第2页/共30页,整体分析与设计的内容 SPSS频数分析二、几个重要的设置对话,2,整体分析与设计的内容,SPSS,频数分析,“,图表,”,按钮对应的对话框:,注:,1,)选择直方图选项,则不能再设置图表值,选项。,2,)在选中直方图选项后,可以进一步选择,在直方图上显示正态曲线。,3,)仅适用于连续型的数值型变量。,“,格式,”,按钮对应的对话框:,将所有变量集中在一个图形中输出,以便比较。,每个变量单独输出一个图形,。,控制频数表输出的分类数量,当频数表的分组数大于设定值时,禁止其输出。用以避免产生巨型表格。,第3页/共30页,整体分析与设计的内容 SPSS频数分析“图表”按钮对应的对话,3,整体分析与设计的内容,SPSS,的频数分析,基本统计信息汇总表,。,N,表示进行统计分析的样本总量;,Valid,表示有效样本量:,Missing,表示缺失样本数目。,Percentiles,列出了销售数据的四分位数,频数分析表,。,Frequency,表示变量值落在某个区间(或类别)中的次数;,Percent,是各频数占总样本数的百分比;,Valid Percent,是有效百分比;,Cumulative Percent,是累积百分比,指各百分比逐级累加起来的结果。,三、输出结果分析,第4页/共30页,整体分析与设计的内容 SPSS的频数分析基本统计信息汇总表。,4,整体分析与设计的内容,SPSS,的频数分析,从图形特征看,数据呈右偏分布。历史销售数据总体数值偏,大;同时,最大值,“,27,”,差不多是最小值,“,14,”,的一倍,说明这种产品的销售量不是很稳定,具有较大的波动性。,第5页/共30页,整体分析与设计的内容 SPSS的频数分析从图形特征看,数据呈,5,整体分析与设计的内容,SPSS,的描述统计分析,一、原理,统计量是研究随机变量变化综合特征的重要工具,描述性统,计量的分类如下:,对数据特征的描述,集中趋势,离散程度,分布形态,均值,众数,中位数,其他指标,全距,标准差,方差,离散系数,其他指标,偏度,峰度,第6页/共30页,整体分析与设计的内容 SPSS的描述统计分析一、原理对数据特,6,整体分析与设计的内容,SPSS,的描述统计分析,1,、集中趋势,集中趋势是指一组数据向某一中心值靠拢的倾向。,均值(,Mean,):反映了某变量所有取值的集中趋势或平均水平。,均值往往会受到异常大和异常小的数值影响,所以对于严重的偏态分,布,均值会失去应有的代表性。,众数(,Mode,):分布数列中最常出现的标志值,频数或频率最大。,众数适用于单峰对称的情况。对于多峰的分布则不适用。,中位数(,Median,):指将分布数列中各单位的标志值依其大小顺序排列,位于中间位置的标志值称为中位数。,中位数来描述连续变量,会损失很多信息。例如,其他变量比中位数大多少或小多少等。,第7页/共30页,整体分析与设计的内容 SPSS的描述统计分析1、集中趋势均值,7,整体分析与设计的内容,SPSS,的描述统计分析,2,、刻画离散程度的描述性统计量,离散程度是指一组数据远离其中心值的程度,即考察数据分布的,疏密程度。,全距(,Range,):也称,“,范围,”,,是数据中最大值和最小值之差,又称,“,极差,”,。,Range,=,最大值,-,最小值,全距说明了数据的整体变动范围,但不能反映其间变量分布情况。,标准差(,Standard Deviation,):指变量取值距离均值的平均离散程度的统计量。,方差(,Variance,):是标准差的平方。,方差在使用上存在一点不足:量纲不统一。,第8页/共30页,整体分析与设计的内容 SPSS的描述统计分析2、刻画离散程度,8,整体分析与设计的内容,SPSS,的描述统计分析,3,、刻画分布形态的描述性统计量,分布形态是指数据是否对称,偏斜程度如何,分布陡缓程度如何等。,偏度(,Skewness,):是描述变量取值分布形态对称性的统计量。,当偏度值为,0,,说明数据对称分布;当偏度值大于,0,,表示变量取值,右偏,在直方图中有一条长尾拖在右边;当偏度值小于,0,,表示变,量取值左偏,在直方图中有一条长尾拖在左边。,峰度(,Kurtosis,):用来描述变量取值分布形态陡缓程度的统计量,是指分布图形的尖峰程度。,当数据分布和标准正态分布陡缓程度相同时,峰度为,0,;峰度大于,0,说明数据分布比正态分布陡峭,为尖峰分布;峰度小于,0,为平峰分布。,第9页/共30页,整体分析与设计的内容 SPSS的描述统计分析3、刻画分布形态,9,整体分析与设计的内容,SPSS,的描述统计分析,二、操作,描述性统计分析过程是统计描述应用最多的一个过程。在这个过程中,,可以将原始数据转换为标准值,并以变量形式保存,供以后分析。,菜单:,“,分析描述统计描述,”,。,示例数据,:,奥斯卡获奖者年龄,.sav,标准化处理,同时产生相应的,Z,得分,并作为新变量保存在数据窗口。新变量为 原变量名,+,前缀,Z,。,标准化的计算公式:,X,i,是变量,X,的第,i,个取值;,S,是标准差。,第10页/共30页,整体分析与设计的内容 SPSS的描述统计分析二、操作标准化处,10,整体分析与设计的内容,SPSS,的描述统计分析,三、输出分析,N,栏显示男、女样本容量相同;从均值上看 女,男;男的全距,和标准差都小于女的,说明男演员获奖年龄波动幅度小于女,演员;从峰度和偏度看,两组数都不服从正态分布。,第11页/共30页,整体分析与设计的内容 SPSS的描述统计分析三、输出分析N栏,11,整体分析与设计的内容,SPSS,探索性统计分析,一、方法原理,探索性数据分析(,Exploratary Data Analysis,,简称,EDA,)的基本思想,是从数据本身出发,而不拘泥于模型假设;采用灵活的方法来探讨数,据分布的大致情况,为进一步结合模型的研究提供线索,为传统的统,计推断提供良好的基础,并且减少盲目性。,在实践中,数据分析往往分两个步骤,即探索性数据分析和实证分,析。探索性数据分析是从复杂的数据中分离出数据的基本模式和特,点,让分析者发现其中的规律,以便选择分析方法;而对于探索性数,据分析中发现的数据规律,分析者需要使用特定的统计模型进行实证,分析,以确定规律是否正确。,一般的,探索性分析主要考察以下内容:,1,)检查数据是否有错,并决定是否删除异常数据。,2,)获得数据分布特征。,3,)对数据初步观察,发现一些内在规律。,第12页/共30页,整体分析与设计的内容 SPSS探索性统计分析一、方法原理探索,12,整体分析与设计的内容,SPSS,探索性统计分析,二、操作,探索性数据分析过程用于计算指定变量的探索性统计量和有关的图,形。从这个过程中可以获得箱图、茎叶图、直方图、各种正态检验,图、频数表、方差齐性检验等结果,以及对非正态或正态非齐性数据,进行变换,以表明和检验连续变量的数值分布情况。,菜单:“分析描述统计探索”(,示例数据:中国南北城市温差,.sav,),因变量列表,即待分析变量列表。可从左侧列表中选择一个或多个变量。,因子列表,用作数据分组分析。如果选择了多个变量,则组合分组。,标注个案,可选择一个变量做标签。当发现异常值时,可利用该变量做标记。若不选这个变量,系统默认以,id,变量为标签。,第13页/共30页,整体分析与设计的内容 SPSS探索性统计分析二、操作探索性数,13,整体分析与设计的内容,SPSS,探索性统计分析,二、按钮对应的界面介绍,统计量对话框,输出前面所讲述的各个描述统计量,并可设置均值的置信区间。,求出中心趋势的最大似然比的稳健估计量。,界外值要求输出显示,5,个最大值与最小值。在输出窗口被表明为极端值。,输出结果显示,5%,10%,25%,50%,75%,90%,和,95%,的百分位数。,“选项”对话框,从所有分析中,将因变量或分组变量中带有缺失值的观测量予以剔除。,从当前分析中,将有缺失值的观测量均予以剔除。,将分组变量中的缺失值单独分组进行统计。,第14页/共30页,整体分析与设计的内容 SPSS探索性统计分析二、按钮对应的界,14,整体分析与设计的内容,SPSS,探索性统计分析,二、按钮对应的界面介绍,“图”对话框,箱图。,1,)按因子水平分组,每个因变量生成一个单独的箱图,便于组间比较。,2,)不分组:所有因变量生成一个复合的箱图。,描述性图。分茎叶图和直方图两种。,输出显示正态概率与离散正态概率图。,幂估计:,对每一组数据产生一个中位数的自然对数与四分位数的自然对数的散列点图,达到方差齐次性要求的幂次估计;并据此散布图,来估计将各组方差转换成同方差所需的幂次。,转换:,对原始数据进行变换。可在下拉列表中选择转换的幂值。,未转换:,不对数据进行转换,产生原始数据的散布图。,注:,“无”是不产生该选项的图形。,第15页/共30页,整体分析与设计的内容 SPSS探索性统计分析二、按钮对应的界,15,整体分析与设计的内容,SPSS,探索性统计分析,三、输出结果,北方城市温度标准差大于南方城市,说明北方城市一年温度变化较南方大。从分布形态上来看,南方城市为尖峰、右偏特征;北方城市表现为平峰,左偏特征。,基本信息汇总,无缺失值。,第16页/共30页,整体分析与设计的内容 SPSS探索性统计分析三、输出结果北方,16,整体分析与设计的内容,SPSS,探索性统计分析,三、输出结果,茎叶图。,1,),Frequency,表示观测值频数;,2,),Stem,(茎)表示实际观测值除以图下方茎宽(,Stem Width,)的整数部分;,3,),Leaf,(叶),表示观测值除以茎宽的小数部分。,4,)“,Each Leaf”,:表示每片叶子代表,n,个观测量。,茎叶图在反映整体趋势的同时,还能反映具体的数值大小,因此,在分析小样本时优势明显。,M,估计量:,1,),Huber,,稳健估计量;,2,),Tukey,,复权估计量;,3,),Hampel,,非稳健估计量;,4,),Andrew,,波估计量。,例子中来看:两者差距较大,差异性明显。南方温度均值都高于北方,数据呈正偏态分布,平均值受影响较大。,第17页/共30页,整体分析与设计的内容 SPSS探索性统计分析三、输出结果茎叶,17,整体分析与设计的内容,SPSS,探索性统计分析,三、输出结果,箱图:,1,)中间粗线为中位数;,2,
展开阅读全文