spss第四章描述统计简介课件

上传人:艳*** 文档编号:242963598 上传时间:2024-09-12 格式:PPT 页数:53 大小:630.50KB
返回 下载 相关 举报
spss第四章描述统计简介课件_第1页
第1页 / 共53页
spss第四章描述统计简介课件_第2页
第2页 / 共53页
spss第四章描述统计简介课件_第3页
第3页 / 共53页
点击查看更多>>
资源描述
单击以编辑母版标题样式,单击以编辑母版文本样式,第二级,第三级,第四级,第五级,*,第三章样本数据特征的初步分析,*,2024/9/12,1,第四章 描述统计量简介,2024/9/12,2,第四章 样本统计量描述,一、样本数据位置特征的统计量,二、样本分布特征的统计量,三、样本数据离散程度特征的统计量,调查杭州市居民收入情况,得到,100,个样本数据,根据这些数据,你最想得到哪些信息?,统计量:用来描述样本特征的概括性数字度量,调查顾客对产品的满意度情况,获得,100,个样本数据,能分析出哪些信息?,调查大学生群体中对手机品牌的偏好程度,你如何描述调查结果?,2024/9/12,3,一、样本数据的位置特征,对数据中心的描述,样本众数(,Sample Mode,),分类数据,样本中位数(,sample median,),定序数据,样本均值(,Sample mean,),定比数据,2024/9/12,4,(一),分类数据集中趋势度量,众数,样本众数定义,1,:,样本数据集合中出现频次最高的那个样本值为众数。,众数,单一众数,复众数,2024/9/12,5,众数的计算,可以简单地从频次统计表中查出(频次最大的样本值就是该样本数据集合的众数)。也可以从条形图上看出(最高竖条所代表的样本值就是该样本数据集合的众数)。,如:一次调查结果显示,大学生对垃圾分类行为的认识状况如下:,没必要,没必要,没必要,有必要,有必要,有必要,有必要,有必要,有必要,无所谓,2024/9/12,6,2024/9/12,7,样本众数定义,2,对于刻度级的样本数据集合,在对数据等区间分组的直方图中,最高的矩形所表示的数据区间,称为该数据集合的众数区间,简称众数。,众数区间也有单一众数与复众数之分。,如:,10,个样本收入情况如下:,2000,,,2200,,,2300,,,2400,,,3000,,,3400,,,3400,,,4000,,,4500,,,4500,。,2024/9/12,8,2024/9/12,9,频次与频率:描述样本数据结构的基本特征,一、频次与频率的基本概念,1.,频次(,Frequency,):在有限的样本数据集合中,同样的数据值出现的次数。,2.,频率(,Percentage or Relative Frequency,):,如果样本容量为,n,,那么,某个样本值出现的频率该样本值出现的频次,/n,2024/9/12,10,分类数据或顺序数据描述频次与频率的图形方法,饼图(,Pie Chart,),#,条形图,#,2024/9/12,11,2024/9/12,12,图,.,.,调查中不同受教育程度出现的频率,2024/9/12,13,样本数据集合的基本特征的延伸:累积频率(,Cumulative Percentage,),累积频率的概念与表格表示:,设,X1X2Xm,mn,,,n,是样本数据集合中的样本值的总个数。若把样本值小于等于某个样本数据,Xi,的频率都累加起来,就得到“小于等于,Xi ”,的累积频率。,2024/9/12,14,累积频率(,Cumulative Percentage,)的计算,以例,.,.,为分析对象,按照上述原则,可以计算出小于等于各个,Xi,的累积频率,见表,.,.,表,3.1.8,某品牌牙膏价格,Xi,的累积频率,价格,9.93,9.95,9.96,9.97,9.98,9.99,10,10.01,10.02,10.03,10.04,10.05,10.06,频次,1,1,1,2,3,4,4,4,2,3,2,2,1,频率,3.33,3.33,3.33,6.67,10,13.33,13.33,13.33,6.67,10,6.67,6.67,3.33,累积频率,3.33,6.67,10,16.67,26.67,40,53.33,66.67,73.33,83.33,90,96.67,100,注意:,只有顺序级以上的样本数据才存在累积频率的问题,名义级样本数据不存在累计频率的问题,2024/9/12,15,2024/9/12,16,2024/9/12,17,频数分析过程的,spss,操作,(1),建立或打开一个数据文件,执行,Analyze Descriptive, Statistics Frequencies,。打开,Frequencies,对话框,频数 定类分析,2024/9/12,18,频数分析过程,(2),确定输出选择项,单击,Statistics,按钮,打开统计量选择对话框,选择,Percentile Values,栏中的选项,输出所选变量的百分值,Dispersion,(离差)栏,用于指定输出反映变量离散程度的统计量,Central Tendency,(集中趋势)栏,用于指定输出反映变量集中趋势的统计量,Distribution,(分布特征)栏,用于指定输出描述分布形状和特征的统计量,2024/9/12,19,频数分析过程,(3),单击,chart,按钮。打开统计图对话框,对图形类型进行设置。,(,4,)单击,Format,按钮,打开格式对话框,Order by,排序组栏,用于指定频数表中变量的排序,2024/9/12,20,频数实习,1,:,打开数据文件:“规划调查资料,.sav”,统计调查对象的基本信息,完成下表:,基本信息,频数,频率,性别,男性,女性,地区,农村,省会城市,中小城市,县镇,所在年级,大一,大二,大三,大四,2024/9/12,21,频率分析实习,2,一家电脑公司为了对比不同品牌的电脑在一季度和二季度的销售情况,搜集到下列数据,试绘制图表比较不同品牌电脑的销售情况;不同季度电脑的销售情况。,电脑品牌,一季度,二季度,联想,256,468,IBM,285,397,康柏,247,328,戴尔,563,688,2024/9/12,22,频数实习,3,:,某行业管理局所属,40,个企业,2002,年的产品销售收入数据见数据文件:,40,企业产品销售收入,.sav,1.,如果按照规定:销售收入在,125,万元以上为先进企业,,115125,万元为良好企业,,105,11,万元为一般企业,,105,万元以下为落后企业,请按先进企业、良好企业、一般企业、落后企业进行分组并统计频率与累积频率。并用饼状图表示。,2024/9/12,23,(二) 定序数据集中趋势度量,中位数,定义:设,对样本数据集合中的所有数据的排序结果为,X1X2Xn,,,n,为样本容量,则上述排序的序列中,处于“正中间位置”上的数据,称为样本中位数。,当,n,为奇数时:正中间位置号码,=,(,n+1,),/2,样本中位数,=X,(n+1)/2,当,n,为偶数时:,正中间位置号码,=,(,n+1,),/2,是小数,处于,n/2,与,(n/2)+1,之间。,样本中位数,=(X,n/2+,X,(n/2)+1,)/2,如,5,位同学的学习成绩:,3,,,3,,,3,,,4,,,5,。中间位置是第三位,中位数:,3,。,如果六位同学:,3,,,3,,,4,,,5,,,5,,,5,。中间位置是,3,与,4,位中间的位置,中位数为:,(,4,5,),/2=4.5,2024/9/12,24,频数分析主对话框中点击,statistics,功能按钮,2024/9/12,25,Ststistic,对话框,2024/9/12,26,(三)定比数据集中趋势度量,均值,样本均值仅适用于刻度级的数据,计算公式为:,式中,,x,i,,,i,1,,,2,,,,,n,,是样本观察值(样本数据),所以样本均值是一个数值。,2024/9/12,27,均值计算的,spss,操作,Analyze,主菜单下,Descriptive statistics Descriptive,。打开,Descriptive,对话框,定比,2024/9/12,28,点击,options,按钮,定义统计量选项,2024/9/12,29,Save standardized value as variables,选项,:,将标准化值作为新变量保存。,标准化值给出了一组数据中各数值的相对位置,比如,如果某个数值的标准分数为,1.5,,表示该数值高于平均数的,1.5,倍的标准差。,标准分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据中的位置,也没有改变该组数据分布的形状,而是将该组数据变为平均数为,0,,标准差为,1,。,2024/9/12,30,2024/9/12,31,2024/9/12,32,二、描述样本分布特征的统计量,1.,峰度:描述某变量所有取值分布形态陡缓程度的统计量。,峰度为,0,表示其数据分布与正态分布的陡缓程度相同;峰度大于,0,表示比正态分布高峰要更陡峭,为尖顶峰;峰度小于,0,表示比正态分布的高峰要平坦,为平顶峰。,2024/9/12,33,二、描述样本分布特征的统计量,2.,偏度:描述某变量所有取值分布形态的对称性的统计量简称,SK,。,偏度为,0,表示其数据分布形态与正态分布偏度相同,左右对称;偏度大于,0,表示正偏差数值较大,为正偏和称右偏,有一条长尾拖在右边;偏度小于,0,则相反。,SK,的绝对值大于,1,时,被称为高度偏态分布,当,SK,的绝对值大于,0.5,小于,1,时被称为中等偏态分布。,2024/9/12,34,2024/9/12,35,2024/9/12,36,三 样本数据的离散特征,本部分应掌握的主要内容,(一)对样本数据离散特征的,点状,描述:极值、四分点与百分位点,(二) 对样本数据离散特征的,区间,描述:极差、四分位距与离差,(三) 离散状况的,统计,描述:样本方差,2024/9/12,37,(一) 样本数据的离散特征,离,散,特,征,点状描述,区间描述,极值,四分点,百分位点,极差,极差四分位距,离差平方和,样本离差,2024/9/12,38,1.,对样本数据的离散特征点状描述,1),极大值,(Maximum),与极小值,(Minmum):,这两个样本值从一定视角反映了样本数据,集合中样本值的离散状况。,2),下四分点,(Lower Quartile),与上四分点,(Upper Quartile),3),上下百分位点(,Percentile,),2024/9/12,39,下四分点与上四分点,下四分位点:,把排序后的样本数据集合分成左右两部分,使左面部分包含,25%,的样本总个数,右边部分包含,75%,的样本总个数。,下四分位点,Q,1,的位置,=,(,n+1,)*,0.25,Q,1,2024/9/12,40,下四分点与上四分点,上四分位点:,把排序后的样本数据集合分成左右两部分,使左面部分包含,75%,的样本总个数,右边部分包含,25%,的样本总个数。,上四分位点,Q,3,的位置,=,(,n+1,)*,0.75,Q,3,2024/9/12,41,下四分点,Q,1,的值与上四分点,Q,3,的值,当下四分位点与上四分位点的位置为整数时,相应整数位置上的样本值就是,Q,1,Q,3,的值。当下四分位点的位置与上四分位点的位置不为整数时,,Q,1,Q,3,的计算公式:,Q,1,=Q,1,位置左边的样本值,+,(,Q,1,位置右边的样本值,-Q,1,位置左边的样本值)*,0.25,Q,3,=Q,3,位置左边的样本值,+,(,Q,3,位置右边的样本值,-Q,3,位置左边的样本值)*,0.75,2024/9/12,42,(,二,),对样本数据离散特征的区间描述:极差、四分位距与离差,1.,极差(,range,),:,极大值与极小值之差。,极差受到极端值的影响,只利用了一组数据两端,的信息,不能反映出中间数据的分散情况,,所以有一定的局限性。,2024/9/12,43,顺序数据离散程度的度量,3.,四分位距(,Interquartile Range,),:,样本数据排序后的上四分位点与下四分位点之差。,四分位距反映了中间,50,数据的离散程度:其数值越小,说明中间的数据越集中;数值越大,说明中间的数据越分散。四分位距不受极值的影响。,2024/9/12,44,Q,3,Q,1,2024/9/12,45,数值型数据离散程度的度量,4.,样本离差与离差平方和,(,Sample Deviations,Or Sum of Squared Deviations,),2024/9/12,46,(,三,),离散状况的统计值描述:样本方差,样本方差(,Sample Variance,),:,离差平方和与,n-1,的比值。,样本方差的含义:通过消除样本个数对,“,偏离情况,”,的影响,以便较为客观地反映样本数据对样本均值的平均偏离情况。样本方差,s,2,的计算公式:,2024/9/12,47,2024/9/12,48,(四)分类数据离散程度的度量,异众比率,:非众数组的频数占总频数的比率。用来衡量众数对一组数据的代表程度。异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性就越大。,2024/9/12,49,异众比率的计算,如:一次调查结果显示,大学生对垃圾分类行为的认识状况如下:,没有必要,没有必要,没有必要,有必要,有必要,有必要,有必要,有必要,有必要,无所谓,频数:没有必要(,3,),有必要(,6,),无所谓,(,1,),众数,6,,非众数,4,,异众比率,4/10=40%,表示“有必要”选项这一众数对垃圾分类行为的认识状况的代表性中有,40,无法代表。仅有,60,的代表性。,2024/9/12,50,实习,1,:样本数据特征的初步分析,打开数据文件:“描述统计量,.sav”,描述学生的各门成绩与总成绩等指标的如下初步统计特征:,1.,各门成绩的集中趋势如何?,2.,总成绩的离散程度如何?,3.,总成绩的分布规律如何?,2024/9/12,51,实习:连续数据样本离散统计量,样本,1,:,50,,,50.02 ,49.99,50.01,49.98,样本,2,:,1,,,99,,,50,,,样本,3,:,49,50,51,56,44,45,55,47,53,46,44,样本,4,:,49,50,51,1.,计算,4,个样本的均值、极值,方差,并加以比较,四个统计指标值是如何表示样本的离散情况的?,2.,计算样本,2,与样本,4,的离差,比较两个变量的离散情况。,2024/9/12,52,实习:分类数据样本离散程度度量,一家市场调查公司为研究不同品牌饮料的市场占有率,对随机抽取得一家超市进行调查,调查员在某天对,50,名顾客购买饮料的品牌进行了记录,结果如下,可口可乐 :,15,次,旭日生冰茶:,11,次,百事可乐,9,次,汇源果汁:,6,次,露露:,9,次。试分析该调查数据的离散程度。,2024/9/12,53,位置特征,分类数据:众数,定序数据:中位数、众数,定比数据:均值、中位数、众数,分布特征,峰度,偏度,离散特征,点状描述:极值、四分位点,区间描述:四分位距、级差,异众比率,方差,描,述,统,计,量,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!