数据的描述性分析讲述课件

上传人:txadgkn****dgknqu... 文档编号:242628131 上传时间:2024-08-29 格式:PPT 页数:68 大小:1.38MB
返回 下载 相关 举报
数据的描述性分析讲述课件_第1页
第1页 / 共68页
数据的描述性分析讲述课件_第2页
第2页 / 共68页
数据的描述性分析讲述课件_第3页
第3页 / 共68页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第 四 章,数,据的描述性分析,第 四 章 数据的描述性分析,本章内容,第一节 集中趋势的描述,第二节 离散程度的描述,第三节 分布的偏态与峰度,本章内容第一节 集中趋势的描述,集中趋势,集中趋势反映的是一组数据向某一中心值靠拢的倾向,在中心附近的数据数目较多,而远离中心的较少。对集中趋势进行描述就是寻找数据一般水平的中心值或代表值。,集中趋势 集中趋势反映的是一组数据向某一中心值靠拢的倾,数据的描述性分析讲述课件,1.,数值平均数,:,是以统计数列的所有数据来计算的平均数,.,其特点是统计数列中任何一项数据的变动,都会在一定程度上影响数值平均数的计算结果,.,2.,位置平均数,:,它不是对统计数列中所有数据进行计算所得的结果,而是根据数列中处于特殊位置上的个别单位或部分单位的标志值来确定的,.,1.数值平均数:是以统计数列的所有数据来计算的平均数.其特点,数值平均数包括算术平均数、调和平均数和几何平均数,.,.,算术平均数,(,均值,Arithmetic Mean,),总体均值常用 或 表示,样本均值常用 表示,样本均值,的计算公式,:,简单算术平均数,:,加权算术平均数,:,1.,数值平均数,数值平均数包括算术平均数、调和平均数和几何平均数.算术平,权数的意义和作用,权数,:,各组次数,(,频数,),的大小所对应的标志值对平均数的影响具有权衡轻重的作用,.,当各组的次数都相同时,即当 时,:,加权算术平均数就等于简单算术平均数,.,权数的意义和作用权数:各组次数(频数)的大小所对应的标志值对,例,:,计算某车间工人加工零件平均数,(,组距式数列,),解,:,例:计算某车间工人加工零件平均数(组距式数列)解:,关于计算结果的说明,根据原始数据和分组资料计算的结果一般不会完全相等,根据分组数据只能得到近似结果,.,只有各组数据在组内呈对称或均匀分布时,根据分组资料,的计算结果才会与原始数据的计算结果一致,.,(1).,各变量值与均值的离差之和等于零,.,(2).,各变量值与均值的离差平方和最小,.,关于计算结果的说明根据原始数据和分组资料计算的结果一般不,.,调和平均数,(,倒数平均数,Harmonic Mean,),调和平均数分为简单调和平均数和加权调和平均数,.,简单调和平均数,标志值的倒数的算术平均数的倒数,.,.调和平均数(倒数平均数, Harmonic Mean,(2),加权调和平均数,式中,m,表示各单位或各组的标志值对应的标志总量,.,(2) 加权调和平均数 式中,m表示各单位或各组的标志值对应,例,.,某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日的平均批发价格,.,例.某蔬菜批发市场三种蔬菜日成交数据如下表,计算三种蔬菜该日,.,几何平均数,(,Geometric Mean,),是另一种形式的平均数,是,n,个标志值乘积的,n,次方根,.,主要用于计算平均比率和平均速度,.,(1),简单几何平均数,式中,G,表示几何平均数,表示各项标志值,.,可以看作均值的一种变形,.几何平均数(Geometric Mean)是另一种形式,(2),加权几何平均数,(2)加权几何平均数,例,3.1.1,一位投资者持有一种股票,1997,1998,1999,2000,年收益率分别为 计算该投资者在这四年内的平均收益率,.,例,3.1.2,某企业四个车间流水作业生产某产品,一车间产品合格率,99%,二车间为,95%,三车间为,92%,四车间为,90%,计算该企业的平均产品合格率,.,例3.1.1 一位投资者持有一种股票,1997,1998,1,注,:(1),(2),数值平均数主要适用于定量数据,而不适用于定性数据,.,(3),简单数值平均数适用于未分组的资料,加权数值平均数适用于分组的资料,.,注:(1)(2) 数值平均数主要适用于定量数据,而不适用于定,.,众数,(,Mode,),一组数据中出现次数最多的变量值,.,主要特点,:,不受极端值的影响,.,有的数据无众数或有多个众数,.,说明,:,如果所有数据出现的次数都一样,那么这组数据没,有众数,.,2,位置平均数,.众数(Mode) 一组数据中出现次数最多的变量值.,数据的描述性分析讲述课件,众数主要用于分类数据,也可用于顺序数据和数值型数据,对于未分组数据和单项式分组数据,众数位置确定之后便找到了众数,.,适用范围,众数主要用于分类数据,也可用于顺序数据和数值型数据,例,:,分类数据的众数,例:分类数据的众数,例,:,顺序数据的众数,例:顺序数据的众数,.,中位数,(,Median,),中位数是一组数据按一定顺序排列后,处于中间位置上的变量,.中位数(Median)中位数是一组数据按一定顺序排列后,数据的描述性分析讲述课件,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),向上累积,户数,(,户,),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,24,132,225,270,300,合计,300,100.0,甲城市家庭对住房状况评价的频数分布回答类别甲城市户数百分比向,负偏,正偏,注,: (1),中位数总是介于众数和平均数之间,.,负偏正偏注: (1)中位数总是介于众数和平均数之间.,(2),皮尔逊经验法则,分布在轻微偏斜的情况下,众数、中位数和算术平均数数量关系的经验公式为,:,(2) 皮尔逊经验法则,众数、中位数、平均数的特点和应用,众数,不受极端值影响,具有不惟一性,数据分布偏斜程度较大且有明显峰值时应用,中位数,不受极端值影响,数据分布偏斜程度较大时应用,平均数,易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用,众数、中位数、平均数的特点和应用众数,数值平均数与位置平均数的适用场合?,数值平均数与位置平均数的适用场合?,60,分以下,2,60-70,8,70-80,22,80-90,10,90,分以上,4,案例,1,:甲班,统计学,考试情况如下表:,60分以下260-70870-802280-901090分以,案例,2,:乙班,统计学,考试情况如下表:,60,分以下,2,60-70,30,70-80,8,80-90,4,90,分以上,1,案例2:乙班统计学考试情况如下表:60分以下260-70,案例,3,:丙班,统计学,考试情况如下表:,60,分以下,2,60-70,5,70-80,12,80-90,25,90,分以上,7,案例3:丙班统计学考试情况如下表:60分以下260-70,问题,1,、计算甲、乙、丙三个班的平均成绩;该平均值是真实值还是近似值?如是近似值,什么情况下会是真实值?,2,、计算甲、乙、丙三个班的中位数、众数;,3,、如要选择从算术平均数、中位数和众数三个平均数中选择一个数来分别代表甲、乙、丙三个班的整体水平,请问你会选择哪个平均数?为什么?,4,、如要分别反映甲、乙、丙三个班的考试情况,你会选择用哪些指标来衡量?,5,、如要比较甲、乙、丙三个班的考试情况的优劣,你又会选择什么样的指标来衡量?,6,、甲乙丙,三个班的考试成绩分别服从对称分布、左,偏分布、右偏分布中的哪种分布?为什么?,问题,先计算各组的累计次数,再按公式 确定,中位数的位置,并对照累计次数确定中位数。,由组距数列确定中位数,下限公式:,先计算各组的累计次数,再按公式 确定由组距数列确定,为中位数组的下限;,为总次数;,为中位数组前一组的向上累计次数;,为中位数组的次数;,为中位数组的组距。,为中位数组的下限;,组距式变量数列计算众数的公式:,组距式变量数列计算众数的公式:,离散程度的描述,反映各变量值远离其中心值的程度,(,离散程度,),从另一个侧面说明了集中趋势测度值的代表程度,.,离散程度的描述反映各变量值远离其中心值的程度(离散程度),数据的描述性分析讲述课件,1,离散程度的常用指标,异众比率,式中,为变量值的总频数,;,为众数组的频数,.,异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性越差,.,1 离散程度的常用指标异众比率式中, 为变量值的,全距,(,极差,),极差,(,Range,),也叫全距,是一组数据的最大值与最小值之差,即,:,组距分组数据可用,最高组上限最低组下限,计算,.,全距(极差) 极差(Range)也叫全距,是一组数据的最,四分位差,四分位差,(,quartile deviation,),也称内距或四分间距,(,inter-quartile range,),是指第三四分位数和第一四分位数之差,.,四分位差的计算公式为,:,把所有数据由小到大排列并分成若干等份,处于分割点位,置的数值就是,分位数,.,四分位差四分位差(quartile deviation)也,把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值就是,四分位数,.,分位数可以反映数据分布的相对位置,(,而不单单是中心位置,).,常用的有四分位数、十分位数、百分位数,.,四分位数,(Quartile):,Q,1,Q,2,Q,3,;,十分位数,(Decile):,D,1, D,2,., D,9,;,百分位数,(Percentile):,P,1, P,2,.,P,99,;,把所有数据由小到大排列并分成四等份,处于三个分割点位置的数值,四分位数的计算,首先确定四分位数的位置,再找出对应位置的标志值即为,四分位数,.,设样本容量为,n,则,如果各位置计算出来的结果恰好是整数,这时各位置上的,标志值即为相应的四分位数,;,如果四分位数的位置不是整,数,则四分位数为前后两个数的加权算术平均数,.,权数的大,小取决于两个整数位置与四分位数位置距离的远近,距离,越近,权数越大,.,在实际应用中,计算四分位数的方法并不统一,(,数据量大时,这些方法差别不大,),对于一组排序后的数据:,四分位数的计算如果各位置计算出来的结果恰好是整数,这时各位置,SPSS,中四分位数的位置分别为,Excel,中四分位数的位置分别为, SPSS中四分位数的位置分别为,练习,:,已知,9,个家庭的人均月收入数据,试求这组数据的第一和第三四分位数,.,四分位差反映了中间,50%,数据的离散程度,数值越小说明中间数据越集中,.,练习: 已知9个家庭的人均月收入数据试求这组数据的第一和第三,平均差,(,Mean deviation,),平均差也称平均绝对偏差,总体所有单位的标志值与其平均数的离差绝对值的算术平均数,.,通常用 表示,.,未分组数据计算平均差的公式为,:,加权式,(,分组数据,):,平均差虽然能较好地区别出不同组数据的分散情况或程度,但它的缺点是绝对值不适合作进一步的数学分析,.,平均差(Mean deviation)未分组数据计算平均差,标准差和方差,(,Standard deviation and Variance,),方差,是一组数据中各数值与其算术平均数离差平方的平均数,.,标准差,是方差中的平方根,.,标准差和方差(Standard deviation and,注:总体方差和样本方差的符号不同,计算公式也不一样,.,是反映定量数据离散程度的最常用的指标,.,注:总体方差和样本方差的符号不同,计算公式也不一样.是,例,.,在某地区抽取的,120,家企业按利润额进行分组,结果如表,3.1,所示,.,表,3.1,某地区,120,家企业的利润额分组,计算,120,家企业利润额的均值和标准差,.,例. 在某地区抽取的120家企业按利润额进行分组,结果如表,数据的描述性分析讲述课件,离散系数,(,Coefficient of variation,),离散系数也称变异系数,是各变异指标与其算术平均数的比值,.,例如,将极差与其平均数对比,得到极差系数,;,将标准差与其平均数对比,得到标准差系数,.,最常用的变异系数是标准差系数,:,标准差系数,:,标准差与其相应的均值之比,表示为百分数,.,离散系数(Coefficient of variati,特点,:,1,、反映了相对于均值的相对离散程度,;,2,、可用于比较计量单位不同的数据的离散程度,;,3,、计量单位相同时,如果两组数据的均值相差悬殊,离散系数比标准差更有意义,.,特点:,例子,.,某管理局抽查了所属的,8,家企业,其产品销售数据如表,3.2,所示,试比较产品销售额和销售利润的离散程度,.,例子. 某管理局抽查了所属的8家企业,其产品销售数据如表3.,销售额,销售利润,结论,:,计算结果表明,说明产品销售额的离散程度小于销售利润的离散程度,.,销售额销售利润结论:计算结果表明, 说,2,数据的标准化,定义 标准化数值是变量值与其平均数的离差除以标准差后的值,也称为,z,分数,或,标准分数,.,设标准化数值为,z,则有,:,对于来自不同均值和标准差的个体的数据,往往不能直接对比,.,这就需要将它们转化为同一规格、尺度的数据后再比较,.,标准分数是,对某一个值在一组数据中相对位置的度量,.,2 数据的标准化定义 标准化数值是变量值与其平,例,3.2.1,假定某班学生先后两次进行了难度不同的大学英语综合考试,第一次考试成绩的均值和标准差分别为,80,分和,10,分,而第二次考试成绩的均值和标准差分别为,70,分和,7,分,.,张三第一、二次考试的成绩分别为,92,分和,80,分,那么全班相比较而言,他哪一次考试的成绩更好呢,?,解,:,由于两次考试成绩的均值和标准差不同,每个学生两次,考试的成绩不宜直接比较,.,利用标准分数进行对比,计算结果表明,第二次考试成绩更好些,.,例3.2.1 假定某班学生先后两次进行了难度不同的大学英语,对称分布中的 法则,变量值落在 范围以外的情况极为少见,.,因此通常将落在区间 之外的数据称为,离群点,(,或,异常数据,),., 对称分布中的 法则变量值落在 范围以,分布形状的描述,集中趋势和离散程度是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜程度以及分布的扁平程度等,.,偏态和峰度就是对这些分布特征的进一步描述,.,偏态和峰度是英国统计学家卡尔,皮尔逊首先提出的,.,分布形状的描述集中趋势和离散程度是数据分布的两个重要特征,但,3.3.1,偏态,(Skewness),及其测定,如果次数分布是完全对称的,叫,对称分布,;,如果次数分布不是完全对称的,就称为,偏态分布,.,3.3.1 偏态(Skewness)及其测定如果次数,所谓偏度,就是指次数分布的非对称程度,用偏态系数来表示,.,计算公式,式子中 称为,偏态系数,.,偏态系数有多种计算方法,在,Excel,软件中通常采用以下,公式,:,所谓偏度,就是指次数分布的非对称程度,用偏态系数来表示.式,当 时,左右完全对称,为,正态分布,;,当 时为,正偏,(,或右偏,);,当 时为,负偏,(,或左偏,).,偏态系数 的数值一般在,0,与,3,之间,偏态系数越接近于,0,分布的偏斜程度越小,;,偏态系数越接近于,3,分布的偏斜程度越大,.,当 时,左右完全对称,为正态分布;当,3.3.2,峰度,(Kurtosis),及其测定,峰度,是指变量的集中程度和,次数,分布曲线的陡峭,(,或平,坦,),的程度,.,在变量数列的分布特征中,常常以正态分布为标准,观察变量数列分布曲线顶峰的尖平程度,统计上称之为峰度,.,计算公式,式子中 称为,峰度系数,.,3.3.2 峰度(Kurtosis)及其测定峰度是,正态分布的峰度系数等于,0,当 时为,尖峰分布,表示次数分布比正态分布更集中,;,当 时为,平峰分布,表示次数分布比正态分布更分散,.,正态分布的峰度系数等于0,当 时为尖峰分布,数据的描述性分析讨论题,1,、任何平均数都受变量数列中的极端值的影响。,2,、中位数把变量数列分成了两半,一半数值比他大,一半数值比他小。,3,、任何变量数列都存在众数。,4,、算术平均数、中位数和众数三者的数量关系说明什么样的变量分布特征?,5,、什么是众数?有什么特点?试举例说明其应用。,6,、极差越小说明数据的代表性越好,数据越稳定;,数据的描述性分析讨论题,7,、四分位差、平均差和标准差衡量的是哪个平均指标的代表性?上述三个指标哪些优越?,8,、如果某同学在英语竞赛中的标准得分为,2,,并且知道,1%,为一等奖,,5%,为二等奖,,10%,为三等奖,则 则他( )。,A.,获一等奖,B,获二等奖,C,获三等奖,D,无缘奖项,9,、想知道某班同学统计学考试成绩的稳定性,需要用哪些指标比较好?相比较某班同学统计学考试成绩和大学英语考试成绩的稳定性,用哪些指标比较好?,7、四分位差、平均差和标准差衡量的是哪个平均指标的代表性?上,10,、,在某地区抽取的,120,家企业按利润额进行分组,结果如下表所示,.,计算,120,家企业利润额的均值和标准差,.,10、在某地区抽取的120家企业按利润额进行分组,计算120,11,、某管理局抽查了所属的,8,家企业,其产品销售数据如,下表所示,试比较产品销售额和销售利润的离散程度,.,12,、,假定某班学生先后两次进行了难度不同的大学英语,综合考试,第一次考试成绩的均值和标准差分别为,80,分和,10,分,而第二次考试成绩的均值和标准差分别为,70,分和,7,分,.,张三第一、二次考试的成绩分别为,92,分和,80,分,那么,全班相比较而言,他哪一次考试的成绩更好呢,?,11、某管理局抽查了所属的8家企业,其产品销售数据如12、假,人有了知识,就会具备各种分析能力,,明辨是非的能力。,所以我们要勤恳读书,广泛阅读,,古人说“书中自有黄金屋。,”通过阅读科技书籍,我们能丰富知识,,培养逻辑思维能力;,通过阅读文学作品,我们能提高文学鉴赏水平,,培养文学情趣;,通过阅读报刊,我们能增长见识,扩大自己的知识面。,有许多书籍还能培养我们的道德情操,,给我们巨大的精神力量,,鼓舞我们前进,。,人有了知识,就会具备各种分析能力,,数据的描述性分析讲述课件,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!