-数据整理与描述剖析课件

上传人:仙*** 文档编号:241802033 上传时间:2024-07-25 格式:PPT 页数:53 大小:471KB
返回 下载 相关 举报
-数据整理与描述剖析课件_第1页
第1页 / 共53页
-数据整理与描述剖析课件_第2页
第2页 / 共53页
-数据整理与描述剖析课件_第3页
第3页 / 共53页
点击查看更多>>
资源描述
第五讲第五讲 描述性统计描述性统计数据的描述性测度数据的描述性测度内容提要内容提要n数据数据:n n随机性、大量性、变异性n数据分布数据分布:n n次数分布、相对次数分布、累积次数分布、累积相对次数分布n数据分布规律:数据分布规律:n n分布中心、分布范围、对称性次数分布表与图次数分布表与图n n所谓次数分布,也叫频数分布,指的是一批数据中各个不同数值所出现的次数情况,或者是指一批数据在量尺上各等等距区组距区组内所出现的次数情况。n n把次数分布情况制成的统计图表就分别叫做次数分布图和次数分布表。次数分布表的编制步骤次数分布表的编制步骤n求全距(极差)n决定组数和组距n决定组限n求组中值n登记次数连续变量数据的实限连续变量数据的实限n n连续变量的每一个值是代表数轴上的一段距离。这就出现了数据的实限问题。一个数据所代表的实际范围称为该数据的实限,包括从等于大于该数据的下实限至小于该数据的上实限。n n例子:5(下限为:4.5;上限为:5.5)5.0(下限为:4.95;上限为:5.05)相对次数分布表相对次数分布表n n相相对对次次数数就就是是各各组组的的次次数数f f与与总总次次数数N N之之间间的的比值,若以比值,若以R Rf f 表示,则表示,则R Rf f=f/N=f/N。n n相对次数分布表主要能反映各组数据的百分相对次数分布表主要能反映各组数据的百分比结构。阅读相对次数分布表时,相对次数比结构。阅读相对次数分布表时,相对次数较大的组,则说明落入该组内的数据个数占较大的组,则说明落入该组内的数据个数占全部数据个数的比例也越多。反之,则越少。全部数据个数的比例也越多。反之,则越少。累积次数分布表和累积相对次数分布表累积次数分布表和累积相对次数分布表次数分布图次数分布图n n次数直方图次数分布图次数分布图n n次数多边图次数分布图次数分布图n n累积次数分布图练习:练习:某校85班与86班统计学考试成绩如表所示。要求对上述两个班的成绩用两种分组办法进行分组,并利用两种分组的数据对两班成绩进行比较和分析。n n(1)以10分组距进行等组距分组;n n(2)如学校规定90100分为优、7589分为良、6074分为及格、59分以下为不及格,按优、良、及格、不及格分组。85班班607948766758708277899510065647578558098887883548473809588687492856874726578897684488490856757896986班班9174608493647881416160867262516084798082754253628282927675778583817683949490847881727085786392数据的描述性测度数据的描述性测度n n中心测度中心测度平均数;中位数;众数平均数;中位数;众数n n变化测度变化测度 全距;方差与标准差;全距;方差与标准差;四分位数和四分位距;极值四分位数和四分位距;极值n n形态测度形态测度 偏度;峰度偏度;峰度(一)中心测度(一)中心测度 中心测度中心测度是指刻画数据集中趋势的数是指刻画数据集中趋势的数字,用来描述数据的中心位于何处。字,用来描述数据的中心位于何处。最常用的中心测度为平均数、中位数最常用的中心测度为平均数、中位数和众数,其中平均数和中位数只适用于和众数,其中平均数和中位数只适用于定量数据,而众数既适用于定量数据,定量数据,而众数既适用于定量数据,也适用于定性(分类)数据。也适用于定性(分类)数据。(1)算术平均数()算术平均数(M)n n总体算术平均数总体算术平均数n n 样本算术平均数样本算术平均数算术平均数的特性算术平均数的特性n n所有观察值关于平均数的偏差和为零,即所有观察值关于平均数的偏差和为零,即所有观察值关于平均数的偏差和为零,即所有观察值关于平均数的偏差和为零,即n n对极值非常敏感。对极值非常敏感。对极值非常敏感。对极值非常敏感。n n所有观察值关于平均数的偏差平方和最小。所有观察值关于平均数的偏差平方和最小。所有观察值关于平均数的偏差平方和最小。所有观察值关于平均数的偏差平方和最小。算术平均数的计算算术平均数的计算n n利用原始数据进行计算利用原始数据进行计算n n利用频数分布表计算利用频数分布表计算 算术平均数的优缺点算术平均数的优缺点n n优点优点优点优点 反应灵敏反应灵敏反应灵敏反应灵敏 严密确定严密确定严密确定严密确定 简明易懂简明易懂简明易懂简明易懂 适合代数运算适合代数运算适合代数运算适合代数运算 受抽样变动的受抽样变动的受抽样变动的受抽样变动的 影响较小影响较小影响较小影响较小n n缺点缺点缺点缺点易受极端数值易受极端数值易受极端数值易受极端数值 的影响的影响的影响的影响 一组数据中某一组数据中某一组数据中某一组数据中某 个数值的大小模个数值的大小模个数值的大小模个数值的大小模 糊不清或不够确糊不清或不够确糊不清或不够确糊不清或不够确 切时无法计算切时无法计算切时无法计算切时无法计算算术平均数的几个特殊优点算术平均数的几个特殊优点n n只只只只知知知知一一一一组组组组观观观观察察察察值值值值的的的的总总总总和和和和及及及及总总总总次次次次数数数数就就就就可可可可以以以以求求求求出出出出算术平均数。算术平均数。算术平均数。算术平均数。n n用加权法可以求出几个平均数的总平均数。用加权法可以求出几个平均数的总平均数。用加权法可以求出几个平均数的总平均数。用加权法可以求出几个平均数的总平均数。n n用用用用样样样样本本本本数数数数据据据据推推推推断断断断总总总总体体体体集集集集中中中中量量量量时时时时,算算算算术术术术平平平平均均均均数数数数最最最最接接接接近近近近于于于于总总总总体体体体集集集集中中中中量量量量的的的的真真真真值值值值,它它它它是是是是总总总总体体体体平平平平均均均均数的最好估计值。数的最好估计值。数的最好估计值。数的最好估计值。n n在在在在计计计计算算算算方方方方差差差差、标标标标准准准准差差差差、相相相相关关关关系系系系数数数数以以以以及及及及进进进进行行行行统统统统计推断时,都要用到它。计推断时,都要用到它。计推断时,都要用到它。计推断时,都要用到它。(2)加权平均数)加权平均数n n加权平均数是不同比重数据(或平均加权平均数是不同比重数据(或平均数)的平均数。用数)的平均数。用 表示。表示。n n其计算公式有两种形式其计算公式有两种形式(3)中位数)中位数n n定义定义:中位数是把按从小到大(从大到中位数是把按从小到大(从大到小)排列的一组数据一分为二的数值。小)排列的一组数据一分为二的数值。n n中位数的计算:中位数的计算:1.用原始数据计算(分奇数个数据和偶用原始数据计算(分奇数个数据和偶数个数据)数个数据)2.利用次数分布表计算利用次数分布表计算 利用次数分布表计算中位数利用次数分布表计算中位数(1 1)计算公式)计算公式)计算公式)计算公式(由小向大计算由小向大计算由小向大计算由小向大计算)表示中位数所在组的下限;表示中位数所在组的下限;表示中位数所在组的下限;表示中位数所在组的下限;N N表示总频数;表示总频数;表示总频数;表示总频数;中位数所在组的频数;中位数所在组的频数;中位数所在组的频数;中位数所在组的频数;表示小于中位数所在组下限的频数综合。表示小于中位数所在组下限的频数综合。表示小于中位数所在组下限的频数综合。表示小于中位数所在组下限的频数综合。中位数的优缺点与应用中位数的优缺点与应用优点优点优点优点:不易受极端值影响不易受极端值影响不易受极端值影响不易受极端值影响缺点缺点缺点缺点:不适合代数计算不适合代数计算不适合代数计算不适合代数计算应用条件应用条件应用条件应用条件:n n一一一一组组组组数据中有特大或特小两极端数值时;数据中有特大或特小两极端数值时;数据中有特大或特小两极端数值时;数据中有特大或特小两极端数值时;n n一组数据中两端数据或个别数据不确切、不一组数据中两端数据或个别数据不确切、不一组数据中两端数据或个别数据不确切、不一组数据中两端数据或个别数据不确切、不清楚时;清楚时;清楚时;清楚时;n n当需要快速估计一组数据的代表值时;当需要快速估计一组数据的代表值时;当需要快速估计一组数据的代表值时;当需要快速估计一组数据的代表值时;n n数据资料属于等级性质时。数据资料属于等级性质时。数据资料属于等级性质时。数据资料属于等级性质时。(4)众数)众数n n众数的概念众数的概念 理论众数理论众数是指与频数分布曲线最高点相是指与频数分布曲线最高点相对应的横坐标上的一点。对应的横坐标上的一点。粗略众数粗略众数是指一组数据中频数出现最多是指一组数据中频数出现最多的那个数。的那个数。n n众数的计算方法众数的计算方法(1)用观察法直接寻找众数用观察法直接寻找众数 在频数分布表中在频数分布表中,频数最多一组的组频数最多一组的组中值就是粗略众数。当两个相邻的组的中值就是粗略众数。当两个相邻的组的频数都是最多时,那么两分组的分组点频数都是最多时,那么两分组的分组点就是众数。就是众数。(2)皮尔逊的经验法)皮尔逊的经验法 当频数分布呈正态或接近正态时,皮当频数分布呈正态或接近正态时,皮尔逊发现众数近似地等于尔逊发现众数近似地等于3 3倍的中位数减倍的中位数减去去2 2倍的算术平均数。倍的算术平均数。众数的计算方法众数的计算方法众数的适用情况众数的适用情况n n当当需要快速而又粗略地找出一组数据的需要快速而又粗略地找出一组数据的代表值时。代表值时。n n当需要利用算术平均值、中位数、众数当需要利用算术平均值、中位数、众数三者关系来粗略判断频数分布的形态时。三者关系来粗略判断频数分布的形态时。n n利用众数帮助分析解释一组次数分布是利用众数帮助分析解释一组次数分布是否确实具有两个次数最多的集中点时。否确实具有两个次数最多的集中点时。平均数、中位数、众数三者之间的关系常用中心测度概括常用中心测度概括测度测度测度测度特点特点特点特点使用注意事项使用注意事项使用注意事项使用注意事项众数众数众数众数适合于描述分类适合于描述分类适合于描述分类适合于描述分类 变量或变量或变量或变量或称名称名称名称名 变量的趋中程度变量的趋中程度变量的趋中程度变量的趋中程度 不准确、信息量有限、不准确、信息量有限、不准确、信息量有限、不准确、信息量有限、易产生误导易产生误导易产生误导易产生误导 中数中数中数中数如果需要知道数据分布如果需要知道数据分布如果需要知道数据分布如果需要知道数据分布的中点或者数据分布明的中点或者数据分布明的中点或者数据分布明的中点或者数据分布明显偏态时,优先使用。显偏态时,优先使用。显偏态时,优先使用。显偏态时,优先使用。对存在的极端高或极端对存在的极端高或极端对存在的极端高或极端对存在的极端高或极端低的数值不敏感低的数值不敏感低的数值不敏感低的数值不敏感平均平均平均平均数数数数是最经常使用、最容易是最经常使用、最容易是最经常使用、最容易是最经常使用、最容易计算、容易理解的趋中计算、容易理解的趋中计算、容易理解的趋中计算、容易理解的趋中测度测度测度测度对极值很敏感。如果数对极值很敏感。如果数对极值很敏感。如果数对极值很敏感。如果数据中存在较多的极值,据中存在较多的极值,据中存在较多的极值,据中存在较多的极值,或者分布明显偏态,可或者分布明显偏态,可或者分布明显偏态,可或者分布明显偏态,可能产生误导能产生误导能产生误导能产生误导加权加权加权加权平均平均平均平均数数数数需要了解若干容量不同需要了解若干容量不同需要了解若干容量不同需要了解若干容量不同的子群体的总平均分的子群体的总平均分的子群体的总平均分的子群体的总平均分权重的使用最为重要,权重的使用最为重要,权重的使用最为重要,权重的使用最为重要,尤其是子群体容量明显尤其是子群体容量明显尤其是子群体容量明显尤其是子群体容量明显不同时不同时不同时不同时(二)变化测度(二)变化测度 变化测度变化测度是描述一组数据的变化程度是描述一组数据的变化程度或分散程度的数值。最常用的变化测度或分散程度的数值。最常用的变化测度包括:包括:(1)全距(全距)全距(全距=最高分最高分-最低分)最低分)(2)方差与标准偏差)方差与标准偏差 (3)四分位差)四分位差 (4)极值)极值(2)平均差、方差与标准差)平均差、方差与标准差平均差(平均差(MDMD):就是每一个数据与该组就是每一个数据与该组数据的中位数(或算术平均数)离差的数据的中位数(或算术平均数)离差的绝对值的算术平均数。绝对值的算术平均数。平均差的优缺点平均差的优缺点与极差相比,平均差是利用全部数与极差相比,平均差是利用全部数据信息计算的,意义明确,计算容易,据信息计算的,意义明确,计算容易,较好地度量了次数分布的离散程度。但较好地度量了次数分布的离散程度。但计算要用到绝对值,使它的应用大大受计算要用到绝对值,使它的应用大大受到限制。到限制。方差方差n n方差是指离差平方和的算术平均数。用方差是指离差平方和的算术平均数。用 表示。表示。方差虽然避免了绝对值的麻烦,但方差虽然避免了绝对值的麻烦,但却又使变量的单位变成原单位的平方。却又使变量的单位变成原单位的平方。标准差标准差标准差是指离差平方和平均后的方根,即标准差是指离差平方和平均后的方根,即方差的平方根。用方差的平方根。用 表示。表示。方差与标准差的优缺点方差与标准差的优缺点n n优点优点:反映灵敏,严密确定,计算简单,反映灵敏,严密确定,计算简单,用样本数据推断总体差异量时,方差与用样本数据推断总体差异量时,方差与标准差是最好的估计量标准差是最好的估计量。n n缺点缺点:易受极端数值的影响,有个别数易受极端数值的影响,有个别数据模糊不清时便无法计算。据模糊不清时便无法计算。(3)四分位差)四分位差百分位数百分位数百分位数百分位数:就是次数分布中相对于某个特定百分就是次数分布中相对于某个特定百分就是次数分布中相对于某个特定百分就是次数分布中相对于某个特定百分点的原始分数。百分位数的计算公式如下:点的原始分数。百分位数的计算公式如下:点的原始分数。百分位数的计算公式如下:点的原始分数。百分位数的计算公式如下:P P P Pm m m m第第第第m m m m百分位数;百分位数;百分位数;百分位数;L L L LP P P Pm m m m所在组的组下限;所在组的组下限;所在组的组下限;所在组的组下限;fPfPfPfPm m m m所在组的次数;所在组的次数;所在组的次数;所在组的次数;F F F Fb b b b小于小于小于小于L L L L的累计次数。的累计次数。的累计次数。的累计次数。百分位差百分位差百分位差百分位差:是指两个百分位数之差。常用是指两个百分位数之差。常用的有:的有:四分位差四分位差若将从小到大排列的一组数据分成频数相若将从小到大排列的一组数据分成频数相若将从小到大排列的一组数据分成频数相若将从小到大排列的一组数据分成频数相等的四段,第一与第二段的分界点称为第一等的四段,第一与第二段的分界点称为第一等的四段,第一与第二段的分界点称为第一等的四段,第一与第二段的分界点称为第一个四分位数。第三段与第四段的分界点称为个四分位数。第三段与第四段的分界点称为个四分位数。第三段与第四段的分界点称为个四分位数。第三段与第四段的分界点称为第三个四分位数。则四分位差就是第三个四第三个四分位数。则四分位差就是第三个四第三个四分位数。则四分位差就是第三个四第三个四分位数。则四分位差就是第三个四分位数(第分位数(第分位数(第分位数(第75757575百分位数)与第一个四分位数百分位数)与第一个四分位数百分位数)与第一个四分位数百分位数)与第一个四分位数(第(第(第(第25252525百分位数)的差。公式为:百分位数)的差。公式为:百分位数)的差。公式为:百分位数)的差。公式为:极差、百分位差、四分位差极差、百分位差、四分位差极差极差极差极差:最简单、最易理:最简单、最易理:最简单、最易理:最简单、最易理解的差异量数,但也是解的差异量数,但也是解的差异量数,但也是解的差异量数,但也是最粗糙、最不可靠的值。最粗糙、最不可靠的值。最粗糙、最不可靠的值。最粗糙、最不可靠的值。级差明显地受取样变级差明显地受取样变级差明显地受取样变级差明显地受取样变动的影响,一般情况下动的影响,一般情况下动的影响,一般情况下动的影响,一般情况下主要用于对数据做预备主要用于对数据做预备主要用于对数据做预备主要用于对数据做预备性检查,了解数据的大性检查,了解数据的大性检查,了解数据的大性检查,了解数据的大概散布范围,以便确定概散布范围,以便确定概散布范围,以便确定概散布范围,以便确定如何进行统计分组。如何进行统计分组。如何进行统计分组。如何进行统计分组。百分位差与四分位差百分位差与四分位差百分位差与四分位差百分位差与四分位差:与极差相比,避免了极与极差相比,避免了极与极差相比,避免了极与极差相比,避免了极端数据的影响,但由于端数据的影响,但由于端数据的影响,但由于端数据的影响,但由于没有把全部数据考虑在没有把全部数据考虑在没有把全部数据考虑在没有把全部数据考虑在内,其稳定性会差一些。内,其稳定性会差一些。内,其稳定性会差一些。内,其稳定性会差一些。另外,它们也不适合另外,它们也不适合另外,它们也不适合另外,它们也不适合代数方法运算,反应不代数方法运算,反应不代数方法运算,反应不代数方法运算,反应不够灵敏,应用不多够灵敏,应用不多够灵敏,应用不多够灵敏,应用不多。(4)极值)极值 极值极值是指位于数据总体分布之外的一是指位于数据总体分布之外的一些极端的数值。极值的产生可能主要有些极端的数值。极值的产生可能主要有下列原因:下列原因:(1)极值是真的测量结果;)极值是真的测量结果;(2)可能是由于数据记录或录入误差)可能是由于数据记录或录入误差造成的;造成的;(3)极值数据可能来自其他总体。)极值数据可能来自其他总体。确定极值的方法确定极值的方法 统计学上通常用四分位数和四分位距作为统计学上通常用四分位数和四分位距作为统计学上通常用四分位数和四分位距作为统计学上通常用四分位数和四分位距作为确定极值的工具,过程如下:确定极值的工具,过程如下:确定极值的工具,过程如下:确定极值的工具,过程如下:(1 1)首先根据四分位数和四分位距确定数)首先根据四分位数和四分位距确定数)首先根据四分位数和四分位距确定数)首先根据四分位数和四分位距确定数据分布的上、下限:据分布的上、下限:据分布的上、下限:据分布的上、下限:下限下限=Q1-.1.5IQR;上限上限=Q3+1.5IQR (2 2)小于下限和大于上限的观察值就是潜小于下限和大于上限的观察值就是潜小于下限和大于上限的观察值就是潜小于下限和大于上限的观察值就是潜在的极值。在的极值。在的极值。在的极值。(3 3)确定了潜在的观察值后,可以用直方)确定了潜在的观察值后,可以用直方)确定了潜在的观察值后,可以用直方)确定了潜在的观察值后,可以用直方图、茎叶图等进一步检查这些观察值是否真图、茎叶图等进一步检查这些观察值是否真图、茎叶图等进一步检查这些观察值是否真图、茎叶图等进一步检查这些观察值是否真的是极值。的是极值。的是极值。的是极值。(三)分布形态测度(三)分布形态测度偏度偏度偏度偏度:是描述数据分布对称性的测度。是描述数据分布对称性的测度。是描述数据分布对称性的测度。是描述数据分布对称性的测度。偏度偏度数据呈对称分布,此时平均数与中数相等;数据呈对称分布,此时平均数与中数相等;数据呈正偏态,此时平均数大于中数;数据呈正偏态,此时平均数大于中数;数据呈负偏态,此时平均数小于中数。数据呈负偏态,此时平均数小于中数。峰度峰度 峰度峰度峰度峰度是描述数据围绕平均数分布的紧密程度,是描述数据围绕平均数分布的紧密程度,是描述数据围绕平均数分布的紧密程度,是描述数据围绕平均数分布的紧密程度,或者分散程度。或者分散程度。或者分散程度。或者分散程度。峰度峰度 与平均数、标准偏差一样,峰度对极端值的存在与平均数、标准偏差一样,峰度对极端值的存在与平均数、标准偏差一样,峰度对极端值的存在与平均数、标准偏差一样,峰度对极端值的存在非常敏感。统计学上,将数据分布分为三种类型,非常敏感。统计学上,将数据分布分为三种类型,非常敏感。统计学上,将数据分布分为三种类型,非常敏感。统计学上,将数据分布分为三种类型,即常峰态、低峰态和尖峰态。即常峰态、低峰态和尖峰态。即常峰态、低峰态和尖峰态。即常峰态、低峰态和尖峰态。数据呈常峰态。一般而言,钟型分布和正态数据呈常峰态。一般而言,钟型分布和正态数据呈常峰态。一般而言,钟型分布和正态数据呈常峰态。一般而言,钟型分布和正态分布都是常峰态的。分布都是常峰态的。分布都是常峰态的。分布都是常峰态的。数据呈低峰态,即中间部分的数据较少,相数据呈低峰态,即中间部分的数据较少,相数据呈低峰态,即中间部分的数据较少,相数据呈低峰态,即中间部分的数据较少,相当一部分数据分布在两端极端高或极端低的位置,当一部分数据分布在两端极端高或极端低的位置,当一部分数据分布在两端极端高或极端低的位置,当一部分数据分布在两端极端高或极端低的位置,而且这种分布的偏度指数一般不太高。而且这种分布的偏度指数一般不太高。而且这种分布的偏度指数一般不太高。而且这种分布的偏度指数一般不太高。数据呈尖峰态,即相当一部分数据分布在少数数据呈尖峰态,即相当一部分数据分布在少数数据呈尖峰态,即相当一部分数据分布在少数数据呈尖峰态,即相当一部分数据分布在少数的位置,这个位置可以是靠中间的位置,也可以是的位置,这个位置可以是靠中间的位置,也可以是的位置,这个位置可以是靠中间的位置,也可以是的位置,这个位置可以是靠中间的位置,也可以是靠某一端的位置,其他位置的数据分布明显较少。靠某一端的位置,其他位置的数据分布明显较少。靠某一端的位置,其他位置的数据分布明显较少。靠某一端的位置,其他位置的数据分布明显较少。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!