统计学-第3章--数据分布特征描述课件

上传人:文**** 文档编号:241801391 上传时间:2024-07-25 格式:PPT 页数:82 大小:804.28KB
返回 下载 相关 举报
统计学-第3章--数据分布特征描述课件_第1页
第1页 / 共82页
统计学-第3章--数据分布特征描述课件_第2页
第2页 / 共82页
统计学-第3章--数据分布特征描述课件_第3页
第3页 / 共82页
点击查看更多>>
资源描述
n以数值特征,对以数值特征,对统计数据分布统计数据分布进行进行量化描述量化描述。n主要包括三方面:主要包括三方面:集中趋势集中趋势 用用平均指标平均指标描述(位置特征);描述(位置特征);离中趋势离中趋势 用用变异指标变异指标描述(离散特征);描述(离散特征);偏斜程度偏斜程度 用用偏度偏度和和峰度峰度描述(偏斜特征、峰度特征)。描述(偏斜特征、峰度特征)。本章学习任务本章学习任务以数以数值值特征,特征,对统计对统计数据分布数据分布进进行量化描述。本章学行量化描述。本章学习习任任务务0n学习要求:学习要求:理解理解测度统计数据集中趋势、离散程度的概念、测度统计数据集中趋势、离散程度的概念、指标、相互关系;指标、相互关系;掌握掌握主要分析指标主要分析指标的的计算方法计算方法和和应用场合,应用场合,并能并能熟练熟练进行相关进行相关计算分析计算分析。学学习习要求:要求:1数据分布特征与测度:概览数据分布特征与测度:概览集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状形状形状形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)数据分布特征与数据分布特征与测测度:概度:概览览集中集中趋势趋势 偏偏态态和峰和峰态态离中离中趋势趋势2数据分布特征测度数据分布特征测度分布形状分布形状集中趋势集中趋势离散程度离散程度幂平均数幂平均数中位数中位数众众 数数异众比率异众比率方差、标准差方差、标准差峰峰 度度平均差平均差极差极差偏偏 度度 变异系数变异系数数据分布特征数据分布特征测测度分布形状集中度分布形状集中趋势趋势离散程度离散程度幂幂平均数中位数众平均数中位数众 3第一节第一节 统计变量集中趋势测定统计变量集中趋势测定一一 集中趋势指标及作用集中趋势指标及作用二二 数值平均数数值平均数三三 众数与中位数(众数与中位数(位置平均数位置平均数)第一第一节节 统计变统计变量集中量集中趋势测趋势测定一定一 集中集中趋势趋势指指标标及作用及作用4一、集中趋势指标及作用一、集中趋势指标及作用n集中趋势集中趋势(Central tendency)集中趋势集中趋势 即即一组数据一组数据向其向其中心值中心值聚集或靠聚集或靠拢拢的的倾向和程度倾向和程度。用用平均指标平均指标表示,代表数据的表示,代表数据的一一般水平般水平。测定测定集中趋势集中趋势是认识数据分布特征的是认识数据分布特征的基本内容基本内容。一、集中一、集中趋势趋势指指标标及作用集中及作用集中趋势趋势(Central tenden5n集中趋势指标有两类:集中趋势指标有两类:数值平均数数值平均数 根据根据全部数据计算得到全部数据计算得到的代表值。的代表值。优点:优点:数学性质良好,可用于统计推断数学性质良好,可用于统计推断 缺点:缺点:易受极端值影响易受极端值影响。主要有主要有算术平均数、调和平均数算术平均数、调和平均数及及几几何平均数何平均数,三者均为,三者均为幂平均数幂平均数特例。特例。集中集中趋势趋势指指标标有两有两类类:6位置平均数位置平均数 根据根据对总体中处于特定位置的单个或部对总体中处于特定位置的单个或部分单位标志值直接观察或推算确定分单位标志值直接观察或推算确定的代表值。的代表值。优点:优点:不易受极端值影响,具有较好稳健性。不易受极端值影响,具有较好稳健性。缺点:缺点:不宜用作统计推断不宜用作统计推断。主要包括主要包括众数众数和和中位数中位数。位置平均数位置平均数7n集中趋势指标作用集中趋势指标作用1反映变量分布的反映变量分布的集中趋势集中趋势和和一般水平一般水平。如用平均工资了解职工工资分布的中心,反映职工工资的一般水平。2比较同一现象在不同空间或不同阶段的发展比较同一现象在不同空间或不同阶段的发展水平,反映现象水平,反映现象变化特征变化特征、趋势趋势和和规律性规律性。能消除总体规模差异造成的不利影响;在一定程度上减弱偶然因素的影响。一、集中趋势指标及作用一、集中趋势指标及作用集中集中趋势趋势指指标标作用一、集中作用一、集中趋势趋势指指标标及作用及作用83分析现象之间的分析现象之间的依存关系依存关系。如研究劳动者文化程度与收入的关系。4(数值)平均指标是推断统计中的(数值)平均指标是推断统计中的重要重要统计量统计量,是进行统计推断的基础。,是进行统计推断的基础。3分析分析现现象之象之间间的依存关系。的依存关系。9几种常见的位置特征数几种常见的位置特征数n数据分布的位置特征数实际上也是数据的代表值实际上也是数据的代表值,代表了数据的一般水平。n在不同场合,可以适当选用平均数、中位数、众数充当位置特征数(代表值)n其中平均数不同于中位数、众数的特点在于:其中平均数不同于中位数、众数的特点在于:平均数是由所研究的全体数据参加计算所得。n平均数的一般形式叫做幂平均数幂平均数。常见的有算术平均数、几何平均数、调和平均数。几种常几种常见见的位置特征数数据分布的位置特征数的位置特征数数据分布的位置特征数实际实际上也是数据的代表上也是数据的代表10二、数值平均数二、数值平均数(一)幂平均数(一)幂平均数幂,power变量X取N个值:。权数为一组正数:。加权幂平均数一般形式为:其中,k 为任意实数。二、数二、数值值平均数(一)平均数(一)幂幂平均数平均数11权数w均相等时,加权平均数退化为简单平均数:权权数数w均相等均相等时时,加,加权权平均数退化平均数退化为简单为简单平均数:平均数:12n特例情况特例情况 幂平均数幂平均数算术平均数(幂指数算术平均数(幂指数 k=1)调和平均数(幂指数调和平均数(幂指数 k=-1)几何平均数(幂指数几何平均数(幂指数 k0)其他幂平均数其他幂平均数特例情况特例情况 幂幂平均数算平均数算术术平均数(平均数(幂幂指数指数 k=1)调调和平均数(和平均数(13nk=1:算术平均数算术平均数加权加权简单简单k=1:算算术术平均数平均数14nk=-1:调和平均数调和平均数加权加权简单简单k=-1:调调和平均数和平均数15nk0:几何平均数几何平均数加权加权简单简单k0:几何平均数几何平均数16关于加权问题关于加权问题n权数确定方式:客观权数:权数由实际统计资料获得获得或推算推算。主观权数:根据研究问题,由研究者主观赋值主观赋值。n权数作用:权衡权衡变量的各种取值在计算平均数时的重重要性要性。权数作用,根本上是通过权数结构权数结构实现。关于加关于加权问题权问题17n权数作用:即使不改变被平均的数值,仅改变权数结构,即可改变平均数水平。例如,改变教师职称结构,而不改变各种职例如,改变教师职称结构,而不改变各种职称教师课时费标准,会改变平均课时费水平。称教师课时费标准,会改变平均课时费水平。n权数实质权数的实质实质在于其结构,即结构比例形式(比重权数)。其更能清晰表明权数之权衡轻重权衡轻重的作用。权权数作用:数作用:18n权数形式有2种:绝对数形式结构比例形式 权权数形式有数形式有2种:种:19(二)算术平均数(二)算术平均数算术平均数算术平均数(Arithmetic mean),也称均),也称均值(值(mean)。)。由一组数据的总和(由一组数据的总和(总体标志总量总体标志总量)除以)除以该组数据的项数(该组数据的项数(总体单位总量总体单位总量)得到)得到;算术平均数算术平均数=总体标志总量总体标志总量/总体单位总量总体单位总量是最常用的数值平均数;是最常用的数值平均数;根据掌握资料不同,其有多种计算公式。根据掌握资料不同,其有多种计算公式。(二)算(二)算术术平均数平均数201简单算术平均数简单算术平均数对对未分组数据未分组数据,采用简单算术平均数公式。即,采用简单算术平均数公式。即把各项数据直接加总,然后除以总项数。把各项数据直接加总,然后除以总项数。计算公式:计算公式:1简单简单算算术术平均数平均数21分组分组举例举例n解解:采用简单算术平均法计算,即全体队员的平采用简单算术平均法计算,即全体队员的平均年龄为(单位:周岁)均年龄为(单位:周岁)分组数据不能简单平均分组数据不能简单平均!因为各组变量值的次!因为各组变量值的次数(权数)不等!数(权数)不等!若采用简单平均:若采用简单平均:应采用加权平均。应采用加权平均。两种计算公式结果相同!两种计算公式结果相同!分分组举组举例解:采用例解:采用简单简单算算术术平均法平均法计计算,即全体算,即全体队员队员的平均年的平均年龄为龄为(222加权算术平均数加权算术平均数对对单项式分组资料单项式分组资料,应以各标志值出现,应以各标志值出现次数为权数次数为权数加权加权平均平均。加权算术平均数计算公式:加权算术平均数计算公式:n例例3-1单项式单项式分组资料(表分组资料(表3-2)计算方法为:)计算方法为:2加加权权算算术术平均数平均数233由组距分组资料计算由组距分组资料计算组距分组组距分组资料中,资料中,各组变量值不唯一各组变量值不唯一,是一个,是一个区间区间;计算时,各组变量值通常用计算时,各组变量值通常用组中值(近似)代表组中值(近似)代表;用组中值代替实际值,其用组中值代替实际值,其假定条件假定条件是是各组内数据呈均匀分各组内数据呈均匀分布或对称分布布或对称分布。由于实际情况中该条件未必满足,故计算。由于实际情况中该条件未必满足,故计算结果是结果是近似值近似值;与单项式分组资料一样,采用加权算术平均数计算。与单项式分组资料一样,采用加权算术平均数计算。3由由组组距分距分组资组资料料计计算算24举例举例解:平均使用寿命为解:平均使用寿命为举举例解:平均使用寿命例解:平均使用寿命为为254比率类型统计变量求平均数比率类型统计变量求平均数(1)比率类型统计变量,指)比率类型统计变量,指平均指标平均指标和和相对指标相对指标。(2)对比率类型变量求平均,涉及)对比率类型变量求平均,涉及个体比率个体比率 和和总总比率比率 两个概念。两个概念。(3)对比率类型变量计算平均数,基本要求是:)对比率类型变量计算平均数,基本要求是:比率类型比率类型变量变量平均值平均值M,等于等于个体比率个体比率的的总比率总比率。简言之:。简言之:先求和,先求和,再对比再对比。(4)根据掌握资料不同,可采用)根据掌握资料不同,可采用三种等价形式三种等价形式:总比率,加权算术平均,加权调和平均总比率,加权算术平均,加权调和平均4比率比率类类型型统计变统计变量求平均数量求平均数26例如:对例如:对相对数相对数求算术平均数求算术平均数u对对相对数相对数而言,由于各个而言,由于各个相对数的对比基础不同,相对数的对比基础不同,采用简单算术平均不合理,采用简单算术平均不合理,必须加权平均。必须加权平均。权数选择必须符合该相对数权数选择必须符合该相对数本身的计算公式,通常为该本身的计算公式,通常为该相对数的相对数的分母分母指标。指标。对表对表3-4的分组资料:的分组资料:其中,分母其中,分母b为权数为权数f 例如:例如:对对相相对对数求算数求算术术平均数平均数27又如:对又如:对平均数平均数求算术平均数求算术平均数n某商贸公司购入一批水果,分等级收购价格和收购金额如下某商贸公司购入一批水果,分等级收购价格和收购金额如下表。试求这批水果的平均收购价格。表。试求这批水果的平均收购价格。n解:解:又如:又如:对对平均数求算平均数求算术术平均数平均数285算术平均数主要数学性质算术平均数主要数学性质(1)算术平均数与变量值个数乘积,等于各变量值总和。)算术平均数与变量值个数乘积,等于各变量值总和。(2)各变量值与算术平均数的离差之总和,等于零。)各变量值与算术平均数的离差之总和,等于零。(3)各变量值与算术平均数的离差平方之总和最小。)各变量值与算术平均数的离差平方之总和最小。(从全(从全部数据看,算术平均数最接近所有变量值)部数据看,算术平均数最接近所有变量值)5算算术术平均数主要数学性平均数主要数学性质质29n性质(性质(3)证明:)证明:性性质质(3)证证明:明:30(三)调和平均数(三)调和平均数(Harmonic mean)调和平均数,也称倒数平均数。调和平均数,也称倒数平均数。各变量值各变量值倒数倒数(1/xi)的)的算术平均数算术平均数的的倒数倒数。计算公式为:计算公式为:(三)(三)调调和平均数(和平均数(Harmonic mean)31n社会经济统计中所应用的调和平均数,通常是加权算社会经济统计中所应用的调和平均数,通常是加权算术平均数的术平均数的变形变形。n已知各组变量值已知各组变量值 xi 和(和(xi fi)而缺乏)而缺乏 fi 时,加权算术时,加权算术平均数通常可变形为调和平均数形式来计算。平均数通常可变形为调和平均数形式来计算。n回忆回忆3-4求解:求解:社会社会经济统计经济统计中所中所应应用的用的调调和平均数,通常是加和平均数,通常是加权权算算术术平均数的平均数的变变形形32(四)几何平均数(四)几何平均数(Geometric mean)n简单几何平均数简单几何平均数 n个变量值连乘积的个变量值连乘积的n次方根。次方根。n加权几何平均数加权几何平均数n适用于各个变量值之间存在连乘积关系的场合。适用于各个变量值之间存在连乘积关系的场合。主要用于计算现象的主要用于计算现象的平均发展速度平均发展速度(第九章);(第九章);也适用于对某些具有环比性质的也适用于对某些具有环比性质的比率求平均比率求平均(下例)。(下例)。(四)几何平均数(四)几何平均数(Geometric mean)33举例举例n例例3-5。某企业产品的加工要顺次经过前后衔接的五道。某企业产品的加工要顺次经过前后衔接的五道工序。本月该企业各加工工序的合格率分别为工序。本月该企业各加工工序的合格率分别为88、85、90、92、96,试求这五道工序的平均合,试求这五道工序的平均合格率。格率。n解:本例中各工序的合格率具有环比的性质,企业产解:本例中各工序的合格率具有环比的性质,企业产品的总合格率等于各工序合格率之连乘积。所以,所品的总合格率等于各工序合格率之连乘积。所以,所求平均合格率应为:求平均合格率应为:举举例例例例3-5。某企。某企业产业产品的加工要品的加工要顺顺次次经过经过前后前后衔衔接的五道工序。接的五道工序。34(五)几种平均数大小关系(五)几种平均数大小关系 对同一批数据和权数,三种平均数关系:对同一批数据和权数,三种平均数关系:调和平均调和平均 几何平均几何平均 算术平均算术平均当且仅当所有观察值全部相等时,等号成立;否当且仅当所有观察值全部相等时,等号成立;否则不等式严格成立。则不等式严格成立。证明思路:证明思路:首先证明幂平均数随幂值首先证明幂平均数随幂值 k 单调递增变化(可由单调递增变化(可由微分方法证明)。微分方法证明)。根据三类平均数根据三类平均数 k 取值关系,调和平均数(取值关系,调和平均数(k=-1)、)、几何平均数(几何平均数(k0)、算术平均数()、算术平均数(k=1)可得到)可得到以上结论。以上结论。(五)几种平均数大小关系(五)几种平均数大小关系35平均数的应用场合平均数的应用场合n常见的应用场合有:常见的应用场合有:作为统计指标的一种表现形式作为统计指标的一种表现形式作为统计总体分布的位置特征数作为统计总体分布的位置特征数反映一个统计变量所有观察值的一般水平反映一个统计变量所有观察值的一般水平抵消掉随机试验中的偶然因素影响,显示出试验抵消掉随机试验中的偶然因素影响,显示出试验的规律性水平。的规律性水平。平均数的平均数的应应用用场场合常合常见见的的应应用用场场合有:合有:36n数据是随机试验的结果。数据是随机试验的结果。n随机试验的个别结果会呈现出或高或低的起伏波动,随机试验的个别结果会呈现出或高或低的起伏波动,实际上这是由偶然因素影响造成的。实际上这是由偶然因素影响造成的。n在进行大量重复试验,将试验结果简单算术平均,那在进行大量重复试验,将试验结果简单算术平均,那么随着试验次数的增加,算术平均值就会越来越逼近么随着试验次数的增加,算术平均值就会越来越逼近一个稳定值,而这个稳定值就是试验的规律性水平一个稳定值,而这个稳定值就是试验的规律性水平(数学期望值)。(数学期望值)。n因此,在统计分析中,常常采用算术平均的手法去抵因此,在统计分析中,常常采用算术平均的手法去抵消现象中的偶然影响,以期消现象中的偶然影响,以期近似地近似地认识现象的规律性认识现象的规律性水平。水平。数据是随机数据是随机试验试验的的结结果。果。37三、众数与中位数三、众数与中位数(一)众数(一)众数(Mode)n众数是一组数据中众数是一组数据中出现出现频数最多、频率最高频数最多、频率最高的变量的变量值,常用值,常用 Mo 表示。表示。n众数代表最常见、最普遍的状况,可度量现象集中众数代表最常见、最普遍的状况,可度量现象集中趋势。趋势。可测度可测度定性变量定性变量集中趋势,也可度量集中趋势,也可度量定量变量定量变量集中趋势。集中趋势。在社会经济现象的管理决策中具有广泛应用。在社会经济现象的管理决策中具有广泛应用。三、众数与中位数(一)众数(三、众数与中位数(一)众数(Mode)38n对分布数列求众数,具有对分布数列求众数,具有条件性条件性。存在性存在性:若分布数列没有明显集中趋势,则若分布数列没有明显集中趋势,则不存在不存在众数;众数;唯一性唯一性:若分布数列有多个相对集中趋势,则若分布数列有多个相对集中趋势,则有多个有多个众数。众数。从分布曲线上看,众数就是一个变量分布曲线的最高峰所对应的变量值。(见课本55页图3-1)n为确定众数,通常要编制分布数列。为确定众数,通常要编制分布数列。众数是分布曲线众数是分布曲线最高点最高点对应的标志值。对应的标志值。单项式单项式分布数列中,众数是具有最多次数的标志值,可分布数列中,众数是具有最多次数的标志值,可观观察察得到。如表得到。如表3-2中,众数值中,众数值Mo25,组距式组距式分布数列中,众数需要分布数列中,众数需要推算推算。对对分布数列求众数,具有条件性。分布数列求众数,具有条件性。39n组距分布数列中,众数推算方法:组距分布数列中,众数推算方法:先找到众数组。先找到众数组。u等距数列中,众数组是等距数列中,众数组是频数最多频数最多的组;的组;u异距数列中,众数组是异距数列中,众数组是频数密度频数密度最大的组。最大的组。根据众数组与其相邻两组的根据众数组与其相邻两组的次数差次数差推算(假定性)推算(假定性)。其公式有其公式有2,结果完全一致:,结果完全一致:具体计算:见教材例具体计算:见教材例3-7(P55)下限公式:下限公式:上限公式:上限公式:组组距分布数列中,众数推算方法:下限公式:距分布数列中,众数推算方法:下限公式:上限公式:上限公式:40统计统计学学-第第3章章-数据分布特征描述数据分布特征描述课课件件4140 50 60 70 80 90 10050 40 30 20 10A G FBCED频数频数x y(L)(U)Mo=L+x=U-yO40 50 60 42(二)中位数(二)中位数(Median)n中位数是将数据由小到大排列后中位数是将数据由小到大排列后位置居中位置居中的数值。的数值。标志值标志值小于小于或等于或等于中位数的单位占一半;中位数的单位占一半;标志值标志值大于大于或等于或等于中位数的单位也占一半。中位数的单位也占一半。用中位数代表总体标志值的一般水平,可以用中位数代表总体标志值的一般水平,可以避免极端值避免极端值影响影响,有时更具代表性。,有时更具代表性。MMe e50%50%(二)中位数(二)中位数(Median)Me50%50%43n未分组数据计算中位数未分组数据计算中位数若数据项数是若数据项数是奇数奇数,则位于,则位于中间的数值中间的数值为中为中位数;如位数;如5人收入为人收入为:1200,1450,1500,1600,2000元,则其收入中位元,则其收入中位数数 Me=1500。若数据项数是若数据项数是偶数偶数,则取,则取居中两个数值的平居中两个数值的平均数均数为中位数。如为中位数。如6人收入为人收入为:1200,1450,1500,1600,1800,2000元,则收入元,则收入中位数中位数 Me=1550。未分未分组组数据数据计计算中位数算中位数44n分组数据推算中位数分组数据推算中位数先确定先确定中位数组中位数组,即中间位置(,即中间位置(f/2)所在的组。)所在的组。对单项式分组,可对单项式分组,可直接得到直接得到中位数。中位数。对组距式分组,对组距式分组,假定假定中位数组内次数中位数组内次数均匀分布均匀分布,近似,近似推算推算中位数。中位数。计算公式有计算公式有2,结果完全一致:,结果完全一致:分分组组数据推算中位数数据推算中位数45n下限公式下限公式n上限公式上限公式下限公式下限公式46n分组数据推算中位数分组数据推算中位数先确定先确定中位数组中位数组,即中间位置(,即中间位置(f/2)所在的组。)所在的组。对单项式分组,可对单项式分组,可直接得到直接得到中位数。中位数。对组距式分组,对组距式分组,假定假定中位数组内次数中位数组内次数均匀分布均匀分布,近似,近似推算推算中位数。计算公式有中位数。计算公式有2,结果完全一致。见下例:,结果完全一致。见下例:下限公式:下限公式:上限公式:上限公式:分分组组数据推算中位数下限公式:数据推算中位数下限公式:上限公式:上限公式:47可由可由累计分布数列累计分布数列或或累计分布图累计分布图确定中位数。确定中位数。以累计频率分布曲线图为例以累计频率分布曲线图为例(该例与前面直方图数据一致该例与前面直方图数据一致)此例中,此例中,与累计频率与累计频率50%相对应的成绩相对应的成绩76分,即为中位数。分,即为中位数。向上累计图:向上累计图:60分以下有分以下有16.7%向下累计图:向下累计图:80分以上有分以上有38.9%可由累可由累计计分布数列或累分布数列或累计计分布分布图图确定中位数。向上累确定中位数。向上累计图计图:向下累:向下累计计48n中位数与分位数中位数与分位数四分位数、十分位数、百分位数分别是将数据由小到大排四分位数、十分位数、百分位数分别是将数据由小到大排序后,位于全部数据序后,位于全部数据1/4、1/10、1/100位置上的数值。位置上的数值。中位数实际上是第中位数实际上是第2个四分位数、第个四分位数、第5个十分位数、第个十分位数、第50个个百分位数。百分位数。分位数与其它指标结合,可以更详细地反映数据分布特征。分位数与其它指标结合,可以更详细地反映数据分布特征。n中位数使用场合与作用中位数使用场合与作用在在较较明明显显的的偏偏斜斜分分布布情情形形下下,用用中中位位数数来来说说明明次次数数分分布布位位置置特特征征较较为为适适中中。因因为为众众数数忽忽略略了了偏偏斜斜一一侧侧的的大大量量数数值值,而算术平均数又过分强调了这些数值。而算术平均数又过分强调了这些数值。算术平均数对特异值的反应十分灵敏,而中位数对特异值算术平均数对特异值的反应十分灵敏,而中位数对特异值反应不灵敏。常常把中位数(与算术平均数的差异大小)反应不灵敏。常常把中位数(与算术平均数的差异大小)作为作为探索发现特异值探索发现特异值的标准。的标准。中位数与分位数中位数与分位数49n箱线图(箱线图(box plot)箱线图由一组数据的最小值(箱线图由一组数据的最小值(xmin)、第一四分位数()、第一四分位数(Q1)、中位数()、中位数(Me)、第三四分位数()、第三四分位数(Q3)、最大值()、最大值(xmax)等五个数值来绘成。)等五个数值来绘成。利用箱线图可以观察数据分布的利用箱线图可以观察数据分布的范围、中心位置和对称性范围、中心位置和对称性等等特征,还可进行多组数据分布的比较。特征,还可进行多组数据分布的比较。xmin Q1 Me Q3 xmax箱箱线图线图(box plot)xmin Q1 50(三)众数、中位数和算术平均数比较(三)众数、中位数和算术平均数比较 0.三者均测度数据的集中趋势和一般水平。三者均测度数据的集中趋势和一般水平。1.算术平均数属于算术平均数属于数值平均数数值平均数,其综合利用全部数据信,其综合利用全部数据信息;息;众数和中位数则由数据分布的特定众数和中位数则由数据分布的特定位置位置确定。确定。2.算术平均数和中位数在任何一组数据中都算术平均数和中位数在任何一组数据中都存在存在,且具,且具有有惟一性惟一性;众数则不然,其计算和应用有两个前提条件:数据项众数则不然,其计算和应用有两个前提条件:数据项数众多,数众多,且具有明显的集中趋势。且具有明显的集中趋势。(三)众数、中位数和算(三)众数、中位数和算术术平均数比平均数比较较51 3.算术平均数只能用于算术平均数只能用于定量定量(数值型)数据;(数值型)数据;中位数适用于中位数适用于定序定序数据和数据和定量定量数据;数据;众数适用于众数适用于所有形式所有形式(各种类型及计量层次)的数据。(各种类型及计量层次)的数据。4.算术平均数受数据极端值影响,而众数和中位数都不算术平均数受数据极端值影响,而众数和中位数都不受极端值的影响。受极端值的影响。为排除极端值干扰,可计算切尾均值,即去掉数据中最大为排除极端值干扰,可计算切尾均值,即去掉数据中最大和最小的若干数值后计算的均值。和最小的若干数值后计算的均值。该思路常用于某些比赛计分规则中,如体操、跳水等。该思路常用于某些比赛计分规则中,如体操、跳水等。切尾均值是将算术平均数与中位数切尾均值是将算术平均数与中位数互相结合互相结合的结果。的结果。3.算算术术平均数只能用于定量(数平均数只能用于定量(数值值型)数据;型)数据;52 5.算术平均数可用于推算总体的有关总量指标,而中算术平均数可用于推算总体的有关总量指标,而中位数和众数则不宜用作此类推算。位数和众数则不宜用作此类推算。6.算术平均数和众数、中位数的算术平均数和众数、中位数的数量关系数量关系,取决于数,取决于数据分布的据分布的偏斜程度偏斜程度。对单峰钟形分布而言,三者数量。对单峰钟形分布而言,三者数量大小有如下关系:大小有如下关系:统计统计学学-第第3章章-数据分布特征描述数据分布特征描述课课件件53据例据例3-2,3-7,3-8结果,表结果,表3-3的灯泡寿命数据的灯泡寿命数据服从右偏分布。服从右偏分布。皮尔逊(皮尔逊(K.Pearson)经验公式:)经验公式:在轻微偏态时,三者的近似关系为在轻微偏态时,三者的近似关系为对称分布对称分布右偏分布右偏分布上上偏偏分布分布正偏分布正偏分布左偏分布左偏分布下偏分布下偏分布负偏分布负偏分布据例据例3-2,3-7,3-8结结果,表果,表3-3的灯泡寿命数据服从右的灯泡寿命数据服从右54第二节第二节 统计变量离散程度测定统计变量离散程度测定n一、离散程度指标及其作用一、离散程度指标及其作用n二、极差、四分位差和平均差二、极差、四分位差和平均差n三、方差和标准差三、方差和标准差n四、离散系数四、离散系数n五、异众比率五、异众比率第二第二节节 统计变统计变量离散程度量离散程度测测定一、离散程度指定一、离散程度指标标及其作用及其作用55一、离散程度指标及作用一、离散程度指标及作用n测度离散程度的指标,称为测度离散程度的指标,称为变异指标变异指标,分为两类:,分为两类:绝对数绝对数:极差、四分位差、平均差、方差和标准差。:极差、四分位差、平均差、方差和标准差。相对数相对数:离散系数、异众比率。:离散系数、异众比率。n离散程度指标作用:离散程度指标作用:1.说明数据分散程度,反映变量的说明数据分散程度,反映变量的稳定性、均衡性稳定性、均衡性。数据之间差异越大,变量的稳定性或均衡性越差。数据之间差异越大,变量的稳定性或均衡性越差。2.衡量平均数的衡量平均数的代表性代表性。离散程度越大,平均数的代表性就越小。离散程度越大,平均数的代表性就越小。3.统计推断统计推断的重要依据的重要依据判别统计推断前提条件是否成立;判别统计推断前提条件是否成立;衡量推断效果好坏的重要尺度。衡量推断效果好坏的重要尺度。一、离散程度指一、离散程度指标标及作用及作用测测度离散程度的指度离散程度的指标标,称,称为变为变异指异指标标,分,分为为56二、极差、四分位差和平均差二、极差、四分位差和平均差(一)极差(一)极差(Range)n极差极差(极值之差极值之差)是一组数据的最大值与最小值之差,是一组数据的最大值与最小值之差,常用常用 R 表示。表示。n对总体数据而言,极差能界定变量变化范围与幅度大对总体数据而言,极差能界定变量变化范围与幅度大小,也称小,也称全距全距。n组距数列中,极差组距数列中,极差最高组上限最高组上限-最低组下限。最低组下限。n优缺点:优缺点:优点:优点:计算简便、含义直观、容易理解计算简便、含义直观、容易理解。缺点:缺点:代表性差、稳健性差代表性差、稳健性差(仅利用尾端信息,未考虑数(仅利用尾端信息,未考虑数据中间分布情况,不能充分说明全部数据的差异程度)。据中间分布情况,不能充分说明全部数据的差异程度)。二、极差、四分位差和平均差(一)极差(二、极差、四分位差和平均差(一)极差(Range)57(二)四分位差(二)四分位差n第第3四分位数(四分位数(Q3)与第)与第1四分位数(四分位数(Q1)之差,常)之差,常用用Qd表示。计算公式为:表示。计算公式为:n实质是两端各去掉实质是两端各去掉1/4数据以后的数据以后的极差极差,表示占全部,表示占全部数据一半的数据一半的中间数据中间数据的离散程度。四分位差越大,表的离散程度。四分位差越大,表示数据离散程度越大。示数据离散程度越大。n在一定程度上在一定程度上改进改进极差,避免了极端值干扰。但对数极差,避免了极端值干扰。但对数据差异的反映,仍然据差异的反映,仍然不充分不充分。n使用场合:当用使用场合:当用中位数中位数测度数据集中趋势时,使用四测度数据集中趋势时,使用四分位差反映离散程度效果最好(分位差反映离散程度效果最好(匹配性匹配性)。(二)四分位差(二)四分位差58(三)平均差(三)平均差(Average Deviation)n定义:定义:平均差是平均差是各数据与其各数据与其均值(算术平均数)均值(算术平均数)的的离差绝对值离差绝对值的的算术平均数算术平均数。反映反映全部全部数据与其数据与其均值均值的的平均差距平均差距,以,以A.D表示。表示。n计算公式:计算公式:n优缺点:优缺点:含义清晰,能含义清晰,能全面全面反映数据离散程度。反映数据离散程度。取离差取离差绝对值绝对值进行平均,数学处理进行平均,数学处理不方便不方便,数学性质也非,数学性质也非最优。最优。分组数据分组数据:xi为各组组中值为各组组中值未分组数据未分组数据:xi为原始数据为原始数据(三)平均差(三)平均差(Average Deviation)分)分组组数据数据:59三、方差和标准差三、方差和标准差(一)(一)方差(方差(Variance)概念和计算)概念和计算n方差是全部数据与其方差是全部数据与其均值均值的的离差平方离差平方的的算术平均数算术平均数.n总体方差(总体方差(2)计算公式:)计算公式:n样本方差(常用样本方差(常用 S2 表示)分母应改为(表示)分母应改为(n-1)。只有)。只有如此,如此,才能保证才能保证s2是是2的的无偏估计量无偏估计量。分组数据:分组数据:未分组数据:未分组数据:三、方差和三、方差和标标准差(一)准差(一)方差(方差(Variance)概念和)概念和计计算分算分60n标准差(标准差(standard Deviation):方差的算术平方根。):方差的算术平方根。n总体标准差一般用总体标准差一般用 表示。计算公式为:表示。计算公式为:未分组数据:未分组数据:n样本标准差(样本标准差(S),分母应为(),分母应为(n-1)。)。n特点:特点:方差和标准差均方差和标准差均利用全部数据计算利用全部数据计算,能,能全面反映数据离散全面反映数据离散程度程度;且其;且其灵敏性灵敏性通常通常高高于平均差。于平均差。标准差比方差更容易理解标准差比方差更容易理解(计量单位与均值一致计量单位与均值一致)。在社)。在社会经济现象的统计分析中,标准差比方差会经济现象的统计分析中,标准差比方差应用普遍应用普遍,经,经常被用作测度数据与均值差距的标准尺度。常被用作测度数据与均值差距的标准尺度。分组数据:分组数据:标标准差(准差(standard Deviation):方差的算):方差的算术术平平61例例3-9n计算平均差、方差、标准差计算平均差、方差、标准差n由例由例3-2,已知该组数据算术平均数为,已知该组数据算术平均数为1542。例例3-9计计算平均差、方差、算平均差、方差、标标准差准差62统计统计学学-第第3章章-数据分布特征描述数据分布特征描述课课件件63(二)方差主要数学性质(二)方差主要数学性质常数方差等于零。如常数方差等于零。如a为常数,则为常数,则 变量线性函数的方差,等于变量系数的平方乘以变量的方变量线性函数的方差,等于变量系数的平方乘以变量的方差。设差。设a,b为常数,为常数,y=a+bx,则有:,则有:分组条件下,总体方差可以分解为组间方差与各组方差平分组条件下,总体方差可以分解为组间方差与各组方差平均数之和。(该结论可用于第六章均数之和。(该结论可用于第六章方差分析方差分析)u组间方差组间方差u各组方差平均数各组方差平均数(二)方差主要数学性(二)方差主要数学性质组间质组间方差各方差各组组方差平均数方差平均数64(三)标准化值(三)标准化值(Z-score)对于两组数据,如果其均值和标准差均有明显差异,则往对于两组数据,如果其均值和标准差均有明显差异,则往往不能直接对比。需要首先将其转化为可比的数据。往不能直接对比。需要首先将其转化为可比的数据。通常可以对其进行无量纲化处理,得到标准化值,也称为通常可以对其进行无量纲化处理,得到标准化值,也称为Z值。值。标准化值,实际是将不同均值和标准差的总体转换为均值标准化值,实际是将不同均值和标准差的总体转换为均值为为0、标准差为、标准差为1的总体,将原始数据转换为其在总体中的的总体,将原始数据转换为其在总体中的相对位置。相对位置。标准化值比较具有相对意义,没有绝对意义。标准化值比较具有相对意义,没有绝对意义。(三)(三)标标准化准化值值(Z-score)65例例3-10n假定某班学生先后两次进行难度不同的综合考试。假定某班学生先后两次进行难度不同的综合考试。第一次考试成绩的均值和标准差分别为第一次考试成绩的均值和标准差分别为80分和分和10分,分,第二次考试成绩的均值和标准差分别为第二次考试成绩的均值和标准差分别为70分和分和7分。分。某同学第一、二次考试的成绩分别为某同学第一、二次考试的成绩分别为92分和分和80分,分,那么全班相比较而言,他哪一次考试的成绩更好呢那么全班相比较而言,他哪一次考试的成绩更好呢?n解:解:由于两次考试成绩的均值和标准差不同,该学由于两次考试成绩的均值和标准差不同,该学生两次考试的成绩不宜直接比较生两次考试的成绩不宜直接比较。直接比较,第一次成绩更好;直接比较,第一次成绩更好;利用标准化值比较,表明第二次考试成绩更好一些。利用标准化值比较,表明第二次考试成绩更好一些。例例3-10假定某班学生先后两次假定某班学生先后两次进进行行难难度不同的度不同的综综合考合考试试。第一次。第一次66(四)(四)对称钟形分布的对称钟形分布的3 法则法则n3 法则法则关于对称钟形分布的近似经验法则:关于对称钟形分布的近似经验法则:变量值落在变量值落在-3 ,+3 范围以外的情况极为少见。范围以外的情况极为少见。通常将落在区间通常将落在区间-3 ,+3 之外的数据,称为异常数据或之外的数据,称为异常数据或离群点。离群点。x99.73%68.27%95.45%正态分布正态分布(四)(四)对对称称钟钟形分布的形分布的3 法法则则x99.73%68.27%9567四、离散系数四、离散系数n绝对值变异指标有计量单位。其数值大小不仅取决于绝对值变异指标有计量单位。其数值大小不仅取决于数据离散程度,还受数据本身水平高低和计量单位的数据离散程度,还受数据本身水平高低和计量单位的影响。影响。n对不同变量(或不同数据组)的离散程度进行比较时,对不同变量(或不同数据组)的离散程度进行比较时,只有当它们的只有当它们的平均水平平均水平和和计量单位计量单位都相同都相同时,才能利时,才能利用绝对值变异指标分析;否则,须利用离散系数比较用绝对值变异指标分析;否则,须利用离散系数比较其离散程度。其离散程度。例如,哪个变量差异较大:体重,还是身高?例如,哪个变量差异较大:体重,还是身高?例如,那组人群体重差异较大:成人,还是婴儿?例如,那组人群体重差异较大:成人,还是婴儿?u 成人:平均体重成人:平均体重=70 kg,标准差,标准差=5 kgu 婴儿:婴儿:5 kg,1 kg四、离散系数四、离散系数绝对值变绝对值变异指异指标标有有计计量量单单位。其数位。其数值值大小不大小不仅仅取决于数取决于数68例:观察例:观察7个人的体重和身高如下:个人的体重和身高如下:n体重(公斤)体重(公斤)xi:62,67,65,69,70,73,74n身高(厘米)身高(厘米)yi:165,166,168,170,174,178,180n判断体重与身高哪个离散较为严重。判断体重与身高哪个离散较为严重。注:注:两组计量单位不同,不能用极差、平均差、标准两组计量单位不同,不能用极差、平均差、标准差等绝对离散特征数直接进行比较。适合采用离散系差等绝对离散特征数直接进行比较。适合采用离散系数比较。数比较。例:例:观观察察7个人的体重和身高如下:体重(公斤)个人的体重和身高如下:体重(公斤)xi:69n离散系数是极差、四分位差、平均差或标准差等变异离散系数是极差、四分位差、平均差或标准差等变异指标与算术平均数的比率,以相对数形式表示变异程指标与算术平均数的比率,以相对数形式表示变异程度。度。将极差与算术平均数对比得到极差系数,将极差与算术平均数对比得到极差系数,将平均差与算术平均数对比得到平均差系数。将平均差与算术平均数对比得到平均差系数。最常用的离散系数是以标准差计算的,称为标准差系数:最常用的离散系数是以标准差计算的,称为标准差系数:n离散系数大,说明数据的离散程度大,其平均数的代离散系数大,说明数据的离散程度大,其平均数的代表性就差;反之亦反。表性就差;反之亦反。离散系数是极差、四分位差、平均差或离散系数是极差、四分位差、平均差或标标准差等准差等变变异指异指标标与算与算术术平均平均70五、异众比率五、异众比率 n异众比率是指非众数值的次数之和在总次数中所占比异众比率是指非众数值的次数之和在总次数中所占比重,其公式为:重,其公式为:n主要用于衡量一组数据以众数为分布中心的集中程度,主要用于衡量一组数据以众数为分布中心的集中程度,即即衡量衡量众数众数对一组数据对一组数据一般水平一般水平的的代表性代表性。其值越小,数据集中程度越高,众数代表性越大;反之,其值越小,数据集中程度越高,众数代表性越大;反之,亦反。亦反。其既可用于其既可用于定量变量定量变量,也,也可用于可用于定性变量定性变量。五、异众比率五、异众比率 异众比率是指非众数异众比率是指非众数值值的次数之和在的次数之和在总总次数中所占比次数中所占比71第三节第三节 变量分布的偏度与峰度变量分布的偏度与峰度n一、矩(动差)一、矩(动差)n二、偏度二、偏度n三、峰度三、峰度 要全面了解数据的分布特点,还要知道数要全面了解数据的分布特点,还要知道数据偏斜状况以及尖峭程度,分别由偏度和峰度据偏斜状况以及尖峭程度,分别由偏度和峰度来反映。来反映。与均值和方差一样,均为矩的特例。与均值和方差一样,均为矩的特例。第三第三节节 变变量分布的偏度与峰度一、矩(量分布的偏度与峰度一、矩(动动差)差)72一、矩(动差一、矩(动差)n矩(动差矩(动差)一系列刻画数据分布特征的指标的一系列刻画数据分布特征的指标的统称(该概念引自物理学)。统称(该概念引自物理学)。n变量值与数值变量值与数值 a 之离差的之离差的 k 次方的平均数,称为变量次方的平均数,称为变量 x 关于关于 a 的的 k 阶矩,即:阶矩,即:一、矩(一、矩(动动差差)矩()矩(动动差差)一系列刻画数据分布特征的指一系列刻画数据分布特征的指73nK 阶原点矩阶原点矩(当(当a=0 时)时)是数据的是数据的k次方的平均数次方的平均数一阶原点矩即一阶原点矩即算术平均数算术平均数;二阶原点矩即平方平均数。二阶原点矩即平方平均数。nK 阶中心矩矩阶中心矩矩(当(当a=均值时)均值时)是以均值为中心计算是以均值为中心计算的离差的离差 k 次方的平均数次方的平均数k=1时,称为一阶中心矩,它恒等于时,称为一阶中心矩,它恒等于0,即,即 m1=0;k=2时,称为二阶中心矩,也就是时,称为二阶中心矩,也就是方差方差,即,即m2=2。K 阶阶原点矩(当原点矩(当a=0 时时)是数据的)是数据的k次方的平均数次方的平均数74二、偏度(二、偏度(Skewness)n偏度偏度指数据分布的不对称程度或偏斜程度。指数据分布的不对称程度或偏斜程度。以以 对称分布对称分布 为标准来区分为标准来区分偏态分布又分左偏(负偏)和右偏(正偏)偏态分布又分左偏(负偏)和右偏(正偏).左偏分布左偏分布(负偏)(负偏)右偏分布右偏分布(正偏)(正偏)二、偏度(二、偏度(Skewness)偏度)偏度指数据分布的不指数据分布的不对对称程度或称程度或75n偏态的测度方法偏态的测度方法(一)由均值与众数之间的关系求偏态系数(一)由均值与众数之间的关系求偏态系数一般有:一般有:-3 0 +3 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态偏偏态态的的测测度方法度方法-3 76(二)由三个四分位数之间的关系求偏态系数(二)由三个四分位数之间的关系求偏态系数值域:值域:-1 Sk 1 -1 0 +1 极左偏态极左偏态 对称分布对称分布 极右偏态极右偏态(二)由三个四分位数之(二)由三个四分位数之间间的关系求偏的关系求偏态态系数系数值值域:域:-1 Sk 77(三)利用(三)利用 3 阶中心矩来计算偏度系数。阶中心矩来计算偏度系数。测定偏度最常用的方法测定偏度最常用的方法原理:若分布不对称,则原理:若分布不对称,则 3 阶中心矩不为阶中心矩不为0。不对称程度愈。不对称程度愈严重,严重,3 阶中心矩的绝对值愈大。为消除量纲的影响,可阶中心矩的绝对值愈大。为消除量纲的影响,可除以除以 3。0 对称分布对称分布 左偏分布左偏分布 右偏分布右偏分布(三)利用(三)利用 3 阶阶中心矩来中心矩来计计算偏度系数。算偏度系数。0 78三、峰度(三、峰度(Kurtosis)n峰度峰度是指变量的集中程度和分布曲线的陡峭(或是指变量的集中程度和分布曲线的陡峭(或平坦)的程度。平坦)的程度。n对峰度的度量通常以正态分布曲线为比较标准,分为对峰度的度量通常以正态分布曲线为比较标准,分为正态峰度、尖顶峰度和平顶峰度正态峰度、尖顶峰度和平顶峰度.平顶分布平顶分布尖峰分布尖峰分布尖顶峰度的分布尖顶峰度的分布曲线比正态分布曲线比正态分布曲线更加尖峭、曲线更加尖峭、更高更窄;更高更窄;平顶峰度的分布平顶峰度的分布曲线比正态分配曲线比正态分配曲线更为平缓、曲线更为平缓、更低更扁平。更低更扁平。三、峰度(三、峰度(Kurtosis)峰度)峰度是指是指变变量的集中程度和分布量的集中程度和分布79n峰度系数峰度系数原理:分布曲线尖峭程度与偶数阶中心矩数值大小直接有原理:分布曲线尖峭程度与偶数阶中心矩数值大小直接有关。以四阶中心矩关。以四阶中心矩m4为基础,除以标准差的四次方为基础,除以标准差的四次方4(消(消除量纲影响),得到的相对数即可衡量峰度。除量纲影响),得到的相对数即可衡量峰度。对正态分布曲线有:对正态分布曲线有:m4/4=3u当当K=0时,分布曲线为正态曲线;时,分布曲线为正态曲线;u当当K0时,为尖顶曲线,表示数据比正态分布更集中时,为尖顶曲线,表示数据比正态分布更集中在均值附近;在均值附近;K的数值越大,则变量分布曲线之顶端越的数值越大,则变量分布曲线之顶端越尖峭;尖峭;u当当K0时,为平顶曲线,表示数据比正态分布更分散;时,为平顶曲线,表示数据比正态分布更分散;K的数值越小,则变量分布曲线之顶端越平坦。的数值越小,则变量分布曲线之顶端越平坦。峰度系数峰度系数80例例3-13n根据表根据表3-3的数据,计算使用寿命分布的偏度系数和的数据,计算使用寿命分布的偏度系数和峰度系数。峰度系数。n解:解:n计算结果表明,偏度系数几乎为计算结果表明,偏度系数几乎为0,峰度系数略小于,峰度系数略小于0,说明,说明该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略该产品使用寿命的分布十分接近对称分布,分布曲线顶峰略比正态分布平坦一些。总的说来,该产品的使用寿命的分布比正态分布平坦一些。总的说来,该产品的使用寿命的分布非常接近正态分布。非常接近正态分布。例例3-13根据表根据表3-3的数据,的数据,计计算使用寿命分布的偏度系数和峰算使用寿命分布的偏度系数和峰81
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!