统计学-第三章数据的特征值课件

上传人:txadgkn****dgknqu... 文档编号:241487710 上传时间:2024-06-29 格式:PPT 页数:108 大小:1.32MB
返回 下载 相关 举报
统计学-第三章数据的特征值课件_第1页
第1页 / 共108页
统计学-第三章数据的特征值课件_第2页
第2页 / 共108页
统计学-第三章数据的特征值课件_第3页
第3页 / 共108页
点击查看更多>>
资源描述
n第一节第一节 集中趋势集中趋势数值平均数数值平均数n第二节第二节 集中趋势集中趋势位置平均数位置平均数n第三节第三节 离中趋势的测度离中趋势的测度n第四节第四节 偏度与峰度的偏度与峰度的 测度测度第三章第三章 数据分布特征的描述数据分布特征的描述6/29/20241第一节 集中趋势数值平均数第三章 数据分布特征的描述本章重点与难点本章重点与难点n重点重点:n 了解和掌握算术平均数、众数、中位了解和掌握算术平均数、众数、中位数、方差、标准差、标准分数的含义及数、方差、标准差、标准分数的含义及其计算方法;正确使用离散系数比较不其计算方法;正确使用离散系数比较不同均值的代表性。同均值的代表性。n难点难点:n 是偏度和峰度的含义及其计算方法。是偏度和峰度的含义及其计算方法。6/29/20242本章重点与难点重点:8/11/20232学习目标学习目标n 正确理解平均指标与变异指标的概念的、正确理解平均指标与变异指标的概念的、意义与作用,明确其种类和区别;掌握平均意义与作用,明确其种类和区别;掌握平均指标和变异指标的计算方法,以及应用的原指标和变异指标的计算方法,以及应用的原则和条件;掌握偏度和峰度的含义及其计算则和条件;掌握偏度和峰度的含义及其计算方法;了解各种分位数的概念与意义。方法;了解各种分位数的概念与意义。6/29/20243学习目标 正确理解平均指标与变异指标的概念的、统计学-第三章数据的特征值课件统计学-第三章数据的特征值课件数据分布特征的数据分布特征的测度度数据特征的测度数据特征的测度平均数平均数平均数平均数平均数平均数众数众数众数众数众数众数中位数中位数中位数中位数中位数中位数离散系数离散系数离散系数离散系数离散系数离散系数标准分数标准分数标准分数标准分数标准分数标准分数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态分布的形状分布的形状集中趋势集中趋势离散程度离散程度6/29/20246数据分布特征的测度数据特征的测度平均数众数中位数离散系数方差第一节 集中趋势数值平均数 p75p75n一、算术平均数一、算术平均数n二、调和平均数二、调和平均数n三、几何平均数三、几何平均数数数值值型型数数据据的的平平均均数数6/29/20247第一节 集中趋势数值平均数 p75集集 中中 趋趋 势势(central tendency)1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.注意注意:低层次数据的测度方法也适用于高层次的数据,低层次数据的测度方法也适用于高层次的数据,但高层次数据的测度方法往往不适用于低层次的数但高层次数据的测度方法往往不适用于低层次的数据。据。6/29/20248集 中 趋 势(central tendency)一组数据一、算术平均数一、算术平均数n 均值(算术平均数)定义:均值(算术平均数)定义:将一组数据相加后除将一组数据相加后除以数据的个数所得到的一个数值,称为算术平均数以数据的个数所得到的一个数值,称为算术平均数(average)或均值或均值(mean)。n 算数平均数,算数平均数,又有简单算数平均数和加权平均数又有简单算数平均数和加权平均数之分之分6/29/20249一、算术平均数 均值(算术平均数)定义:将一组数据 一、算术平均数一、算术平均数 设一组数据为设一组数据为设一组数据为设一组数据为:x x1 1,x x2 2,x xn n (未分组数据)未分组数据)各组的组中值为各组的组中值为各组的组中值为各组的组中值为:x x1 1,x x2 2,x xk k (组距分组数据)组距分组数据)相应的频数为相应的频数为相应的频数为相应的频数为:f f1 1,f f2 2,f fk k简单算术平均数简单算术平均数简单算术平均数简单算术平均数加权算术平均数加权算术平均数加权算术平均数加权算术平均数 6/29/202410 一、算术平均数 设一组数据为:x1,x2【例【例3.13.1】根据表】根据表3.13.1中的数据,中的数据,计算职工通信费用支出计算职工通信费用支出额平均水平额平均水平。p72解:解:6/29/202411【例3.1】根据表3.1中的数据,计算职工通信费用支出额平均 身高身高 组中中值 人数人数 比重比重 (cm)xi(cm)fi(人)(人)(%)150-155 152.5 3 3.61 155-160 157.5 11 13.25 160-165 162.5 34 40.96 165-170 167.5 24 28.92 170以上以上 172.5 11 13.25 总计 -83 100.00 例例3.2 分分组资料均料均值的的计算算:某年某年级83名女生身高名女生身高资料料组距数据距数据次数次数f频率率f/f变量量值x加加权算算术平均平均数数6/29/202412 身高 组中值 人数 【例【例3.33.3】依据整理所得表】依据整理所得表3-53-5中的数据,中的数据,计算职工通信计算职工通信费用支出额平均水平费用支出额平均水平。p74解:解:或或6/29/202413【例3.3】依据整理所得表3-5中的数据,计算职工通信费用支 计算算数平均数,计算算数平均数,注意:注意:n用各用各组的的组中中值代表其代表其实际数据数据计算算算算术平均数平均数时,通常,通常假定各假定各组数据在数据在组内是均匀分布的内是均匀分布的,相,相应的的组中中值近似等于各近似等于各组的平均数。的平均数。n权数数:衡量:衡量变量量值相相对重要性的数重要性的数值。n各个各个变量量值的的权数要起作用必数要起作用必须具具备两个条件:两个条件:一是各个一是各个变量量值之之间有差异;有差异;二是各个二是各个变量量值的的权数有差异。数有差异。n简单算算术平均数是加平均数是加权算算术平均数在平均数在权数相等数相等时的特例。的特例。6/29/202414 计算算数平均数,注意:用各组的组中值代表其实际数据计 算术平均数的性质算术平均数的性质 p75-76n 1各变量值与其算术平均数的离差之和各变量值与其算术平均数的离差之和等于零等于零,即,即。6/29/202415 算术平均数的性质 p75-76 1各变量值与算术平均数的性质算术平均数的性质6/29/202416算术平均数的性质8/11/2023161.集中趋势的最常用测度值;集中趋势的最常用测度值;2.一组数据的均衡点所在;一组数据的均衡点所在;3.易受极端值的影响;易受极端值的影响;4.各变量值与其均值的离差之和等于零;各变量值与其均值的离差之和等于零;5.5、6.6.由组距分组资料计算的均值有近似值性由组距分组资料计算的均值有近似值性质;质;7.7、用于数值型数据,不能用于分类数据和、用于数值型数据,不能用于分类数据和顺序数据顺序数据算术平均数(均值)特征:算术平均数(均值)特征:6/29/202417集中趋势的最常用测度值;算术平均数(均值)特征:8/11/2 二、调和平均数二、调和平均数 n 调和平均数也称调和平均数也称“倒数平均数倒数平均数”,它是对变,它是对变量的倒数求平均,然后再取倒数而得到的平均量的倒数求平均,然后再取倒数而得到的平均数,以数,以 表示。表示。n 根据掌握的资料不同,调和平均数也有简单根据掌握的资料不同,调和平均数也有简单调和平均数和加权平均数两种形式。调和平均数和加权平均数两种形式。其计其计算公算公式为:式为:6/29/202418 二、调和平均数 调和平均数也称“倒数平均数”例题分析例题分析【例【例3.4 3.4 假设甲、乙、丙三种苹果的价格分别为每斤假设甲、乙、丙三种苹果的价格分别为每斤2.42.4元、元、1.81.8元及元及1.51.5元(元(1 1)若三种苹果各买)若三种苹果各买1 1元,试问元,试问所购苹果的平均价格又为多少?(所购苹果的平均价格又为多少?(2 2)如果甲、乙、丙)如果甲、乙、丙三种苹果分别购买三种苹果分别购买5 5元、元、8 8元和元和1010元,试问其平均价格为元,试问其平均价格为多少?多少?解:计算解:计算平均价格的是用所付金额除以所购数量。平均价格的是用所付金额除以所购数量。平均价格的是用所付金额除以所购数量。平均价格的是用所付金额除以所购数量。(1 1)(2 2)6/29/202419 例题分析【例3.4 假设甲、乙、丙三种苹果的价 计算调和平均数计算调和平均数,注意:,注意:1.从数学定义角度看算术平均数与调和平均数是不一从数学定义角度看算术平均数与调和平均数是不一样的,但在社会经济应用领域,样的,但在社会经济应用领域,调和平均数实际上调和平均数实际上调和平均数实际上调和平均数实际上只是算术平均数的另一种表现形式,只是算术平均数的另一种表现形式,只是算术平均数的另一种表现形式,只是算术平均数的另一种表现形式,二者本质上是二者本质上是一致的,惟一的区别是计算时使用了不同的数据。一致的,惟一的区别是计算时使用了不同的数据。n2.计算比率的平均数时,如果已知比率及其基本计计算比率的平均数时,如果已知比率及其基本计算式的分母资料,则采用加权算术平均法;如果已算式的分母资料,则采用加权算术平均法;如果已知比率及其基本计算式的分子资料,则采用加权调知比率及其基本计算式的分子资料,则采用加权调和平均法。和平均法。6/29/202420 计算调和平均数,注意:1.从数学定义角度看算术平均数与三、几何平均数三、几何平均数(geometric mean)p78n几何平均数也称几何均值,它是几何平均数也称几何均值,它是n个变量值乘积个变量值乘积的的n次方根。次方根。n几何平均法是计算平均比率或平均发展速度最适几何平均法是计算平均比率或平均发展速度最适用的一种方法。用的一种方法。n如果分布数列中各变量值呈几何级数变化或频率如果分布数列中各变量值呈几何级数变化或频率分布极不对称,也常采用几何平均法来计算平均分布极不对称,也常采用几何平均法来计算平均数。数。n根据统计资料的不同,几何平均数也有简单几何根据统计资料的不同,几何平均数也有简单几何平均数和加权几何平均数之分。平均数和加权几何平均数之分。6/29/202421三、几何平均数(geometric mean)p78几何平几何平均数的计算公式几何平均数的计算公式 用途用途用途用途:适用于对比率数据的平均。主要用于计算适用于对比率数据的平均。主要用于计算平均发展速度、平均增长率、平均比率平均发展速度、平均增长率、平均比率n对于未分组的资料,几何平均数的计算公式为对于未分组的资料,几何平均数的计算公式为6/29/202422几何平均数的计算公式 用途:适用于对比率数据的平均补充:发展速度、增长速度概念及关系补充:发展速度、增长速度概念及关系环比发展速度 y1/y0 y2/y1 y3/y2 yn/yn-1 定基发展速度 y1/y0 y2/y0 y3/y0 yn/y0注意注意注意注意:环比发展速度的连乘积=相应的定基发展速度 增长速度=发展速度-1 环比增长速度环比增长速度=环比发展速度环比发展速度-1 定基增长速度定基增长速度=定基发展速度定基发展速度-16/29/202423补充:发展速度、增长速度概念及关系8/11/202323平均增长率(average rate of increase)序序列列中中各各逐逐期期环环比比值值(也也称称环环比比发发展展速速度度)的的几几何何平均数减平均数减1后的结果后的结果描述现象在整个观察期内平均增长变化的程度描述现象在整个观察期内平均增长变化的程度通常用几何平均法求得。计算公式为通常用几何平均法求得。计算公式为6/29/202424平均增长率(average rate of increase例题分析例题分析n【例【例3.8】已知某市已知某市20012005年国内生产总值的发展速度年国内生产总值的发展速度(以上年为(以上年为100)依次分别为)依次分别为112%、108%、114%、116%和和113%。试计算这。试计算这5年国内生产总值的平均发展速度。年国内生产总值的平均发展速度。如果已知的是各年的增长速度,要计算若干年的平均如果已知的是各年的增长速度,要计算若干年的平均增长速度,则需要先将增长率加上增长速度,则需要先将增长率加上100%得到发展速度,得到发展速度,再根据上述方法计算平均发展速度,最后用平均发展速再根据上述方法计算平均发展速度,最后用平均发展速度减度减100%则得到平均增长速度。则得到平均增长速度。6/29/202425例题分析【例3.8】已知某市20012005年国内生产例题分析例题分析【例【例3.9】甲投资银行某项投资的年利率是按复利甲投资银行某项投资的年利率是按复利计算的,若将过去计算的,若将过去20年的年利率资料如表年的年利率资料如表3.9所示所示.要求:试计算要求:试计算20年的平均年利率。年的平均年利率。解解:6/29/202426例题分析【例3.9】甲投资银行某项投资的年利率是按复利解应用几何平均数时注意应用几何平均数时注意n几何平均数在实际应用中受到很多限制;几何平均数在实际应用中受到很多限制;n如果被平均的变量值中有一个为零,则不能计如果被平均的变量值中有一个为零,则不能计算几何平均数;算几何平均数;n如果变量值为负数,开偶次根会形成虚根,失如果变量值为负数,开偶次根会形成虚根,失去意义;去意义;n几何平均数在实际应用中的范围比算术平均数几何平均数在实际应用中的范围比算术平均数要窄。要窄。6/29/202427应用几何平均数时注意几何平均数在实际应用中受到很多限制;8/几何平均数的特点几何平均数的特点 n 1几何平均数受极端值的影响较算术平几何平均数受极端值的影响较算术平均数小。均数小。n2如果变量值有负值,计算出的几何平均如果变量值有负值,计算出的几何平均数就会成为负数或虚数。数就会成为负数或虚数。n3它仅适用于具有等比或近似等比关系的它仅适用于具有等比或近似等比关系的数据。数据。n4几何平均数的对数是各变量值对数的算几何平均数的对数是各变量值对数的算术平均数。术平均数。6/29/202428几何平均数的特点 1几何平均数受极端值的影响较算术平均第二节第二节 集中趋势集中趋势位置平均数位置平均数 p80n一、众数一、众数 Mon二、中位数二、中位数Men三、四分位数三、四分位数QU、QL6/29/202429第二节 集中趋势位置平均数 p80一、众数 Mo8/集中趋势集中趋势位置平均数位置平均数n位置平均数位置平均数,就是根据总体中处于特殊,就是根据总体中处于特殊位置上的个别单位或部分单位的标志值位置上的个别单位或部分单位的标志值来确定的代表值;来确定的代表值;n对于整个总体来说,具有非常直观的代对于整个总体来说,具有非常直观的代表性,常用来反映分布的集中趋势;表性,常用来反映分布的集中趋势;n常用的位置平均数有常用的位置平均数有众数和中位数众数和中位数。6/29/202430集中趋势位置平均数位置平均数,就是根据总体中处于特殊位置上一、众数一、众数 p80n(一)(一)众数的含义众数的含义n众数众数是指一组数据中出现次数是指一组数据中出现次数最多的变量最多的变量值值,用,用 表示。表示。n众数直观地说明分布的集中趋势,并用它众数直观地说明分布的集中趋势,并用它作为反映变量值一般水平的代表值。作为反映变量值一般水平的代表值。n在某些场合只有众数才适合作为总体的代在某些场合只有众数才适合作为总体的代表值。表值。6/29/202431一、众数 p80(一)众数的含义8/11/202331(二)(二)众数的计算方法众数的计算方法n1观察法求众数观察法求众数n如果数据已按单个变量值整理成频率分布表如果数据已按单个变量值整理成频率分布表或者是分类数据表,则或者是分类数据表,则次数出现最多或频率次数出现最多或频率最大的那个变量值即为众数最大的那个变量值即为众数。n【例【例3.11】某制鞋厂要了解消费者最需要某制鞋厂要了解消费者最需要哪种型号的男皮鞋,调查了某百货商场哪种型号的男皮鞋,调查了某百货商场2005年年10月男皮鞋的销售情况,得到资料如表月男皮鞋的销售情况,得到资料如表3.10所示。所示。6/29/202432(二)众数的计算方法1观察法求众数8/11/20233众数的计算众数的计算-例题分析例题分析要求:试根据上表资料计算男皮鞋销售量的众数。要求:试根据上表资料计算男皮鞋销售量的众数。解:销售量最多的是规格为解:销售量最多的是规格为25.5厘米的鞋号,销售量厘米的鞋号,销售量320双,占双,占32%,故,故众数为众数为25.5公分公分。6/29/202433众数的计算-例题分析要求:试根据上表资料计算男皮鞋销售量众数的计算众数的计算-例题分析例题分析 p81【例【例3.10】某高校电影院在安排某高校电影院在安排2010年影片放映计划时,分别年影片放映计划时,分别按性别随机抽取按性别随机抽取200名男女学生,登记其对影片类型的取向。统名男女学生,登记其对影片类型的取向。统计结果如表计结果如表3.10所示。所示。要求:要求:试分析学生对影片取向的集中趋势试分析学生对影片取向的集中趋势。n解解:7种类型的影片中,男生最喜欢看动作片,人数为种类型的影片中,男生最喜欢看动作片,人数为48人,人,占占24%,众数即为动作片这种影片类型众数即为动作片这种影片类型;女生最喜欢看言情片,;女生最喜欢看言情片,人数为人数为46人,占人,占23%,众数即为言情片众数即为言情片这种影片类型;男女生对这种影片类型;男女生对影片类型的取向,综合而言是动作片,影片类型的取向,综合而言是动作片,众数为动作片这种影片类型众数为动作片这种影片类型。6/29/202434众数的计算-例题分析 p81【例3.10】某高校电影数数值型数据众数的确定方法型数据众数的确定方法 单变量量值分分组资料料某年某年级83名女生身高名女生身高资料料 身高身高 人数人数(CM)(人)(人)152 1 154 2 155 2 156 4 157 1 158 2 159 2 160 12 161 7 162 8 163 4 身高身高 人数人数(CM)(人)(人)164 3 165 8 166 5 167 3 168 7 169 1 170 5 171 2 172 3 174 1总计总计 83 83 STAT众数6/29/202435数值型数据众数的确定方法某年级83名女生身高资料 身高 注意:注意:n 众数不众数不仅适用于适用于测度度顺序数据和序数据和数数值型数据的集中型数据的集中趋势,而且适用,而且适用于于测度不能度不能计算平均数的分算平均数的分类数据数据的集中的集中趋势。6/29/202436 注意:众数不仅适用于测度顺序数据和数值型众数的计算方法众数的计算方法n2插值法求众数插值法求众数n 对于对于组距分组组距分组形成的分布数列,当频率分形成的分布数列,当频率分布属于布属于完全对称分布完全对称分布,而众数所在组的变,而众数所在组的变量值分布比较均匀时,可用观察法求众数,量值分布比较均匀时,可用观察法求众数,即以众数组的组中值作为所求的众数。即以众数组的组中值作为所求的众数。n完全对称分布不存在完全对称分布不存在,众数组前后各组的,众数组前后各组的次数不一定相等,众数就不等于组中值,次数不一定相等,众数就不等于组中值,因此需要采用插值法求众数。因此需要采用插值法求众数。6/29/202437众数的计算方法2插值法求众数8/11/202337组距分组数据,众数的计算步骤组距分组数据,众数的计算步骤n1、先找到众数所在的组;、先找到众数所在的组;n2、按该组次数与前后相邻两组分布次数之差所、按该组次数与前后相邻两组分布次数之差所占的比重来推算众数值。占的比重来推算众数值。n如果众数组前一组的次数大于后一组的次数,则如果众数组前一组的次数大于后一组的次数,则众数值小于其所在组的组中值;反之,众数值则众数值小于其所在组的组中值;反之,众数值则大于其所在组的组中值;大于其所在组的组中值;n若众数组前后相邻组的次数相等,则众数值等于若众数组前后相邻组的次数相等,则众数值等于其所在组的组中值。其所在组的组中值。n3、计算众数有上限和下限公式之分。、计算众数有上限和下限公式之分。6/29/202438组距分组数据,众数的计算步骤1、先找到众数所在的组;8/11众数的计算方法众数的计算方法6/29/202439众数的计算方法8/11/202339 身高身高 人数人数 比重比重 (CM)(人)(人)(%)150-155 3 3.61 155-160 11 13.25 160-165 34 40.96 165-170 24 28.92 170以上以上 11 13.25 总计 83 100某年某年级83名女生身高名女生身高资料料数数值型数据众数的确定方法型数据众数的确定方法 组距分距分组资料料STAT众数组众数组6/29/202440 身高 人数 众数的特点众数的特点n1众数不受分布数列的极大或极小值的众数不受分布数列的极大或极小值的影响,众数对分布数列有好的代表性。影响,众数对分布数列有好的代表性。n2数据的分布没有明显的集中趋势或最数据的分布没有明显的集中趋势或最高峰点,众数可能不存在;高峰点,众数可能不存在;n3.有两个或多个高峰点,可以有两个或多有两个或多个高峰点,可以有两个或多个众数。个众数。众数不具有唯一性。众数不具有唯一性。n3众数缺乏敏感性。众数缺乏敏感性。6/29/202441 众数的特点1众数不受分布数列的极大或极二、中位数二、中位数 Me p83n(一)(一)中位数的含义中位数的含义n中位数中位数是将数据按大小顺序排列起来,形成一个是将数据按大小顺序排列起来,形成一个数列,居于数列,居于数列中间位置的那个变量值数列中间位置的那个变量值称为中位称为中位数。中位数用数。中位数用Me表示。表示。n特点:特点:n 在一个等差数列或一个正态分布数列中,中在一个等差数列或一个正态分布数列中,中位数就等于算术平均数。位数就等于算术平均数。n中位数不受极端变量值的影响中位数不受极端变量值的影响。6/29/202442二、中位数 Me p83(一)中位数的含义8/1中位数的计算中位数的计算中位数概念:中位数概念:排序后排序后处于中间位置上的值处于中间位置上的值1根据未分组数据计算中位数。根据未分组数据计算中位数。Me50%50%6/29/202443中位数的计算中位数概念:排序后处于中间位置上的值Me50%5例题分析例题分析【例【例3.12】某班第一、二两个小组统计学期末考试成绩排序某班第一、二两个小组统计学期末考试成绩排序结果如表结果如表3.13所示。所示。要求:分别计算两小组成绩的中位数要求:分别计算两小组成绩的中位数解:解:两个学习小组的考试成绩已经分别按由低到高排列。两个学习小组的考试成绩已经分别按由低到高排列。第一小组有第一小组有7个学生,第个学生,第4位为中位数的位置,位为中位数的位置,Me=75.第二小组有第二小组有8个学生,中位数的位置处于第四和第五个学生之间。个学生,中位数的位置处于第四和第五个学生之间。6/29/202444例题分析【例3.12】某班第一、二两个小组统计学期末考试中位数的计算中位数的计算n2由分组资料确定中位数由分组资料确定中位数 n如果由组距数列确定中位数,应先按的公式求出中如果由组距数列确定中位数,应先按的公式求出中位数所在组的位置,然后再按下限公式或上限公式位数所在组的位置,然后再按下限公式或上限公式确定中位数。确定中位数。6/29/202445中位数的计算2由分组资料确定中位数 8/11/202345组距分距分组数据中位数据中位数的确定方法数的确定方法 身高身高 fi人数人数 累累计 (CM)(人)(人)人数人数 150-155 3 3 155-160 11 14 160-165 34 48 165-170 24 72 170以上以上 11 83 总计 83 某年某年级83名女生身高名女生身高资料料STAT中位数组中位数组6/29/202446组距分组数据中位数的确定方法 身高 中位数的特点中位数的特点n1不受分布数列的极大或极小值影响。不受分布数列的极大或极小值影响。n2有些离散型变量的单项式数列,当次数有些离散型变量的单项式数列,当次数分布偏态时,中位数的代表性会受到影响。分布偏态时,中位数的代表性会受到影响。n3中位数缺乏敏感性。中位数缺乏敏感性。6/29/202447 中位数的特点8/11/202347三、三、四分位数四分位数 p85n 中位数是根据其在数列中所处的位置来中位数是根据其在数列中所处的位置来确定的一个平均数,作为各变量值的一个代确定的一个平均数,作为各变量值的一个代表值,以反映分布数列的集中趋势。表值,以反映分布数列的集中趋势。n 为了进一步了解一组数据分布的内部结为了进一步了解一组数据分布的内部结构,观察变量值在各个区间的一般水平,还构,观察变量值在各个区间的一般水平,还可以计算可以计算四分位数、十分位数和百分位数。四分位数、十分位数和百分位数。6/29/202448三、四分位数 p85 中位数是根据其在数列中所 四分位数四分位数n四分位数是通过四分位数是通过3个点将全部数据等分为个点将全部数据等分为四个部分,其中每部分包含四个部分,其中每部分包含25%的数据。的数据。n QQL LMeMeQQU U25%25%25%25%处于处于处于处于 25%25%和和和和75%75%位置上的值即位置上的值即位置上的值即位置上的值即 四分位数四分位数四分位数四分位数特点:不受极端值的影响特点:不受极端值的影响要要用用于于顺顺序序数数据据,也也可可用用于于数数值值型型数数据据,但但不不能能用于分类数据(各种分位数可由用于分类数据(各种分位数可由spss计算)计算)6/29/202449 四分位数四分位数是通过3个点将全部数据等分为四分位数的计算四分位数的计算n1.根据未分组数据计算四分位数时,先对数据进行根据未分组数据计算四分位数时,先对数据进行排序,然后再确定四分位数所在的位置排序,然后再确定四分位数所在的位置n当四分位数的位置不是整数时,可根据四分位数的位当四分位数的位置不是整数时,可根据四分位数的位置,置,按比例分摊四分位数按比例分摊四分位数所在位置两侧变量值之差的所在位置两侧变量值之差的数值。数值。6/29/202450四分位数的计算1.根据未分组数据计算四分位数时,先对数据进行四分位数的计算四分位数的计算例题分析例题分析n【例【例3.14】将例将例3.13中两个学习小组的统计学考试中两个学习小组的统计学考试成绩合并如下:成绩合并如下:要求:要求:(1)计算前)计算前15个学生统计学考试成绩的四分位数;个学生统计学考试成绩的四分位数;(2)如果增加一个学生的成绩)如果增加一个学生的成绩95分,试计算分,试计算16个学生个学生统计学考试成绩的四分位数。统计学考试成绩的四分位数。6/29/202451四分位数的计算例题分析【例3.14】将例3.13中两个四分位数的计算四分位数的计算例题分析例题分析6/29/202452四分位数的计算例题分析8/11/202352四分位数的计算四分位数的计算n2.根据组距数列计算四分位数根据组距数列计算四分位数 6/29/202453四分位数的计算2.根据组距数列计算四分位数 8/11/202四分位数的计算四分位数的计算6/29/202454四分位数的计算8/11/202354第三节第三节 离中趋势的测度离中趋势的测度 p851.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表性从另一个侧面说明了集中趋势测度值的代表性4.注意注意:5.数数据据的的离离散散程程度度越越大大,集集中中趋趋势势的的测测度度对对该该组组数数据据的的代代表表性性越越差差;数数据据的的离离散散程程度度越越小小,集中趋势的测度值对该组数据的代表性越好。集中趋势的测度值对该组数据的代表性越好。6.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值6/29/202463第三节 离中趋势的测度 p85数据分布的另一个重要特征8/下面是两个总体关于下面是两个总体关于年龄分布年龄分布的数据的数据,相对而言相对而言,那个总那个总体的年龄分布分散体的年龄分布分散,差异大些差异大些?n46、47、48、49、50、n51、52、53、54n8、15、20、30、50n70、80、85、92总体1总体26/29/202464下面是两个总体关于年龄分布的数据,相对而言,那个总体的年龄分离中趋势;数据远离中趋势;数据远离中趋势;数据远离中趋势;数据远离中心的趋势离中心的趋势离中心的趋势离中心的趋势 (分散程度分散程度分散程度分散程度)总体总体总体总体2 2总体总体16/29/202465离中趋势;数据远离中心的趋势总体2总体18/11/20236n数值型数据数值型数据:全距全距(或称极差或称极差)(range)平均差(平均差(mean deviation)方差和标准差(方差和标准差(Variance and standard deviation)相对离散程度:离散系数(相对离散程度:离散系数(Coefficient of Variation)n分类数据分类数据:异众比率(:异众比率(variation ratio)n顺序数据顺序数据:四分位差(:四分位差(quartile range)离散程度的测度离散程度的测度6/29/202466数值型数据:离散程度的测度8/11/202366一、全距(一、全距(RangeRange)全距全距也称为极差,是指一组数据的最大值也称为极差,是指一组数据的最大值与最小值之差,用与最小值之差,用R表示。表示。n即:即:R最大变量值最小变量值最大变量值最小变量值n 没有开口组的没有开口组的组距分布数列计算全距组距分布数列计算全距,可以用最,可以用最大组的上限值减去最小组的下限值,得到全距的近大组的上限值减去最小组的下限值,得到全距的近似值。似值。n全距可以反映一组数据的差异范围。全距可以反映一组数据的差异范围。6/29/202467一、全距(Range)全距也称为极差,是指一全距的计算全距的计算【例【例3.16】表】表3-14是两组人口关于年龄分布的数据是两组人口关于年龄分布的数据,要求计算全距。要求计算全距。解:第一组全距解:第一组全距 第二组全距第二组全距 注意注意注意注意:如果组距分布数列中有开口组,则不能计算全距。:如果组距分布数列中有开口组,则不能计算全距。n全距计算简单,易理解,易受极端值的影响全距计算简单,易理解,易受极端值的影响;不能反映中间数据不能反映中间数据分散状况,不能准确描述数据的分散程度。分散状况,不能准确描述数据的分散程度。6/29/202468全距的计算【例3.16】表3-14是两组人口关于年龄分布的数 二、异众比率二、异众比率(variation ratio)非众数组的频数占总频数的比率非众数组的频数占总频数的比率计算公式为 用于用于 对分类数据离散程度的测度对分类数据离散程度的测度 用于衡量众数的代表性用于衡量众数的代表性6/29/202469 二、异众比率(variation ratio)异众比率异众比率n 异众比率主要用于衡量众数对一组数据的代表程异众比率主要用于衡量众数对一组数据的代表程度。度。n 异众比率越大,说明非众数组的频数占总频数的异众比率越大,说明非众数组的频数占总频数的比重越大,众数的代表性就越差;比重越大,众数的代表性就越差;n 异众比率越小,说明非众数组的频数占总频数的异众比率越小,说明非众数组的频数占总频数的比重越小,众数的代表性越好。比重越小,众数的代表性越好。n 异众比率适合测度分类数据、测度顺序数据和数异众比率适合测度分类数据、测度顺序数据和数值型数据的离散程度。值型数据的离散程度。6/29/202470异众比率 异众比率主要用于衡量众数对一组数据的代表程度异众比率的应用异众比率的应用 p89n【例【例3.17】根据例根据例3.10(第第34张张)的数据计算学生对影的数据计算学生对影片取向的异众比率。片取向的异众比率。n【解】【解】根据公式得根据公式得n说明:说明:比较上面的三个异众比率,全部样本学生的异众比率最比较上面的三个异众比率,全部样本学生的异众比率最大,说明其众数的代表性最差;男生的异众比率略小于女生的大,说明其众数的代表性最差;男生的异众比率略小于女生的异众比率,说明异众比率,说明男生对影片取向的众数的代表性略好于女生男生对影片取向的众数的代表性略好于女生对对影片取向的众数的代表性影片取向的众数的代表性。6/29/202471异众比率的应用 p89【例3.17】根据例3.10(三、四分位差三、四分位差 p89 注意:注意:上四分位数与下四分位数之差上四分位数与下四分位数之差n Qd=QU QL反映了中间反映了中间50%数据的离散程度数据的离散程度对顺序数据离散程度的测度对顺序数据离散程度的测度不受极端值的影响不受极端值的影响用于衡量中位数的代表性用于衡量中位数的代表性6/29/202472三、四分位差 p89 注意:8/11/202372四分位差的应用四分位差的应用注意:注意:四分位差不易受极端值的影响,可以测量含有四分位差不易受极端值的影响,可以测量含有开口组的数据分布的差异程度,但不能反映所有变量开口组的数据分布的差异程度,但不能反映所有变量值的差异程度。值的差异程度。【例】依据前面例3.16中两组人口年龄的四分位差:结论:结论:结论:结论:第一、第二组的中位数均为50岁,但其代表性不同。第一小组的中位数代表性相对高些,因为相对而言,四分位差小,数据分布集中。第二组年龄中位数代表性低些,因为该组年龄差异大,年龄分布相对分散。6/29/202473四分位差的应用注意:四分位差不易受极端值的影响,可以测量四、平均差(四、平均差(Average Deviation)n平均差平均差就是各个变量值与其算术平均数离差的绝对就是各个变量值与其算术平均数离差的绝对值的平均数,以值的平均数,以AD表示。表示。n它综合反映了各变量值的变动程度,是各个离差的它综合反映了各变量值的变动程度,是各个离差的代表值。代表值。n平均差越大,则表示变量值的离散程度越大,说明平均差越大,则表示变量值的离散程度越大,说明平均数的代表性越小;平均差越小,则表示变量值平均数的代表性越小;平均差越小,则表示变量值的离散程度越小,说明平均数的代表性越大。的离散程度越小,说明平均数的代表性越大。6/29/202474四、平均差(Average Deviation)平均差就是各 平均差的计算各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据诸变量诸变量诸变量诸变量值与均值与均值与均值与均值的偏值的偏值的偏值的偏差差差差能全面反映一组数据的离散程度能全面反映一组数据的离散程度数学性质较差,实际中应用较少数学性质较差,实际中应用较少6/29/202475 平均差的计算各变量值与其均值离差绝对值 平均差的计算平均差的计算【例【例3.18】要求:根据例要求:根据例3.16所给的资料分别计算所给的资料分别计算第一、第二组人口年龄的平均差,并比较其平均年第一、第二组人口年龄的平均差,并比较其平均年龄的代表性。龄的代表性。解:解:结论:结论:结论:结论:比比较两个平均差可知,两两个平均差可知,两组人口年人口年龄平均数均平均数均为5050岁,第一,第一组平均差小,人口年平均差小,人口年龄分布的差异小,平分布的差异小,平均年均年龄的代表性好;第二的代表性好;第二组平均差大,年平均差大,年龄分布的分布的离散水平大,平均年离散水平大,平均年龄的代表性差些。的代表性差些。6/29/202476 平均差的计算【例3.18】要求:根据例3.1 平均差的计算平均差的计算【例【例3.19】根据表的资料计算】根据表的资料计算120名职工通信费用支出额的平均差。名职工通信费用支出额的平均差。解:解:6/29/202477 平均差的计算【例3.19】根据表的资料计算120名平均差的含义:平均差的含义:每每每每名名名名职职职职工工工工通通通通信信信信费费费费用用用用支支支支出出出出额额额额有有有有高高高高有有有有低低低低,与与与与平平平平均均均均数数数数165165元相元相元相元相 比,差异有大有小。比,差异有大有小。比,差异有大有小。比,差异有大有小。平平平平均均均均差差差差表表表表明明明明:以以以以平平平平均均均均通通通通信信信信费费费费用用用用165165元元元元为为为为中中中中心心心心,每每每每名名名名职职职职工工工工通通通通信信信信费费费费用用用用支支支支出出出出额额额额与与与与平平平平均均均均水水水水平平平平的的的的平平平平均均均均差差差差距距距距为为为为42.4242.42元。元。元。元。注意:注意:注意:注意:n n平均差易理解、计算简便;平均差易理解、计算简便;平均差易理解、计算简便;平均差易理解、计算简便;n n可以说明数据分布的离中趋势;可以说明数据分布的离中趋势;可以说明数据分布的离中趋势;可以说明数据分布的离中趋势;n n不适宜进行代数运算,其应用范围易受限制不适宜进行代数运算,其应用范围易受限制不适宜进行代数运算,其应用范围易受限制不适宜进行代数运算,其应用范围易受限制 。6/29/2024788/11/202378五、方差与标准差五、方差与标准差 p92n方差方差是各个数据与其算术平均数的离差平方的平均是各个数据与其算术平均数的离差平方的平均数,通常以表示总体方差,数,通常以表示总体方差,s2表示样本方差。表示样本方差。n标准差标准差又称均方差,是方差的平方根,一般用表又称均方差,是方差的平方根,一般用表示总体标准差,以示总体标准差,以S表示样本标准差。表示样本标准差。n方差和标准差的计算也分为简单平均法和加权平均方差和标准差的计算也分为简单平均法和加权平均法。法。n对于总体数据和样本数据,公式略有不同。对于总体数据和样本数据,公式略有不同。6/29/202479五、方差与标准差 p92方差是各个数据与其算术平均数的离方差与标准差方差与标准差n n注意:注意:n方差和标准差是根据全部数据计算的,它反方差和标准差是根据全部数据计算的,它反映了每个数据与其均值相比平均相差的数值;映了每个数据与其均值相比平均相差的数值;n它能准确地反映出数据的离散程度;它能准确地反映出数据的离散程度;n方差和标准差是应用最广泛的离散程度测度方差和标准差是应用最广泛的离散程度测度值。值。6/29/202480方差与标准差注意:8/11/202380总体方差与标准差的计算公式总体方差与标准差的计算公式总体标准差总体标准差6/29/202481总体方差与标准差的计算公式总体标准差8/11/202381样本方差和标准差(记住)样本方差和标准差(记住)p92(simple variance and standard deviation)n未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:样本方差用自样本方差用自由度由度n-1去除去除!6/29/202482样本方差和标准差(记住)p92未分组数据:组距分组数据:未分方差与标准差的应用方差与标准差的应用n【例【例3.20】要求:根据表中的数据计算要求:根据表中的数据计算120名职工通信名职工通信费用支出额的方差和标准差。费用支出额的方差和标准差。6/29/202483方差与标准差的应用【例3.20】要求:根据表中的数据计算12方差与标准差的计算方差与标准差的计算【解】【解】已知平均数为已知平均数为165元,因是随机抽取的样本资元,因是随机抽取的样本资料,故依据样本方差及标准差的公式计算。料,故依据样本方差及标准差的公式计算。计算结果表明计算结果表明计算结果表明计算结果表明,样本中每名职工月通信费用支出额与,样本中每名职工月通信费用支出额与月平均通信费用支出额月平均通信费用支出额165元的水平相比,差异有大元的水平相比,差异有大有小,但有小,但平均偏差平均偏差是是51.4元。元。6/29/202484方差与标准差的计算【解】已知平均数为165元,因是随机抽方差与标准差的应用方差与标准差的应用【例【例3.22】考察一台机器的生产状况,利用抽样程序考察一台机器的生产状况,利用抽样程序来检验其生产出来的产品质量是否稳定。据行业标准,来检验其生产出来的产品质量是否稳定。据行业标准,如果样本零件尺寸的标准差大于如果样本零件尺寸的标准差大于0.3公分,则表明该零件公分,则表明该零件的质量不稳定,需要对该机器进行停工检修。数据如下:的质量不稳定,需要对该机器进行停工检修。数据如下:要求:要求:根据资料,判断该机器是否需要停工修。根据资料,判断该机器是否需要停工修。6/29/202485方差与标准差的应用【例3.22】考察一台机器的生产状况,利方差与标准差的应用方差与标准差的应用n解:解:n计算的样本标准差计算的样本标准差0.2126公分,小于公分,小于0.3分,表分,表明该台机器不需要停工检修明该台机器不需要停工检修。注注注注意意意意:标标标标准准准准差差差差是是是是一一一一个个个个重重重重要要要要的的的的偏偏偏偏差差差差,描描描描述述述述了了了了各各各各观观观观察察察察值值值值与与与与均均均均值的平均距离。值的平均距离。值的平均距离。值的平均距离。6/29/202486方差与标准差的应用解:注意:标准差是一个重要的偏差,描述了各六、离散系数六、离散系数 p94n离散系数离散系数(标准差系数或变异系数)通常是用标准(标准差系数或变异系数)通常是用标准差来计算的,它是一组数据的标准差与其相应的均差来计算的,它是一组数据的标准差与其相应的均值之比,是测度数据离散程度的相对指标,其计算值之比,是测度数据离散程度的相对指标,其计算公式为:公式为:n式中:式中:V和和Vs分别表示总体离散系数和样本离散系分别表示总体离散系数和样本离散系数。数。6/29/202487六、离散系数 p94离散系数(标准差系数或变异系数)通常是离散系数的应用离散系数的应用n平均水平或平均水平或计量量单位位不同的不同不同的不同组别的的变量量值,不能直接用离散程度的,不能直接用离散程度的测度度值比比较。n平均水平或平均水平或计量量单位不同的不同位不同的不同组别进行行比比较,需,需计算离散系数。算离散系数。n离散系数大的离散系数大的说明明该组数据的离散程度也数据的离散程度也就大,离散系数小的就大,离散系数小的说明明该组数据的离散数据的离散程度小。程度小。6/29/202488离散系数的应用平均水平或计量单位不同的不同组别的变量值,不能离散系数的应用离散系数的应用n【例【例3.22】从某管理局所属的两家企业中各随机抽取从某管理局所属的两家企业中各随机抽取10名职工,调查获得他们的年收入数据如表所示:名职工,调查获得他们的年收入数据如表所示:要求:根据上表数据计算甲乙两企业职工平均工资以要求:根据上表数据计算甲乙两企业职工平均工资以及标准差系数,说明两组数据的离散程度及及标准差系数,说明两组数据的离散程度及平均数的平均数的代表性代表性。6/29/202489离散系数的应用【例3.22】从某管理局所属的两家企业中各随机结结论论:计计算算结结果果表表明明,v乙乙v甲甲,说说明明乙乙企企业业职职工工年年收收入入的的离离散散程程度度小小于于甲甲企企业业的的。说说明明乙乙企企业业职职工工年年收收入入平平均水平比的甲企业的更具有代表性。均水平比的甲企业的更具有代表性。注意:解决问题的程序与步骤。解决问题的程序与步骤。(四步四步)v v甲甲=46670466704667014354.2514354.2514354.25=30.7630.7630.76%v v乙乙=53380533805338015277.415277.415277.4=28.62%28.62%28.62%6/29/202490结论:计算结果表明,v乙 0为右偏分布4.偏态系数 0为左偏分布5.偏态系数大于1或小于-1,高度偏态6.偏态系数在0.5-1或-1-0.5,中等偏态。值越接近于值越接近于0,数据分布越趋于对称;,数据分布越趋于对称;的绝对值越大,数据分布越偏斜。的绝对值越大,数据分布越偏斜。6/29/2024101 偏态及其测定 注意:统计学家Pearson于1二、峰度及其测度二、峰度及其测度 n 峰度峰度是统计学中描述数据分布的特征值,是反是统计学中描述数据分布的特征值,是反映分布曲线顶峰尖锐程度的特征值。映分布曲线顶峰尖锐程度的特征值。n它以正态分布曲线为标准,反映分布曲线顶端相对它以正态分布曲线为标准,反映分布曲线顶端相对于正态曲线顶端而言其平坦或尖峭的程度。于正态曲线顶端而言其平坦或尖峭的程度。n 峰度分为高峰度和低峰度两种峰度分为高峰度和低峰度两种;n频率分布中各变量值对众数的相对位置都较正态曲频率分布中各变量值对众数的相对位置都较正态曲线更为密集,因而使其曲线呈陡峭形,称为高峰度;线更为密集,因而使其曲线呈陡峭形,称为高峰度;n频率分布中各变量值对众数的相对位置都较正态曲频率分布中各变量值对众数的相对位置都较正态曲线更分散,曲线较为平缓,称为低峰度,如图线更分散,曲线较为平缓,称为低峰度,如图 所示。所示。6/29/2024102二、峰度及其测度 峰度是统计学中描述数据分布峰度及其测度6/29/2024103峰度及其测度8/11/2023103峰态及其测定峰态及其测定1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度,反映数据分布的尖峭程度(与正态分布比较)。3.计算公式为:4.峰态系数 =0扁平峰度适中扁平峰度适中5.峰态系数 0为尖峰分布尖峰分布(高峰态高峰态)6/29/2024104峰态及其测定统计学家Pearson于1905年首次提出8/1偏度、峰度的应用偏度、峰度的应用n【例【例3.24】要求:根据表中的资料计算】要求:根据表中的资料计算120名职工月名职工月通信费用分布的偏度与峰度。通信费用分布的偏度与峰度。6/29/2024105偏度、峰度的应用【例3.24】要求:根据表中的资料计算120偏度、峰度的应用偏度、峰度的应用n解:解:n计算结果表明:计算结果表明:120名职工月通信费用呈右偏分布;峰名职工月通信费用呈右偏分布;峰度系数小于度系数小于0,说明,说明120名职工月通信费用分布为低峰名职工月通信费用分布为低峰曲线,虽然近似于对称分布,但峰度低于标准正态分曲线,虽然近似于对称分布,但峰度低于标准正态分布。布。6/29/2024106偏度、峰度的应用解:8/11/2023106三、应用三、应用Excel计算描述统计的测度值计算描述统计的测度值6/29/2024107三、应用Excel计算描述统计的测度值8/11/202310本本 章章 小小 结结n一、一、数据集中趋势的度量数据集中趋势的度量数据集中趋势的度量数据集中趋势的度量n 数值平均数:数值平均数:算术平均数、调和平均数、几何平均数算术平均数、调和平均数、几何平均数 n 位置平均数:众数、中位数、四分位数位置平均数:众数、中位数、四分位数n n二、离中趋势的度量二、离中趋势的度量二、离中趋势的度量二、离中趋势的度量n异众比率、四分位差、极差、平均差的计算与应用异众比率、四分位差、
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!