第4章数据概括性度量课件

上传人:txadgkn****dgknqu... 文档编号:241596769 上传时间:2024-07-08 格式:PPT 页数:99 大小:749.19KB
返回 下载 相关 举报
第4章数据概括性度量课件_第1页
第1页 / 共99页
第4章数据概括性度量课件_第2页
第2页 / 共99页
第4章数据概括性度量课件_第3页
第3页 / 共99页
点击查看更多>>
资源描述
第四章 数据的概括性度量1第四章 数据的概括性度量1第四章 数据分布特征的测度第一节第一节 集中趋势的测度集中趋势的测度 第二节第二节 离散程度的测度离散程度的测度第三节第三节 偏态与峰度的测度偏态与峰度的测度2第四章 数据分布特征的测度第一节 集中趋势的测度 2学习目标n1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法n2.集中趋势不同测度值的特点和应用场合集中趋势不同测度值的特点和应用场合n3.离散程度各测度值的计算方法离散程度各测度值的计算方法n4.离散程度不同测度值的特点和应用场合离散程度不同测度值的特点和应用场合n5.偏态与峰度测度方法偏态与峰度测度方法n6.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析3学习目标1.集中趋势各测度值的计算方法3数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)偏态和峰度偏态和峰度偏态和峰度偏态和峰度(形状)(形状)(形状)(形状)4数据分布的特征集中趋势 离中趋势偏态和峰度4数据分布的特征和测度数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众 数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 度度度度四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率偏偏偏偏 态态态态5数据分布的特征和测度数据的特征和测度分布的形状集中趋势离散程第一节 集中趋势的测度一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较6第一节 集中趋势的测度一.分类数据:众数6数据特征分布的和测度(本节位置)数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众 数数数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 度度度度四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率偏偏偏偏 态态态态7数据特征分布的和测度(本节位置)数据的特征和测度分布的形状集中趋势(Central tendency)1.一组数据向其中心值靠拢的倾向和程度一组数据向其中心值靠拢的倾向和程度2.测度集中趋势就是寻找数据一般水平的代表值或中心值测度集中趋势就是寻找数据一般水平的代表值或中心值3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.低层次数据的集中趋势测度值适用于高层次的测量数据,低层次数据的集中趋势测度值适用于高层次的测量数据,反过来,高层次数据的集中趋势测度值并不适用于低层次反过来,高层次数据的集中趋势测度值并不适用于低层次的测量数据的测量数据5.选用哪一个测度值来反映数据的集中趋势,要根据所掌握选用哪一个测度值来反映数据的集中趋势,要根据所掌握的数据的类型来确定的数据的类型来确定8集中趋势(Central tendency)一组数据向其中一、分类数据:众数9一、分类数据:众数9众数(概念要点)1.集中趋势的测度值之一 2.出现次数最多的变量值 3.不受极端值的影响 4.可能没有众数或有几个众数 5.主要用于分类数据,也可用于顺序数据和数值型数据10众数(概念要点)1.集中趋势的测度值之一10众数(众数的不唯一性)n无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 4211众数(众数的不唯一性)无众数原始数据:10 (一)分类数据的众数(算例)表表3-1 某城市居民关注广告类型的频数某城市居民关注广告类型的频数分布分布 广告类型广告类型人数人数(人人)比例比例频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广招生招聘广告告 其他广告其他广告112519161020.5600.2550.0450.0800.0500.01056.025.54.58.05.01.0合计合计2001100【例】【例】【例】【例】根据下表数据,计算众数根据下表数据,计算众数解解解解:这这里里的的变变量量为为“广广告告类类型型”,这这是是个个分分类类变变量量,不不同同类类型型的的广广告告就就是是变变量量值值。我我们们看看到到,在在所所调调查查的的200200人人当当中中,关关注注商商品品广广告告的的人人数数最最多多,为为112112人人,占占总总被被调调查查人人数数的的56%56%,因因此此众众数数为为“商商品品广广告告”这这一类别,即一类别,即 MoMo商品广告商品广告商品广告商品广告12(一)分类数据的众数(算例)表3-1 某城市居民关注广(二)顺序数据的众数 (算例)【例】【例】【例】【例】根据下表的数据,计算众数根据下表的数据,计算众数解解解解:这这里里的的数数据据为为定定序序数数据据。变变量量为为“回回答答类类别别”。甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最多多,为为108108户户,因因此此众众数数为为“不不满满意意”这一类别,即这一类别,即 MoMo不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)百分比百分比 (%)非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意24108934530836311510合计合计300100.013(二)顺序数据的众数 (算例)【例】根据下表的数据,(三)数值型分组数据的众数(要点及计算公式)1.众数的值与相邻两组频数的分布有关4.4.该公式假定众数组的频数在众数组内均匀分布该公式假定众数组的频数在众数组内均匀分布2.2.2.相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值相邻两组的频数相等时,众数组的组中值即为众数即为众数即为众数3.3.相邻两组的频数不相等时,众数采用下相邻两组的频数不相等时,众数采用下列近似公式计算列近似公式计算iffffffLM-+-+-)()(1110M MMoooM MMoooM MMooo14(三)数值型分组数据的众数(要点及计算公式)1.众数的数值型分组数据的众数(算例)表表3-5 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50【例例例例4.14.1】根根据据下下表表数数据据,计计算算5050名名工工人人日日加加工工零零件件数数的的众数众数814-)(1235)1014()814(1200个-+-+M15数值型分组数据的众数(算例)表3-5 某车间50名工人日二、顺序数据:中位数和分位数16二、顺序数据:中位数和分位数16(一)中位数(概念要点)1.集中趋势的测度值之一 2.排序后处于中间位置上的值MMe e50%50%3.3.不受极端值的影响不受极端值的影响4.4.主要用于顺序数据,也可用数值型数据,但不能用于分主要用于顺序数据,也可用数值型数据,但不能用于分类数据类数据17(一)中位数(概念要点)1.集中趋势的测度值之一Me50中位数(位置的确定)未分组数据:未分组数据:组距分组数据:组距分组数据:18中位数(位置的确定)未分组数据:组距分组数据:181.未分组数据的中位数(计算公式)191.未分组数据的中位数(计算公式)192.顺序数据的中位数(算例)【例例例例4.24.2】根根据据下下表表中中的的数数据据,计计算算甲甲城城市市家家庭庭对对住住房满意状况评价的中位数房满意状况评价的中位数解:解:解:解:中位数的位置为:中位数的位置为:(300+1)/2 (300+1)/2150.5150.5从从累累计计频频数数看看,中中位位数数的的在在“一一般般”这这一一组组别别中。因此中。因此 MeMe一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300202.顺序数据的中位数(算例)【例4.2】根据下表中的数据,3.数值型未分组数据的中位数(5个数据的算例)n原始数据原始数据:24 22 21 26 20n排排 序序:20 21 22 24 26n位位 置置:1 2 3 4 5中位数中位数 22213.数值型未分组数据的中位数(5个数据的算例)原始数据:a数值型未分组数据的中位数(6个数据的算例)n原始数据原始数据:10 5 9 12 6 8n排排 序序:5 6 8 9 10 12n位位 置置:1 2 3 4 5 6位置位置N+126+123.5中位数中位数 8+928.522a数值型未分组数据的中位数(6个数据的算例)原始数据:1.根据位置公式确定中位数所在的组 2.采用下列近似公式计算:3.该公式假定中位数组的频数在该组内均匀分布b数值型分组数据的中位数(要点及计算公式)NifSLMmme*-+-1223 1.根据位置公式确定中位数所在的组 3.该公式假定中位数值型分组数据的中位数(算例)表表3-5 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50【例例例例4.34.3】根根 据据 第第 三三章章表表3-53-5中中的的 数数 据据,计计算算50 50 名名工工 人人 日日 加加工工 零零 件件 数数的中位数的中位数1450)(21.1235162120个*-+eM24数值型分组数据的中位数(算例)表3-5 某车间50名工人(二)四分位数(概念要点)1.集中趋势的测度值之一2.排序后处于25%和75%位置上的值3.不受极端值的影响4.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QQL LQMQMQUQU25%25%25%25%25(二)四分位数(概念要点)1.集中趋势的测度值之一3.四分位数(位置的确定)未分组数据:未分组数据:组距分组数据组距分组数据:下四分位数下四分位数(QQL L)位置位置=N+N+1 14 4上四分位数上四分位数(QQU U)位置位置=3(3(N+N+1)1)4 4下四分位数下四分位数(QQL L)位置位置=N N4 4上四分位数上四分位数(QuQu)位置位置=3N3N4 426四分位数(位置的确定)未分组数据:组距分组数据:下四分位数1.顺序数据的四分位数(算例)【例例例例4.44.4】根根据据下下表表数数据据,计计算算甲甲城城市市家家庭庭对对住住房房满满意意状状况况评评价的四分位数价的四分位数解:解:解:解:下四分位数下四分位数(Q QL L)的位置为:的位置为:Q QL L位置位置(300+1)/4(300+1)/475.2575.25 上四分位数上四分位数(Q QL L)的位置为:的位置为:Q QUU位位置置(3(3(300+1300+1))/4)/4225.75225.75从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QUU在在“一一般般”这一组别中。因此这一组别中。因此 QL QL 不满意不满意不满意不满意 QU QU 满意满意满意满意表表3-2 甲城市家庭对住房状况评价的频数分甲城市家庭对住房状况评价的频数分布布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计300271.顺序数据的四分位数(算例)【例4.4】根据下表数据,计2.数值型未分组数据的四分位数(7个数据的算例)n原始数据原始数据:23 21 30 32 28 25 26n排排 序序:21 23 25 26 28 30 32n位位 置置:1 2 3 4 5 6 7 N+N+1 1QL=237+7+1 1QQL L位置位置=4 4=4 4=2=2QQU U位置位置=3(3(N+N+1)1)4 43(73(7+1)1)4 4=6=6QU=30282.数值型未分组数据的四分位数(7个数据的算例)原始数据数值型未分组数据的四分位数(6个数据的算例)n原始数据原始数据:23 21 30 28 25 26n排排 序序:21 23 25 26 28 30n位位 置置:1 2 34 5 6QQL L=21+0.75(23-21)=21+0.75(23-21)=22.522.5QQL L位置位置=N+N+1 14 4=6+6+1 14 4=1.75=1.75QQU U位置位置=3(3(N+N+1)1)4 43(63(6+1)1)4 4=5.25=5.25QQU U=28+0.25(30-28)=28+0.25(30-28)=28.528.529数值型未分组数据的四分位数(6个数据的算例)原始数据:3.数值型分组数据的四分位数(计算公式)上四分位数上四分位数上四分位数上四分位数:UUU-1UUifS3NLQ*-+4LLL-1LLifSNLQ*-+4下四分位数下四分位数下四分位数下四分位数:303.数值型分组数据的四分位数(计算公式)上四分位数:UU数值型分组数据的四分位数(计算示例)nQL位置位置50/412.5表表3-5 某车间某车间50名工人日加工零件数分组表名工人日加工零件数分组表按零件数分组按零件数分组频数(人)频数(人)累积频数累积频数105110110115115120120125125130130135135140358141064381630404650合计合计50【例例例例4.64.6】根根据据第第三三章章表表3-53-5中中的的数数据据,计计算算50 50 名工人日加工零件数的四分位数名工人日加工零件数的四分位数QU位置位置350/437.5)(81.117588450115个*-+LQ)(75.128510304503125个*-*+UQ31数值型分组数据的四分位数(计算示例)QL位置50/41众数、中位数与分位数的练习:课后习题:P109习题4.1 习题4.232众数、中位数与分位数的练习:课后习题:P10932均值(概念要点)n1.集中趋势的测度值之一n2.最常用的测度值n3.一组数据的均衡点所在n4.易受极端值的影响n5.用于数值型数据,不能用于分类数据和顺序数据33均值(概念要点)1.集中趋势的测度值之一33(一)均值(计算公式)设一组数据为:设一组数据为:X X1 1,X X2 2,X XN N 简单均值简单均值简单均值简单均值的计算公式为的计算公式为设分组后的数据为:设分组后的数据为:X1 X1,X2 X2,XK XK 相应的频数为:相应的频数为:F F1 1,F F2 2,F FK K加权均值加权均值的计算公式为的计算公式为34(一)均值(计算公式)设一组数据为:X1,X1.简单均值(算例)n原始数据:10591368351.简单均值(算例)原始数据:105 9 136 82.加权均值(算例)表表4-1 某车间某车间50名工人日加工零件均值计算表名工人日加工零件均值计算表按零件数分组按零件数分组组中值(组中值(Xi)频数(频数(Fi)XiFi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064322.5562.5940.01715.01275.0795.0550.0合计合计506160.0【例【例【例【例4.74.7】根据第三章表根据第三章表3-53-5中的数据,计算中的数据,计算50 50 名工人日加工零件数的均值名工人日加工零件数的均值362.加权均值(算例)表4-1 某车间50名工人日加工加权均值(权数对均值的影响)n 甲乙两组各有10名学生,他们的考试成绩及其分布数据如下n 甲组:甲组:考试成绩(考试成绩(X):0 20 100n 人数分布(人数分布(F):):1 1 8n 乙组:乙组:考试成绩(考试成绩(X):0 20 100n 人数分布(人数分布(F):):8 1 1X X X甲甲甲01+201+100801+201+100801+201+1008n n n 101010iii=1=1=1 X X Xiii 828282828282(分)(分)(分)(分)(分)(分)X X X乙乙乙08+201+100108+201+100108+201+1001n n n 101010iii=1=1=1 X X Xiii 121212121212(分)(分)(分)(分)(分)(分)37加权均值(权数对均值的影响)甲乙两组各有10名学生,3.均值的数学性质 1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小383.均值的数学性质 1.各变量值与均值的离差之和等于零 2.(二)调和平均数(概念要点)n1.集中趋势的测度值之一n2.各变量值倒数的平均倒数,是均值的另一种表现形式n3.易受极端值的影响n4.不能用于分类数据和顺序数据n5.计算公式为原来只是计原来只是计算时使用了算时使用了不同的数据不同的数据!39(二)调和平均数(概念要点)1.集中趋势的测度值之一39调和平均数(算例)表表4-3 某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜名称名称批发价格批发价格(元元)Xi成交额成交额(元元)XiFi(m)成交量成交量(公斤公斤)Fi甲甲乙乙丙丙1.201.200.500.500.800.8018000180001250012500640064001500015000250002500080008000合计合计3690048000【例例例例4.84.8】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表4-24-2,计算三种蔬菜该日的平均批发价格计算三种蔬菜该日的平均批发价格40调和平均数(算例)表4-3 某日三种蔬菜的批发成交数(三)几何平均数(概念要点)1.集中趋势的测度值之一2.N 个变量值乘积的 N 次方根3.适用于特殊的数据:变量值本身是比率的形式,且比率的连乘积等于末期除以基期4.主要用于计算平均发展速度5.计算公式为 6.6.可看作是均值的一种变形可看作是均值的一种变形41(三)几何平均数(概念要点)1.集中趋势的测度值之一 4242几何平均数n 【例例4.10】一位投资者持有一种股票,1996年、1997年、1998年和1999年收益率分别为4.5%、2.0%、3.5%、5.4%。计算该投资者在这四年内的平均收益率。平均收益率平均收益率103.84%-1=3.84%103.84%-1=3.84%43几何平均数 【例4.10】一位投资者持有一种股票,1(算例)n某水泥生产企业1999年的产量为100万吨,2000年与1999年相比增长率为9,2001年与2000年相比增长率为16,2002年与2001年相比增长率为20。求各年的年平均增长率。44(算例)某水泥生产企业1999年的产量为100万吨,2000四、众数、中位数和均值的比较45四、众数、中位数和均值的比较45众数、中位数和均值的关系对称分布对称分布对称分布对称分布均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值中位数中位数中位数中位数中位数中位数众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值46众数、中位数和均值的关系对称分布均值=中位数=众数左偏分数据类型与集中趋势测度值表表4-4 数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型分类数据分类数据 顺序数据顺序数据数值型数据数值型数据适适用用的的测测度度值值众数众数中位数中位数 简单均值简单均值四分位数四分位数众数众数 加权均值加权均值众数众数中位数中位数 调和平均数调和平均数 四分位数四分位数 几何平均数几何平均数47数据类型与集中趋势测度值表4-4 数据类型和所适用的集例题:n某百货公司6月份各天的销售数据如下(单位:万元)n257 276 297 252 238 310 240 236 265 278n271 292 261 281 301 274 267 280 291 258 n272 284 268 303 273 263 322 249 269 295n(1)计算该百货公司销售额的均值、中位数和四分位数;n(2)计算日销售额的标准差。48例题:某百货公司6月份各天的销售数据如下(单位:万元)48例:甲、乙两个企业生产三种产品的单位和总成本资料如下:n产品名称 单位成本 总成本n (元)甲企业 乙企业nA 15 2100 3255nB 20 3000 1500nC 30 1500 1500n比较哪个企业的总平均成本高并分析其原因。49例:甲、乙两个企业生产三种产品的单位和总成本资料如下:产品名第二节 离散程度的测度一一.分类数据:异众比率分类数据:异众比率二二.顺序数据:四分位差顺序数据:四分位差三三.数值型数据:方差及标准差数值型数据:方差及标准差四四.相对离散程度:离散系数相对离散程度:离散系数50第二节 离散程度的测度一.分类数据:异众比率50离中趋势1.数据分布的另一个重要特征数据分布的另一个重要特征2.离中趋势的各测度值是对数据离散程度所作的描述离中趋势的各测度值是对数据离散程度所作的描述3.反映各变量值远离其中心值的程度,因此也称为离中趋势反映各变量值远离其中心值的程度,因此也称为离中趋势4.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度5.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值51离中趋势数据分布的另一个重要特征51数据的特征和测度(本节位置)数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势众众众众 数数数数中位数中位数中位数中位数均均均均 值值值值离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰 度度度度四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率偏偏偏偏 态态态态52数据的特征和测度(本节位置)数据的特征和测度分布的形状离散一、分类数据:异众比率53一、分类数据:异众比率53异众比率(概念要点)1.离散程度的测度值之一2.非众数组的频数占总频数的比率3.计算公式为 4.用于衡量众数的代表性54异众比率(概念要点)1.离散程度的测度值之一 4.异众比率(算例)表表3-1 某城市居民关注广告类型的频数分布某城市居民关注广告类型的频数分布 广告类型广告类型人数人数(人人)频率频率(%)商品广告商品广告 服务广告服务广告 金融广告金融广告 房地产广告房地产广告 招生招聘广告招生招聘广告 其他广告其他广告1125191610256.025.54.58.05.01.0合计合计200100【例例例例4.114.11】根根据据第第三三章章表表3-13-1中的数据,计算异众比率中的数据,计算异众比率解解解解:在在所所调调查查的的200200人人当当中中,关关注注非非商商品品广广告告的的人人数数占占44%44%,异异众众比比率率还还是是比比较较大大。因因此此,用用“商商品品广广告告”来来反反映映城城市市居居民民对对广广告告关关注注的一般趋势,其代表性不是很好的一般趋势,其代表性不是很好 V Vr r=200-112200-112200200 =1-=1-112 112 200 200 =0.44=44%=0.44=44%55异众比率(算例)表3-1 某城市居民关注广告类型的频数二、顺序数据:四分位差56二、顺序数据:四分位差56四分位差(概念要点)1.离散程度的测度值之一2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU-QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性57四分位差(概念要点)1.离散程度的测度值之一57四分位差(定序数据的算例)【例例例例】根根据据下下表表数数据据,计计算算甲甲城城市市家家庭庭对对住住房房满满意意状状况况评评价价的四分位差的四分位差解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意意为为5 5 已知已知 Q QL L=不满意不满意 =2 2,Q QU U =满意满意 =4 4四分位差:四分位差:Q QD D =Q QU U =Q QL L =4 2 4 2 =2 2甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别甲城市甲城市户数户数 (户户)累计频数累计频数 非常不满意非常不满意 不满意不满意 一般一般 满意满意 非常满意非常满意2410893453024132225270300合计合计30058四分位差(定序数据的算例)【例】根据下表数据,计算甲城市家三、数值型数据:方差和标准差59三、数值型数据:方差和标准差59(一)极差(概念要点及计算公式)1.一组数据的最大值与最小值之差2.离散程度的最简单测度值3.易受极端值影响4.未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010未分组数据未分组数据未分组数据未分组数据 R R =max(=max(X Xi i)-min()-min(X Xi i).=组距分组数据组距分组数据组距分组数据组距分组数据 R R 最高组上限最高组上限-最低组下最低组下限限5.5.计算公式为计算公式为60(一)极差(概念要点及计算公式)1.一组数据的最大值与(二)平均差(概念要点及计算公式)1.离散程度的测度值之一2.各变量值与其均值离差绝对值的平均数3.能全面反映一组数据的离散程度4.数学性质较差,实际中应用较少5.5.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据61(二)平均差(概念要点及计算公式)1.离散程度的测度值平均差(计算过程及结果)某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分按零件数分组组组中值组中值(Xi)频数频数(Fi)|Xi-X|Xi-X|Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.535814106415.710.75.70.74.39.314.347.153.545.69.843.055.857.2合计合计50312【例】【例】【例】【例】根据下表数据,计算工人日加工零件数的平均差根据下表数据,计算工人日加工零件数的平均差62平均差(计算过程及结果)某车间50名工人日加工零件标准差计算6363(三)方差和标准差(概念要点)1.离散程度的测度值之一2.最常用的测度值3.反映了各变量值与均值的平均差异4.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12X=X=8.38.364(三)方差和标准差(概念要点)1.离散程度的测度值之一41.总体方差和标准差(计算公式)未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式651.总体方差和标准差(计算公式)未分组数据:组距分组数据:总体标准差(计算过程及结果)表表4-6 某车间某车间50名工人日加工零件标准差计算表名工人日加工零件标准差计算表按零件数分组按零件数分组组中值组中值(Xi)频数频数(Fi)(Xi-X)2(Xi-X)2Fi105110110115115120120125125130130135135140107.5112.5117.5122.5127.5132.5137.5358141064246.49114.4932.490.4918.4986.49204.49739.47572.45259.926.86184.90518.94817.96合计合计503100.5【例【例【例【例4.144.14】根据下表数据,计算工人日加工零件数的标准差根据下表数据,计算工人日加工零件数的标准差66总体标准差(计算过程及结果)表4-6 某车间50名工67672.样本方差和标准差(计算公式)未分组数据未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:样本方差用自样本方差用自由度由度n-1去除去除!682.样本方差和标准差(计算公式)未分组数据:组距分组数据:样本方差3.自由度(degree of freedom)1.一组数据中可以自由取值的数据的个数 2.当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 3.例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值 4.样本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差2时,它是2的无偏估计量69样本方差3.自由度(degree of freedom)样本方差(算例)n原始数据:10 5 9 13 6 870样本方差(算例)原始数据:10 5 9样本标准差(算例)样本标准差样本标准差原始数据:10 5 9 13 6 871样本标准差(算例)样本标准差原始数据:10 方差(简化计算公式)样本方差样本方差总体方差总体方差72方差(简化计算公式)样本方差总体方差724.方差的方差的数学性质数学性质n各变量值对均值的方差小于对任意值的方差各变量值对均值的方差小于对任意值的方差n设X0为不等于X 的任意数,D2为对X0的方差,则734.方差的数学性质各变量值对均值的方差小于对任意值的方差75.标准化值(standard score)1.也称标准分数,通常用于对变量的标准化处理2.给出某一个值在一组数据中的相对位置3.可用于判断一组数据是否有离群点:四分位差1.5倍的为离群点,3倍为极端值4.计算公式为:745.标准化值(standard score)1.也称标练习:n一家公司在招收职员时,首先通过两项能力测试。在A项测试中,其平均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想。75练习:一家公司在招收职员时,首先通过两项能力测试。在A项测试习题:n现场收集数据(不是网络,而是现场),要求如下:现场收集数据(不是网络,而是现场),要求如下:n1.收集分类数据,计算异众比率收集分类数据,计算异众比率n2.收集顺序数据,计算异众比率和四分位差收集顺序数据,计算异众比率和四分位差n3.收集数值型数据,计算极差、平均差、标准差、标收集数值型数据,计算极差、平均差、标准差、标准化值准化值n4.指标计算结果不是目的,要好好体会一下指标所代指标计算结果不是目的,要好好体会一下指标所代表的含义,如果,代表性不好,你有没有什么更好的表的含义,如果,代表性不好,你有没有什么更好的建议?建议?n5.计算离散指标的同时,衡量一下相对应的集中趋势计算离散指标的同时,衡量一下相对应的集中趋势指标的代表性?指标的代表性?n6.计算完离散指标,与同桌的离散指标比较一下,看计算完离散指标,与同桌的离散指标比较一下,看谁的离散程度大?前提,要保证你们的离散指标是可谁的离散程度大?前提,要保证你们的离散指标是可比较的!比较的!76习题:现场收集数据(不是网络,而是现场),要求如下:76四、相对离散程度:离散系数77四、相对离散程度:离散系数77 离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比2.消除了数据水平高低和计量单位的影响3.测度了数据的相对离散程度4.用于对不同组别数据离散程度的比较5.计算公式为:78 离散系数(coefficient of vari离散系数离散系数(实例和计算过程)表表4-7 某管理局所属某管理局所属8家企业的产品销售数据家企业的产品销售数据企业编号企业编号产品销售额(万元)产品销售额(万元)X1销售利润(万元)销售利润(万元)X21234567817022039043048065095010008.112.518.022.026.540.064.069.0【例例例例4.164.16】某某某某管管管管理理理理局局局局抽抽抽抽查查查查了了了了所所所所属属属属的的的的8 8家家家家企企企企业业业业,其其其其产产产产品品品品销销销销售售售售数数数数据据据据如如如如表表表表4.74.7。试比较产品销售额与销售利润的离散程度。试比较产品销售额与销售利润的离散程度。试比较产品销售额与销售利润的离散程度。试比较产品销售额与销售利润的离散程度79离散系数(实例和计算过程)表4-7 某管理局所属8家X X1 1=536.25536.25(万元)(万元)S S1 1=309.19309.19(万元)(万元)V V1 1=536.25536.25309.19309.19=0.5770.577S S2 2=23.0923.09(万元)(万元)V V2 2=32.521532.521523.0923.09=0.7100.710X X2 2=32.521532.5215(万元)(万元)结结结结论论论论:计计算算结结果果表表明明,V V1 1 0为右偏分布4.偏态系数 0为左偏分布5.计算公式为()31 3sSkNFXXKiii-87偏态(概念要点)1.数据分布的不对称性()31 3sS偏态(实例)【例例例例 4.174.17】已已 知知1997年年我我国国农农村村居居民民家家庭庭按按纯纯收收入入分分组组的的有有关关数数据据如如表表4.9。试试计计算算偏偏态态系系数数2.2812.4520.3519.5214.9310.356.564.132.681.814.94500以下以下500100010001500150020002000250025003000300035003500400040004500450050005000以上以上户数比重(户数比重(%)按纯收入分组(元)按纯收入分组(元)表表4-10 1997年年农村居民家庭纯收入数据农村居民家庭纯收入数据88偏态(实例)【例4.17】已知1997年我国农村居民家庭按户户户户数数数数比比比比重重重重(%)(%)25252020151510105 5农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图农村居民家庭村收入数据的直方图偏态与峰度(从直方图上观察)按纯收入分组按纯收入分组按纯收入分组按纯收入分组(元元元元)10001000500500150015002000200025002500300030003500350040004000 4500450050005000结论:结论:结论:结论:1.1.为右偏分布为右偏分布 2.2.峰度适中峰度适中89户数比重252015105农村居民家庭村收入数据的直方图偏态偏态系数(计算过程)表表4-10 农村居民家庭纯收入数据偏态及峰度计算表农村居民家庭纯收入数据偏态及峰度计算表按纯收入分组按纯收入分组(百元)(百元)组中值组中值Xi户数比重户数比重(%)Fi(Xi-X)Fi3(Xi-X)Fi45以下以下5101015152020252530303535404045455050以上以上2.57.512.517.522.527.532.537.542.547.552.52.2812.4520.3519.5214.9310.356.564.132.681.814.94-154.64-336.46-144.87-11.840.1823.1689.02171.43250.72320.741481.812927.154686.511293.5346.520.20140.60985.492755.005282.948361.9846041.33合计合计1001689.2572521.2590偏态系数(计算过程)表4-10 农村居民家庭纯收入数偏态系数(计算结果)根据上表数据计算得根据上表数据计算得根据上表数据计算得根据上表数据计算得将计算结果代入公式得将计算结果代入公式得将计算结果代入公式得将计算结果代入公式得结论:结论:结论:结论:偏态系数为正值,而且数值较大,说明农村居民家庭纯偏态系数为正值,而且数值较大,说明农村居民家庭纯收入的分布为右偏分布,即收入较少的家庭占据多数,而收入收入的分布为右偏分布,即收入较少的家庭占据多数,而收入较高的家庭则占少数,而且偏斜的程度较大较高的家庭则占少数,而且偏斜的程度较大 (百元)429.2111KiiiKiiFFXX(百元)089.211KiiiKiiFFXs()()()956.07339.176625.1689089.121429.21 3111 331 3-iiiKiiiFXNFXXsSk91偏态系数(计算结果)根据上表数据计算得将计算结果代入公式得二、峰 度92二、峰 度92峰度(kurtosis)n1.数据分布扁平程度的测度n2.峰度系数=3为扁平程度适中n3.偏态系数3为尖峰分布n5.计算公式为93峰度(kurtosis)1.数据分布扁平程度的测度93峰度系数系数(实例计算结果)代入公式得代入公式得 【例例例例4.184.18】根根据据表表4-104-10中中的的计计算算结结果果,计计算算农农村村居民家庭纯收入分布的峰度系数居民家庭纯收入分布的峰度系数 结结论论:由由于于=3.43=3.43,说说明明我我国国农农村村居居民民家家庭庭纯纯收收入入的的分分布布为为尖尖峰峰分分布布,说说明明低低收收入入家家庭庭占占有有较较大大的比重的比重 94峰度系数系数(实例计算结果)代入公式得【例4.18】根据由Excel输出的描述统计量95由Excel输出的描述统计量95本章小节 1.集中趋势各测度值的含义、计算方法、集中趋势各测度值的含义、计算方法、特点和应用场合特点和应用场合 2.离散程度各测度值的含义、计算方法、离散程度各测度值的含义、计算方法、特点和应用场合特点和应用场合 3.偏态及峰度的测度方法偏态及峰度的测度方法 4.用用Excel计算描述统计量计算描述统计量96本章小节 1.集中趋势各测度值的含义、计算方法、特点和应用n1.因某种原因,银行为吸收存款而提高利息率,五年的年利率分别为9%、10%、12%、14%、20%。试计算五年的平均年利率。若存入2000元,第五年末实际存款额是多少?2.某车间生产三批产品的废品率分别为1%、2%、1.5%,三批产量占全部产量的比重分别为25%、35%、40%,计算该车间三批产品的平均废品率971.因某种原因,银行为吸收存款而提高利息率,五年的年利率分别作业:n下节课为作业时间,要求将第四章课后习题从前到后做到作业本上,各个版本均可(包括第三章的习题)。98作业:下节课为作业时间,要求将第四章课后习题从前到后做到作业9999
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!