第4章数据特征的描述课件

上传人:29 文档编号:241914115 上传时间:2024-08-05 格式:PPT 页数:89 大小:507.36KB
返回 下载 相关 举报
第4章数据特征的描述课件_第1页
第1页 / 共89页
第4章数据特征的描述课件_第2页
第2页 / 共89页
第4章数据特征的描述课件_第3页
第3页 / 共89页
点击查看更多>>
资源描述
4-1统计学统计学(第二版第二版)第第 4 章章 数据分布特征的测度数据分布特征的测度作者:中国人民大学统计学院作者:中国人民大学统计学院贾俊平贾俊平统计学第 4 章 数据分布特征的测度作者:中国人民大学统计学院4-2统计学统计学(第二版第二版)第第 4 章章 数据分布特征的测度数据分布特征的测度4.1 集中趋势的测度集中趋势的测度 4.2 离散程度的测度离散程度的测度4.3 偏态与峰态的测度偏态与峰态的测度第 4 章 数据分布特征的测度4.1 集中趋势的测4-3统计学统计学(第二版第二版)学习目标学习目标1.集中趋势各测度值的计算方法集中趋势各测度值的计算方法2.集中趋势各测度值的特点及应用场合集中趋势各测度值的特点及应用场合3.离散程度各测度值的计算方法离散程度各测度值的计算方法4.离散程度各测度值的特点及应用场合离散程度各测度值的特点及应用场合5.偏态与峰态的测度方法偏态与峰态的测度方法6.用用Excel计算描述统计量并进行分析计算描述统计量并进行分析学习目标1.集中趋势各测度值的计算方法4-4统计学统计学(第二版第二版)数据分布的特征数据分布的特征集中趋势集中趋势集中趋势集中趋势 (位置位置位置位置)偏态和峰态偏态和峰态偏态和峰态偏态和峰态(形状)(形状)(形状)(形状)离中趋势离中趋势离中趋势离中趋势 (分散程度分散程度分散程度分散程度)数据分布的特征集中趋势 偏态和峰态离中趋势4-5统计学统计学(第二版第二版)数据分布特征的测度数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态数据分布特征的测度数据特征的测度分布的形状集中趋势离散程度众4-6统计学统计学(第二版第二版)4.1 集中趋势的测度集中趋势的测度一一.分类数据:众数分类数据:众数二二.顺序数据:中位数和分位数顺序数据:中位数和分位数三三.数值型数据:均值数值型数据:均值四四.众数、中位数和均值的比较众数、中位数和均值的比较4.1 集中趋势的测度一.分类数据:众数4-7统计学统计学(第二版第二版)数据分布特征的和测度数据分布特征的和测度(本节位置本节位置)数据的特征和测度数据的特征和测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态数据分布特征的和测度(本节位置)数据的特征和测度分布的形状4-8统计学统计学(第二版第二版)集中趋势集中趋势(Central tendency)1.1.一一组数据向其中心值靠拢的倾向和程度组数据向其中心值靠拢的倾向和程度2.2.测度集中趋势就是寻找数据水平的代表值或中心值测度集中趋势就是寻找数据水平的代表值或中心值3.3.不同类型的数据用不同的集中趋势测度值不同类型的数据用不同的集中趋势测度值4.4.低层次数据的测度值适用于高层次的测量数据,但高低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据层次数据的测度值并不适用于低层次的测量数据集中趋势(Central tendency)一组数据向其中4-9统计学统计学(第二版第二版)分类数据:众数分类数据:众数分类数据:众数4-10统计学统计学(第二版第二版)众数众数(mode)1.出现次数最多的变量值2.不受极端值的影响3.一组数据可能没有众数或有几个众数4.主要用于分类数据,也可用于顺序数据和数值型数据众数(mode)出现次数最多的变量值4-11统计学统计学(第二版第二版)众数众数(不唯一性不唯一性)无众数无众数原始数据:10 5 9 12 6 8一个众数一个众数原始数据:6 5 9 8 5 5多于一个众数多于一个众数原始数据:25 28 28 36 42 42众数(不唯一性)无众数原始数据:10 4-12统计学统计学(第二版第二版)分类数据的众数分类数据的众数(例题分析例题分析)不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌饮料品牌饮料品牌频数频数频数频数比例比例比例比例百分比百分比百分比百分比(%)(%)可口可乐可口可乐可口可乐可口可乐 旭日升冰茶旭日升冰茶旭日升冰茶旭日升冰茶 百事可乐百事可乐百事可乐百事可乐 汇源果汁汇源果汁汇源果汁汇源果汁 露露露露露露露露151511119 96 69 90.300.300.220.220.180.180.120.120.180.1830302222181812121818合计合计合计合计50501 1100100解解解解:这这里里的的变变量量为为“饮饮料料品品牌牌”,这这是是个个分分类类变变量量,不不同同类类型型的的饮饮料料就就是是变变量量值值 在在所所调调查查的的5050人人中中,购购买买可可口口可可乐乐的的人人数数最最多多,为为1515人人,占占总总被被调调查查人人数数的的30%30%,因因此此众众数数为为“可口可乐可口可乐”这一品牌,即这一品牌,即 MMo o可口可乐可口可乐可口可乐可口可乐分类数据的众数(例题分析)不同品牌饮料的频数分布 饮料品4-13统计学统计学(第二版第二版)顺序数据的众数顺序数据的众数(例题分析例题分析)解解解解:这这里里的的数数据据为为顺顺序序数数据据。变变量量为为“回答类别回答类别”甲甲城城市市中中对对住住房房表表示示不不满满意意的的户户数数最最 多多,为为 108108户户,因因此此众众数数为为“不不满满意意”这一类别,即这一类别,即 MMo o不满意不满意不满意不满意甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)百分比百分比百分比百分比 (%)(%)非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530308 83636313115151010合计合计合计合计300300100.0100.0顺序数据的众数(例题分析)解:这里的数据为顺序数据。变量4-14统计学统计学(第二版第二版)顺序数据:中位数和分位数顺序数据:中位数和分位数顺序数据:中位数和分位数4-15统计学统计学(第二版第二版)中位数中位数(median)1.排序后处于中间位置上的值排序后处于中间位置上的值MMe e50%50%2.不受极端值的影响不受极端值的影响3.主要用于顺序数据,也可用数值型数据,但不能主要用于顺序数据,也可用数值型数据,但不能用于分类数据用于分类数据4.各变量值与中位数的离差绝对值之和最小,即各变量值与中位数的离差绝对值之和最小,即中位数(median)排序后处于中间位置上的值Me50%54-16统计学统计学(第二版第二版)中位数中位数(位置的确定位置的确定)原始数据:原始数据:顺序数据:顺序数据:中位数(位置的确定)原始数据:顺序数据:4-17统计学统计学(第二版第二版)顺序数据的中位数顺序数据的中位数(例题分析例题分析)解解解解:中中 位位 数数 的的 位位 置置 为为 300/2300/2150150 从从累累计计频频数数看看,中中位位数数在在“一一般般”这这一一组别中。因此组别中。因此 Me=一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300顺序数据的中位数(例题分析)解:中位数的位置为 4-18统计学统计学(第二版第二版)数值型数据的中位数数值型数据的中位数(9个数据的算例个数据的算例)【例】:【例】:9个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 750 780 850 960 10801080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 7 8 9 6 7 8 9中位数中位数 1080数值型数据的中位数(9个数据的算例)【例】:9个家庭的人4-19统计学统计学(第二版第二版)数值型数据的中位数数值型数据的中位数(10个数据的算例个数据的算例)【例】:【例】:10个家庭的人均月收入数据排排排排 序序序序:660660 750 780 850 750 780 850 960 1080960 1080 1250 1500 1630 2000 1250 1500 1630 2000位位位位 置置置置:1 2 3 4 1 2 3 4 5 5 6 6 7 8 9 10 7 8 9 10 数值型数据的中位数(10个数据的算例)【例】:10个家庭4-20统计学统计学(第二版第二版)四分位数四分位数(quartile)1.排序后处于25%和75%位置上的值2.不受极端值的影响3.主要用于顺序数据,也可用于数值型数据,但不能用于分类数据QQL LQQMMQQU U25%25%25%25%四分位数(quartile)排序后处于25%和75%位置上4-21统计学统计学(第二版第二版)四分位数四分位数(位置的确定位置的确定)原始数据:原始数据:顺序数据:顺序数据:四分位数(位置的确定)原始数据:顺序数据:4-22统计学统计学(第二版第二版)顺序数据的四分位数顺序数据的四分位数(例题分析例题分析)解:解:解:解:Q QL L位置位置=(300)/4 (300)/4=7575 Q QU U位置位置 =(3300)/4(3300)/4 =225225 从从累累计计频频数数看看,Q QL L在在“不不满满意意”这这一一组组别别中中;Q QU U在在“一般一般”这一组别中。因此这一组别中。因此 Q QL L =不满意不满意不满意不满意 Q QU U =一般一般一般一般甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300顺序数据的四分位数(例题分析)解:QL位置=(300)4-23统计学统计学(第二版第二版)数值型数据的四分位数数值型数据的四分位数(9个数据的算例个数据的算例)【例】:【例】:9个家庭的人均月收入数据原始数据原始数据原始数据原始数据:1500 750 780 1080 850 960 2000 1250 16301500 750 780 1080 850 960 2000 1250 1630排排排排 序序序序:750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 1 2 32 3 4 4 5 5 6 6 7 87 8 9 9数值型数据的四分位数(9个数据的算例)【例】:9个家庭的4-24统计学统计学(第二版第二版)数值型数据的四分位数数值型数据的四分位数(10个数据的算例个数据的算例)【例】:【例】:10个家庭的人均月收入数据排排排排 序序序序:660660 750 780 850 960 1080 1250 1500 1630 2000750 780 850 960 1080 1250 1500 1630 2000位位位位 置置置置:1 1 2 32 3 4 4 5 65 6 7 7 8 98 9 10 10 数值型数据的四分位数(10个数据的算例)【例】:10个家4-25统计学统计学(第二版第二版)数值型数据:均值数值型数据:均值数值型数据:均值4-26统计学统计学(第二版第二版)均值均值(mean)1.集中趋势的最常用测度值2.一组数据的均衡点所在3.体现了数据的必然性特征4.易受极端值的影响5.用于数值型数据,不能用于分类数据和顺序数据均值(mean)集中趋势的最常用测度值4-27统计学统计学(第二版第二版)简单均值与加权均值简单均值与加权均值(simple mean/weighted mean)设一组数据为:设一组数据为:x x1 1,x x2 2,x xn n各组的组中值为:各组的组中值为:MM1 1,MM2 2,MMk k 相应的频数为:相应的频数为:f f1 1,f f2 2,f fk k简单均值简单均值简单均值简单均值加权均值加权均值加权均值加权均值简单均值与加权均值(simple mean/weigh4-28统计学统计学(第二版第二版)已改至此!已改至此!某电脑公司销售量数据分组表某电脑公司销售量数据分组表某电脑公司销售量数据分组表某电脑公司销售量数据分组表按销售量分组按销售量分组按销售量分组按销售量分组组中值组中值组中值组中值(M(Mi i)频数频数频数频数(f(fi i)MMi i f fi i 140140 150150150150 160160160160 170170170170 180180180180 190190190190 200200200200 2102102102202102202202302202302302402302401451451551551651651751751851851951952052052152152252252352354 49 9161627272020171710108 84 45 55805801395139526402640472547253700370033153315205020501720172090090011751175合计合计合计合计1201202220022200加权均值加权均值(例题分析例题分析)已改至此!某电脑公司销售量数据分组表按销售量分组组中值(M4-29统计学统计学(第二版第二版)加权均值加权均值(权数对均值的影响权数对均值的影响)甲乙两组各有甲乙两组各有1010名学生,他们的考试成绩及其分布数据如下名学生,他们的考试成绩及其分布数据如下 甲组:甲组:甲组:甲组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f):):):):1 1 81 1 8 乙组:乙组:乙组:乙组:考试成绩(考试成绩(考试成绩(考试成绩(x x):0 20 100 0 20 100 人数分布(人数分布(人数分布(人数分布(f f):):):):8 1 18 1 1加权均值(权数对均值的影响)甲乙两组各有10名学生,4-30统计学统计学(第二版第二版)均值均值(数学性质数学性质)1.各变量值与均值的离差之和等于零 2.各变量值与均值的离差平方和最小均值(数学性质)1.各变量值与均值的离差之和等于零 2.4-31统计学统计学(第二版第二版)调和平均数调和平均数(harmonic mean)1.均值的另一种表现形式2.易受极端值的影响3.计算公式为原来只是计算原来只是计算时使用了不同时使用了不同的数据!的数据!调和平均数(harmonic mean)均值的另一种表现形4-32统计学统计学(第二版第二版)调和平均数调和平均数(例题分析例题分析)某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据某日三种蔬菜的批发成交数据蔬菜蔬菜蔬菜蔬菜名称名称名称名称批发价格批发价格批发价格批发价格(元元元元)MMi i成交额成交额成交额成交额(元元元元)MMi i f fi i成交量成交量成交量成交量(公斤公斤公斤公斤)f fi i甲甲甲甲乙乙乙乙丙丙丙丙1.201.200.500.500.800.8018000180001250012500640064001500015000250002500080008000合计合计合计合计36900369004800048000【例例例例】某某蔬蔬菜菜批批发发市市场场三三种种蔬蔬菜菜的的日日成成交交数数据据如如表表,计计算算三三种蔬菜该日的平均批发价格种蔬菜该日的平均批发价格调和平均数(例题分析)某日三种蔬菜的批发成交数据蔬菜批发4-33统计学统计学(第二版第二版)几何平均数几何平均数(geometric mean)1.n n 个变量值乘积的个变量值乘积的 n n 次方根次方根2.适用于对比率数据的平均适用于对比率数据的平均3.主要用于计算平均增长率主要用于计算平均增长率4.计算公式为计算公式为5.5.可看作是均值的一种变形可看作是均值的一种变形几何平均数(geometric mean)n 个变量值乘4-34统计学统计学(第二版第二版)几何平均数几何平均数(例题分析例题分析)【例例例例】某某水水泥泥生生产产企企业业20192019年年的的水水泥泥产产量量为为100100万万 吨吨,20002000年年 与与 20192019年年 相相 比比 增增 长长 率率 为为 9%9%,20192019年年与与20002000年年相相比比增增长长率率为为16%16%,20192019年年与与20192019年年相相比比增增长长率率为为20%20%。求求各各年年的的年年平平均均增增长率。长率。年平均增长率年平均增长率114.91%-1=114.91%-1=14.91%14.91%几何平均数(例题分析)【例】某水泥生产企业2014-35统计学统计学(第二版第二版)几何平均数几何平均数(例题分析例题分析)【例例例例】一一位位投投资资者者购购持持有有一一种种股股票票,在在20002000、20192019、20192019和和20192019年年收收益益率率分分别别为为4.5%4.5%、2.1%2.1%、25.5%25.5%、1.9%1.9%。计计算算该该投投资资者者在在这这四四年年内内的的平平均收益率均收益率 算术平均:算术平均:算术平均:算术平均:几何平均:几何平均:几何平均:几何平均:几何平均数(例题分析)【例】一位投资者购持有一种4-36统计学统计学(第二版第二版)众数、中位数和均值的比较众数、中位数和均值的比较众数、中位数和均值的比较4-37统计学统计学(第二版第二版)众数、中位数和均值的关系众数、中位数和均值的关系左偏分布左偏分布左偏分布左偏分布左偏分布左偏分布均值均值均值均值均值均值 中位数中位数中位数中位数中位数中位数 众数众数众数众数众数众数对称分布对称分布对称分布对称分布对称分布对称分布 均值均值均值均值均值均值=中位数中位数中位数中位数中位数中位数=众数众数众数众数众数众数右偏分布右偏分布右偏分布右偏分布右偏分布右偏分布众数众数众数众数众数众数 中位数中位数中位数中位数中位数中位数均值均值均值均值均值均值众数、中位数和均值的关系左偏分布均值 中位数 众数对称分4-38统计学统计学(第二版第二版)众数、中位数和均值的众数、中位数和均值的特点和应用特点和应用1.众数众数n n不受极端值影响不受极端值影响n n具有不唯一性具有不唯一性n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用2.中位数中位数n n不受极端值影响不受极端值影响n n数据分布偏斜程度较大时应用数据分布偏斜程度较大时应用3.均值均值n n易受极端值影响易受极端值影响n n数学性质优良数学性质优良n n数据对称分布或接近对称分布时应用数据对称分布或接近对称分布时应用众数、中位数和均值的特点和应用众数4-39统计学统计学(第二版第二版)数据类型与集中趋势测度值数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型和所适用的集中趋势测度值数据类型数据类型数据类型数据类型分类数据分类数据分类数据分类数据 顺序数据顺序数据顺序数据顺序数据间隔数据间隔数据间隔数据间隔数据比率数据比率数据比率数据比率数据适适适适用用用用的的的的测测测测度度度度值值值值众数众数众数众数中位数中位数中位数中位数均值均值均值均值均值均值均值均值四分位数四分位数四分位数四分位数众数众数众数众数调和平均数调和平均数调和平均数调和平均数众数众数众数众数中位数中位数中位数中位数几何平均数几何平均数几何平均数几何平均数四分位数四分位数四分位数四分位数 中位数中位数中位数中位数四分位数四分位数四分位数四分位数众数众数众数众数数据类型与集中趋势测度值数据类型和所适用的集中趋势测度值数据4-40统计学统计学(第二版第二版)4.2 离散程度的测度离散程度的测度一一.分类数据:异众比率分类数据:异众比率二二.顺序数据:四分位差顺序数据:四分位差三三.数值型数据:方差及标准差数值型数据:方差及标准差四四.相对位置的测量:标准分数相对位置的测量:标准分数五五.相对离散程度:离散系数相对离散程度:离散系数4.2 离散程度的测度分类数据:异众比率4-41统计学统计学(第二版第二版)数据的特征和测度数据的特征和测度(本节位置本节位置)数据的特征和测度数据的特征和测度分布的形状分布的形状离散程度离散程度集中趋势集中趋势众众众众众众 数数数数数数中位数中位数中位数中位数中位数中位数均均均均均均 值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰 度度度度度度四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏 态态态态态态数据的特征和测度(本节位置)数据的特征和测度分布的形状离散4-42统计学统计学(第二版第二版)离中趋势离中趋势1.数据分布的另一个重要特征数据分布的另一个重要特征2.反映各变量值远离其中心值的程度(离散程度)反映各变量值远离其中心值的程度(离散程度)3.从另一个侧面说明了集中趋势测度值的代表程度从另一个侧面说明了集中趋势测度值的代表程度4.不同类型的数据有不同的离散程度测度值不同类型的数据有不同的离散程度测度值离中趋势数据分布的另一个重要特征4-43统计学统计学(第二版第二版)分类数据:异众比率分类数据:异众比率分类数据:异众比率4-44统计学统计学(第二版第二版)异众比率异众比率(variation ratio)1.对分类数据离散程度的测度2.非众数组的频数占总频数的比率3.计算公式为 4.用于衡量众数的代表性异众比率(variation ratio)1.对分类数据4-45统计学统计学(第二版第二版)异众比率异众比率(例题分析例题分析)解:解:解:解:在在所所调调查查的的5050人人当当中中,购购买买其其他他品品牌牌饮饮料料的的人人数数占占70%70%,异异众众比比率率比比较较大大。因因此此,用用“可可口口可可乐乐”代代表表消消费费者者购购买买饮饮料料品品牌牌的的状状况况,其其代表性不是很好代表性不是很好不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布不同品牌饮料的频数分布 饮料品牌饮料品牌饮料品牌饮料品牌频数频数频数频数比例比例比例比例百分比百分比百分比百分比(%)(%)可口可乐可口可乐可口可乐可口可乐 旭日升冰茶旭日升冰茶旭日升冰茶旭日升冰茶 百事可乐百事可乐百事可乐百事可乐 汇源果汁汇源果汁汇源果汁汇源果汁 露露露露露露露露151511119 96 69 90.300.300.220.220.180.180.120.120.180.1830302222181812121818合计合计合计合计50501 1100100异众比率(例题分析)解:不同品牌饮料的频数分布 饮料品牌4-46统计学统计学(第二版第二版)顺序数据:四分位差顺序数据:四分位差顺序数据:四分位差4-47统计学统计学(第二版第二版)四分位差四分位差(quartile deviation)1.对顺序数据离散程度的测度2.也称为内距或四分间距3.上四分位数与下四分位数之差 QD=QU QL4.反映了中间50%数据的离散程度5.不受极端值的影响6.用于衡量中位数的代表性四分位差(quartile deviation)对顺序数据4-48统计学统计学(第二版第二版)四分位差四分位差(例题分析例题分析)解解解解:设设非非常常不不满满意意为为1,1,不不满满意意为为2,2,一一般般为为3,3,满满意意为为 4,4,非非常常满满意为意为5 5 已知已知 Q QL L=不满意不满意 =2 2 Q QU U =一般一般 =3 3四分位差:四分位差:Q QD D =Q QU U =Q QL L =3 2 3 2 =1 1甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布甲城市家庭对住房状况评价的频数分布回答类别回答类别回答类别回答类别甲城市甲城市甲城市甲城市户数户数户数户数 (户户户户)累计频数累计频数累计频数累计频数 非常不满意非常不满意非常不满意非常不满意 不满意不满意不满意不满意 一般一般一般一般 满意满意满意满意 非常满意非常满意非常满意非常满意24241081089393454530302424132132225225270270300300合计合计合计合计300300四分位差(例题分析)解:设非常不满意为1,不满意为2,4-49统计学统计学(第二版第二版)数值型数据:方差和标准差数值型数据:方差和标准差数值型数据:方差和标准差4-50统计学统计学(第二版第二版)极差极差(range)1.一组数据的最大值与最小值之差一组数据的最大值与最小值之差2.离散程度的最简单测度值离散程度的最简单测度值3.易受极端值影响易受极端值影响4.未考虑数据的分布未考虑数据的分布7 7 8 8 9 910107 7 8 8 9 9 1010 R R =max(=max(x xi i)-min()-min(x xi i)5.计算公式为计算公式为极差(range)一组数据的最大值与最小值之差7891074-51统计学统计学(第二版第二版)平均差平均差(mean deviation)1.各变量值与其均值离差绝对值的平均数各变量值与其均值离差绝对值的平均数2.能全面反映一组数据的离散程度能全面反映一组数据的离散程度3.数学性质较差,实际中应用较少数学性质较差,实际中应用较少4.计算公式为计算公式为未分组数据未分组数据未分组数据未分组数据组距分组数据组距分组数据组距分组数据组距分组数据平均差(mean deviation)各变量值与其均值离差4-52统计学统计学(第二版第二版)平均差平均差(例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组按销售量分组按销售量分组组中值组中值组中值组中值(MMi i)频数频数频数频数(f fi i)1401501401501501601501601601701601701701801701801801901801901902001902002002102002102102202102202202302202302302402302401451451551551651651751751851851951952052052152152252252352354 49 9161627272020171710108 84 45 540403030202010100 0101020203030404050501601602702703203202702700 0170170200200240240160160250250合计合计合计合计12012020402040平均差(例题分析)某电脑公司销售量数据平均差计算表 按销4-53统计学统计学(第二版第二版)平均差平均差(例题分析例题分析)含义:含义:每一天的销售量平均数相比,平均相差17台平均差(例题分析)4-54统计学统计学(第二版第二版)方差和标准差方差和标准差(variance and standard deviation)1.数据离散程度的最常用测度值2.反映了各变量值与均值的平均差异3.根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差4 6 8 10 124 6 8 10 12 x x=8.38.3方差和标准差(variance and standard 4-55统计学统计学(第二版第二版)样本方差和标准差样本方差和标准差(simple(simple variancevariance and and standard deviationstandard deviation)未分组数据:未分组数据:组距分组数据:组距分组数据:未分组数据:未分组数据:组距分组数据:组距分组数据:方差的计算公式方差的计算公式方差的计算公式方差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式标准差的计算公式注意:注意:注意:样本方差用自样本方差用自样本方差用自由度由度由度n-1n-1n-1去除去除去除!样本方差和标准差(simple variance and4-56统计学统计学(第二版第二版)样本方差样本方差自由度自由度(degree of freedom)1.1.一组数据中可以自由取值的数据的个数一组数据中可以自由取值的数据的个数2.2.当当样样本本数数据据的的个个数数为为 n n 时时,若若样样本本均均值值 x x 确确定定后后,只只有有n n-1-1个个数数据据可可以以自自由由取取值值,其其中中必必有有一一个个数数据据则则不能自由取值不能自由取值3.3.例例如如,样样本本有有3 3个个数数值值,即即x x1 1=2=2,x x2 2=4=4,x x3 3=9=9,则则 x x =5 5。当当 x x =5 5 确确定定后后,x x1 1,x x2 2和和x x3 3有有两两个个数数据据可可以以自自由由取取值值,另另一一个个则则不不能能自自由由取取值值,比比如如x x1 1=6=6,x x2 2=7=7,那么,那么x x3 3则必然取则必然取2 2,而不能取其他值,而不能取其他值4.4.样样本本方方差差用用自自由由度度去去除除,其其原原因因可可从从多多方方面面来来解解释释,从从实实际际应应用用角角度度看看,在在抽抽样样估估计计中中,当当用用样样本本方方差差s s2 2去估计总体方差去估计总体方差 2 2时,时,s s2 2是是 2 2的无偏估计量的无偏估计量样本方差自由度(degree of freedom)一组数4-57统计学统计学(第二版第二版)样本标准差样本标准差(例题分析例题分析)某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表某电脑公司销售量数据平均差计算表 按销售量分组按销售量分组按销售量分组按销售量分组组中值组中值组中值组中值(MMi i)频数频数频数频数(f fi i)1401501401501501601501601601701601701701801701801801901801901902001902002002102002102102202102202202302202302302402302401451451551551651651751751851851951952052052152152252252352354 49 9161627272020171710108 84 45 540403030202010100 0101020203030404050501601602702703203202702700 0170170200200240240160160250250合计合计合计合计1201205540055400样本标准差(例题分析)某电脑公司销售量数据平均差计算表 4-58统计学统计学(第二版第二版)样本标准差样本标准差(例题分析例题分析)含义:含义:每一天的销售量与平均数相比,平均相差21.58台样本标准差(例题分析)4-59统计学统计学(第二版第二版)相对位置的测量:标准分数相对位置的测量:标准分数相对位置的测量:标准分数4-60统计学统计学(第二版第二版)标准分数标准分数(standard score)1.也称标准化值2.对某一个值在一组数据中相对位置的度量3.可用于判断一组数据是否有离群点4.用于对变量的标准化处理5.计算公式为标准分数(standard score)1.也称标准化4-61统计学统计学(第二版第二版)标准分数标准分数(性性质)1.均值等于02.方差等于1标准分数(性质)均值等于04-62统计学统计学(第二版第二版)标准分数标准分数(性性质)z z分分数数只只是是将将原原始始数数据据进进行行了了线线性性变变换换,它它并并没没有有改改变变一一个个数数据据在在改改组组数数据据中中的的位位置置,也也没没有有改改变变该该组组数数分分布布的的形形状状,而而只只是是将将该该组组数数据据变变为为均均值值为为0 0,标准差为,标准差为1 1。标准分数(性质)z分数只是将原始数据进行了4-63统计学统计学(第二版第二版)标准化值标准化值(例题分析例题分析)9 9个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表个家庭人均月收入标准化值计算表 家庭编号家庭编号家庭编号家庭编号人均月收入(元)人均月收入(元)人均月收入(元)人均月收入(元)标准化值标准化值标准化值标准化值 z z 1 12 23 34 45 56 67 78 89 915001500750750780780108010808508509609602000200012501250163016300.6950.695-1.042-1.042-0.973-0.973-0.278-0.278-0.811-0.811-0.556-0.5561.8531.8530.1160.1160.9960.996标准化值(例题分析)9个家庭人均月收入标准化值计算表 家4-64统计学统计学(第二版第二版)经验法则经验法则经验法则表明:当一组数据对称分布时约有68%的数据在平均数加减1个标准差的范围之内约有95%的数据在平均数加减2个标准差的范围之内约有99%的数据在平均数加减3个标准差的范围之内 经验法则经验法则表明:当一组数据对称分布时4-65统计学统计学(第二版第二版)切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)1.如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用2.切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”3.对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在k个标准差之内。其中k是大于1的任意值,但不一定是整数切比雪夫不等式(Chebyshevs inequalit4-66统计学统计学(第二版第二版)切比雪夫不等式切比雪夫不等式(Chebyshevs inequality)对于k=2,3,4,该不等式的含义是1.至少有75%的数据落在平均数加减2个标准差的范围之内2.至少有89%的数据落在平均数加减3个标准差的范围之内3.至少有94%的数据落在平均数加减4个标准差的范围之内切比雪夫不等式(Chebyshevs inequalit4-67统计学统计学(第二版第二版)相对离散程度:离散系数相对离散程度:离散系数相对离散程度:离散系数4-68统计学统计学(第二版第二版)离散系数离散系数(coefficient of variation)1.标准差与其相应的均值之比2.对数据相对离散程度的测度3.消除了数据水平高低和计量单位的影响4.用于对不同组别数据离散程度的比较5.计算公式为离散系数(coefficient of variation4-69统计学统计学(第二版第二版)离散系数离散系数(例题分析例题分析)某管理局所属某管理局所属某管理局所属某管理局所属8 8家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据家企业的产品销售数据企业编号企业编号企业编号企业编号产品销售额(万元)产品销售额(万元)产品销售额(万元)产品销售额(万元)x x1 1销售利润(万元)销售利润(万元)销售利润(万元)销售利润(万元)x x2 21 12 23 34 45 56 67 78 8170170220220390390430430480480650650950950100010008.18.112.512.518.018.022.022.026.526.540.040.064.064.069.069.0【例例例例 】某某管管理理局局抽抽查查了了所所属属的的8 8家家企企业业,其其产产品品销销售售数数据如表。试比较产品销售额与销售利润的离散程度据如表。试比较产品销售额与销售利润的离散程度离散系数(例题分析)某管理局所属8家企业的产品销售数据企4-70统计学统计学(第二版第二版)离散系数离散系数(例题分析例题分析)结结论论:计算结果表明,v1v2,说明产品销售额的离散程度小于销售利润的离散程度 v v1 1=536.25536.25309.19309.19=0.5770.577v v2 2=32.521532.521523.0923.09=0.7100.710离散系数(例题分析)结论:计算结果表明,v1 0为右偏分布4.偏态系数 0为左偏分布偏态(skewness)统计学家Pearson于1895年4-77统计学统计学(第二版第二版)偏态系数偏态系数(skewness coefficient)1.根据原始数据计算2.根据分组数据计算偏态系数(skewness coefficient)根据4-78统计学统计学(第二版第二版)偏态系数偏态系数(例题分析例题分析)某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表某电脑公司销售量偏态及峰度计算表 按销售量份组按销售量份组按销售量份组按销售量份组(台台台台)组中值组中值组中值组中值(MMi i)频数频数频数频数 f fi i1401501401501501601501601601701601701701801701801801901801901902001902002002102002102102202102202202302202302302402302401451451551551651651751751851851951952052052152152252252352354 49 9161627272020171710108 84 45 5-256000-256000-243000-243000-128000-128000-27000-270000 017000170008000080000216000216000256000256000625000625000102400001024000072900007290000256000025600002700002700000 0170000170000160000016000006480000648000010240000102400003125000031250000合计合计合计合计120120540000540000 7010000070100000 偏态系数(例题分析)某电脑公司销售量偏态及峰度计算表 4-79统计学统计学(第二版第二版)偏态系数偏态系数(例题分析例题分析)结论:结论:结论:结论:偏态系数为正值,但与偏态系数为正值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数数占据多数,而销售量较多的天数则占少数偏态系数(例题分析)结论:偏态系数为正值,但与0的差异不4-80统计学统计学(第二版第二版)偏态与峰态偏态与峰态(从直方图上观察从直方图上观察)按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组按销售量分组(台台台台台台)结论结论结论结论:1.1.为右偏分布为右偏分布 2.2.峰态适中峰态适中140140 150150210210某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230240240偏态与峰态(从直方图上观察)按销售量分组(台)结论:1.4-81统计学统计学(第二版第二版)峰峰 态态峰 态4-82统计学统计学(第二版第二版)峰态峰态(kurtosis)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0扁平峰度适中4.峰态系数0为尖峰分布峰态(kurtosis)统计学家Pearson于1905年4-83统计学统计学(第二版第二版)峰态系数峰态系数(kurtosis coefficient)1.根据原始数据计算2.根据分组数据计算峰态系数(kurtosis coefficient)根据4-84统计学统计学(第二版第二版)峰态系数峰态系数(例题分析例题分析)结论:结论:结论:结论:偏态系数为负值,但与偏态系数为负值,但与0 0的差异不大,说明的差异不大,说明电脑销售量为轻微扁平分布电脑销售量为轻微扁平分布峰态系数(例题分析)结论:偏态系数为负值,但与0的差异不4-85统计学统计学(第二版第二版)用用Excel计算描述统计量计算描述统计量用Excel计算描述统计量4-86统计学统计学(第二版第二版)用用Excel计算描述统计量计算描述统计量将将120120的的销销售售量量的的数数据据输输入入到到ExcelExcel工工作作表表中中,然然后后按按下下列步骤操作:列步骤操作:第第第第1 1步:步:步:步:选择选择“工具工具工具工具”下拉菜单下拉菜单第第第第2 2步:步:步:步:选择选择“数据分析数据分析数据分析数据分析”选项选项第第第第3 3步:步:步:步:在分析工具中选择在分析工具中选择“描述统计描述统计描述统计描述统计”,然后选择,然后选择“确定确定确定确定”第第第第4 4步:步:步:步:当对话框出现时当对话框出现时 在在“输入区域输入区域输入区域输入区域”方框内键入方框内键入数据区域数据区域 在在“输出选项输出选项输出选项输出选项”中选择中选择输出区域输出区域 选择选择“汇总统计汇总统计汇总统计汇总统计”选择选择“确定确定确定确定”实例计算实例计算实例计算实例计算用Excel计算描述统计量将120的销售量的数据输入到Ex4-87统计学统计学(第二版第二版)本章小节本章小节1.数据水平的概括性度量数据水平的概括性度量2.数据离散程度的概括性度量数据离散程度的概括性度量3.数据分布形状的测度数据分布形状的测度4.用用Excel计算描述统计量计算描述统计量本章小节1.数据水平的概括性度量结结 束束结 束谢谢谢谢89
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!