管理统计学第4章数据特征的描述方案课件

上传人:20022****wzdgj 文档编号:243136378 上传时间:2024-09-16 格式:PPT 页数:93 大小:6.84MB
返回 下载 相关 举报
管理统计学第4章数据特征的描述方案课件_第1页
第1页 / 共93页
管理统计学第4章数据特征的描述方案课件_第2页
第2页 / 共93页
管理统计学第4章数据特征的描述方案课件_第3页
第3页 / 共93页
点击查看更多>>
资源描述
Click to edit Master title,Click to edit Master text styles,Second Level,Third Level,Fourth Level,Fifth Level,4 -,93,管理统计学,第,4,章 数据分布特征的测度,PowerPoint,统计学,第,4,章 数据分布特征的测度,4.1,集中趋势的测度,4.2,离散程度的测度,4.3,偏态与峰态的测度,学习目标,1.,集中趋势各测度值的计算方法,2.,集中趋势各测度值的特点及应用场合,3.,离散程度各测度值的计算方法,4.,离散程度各测度值的特点及应用场合,偏态与峰态的测度方法,用,Excel,计算描述统计量并进行分析,数据分布的特征,集中趋势,(,位置,),偏态和峰态,(形状),离中趋势,(,分散程度,),数据分布特征的测度,数据特征的测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 态,四分位差,异众比率,偏 态,4.1,集中趋势的测度,一,.,分类数据:众数,二,.,顺序数据:中位数和分位数,三,.,数值型数据:均值,四,.,众数、中位数和均值的比较,数据分布特征的和测度,(,本节位置,),数据的特征和测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,离散系数,方差和标准差,峰 态,四分位差,异众比率,偏 态,集中趋势,(Central tendency),一,组数据向其中心值靠拢的倾向和程度,测度集中趋势就是寻找数据水平的代表值或中心值,不同类型的数据用不同的集中趋势测度值,低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据,分类数据:众数,众数,(,mode,),出现次数最多的变量值,不受极端值的影响,一组数据可能没有众数或有几个众数,主要用于分类数据,也可用于顺序数据和数值型数据,众数,(,不唯一性,),无众数,原始数据,: 10 5 9 12 6,8,一个众数,原始数据,: 6,5,9 8,5 5,多于一个众数,原始数据,: 25,28 28,36,42 42,分类数据的众数,(,例题分析,),不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,解,:,这里的变量为“饮料品牌”,这是个分类变量,不同类型的饮料就是变量值,在所调查的,50,人中,购买可口可乐的人数最多,为,15,人,占总被调查人数的,30%,,因此众数为“可口可乐”这一品牌,即,M,o,可口可乐,顺序数据的众数,(,例题分析,),解:,这里的数据为顺序数据。变量为“回答类别”,甲城市中对住房表示不满意的户数最多,为,108,户,因此众数为“不满意”这一类别,即,M,o,不满意,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),百分比,(%),非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,8,36,31,15,10,合计,300,100.0,顺序数据:中位数和分位数,中位数,(,median,),排序后处于中间位置上的值,M,e,50%,50%,不受极端值的影响,主要用于顺序数据,也可用数值型数据,但不能用于分类数据,各变量值与中位数的离差绝对值之和最小,即,中位数,(,位置的确定,),原始数据:,顺序数据:,顺序数据的中位数,(,例题分析,),解:,中位数的位置为,300/2,150,从累计频数看,中位数在“一般”这一组别中。因此,M,e,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的中位数,(9,个数据的算例,),【,例,】,:,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750 780 850 960,1080,1250 1500 1630 2000,位 置,:,1 2 3 4,5,6 7 8 9,中位数,1080,数值型数据的中位数,(10,个数据的算例,),【,例,】,:,10,个家庭的人均月收入数据,排 序,:,660,750 780 850,960 1080,1250 1500 1630 2000,位 置,:,1 2 3 4,5,6,7 8 9 10,四分位数,(,quartile,),排序后处于,25%,和,75%,位置上的值,不受极端值的影响,主要用于顺序数据,也可用于数值型数据,但不能用于分类数据,Q,L,Q,M,Q,U,25%,25%,25%,25%,四分位数,(,位置的确定,),原始数据:,顺序数据:,顺序数据的四分位数,(,例题分析,),解:,Q,L,位置,=,(300)/4,=,75,Q,U,位置,=,(3300)/4,=,225,从累计频数看,,Q,L,在“不满意”这一组别中;,Q,U,在“一般”这一组别中。因此,Q,L,=,不满意,Q,U,=,一般,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据的四分位数,(9,个数据的算例,),【,例,】,:,9,个家庭的人均月收入数据,原始数据,:,1500 750 780 1080 850 960 2000 1250 1630,排 序,:,750 780 850 960 1080 1250 1500 1630 2000,位 置,:,1,2 3,4,5,6,7 8,9,数值型数据的四分位数,(10,个数据的算例,),【,例,】,:,10,个家庭的人均月收入数据,排 序,:,660,750 780 850 960 1080 1250 1500 1630 2000,位 置,:,1,2 3,4,5 6,7,8 9,10,数值型数据:均值,均值,(,mean,),集中趋势的最常用测度值,一组数据的均衡点所在,体现了数据的必然性特征,易受极端值的影响,用于数值型数据,不能用于分类数据和顺序数据,简单均值与加权均值,(simple mean / weighted mean),设一组数据为:,x,1,,,x,2,,,,,x,n,各组的组中值为:,M,1,,,M,2,,,,,M,k,相应的频数为:,f,1,,,f,2,,,,,f,k,简单均值,加权均值,已改至此!,某电脑公司销售量数据分组表,按销售量分组,组中值,(M,i,),频数,(f,i,),M,i,f,i,140,150,150,160,160,170,170,180,180,190,190,200,200,210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,580,1395,2640,4725,3700,3315,2050,1720,900,1175,合计,120,22200,加权均值,(,例题分析,),加权均值,(,权数对均值的影响,),甲乙两组各有,10,名学生,他们的考试成绩及其分布数据如下,甲组:,考试成绩(,x,),: 0 20 100,人数分布(,f,):,1 1 8,乙组:,考试成绩(,x,),: 0 20 100,人数分布(,f,):,8 1 1,均值,(,数学性质,),1.,各变量值与均值的离差之和等于零,2.,各变量值与均值的离差平方和最小,调和平均数,(,harmonic mean,),均值的另一种表现形式,易受极端值的影响,计算公式为,原来只是计算时使用了不同的数据!,调和平均数,(,例题分析,),某日三种蔬菜的批发成交数据,蔬菜,名称,批发价格,(,元,),M,i,成交额,(,元,),M,i,f,i,成交量,(,公斤,),f,i,甲,乙,丙,1.20,0.50,0.80,18000,12500,6400,15000,25000,8000,合计,36900,48000,【,例,】,某蔬菜批发市场三种蔬菜的日成交数据如表,计算三种蔬菜该日的平均批发价格,几何平均数,(,geometric mean,),n,个变量值乘积的,n,次方根,适用于对比率数据的平均,主要用于计算平均增长率,计算公式为,5.,可看作是均值的一种变形,几何平均数,(,例题分析,),【,例,】,某水泥生产企业,1999,年的水泥产量为,100,万吨,,2000,年与,1999,年相比增长率为,9%,,,2001,年与,2000,年相比增长率为,16%,,,2002,年与,2001,年相比增长率为,20%,。求各年的年平均增长率。,年平均增长率,114.91%-1=,14.91%,几何平均数,(,例题分析,),【,例,】,一位投资者购持有一种股票,在,2000,、,2001,、,2002,和,2003,年收益率分别为,4.5%,、,2.1%,、,25.5%,、,1.9%,。计算该投资者在这四年内的平均收益率,算术平均:,几何平均:,众数、中位数和均值的比较,众数、中位数和均值的关系,左偏分布,均值,中位数,众数,对称分布,均值,=,中位数,=,众数,右偏分布,众数,中位数,均值,众数、中位数和均值的,特点和应用,众数,不受极端值影响,具有不唯一性,数据分布偏斜程度较大时应用,中位数,不受极端值影响,数据分布偏斜程度较大时应用,均值,易受极端值影响,数学性质优良,数据对称分布或接近对称分布时应用,数据类型与集中趋势测度值,数据类型和所适用的集中趋势测度值,数据类型,分类数据,顺序数据,间隔数据,比率数据,适,用,的,测,度,值,众数,中位数,均值,均值,四分位数,众数,调和平均数,众数,中位数,几何平均数,四分位数,中位数,四分位数,众数,4.2,离散程度的测度,分类数据:异众比率,顺序数据:四分位差,数值型数据:方差及标准差,相对位置的测量:标准分数,相对离散程度:离散系数,数据的特征和测度,(,本节位置,),数据的特征和测度,分布的形状,离散程度,集中趋势,众 数,中位数,均 值,离散系数,方差和标准差,峰 度,四分位差,异众比率,偏 态,离中趋势,数据分布的另一个重要特征,反映各变量值远离其中心值的程度(离散程度),从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值,分类数据:异众比率,异众比率,(,variation ratio,),1.,对分类数据离散程度的测度,2.,非众数组的频数占总频数的比率,3.,计算公式为,4.,用于衡量众数的代表性,异众比率,(,例题分析,),解:,在所调查的,50,人当中,购买其他品牌饮料的人数占,70%,,异众比率比较大。因此,用“可口可乐”代表消费者购买饮料品牌的状况,其代表性不是很好,不同品牌饮料的频数分布,饮料品牌,频数,比例,百分比,(%),可口可乐,旭日升冰茶,百事可乐,汇源果汁,露露,15,11,9,6,9,0.30,0.22,0.18,0.12,0.18,30,22,18,12,18,合计,50,1,100,顺序数据:四分位差,四分位差,(,quartile deviation,),对顺序数据离散程度的测度,也称为内距或四分间距,上四分位数与下四分位数之差,Q,D,=,Q,U,Q,L,反映了中间,50%,数据的离散程度,不受极端值的影响,用于衡量中位数的代表性,四分位差,(,例题分析,),解:,设非常不满意为,1,不满意为,2,一般为,3,满意为,4,非常满意为,5,已知,Q,L,=,不满意,=,2,Q,U,=,一般,=,3,四分位差:,Q,D,=,Q,U,=,Q,L,=,3 2,=,1,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数,(,户,),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,数值型数据:方差和标准差,极差,(,range,),一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,7,8,9,10,7,8,9,10,R,= max(,x,i,) - min(,x,i,),计算公式为,平均差,(,mean deviation,),各变量值与其均值离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少,计算公式为,未分组数据,组距分组数据,平均差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150160,160170,170180,180190,190200,200210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,平均差,(,例题分析,),含义:,每一天的销售量平均数相比,,平均相差,17,台,方差和标准差,(,variance,and,standard deviation,),数据离散程度的最常用测度值,反映了各变量值与均值的平均差异,根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,4 6 8 10 12,x,=,8.3,样本方差和标准差,(simple,variance,and,standard deviation,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,注意:,样本方差用自由度,n-1,去除,!,样本方差,自由度,(degree of freedom),一组数据中可以自由取值的数据的个数,当,样本数据的个数为,n,时,若样本均值,x,确定后,只有,n,-1,个数据可以自由取值,其中必有一个数据则不能自由取值,例,如,样本有,3,个数值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,,则,x,= 5,。当,x,= 5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,那么,x,3,则必然取,2,,而不能取其他值,样,本方差用自由度去除,其原因可从多方面来解释,从实际应用角度看,在抽样估计中,当用样本方差,s,2,去估计总体方差,2,时,,s,2,是,2,的无偏估计量,样本标准差,(,例题分析,),某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150160,160170,170180,180190,190200,200210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,55400,样本标准差,(,例题分析,),含义:,每一天的销售量与平均数相比,,平均相差,21.58,台,相对位置的测量:标准分数,标准分数,(,standard score,),1.,也称标准化值,2.,对某一个值在一组数据中相对位置的度量,3.,可用于判断一组数据是否有离群点,4.,用于对变量的标准化处理,5.,计算公式为,标准分数,(,性质,),均值等于,0,2.,方差等于,1,标准分数,(,性质,),z,分数只是将原始数据进行了线性变换,它并没有改变一个数据在改组数据中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为,0,,标准差为,1,。,标准化值,(,例题分析,),9,个家庭人均月收入标准化值计算表,家庭编号,人均月收入(元),标准化值,z,1,2,3,4,5,6,7,8,9,1500,750,780,1080,850,960,2000,1250,1630,0.695,-1.042,-0.973,-0.278,-0.811,-0.556,1.853,0.116,0.996,经验法则,经验法则表明:当一组数据对称分布时,约有,68%,的数据在平均数加减,1,个标准差的范围之内,约有,95%,的数据在平均数加减,2,个标准差的范围之内,约有,99%,的数据在平均数加减,3,个标准差的范围之内,切比雪夫不等式,(,Chebyshevs inequality,),如果一组数据不是对称分布,经验法则就不再使用,这时可使用切比雪夫不等式,它对任何分布形状的数据都适用,切比雪夫不等式提供的是“下界”,也就是“所占比例至少和多少”,对于任意分布形态的数据,根据切比雪夫不等式,至少有 的数据落在,k,个标准差之内。其中,k,是大于,1,的任意值,但不一定是整数,切比雪夫不等式,(,Chebyshevs inequality,),对于,k,=,2,,,3,,,4,,该不等式的含义是,至少有,75%,的数据落在平均数加减,2,个标准差的范围之内,至少有,89%,的数据落在平均数加减,3,个标准差的范围之内,至少有,94%,的数据落在平均数加减,4,个标准差的范围之内,1,、某城市大学生在学校食堂每月消费支出是,230,元,标准差是,60,元,如果没有其他信息,则可以判断每月在学校食堂的消费超过,350,元的大学生比例是(),A,、在约,2.5%,B,最多,25%,C,最多,12.5%,D,大约,5%,答案,B,2,、某城市大学生在学校食堂每月消费支出是,230,元,标准差是,60,元,如果大学生每月在食堂的消费支出是尖峰对称分布,则可以判断每月在学校食堂的消费在,170,500,元的大学生比例是(),A,、大约,97.35%,B,大约,81.5%,C,大约,84%,D,大约,99.7%,答案:,C,3,、,对在某个高速路段行驶过的,120,辆汽车的车速进行测量后,平均车速是,85,公里每小时,标准差是,4,公里每小时,下列可以看作是异常值的车速是(),A,、,78,公里,B,、,82,公里,C,、,91,公里,D,、,97,公里,答案:,D,相对离散程度:离散系数,离散系数,(,coefficient of variation,),1.,标准差与其相应的均值之比,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,4.,用于对不同组别数据离散程度的比较,5.,计算公式为,离散系数,(,例题分析,),某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),x,1,销售利润(万元),x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【,例,】,某管理局抽查了所属的,8,家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,离散系数,(,例题分析,),结论:,计算结果表明,,v,1,0,为,右偏分布,4.,偏态系数, 0,为,左偏分布,偏态系数,(,skewness coefficient,),根据原始数据计算,根据分组数据计算,偏态系数,(,例题分析,),某电脑公司销售量偏态及峰度计算表,按销售量份组,(,台,),组中值,(,M,i,),频数,f,i,140150,150160,160170,170180,180190,190200,200210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,-256000,-243000,-128000,-27000,0,17000,80000,216000,256000,625000,10240000,7290000,2560000,270000,0,170000,1600000,6480000,10240000,31250000,合计,120,540000,70100000,偏态系数,(,例题分析,),结论:,偏态系数为正值,但与,0,的差异不大,说明电脑销售量为轻微右偏分布,即销售量较少的天数占据多数,而销售量较多的天数则占少数,偏态与峰态,(,从直方图上观察,),按销售量分组,(,台,),结论,:,1.,为右偏分布,2.,峰态适中,140,150,210,某电脑公司销售量分布的直方图,190,200,180,160,170,频,数,(,天,),25,20,15,10,5,30,220,230,240,峰 态,峰态,(,kurtosis,),统计学家,Pearson,于,1905,年首次提出,数据分布扁平程度的测度,峰态系数,=0,扁平峰度适中,峰态系数,0,为,尖峰分布,峰态系数,(,kurtosis coefficient,),根据原始数据计算,根据分组数据计算,峰态系数,(,例题分析,),结论,:,偏态系数为负值,但与,0,的差异不大,说明电脑销售量为轻微扁平分布,用,Excel,计算描述统计量,用,Excel,计算描述统计量,将,120,的销售量的数据输入到,Excel,工作表中,然后按下列步骤操作:,第,1,步:,选择“,工具,”下拉菜单,第,2,步:,选择“,数据分析,”选项,第,3,步:,在分析工具中选择“,描述统计,”,然后选择“,确定,”,第,4,步:,当对话框出现时,在“,输入区域,”方框内键入,数据区域,在“,输出选项,”中选择,输出区域,选择“,汇总统计,”,选择“,确定,”,实例计算,本章小节,1.,数据水平的概括性度量,2.,数据离散程度的概括性度量,数据分布形状的测度,用,Excel,计算描述统计量,结 束,人有了知识,就会具备各种分析能力,,明辨是非的能力。,所以我们要勤恳读书,广泛阅读,,古人说“书中自有黄金屋。,”通过阅读科技书籍,我们能丰富知识,,培养逻辑思维能力;,通过阅读文学作品,我们能提高文学鉴赏水平,,培养文学情趣;,通过阅读报刊,我们能增长见识,扩大自己的知识面。,有许多书籍还能培养我们的道德情操,,给我们巨大的精神力量,,鼓舞我们前进,。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!