资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,离中趋势(变异度),一、反映各变量值远离其中心值的程度(离散程度),二、从另一个侧面说明了集中趋势测度值的代表程度,三、不同类型的数据有不同的离散程度测度值,数据的特征和测度,(本章位置),数据的特征和测度,分布的形状,离散程度,集中趋势,众 数,中位数,均 值,离散系数,方差和标准差,峰 态,四分位差,异众比率,偏 态,第一节 分类数据:异众比率,一、异众比率,(,variation ratio,)定义:,指非众数组的频数占总频数的比率。,用于衡量众数的代表性,二、计算公式为:,第二节 顺序数据:四分位差,一、四分位差,(,quartile deviation),定义,也称为内距或四分间距,是上四分位数与下四分位数之差。,二、计算公式:,Q,D,=,Q,U,-,Q,L,反映了中间50%数据的离散程度,不受极端值的影响;用于衡量中位数的代表性,例二:,甲城市家庭对住房状况评价的频数分布,回答类别,甲城市,户数 (户),累计频数,非常不满意,不满意,一般,满意,非常满意,24,108,93,45,30,24,132,225,270,300,合计,300,解:,设非常不满意为1,不满意为2,一般为3,满意为 4,非常满意为5 已知,QL,=不满意=2,QU,=一般=3,四分位差:,QD,=,QU,=,QL,=,3 2,=,1,第三节 数值型数据:方差和标准差,一、,极差,二、平均差,三、方差和标准差,一、,极差,(,range,),(一)定义,极差是指:一组数据的最大值与最小值之差,离散程度的最简单测度值,易受极端值影响,未考虑数据的分布,(二)计算公式为,R,=max(,x,i,)-min(,x,i,),二、平均差,(,mean deviation,),(一)定义,平均差是指各变量值与其均值离差绝对值的平均数。,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少,(二)计算公式,未分组数据,组距式分组数据,例三:,某电脑公司销售量数据平均差计算表,按销售量分组,组中值(,M,i,),频数(,f,i,),140150,150160,160170,170180,180190,190200,200210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,含义:,每一天的销售量平均数相比,,平均相差17台,三、方差和标准差,(,variance,and,standard deviation,),1.离散程度的测度值之一,2.最常用的测度值,3.反映了数据的分布,反映了各变量值与均值的平均差异,根据总体数据计算的,称为总体方差或标准差;根据样本数据计算的,称为样本方差或标准差,总体方差和标准差,(population,variance,and,standard deviation,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,方差的计算公式,标准差的计算公式,例四:,某电脑公司销售量数据平均差计算表,按销售量分组,组中值(,M,i,),频数(,f,i,),140150,150160,160170,170180,180190,190200,200210,210220,220230,230240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,1600,900,400,100,0,100,400,900,1600,2500,6400,8100,6400,2700,0,1700,4000,7200,6400,12500,合计,120,55400,含义:,样本方差和标准差,(sample,variance,and,standard deviation,),未分组数据:,组距分组数据:,未分组数据:,组距分组数据:,注意:,样本方差用自由度n-1去除!,自由度(degree of freedom),一组数据中可以自由取值的数据的个数,当,样本数据的个数为,n,时,若样本均值,x,确定后,只有,n,-1,个数据可以自由取值,其中必有一个数据则不能自由取值,.,当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,二、平均差(mean deviation),第三节 数值型数据:方差和标准差,QD=QU-QL,数据类型与离散程度测度值,样本方差和标准差(sample variance and standard deviation),一组数据中可以自由取值的数据的个数,消除了数据水平高低和计量单位的影响,QD=QU-QL,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。,某管理局所属8家企业的产品销售数据,二、平均差(mean deviation),总体方差和标准差(population variance and standard deviation),自由度(degree of freedom),QL=不满意=2,指标准差与其相应的均值之比。,例,如,,样本有,3,个数值,即,x,1,=2,,,x,2,=4,,,x,3,=9,,则,x,=5,。,当,x,=5,确定后,,x,1,,,x,2,和,x,3,有两个数据可以自由取值,另一个则不能自由取值,比如,x,1,=6,,,x,2,=7,,,那么,x,3,则必然取,2,,而不能取其他值,例五:,原始数据:,10 5 9 13 6 8,第四节 相对离散程度:离散系数,一、离散系数,(,coefficient of variation,),定义:,指标准差与其相应的均值之比。,对数据相对离散程度的测度,消除了数据水平高低和计量单位的影响,用于对不同组别数据离散程度的比较,QD=QU =QL,甲城市家庭对住房状况评价的频数分布,数据类型与离散程度测度值,第三节 数值型数据:方差和标准差,某管理局所属8家企业的产品销售数据,试比较产品销售额与销售利润的离散程度。,当 x=5 确定后,x1,x2和x3有两个数据可以自由取值,另一个则不能自由取值,比如x1=6,x2=7,那么x3则必然取2,而不能取其他值,某管理局所属8家企业的产品销售数据,QL=不满意=2,某电脑公司销售量数据平均差计算表,甲城市家庭对住房状况评价的频数分布,样本有3个数值,即x1=2,x2=4,x3=9,则 x=5。,是男生的体重差异程度大还是女生的体重差异程度大?,例六:某管理局抽查了所属的8家企业,其产品销售数据如表。,一、四分位差(quartile deviation)定义,二、计算公式,例六:,某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度。,某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),x,1,销售利润(万元),x,2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,结论:,计算结果表明,,v,1,v,2,,说明产品销售额的离散程度小于销售利润的离散程度,v,1,=,536.25,309.19,=,0.577,v,2,=,32.5215,23.09,=,0.710,课堂练习1,男生的平均体重是60千克,标准差是5千克;,女生的平均体重是50千克,标准差是5千克;,是男生的体重差异程度大还是女生的体重差异程度大?,课堂练习2,对10名成年人和10名幼儿的身高进行抽样调查,结果如下:,计算各组的均值、方差、标准差?,比较分析哪一组的身高差异大?,成年组,166,169,172,177,180,170,172,174,168,173,幼儿组,68,69,68,70,71,73,72,73,74,75,数据类型与离散程度测度值,数据类型和所适用的离散程度测度,值,数据类型,分类数据,顺序数据,数值型数据,适,用,的,测,度,值,异众比率,四分位差,方差或标准差,异众比率,离散系数(比较时用),平均差,极差,四分位差,异众比率,
展开阅读全文