资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第一节 全距、四分位距与百分位距,第二节 平均差,第三节 方差与标准差,第四节 相对差异量,第五节 偏态量及峰态量,第四章 差异量,1,数据分布的另一个重要特征,反映各变量值远离其中心值的程度离中趋势,从另一个侧面说明了集中趋势测度值的代表程度,不同类型的数据有不同的离散程度测度值,小贴士,2,数据的特征和测度,分布的形状,集中趋势,离散程度,众 数,中位数,均 值,平均差,方差和标准差,峰 度,百分位距,四分位距,偏 态,小贴士,3,第一节 全距与百分位差,4,一、全距,1.,一组数据的最大值与最小值之差,2.,离散程度的最简单测度值,3.,易受极端值影响,4.,未考虑数据的分布,7,8,9,10,7,8,9,10,R,=max(,x,i,)-min(,x,i,),5.,计算公式为,5,二、四分位距,1.,四分位距的概念,依一定顺序排列的一组数据中间部位50%个频数距离的一半作为差异量指标,也称为内距或四分间距。,6,小贴士,1.,四分位距反映了中间,50%,数据的离散程度,2.,四分位距不受极端值的影响,3.,用于衡量中位数的代表性,7,2.四分位距的计算方法,1原始数据计算方法:,例如,25、22、29、12、40、15、14、39、37、31、33、19、17、20、35、30,求四分位距。,12、14、15、17、19、20、22、25、29、30、31、33、35、37、39、40,8,2频数分布表计算法:,用内插法求出第一个四分位数及第三个四分位数,然后带入公式。,9,3.,四分位距的应用及其优缺点,优点:四分位距简明易懂,计算简便,较少手两极端数值的影响,比全距可靠。,缺点:忽略了左右共50%数据的差异,不适合代数运算。,10,三、百分位距,百分位距是指两个百分位数之差。,计算方法:,11,第二节 平均差,12,一、平均差的概念,各变量值与其均值离差绝对值的平均数,能全面反映一组数据的离散程度,数学性质较差,实际中应用较少,计算公式为,原始数据,频数分布表,13,二、平均差的计算方法,1、原始数据计算法,例如,求原始数据78、83、69、75、97、88、86 的平均差。,2、频数分布表计算法,14,平均差,(,例题分析,),例4.3 某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(Mi),频数,(fi),140 150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,2040,15,平均差,(,例题分析,),含义:每一天的销售量平均数相比,,平均相差,17,台,16,三、平均差的优缺点,优点:平均差意义明确,计算容易,反响灵敏。,缺点:计算要用绝对值,不适合代数运算,在统计分析中应用较少。,17,第三节 方差和标准差,18,一、方差和标准差的概念,数据离散程度的最常用测度值,方差是指离差平方的算术平均数,反映了各变量值与均值的平均差异。,根据总体数据计算的,称为总体方差2或标准差;样根据样本数据计算的,称为本方差s2或标准差s,4 6 8 10 12,x,=,8,.3,19,二、方差和标准差的计算方法,1、原始数据计算法,2、频数分布表计算法,20,样本方差和标准差,未分组数据,:,分组数据:,方差的计算公式,标准差的计算公式,21,样本标准差,(,例题分析,),例4.4 某电脑公司销售量数据平均差计算表,按销售量分组,组中值,(,M,i,),频数,(,f,i,),140150,150 160,160 170,170 180,180 190,190 200,200 210,210 220,220 230,230 240,145,155,165,175,185,195,205,215,225,235,4,9,16,27,20,17,10,8,4,5,40,30,20,10,0,10,20,30,40,50,160,270,320,270,0,170,200,240,160,250,合计,120,55400,22,样本标准差,(,例题分析,),含义:每一天的销售量与平均数相比,,平均相差,21.49,台,23,三、方差和标准差的性质和意义,1.一组数据中每个数据都加或减去同一个数后,得到的方差等于原方差。,2.一组数据中每个数据都乘以一个数后,得到的方差等于原方差乘以这个数的平方。,3.方差与标准差是表示一组数据离散程度的最好指标。其值越大,说明频数分布的离散程度越大,该组数据较分散;其值越小,说明频数分布比较集中,离散程度小。,24,四、各种差异量的数值关系,R=6QX=7.5MD=9QD,中位数上、下各一个四分位距之间包括,50%,的总频数。,算术平均数上、下各一个平均差之间包括,57.51%,的总频数。,算术平均数上、下各一个标准差之间包括,68.26%,的总频数。,25,第四节 相对差异量,26,一、相对差异量的概念,标准差与其相应的均值的百分比 CV,也称为变异系数,对数据相对离散程度的测度。,消除了数据水平上下和计量单位的影响。,用于对不同组别数据离散程度的比较。,计算公式为:,27,二、差异系数的用途,1、比较不同单位资料的差异程度,2、比较单位相同而平均数相差较大的两组资料的差异程度,3、可判断特殊差异情况,28,差异系数,(,例题分析,),某管理局所属8家企业的产品销售数据,企业编号,产品销售额(万元),x1,销售利润(万元),x2,1,2,3,4,5,6,7,8,170,220,390,430,480,650,950,1000,8.1,12.5,18.0,22.0,26.5,40.0,64.0,69.0,【例4.5】某管理局抽查了所属的8家企业,其产品销售数据如表。试比较产品销售额与销售利润的离散程度,29,差异系数,(,例题分析,),结论:计算结果说明,说明产品销售额的离散程度小于销售利润的离散程度。,v,1,=,536.25,309.19,=,0.577,v,2,=,32.5215,23.09,=,0.710,30,小贴士,经验法那么说明:当一组数据对称分布时,约有68%的数据在平均数加减1个标准差的范围之内,约有95%的数据在平均数加减2个标准差的范围之内,约有99%的数据在平均数加减3个标准差的范围之内,如果数据落在平均数加减3个标准差的范围之外,那么在整理数据时,可将此数据作为异常值舍弃。,31,不同类型的数据可供选用的测度不同。,各种测度都有优缺点。,集中趋势的测度和离散程度的测度联合使用。,集中趋势的测度描述的频数分布的典型性,指的是一个点值,离散程度的测度反响频数分布的变异性,是一段距离。前者的代表性如何,可用后者的大小来说明。后者越小说明前者越有代表性。,小贴士,32,第四节 偏态量及峰态量,一、偏态量,1、利用算术平均数与众数或中位数的距离来计算,2、利用动差来计算:,33,二、峰态量,1、用两个百分位距来计算:,2、利用动差来计算:,34,
展开阅读全文