教育统计学第04讲-差异量数课件

上传人:沈*** 文档编号:241394282 上传时间:2024-06-23 格式:PPT 页数:72 大小:3.38MB
返回 下载 相关 举报
教育统计学第04讲-差异量数课件_第1页
第1页 / 共72页
教育统计学第04讲-差异量数课件_第2页
第2页 / 共72页
教育统计学第04讲-差异量数课件_第3页
第3页 / 共72页
点击查看更多>>
资源描述
教育统计学04讲差异量数问题问题一:已知两组学生在某道题上成绩如下 甲组8,9,10,13,13,14,14,15,乙组3,5,5,7,9,13,21,33,试比较两组学生成绩哪一组好些?为什么?哪一组平均数的代表性更好一些呢?问题二:假设你是某大型加工工厂的采购代理商,你定期向两个不同的供应商订货。两个供应商都指出订货后大约10天才能交货。运营了几个月后,你发现两个供货商交货时间的平均数都是10天左右。二者交货所需工作日的数据直方图如下所示。你更愿意向哪一个供货商订货呢?概述描述数据离散程度的统计量称为差异量差异量。差异量越大,表明数据越分散、不集中;差异量越小,表明数据越集中,变动范围越小。一组数据的离散程度,常常通过数据的离中趋势特点进行分析。包括全距、百分位差、四分位差、平均差、标准包括全距、百分位差、四分位差、平均差、标准差、方差。差、方差。4内容第一节全距与百分位差第二节平均差、方差与标准差第三节差异系数与标准差小结5第一节 全距与百分位差一、全距R(range)全距又称两极差,是一组数据中的最大值(maximum)与该组数据中最小值(minimum)之差,是说明数据离散程度的最简单的统计量。作用:一般来说,全距越大,说明数据越分散,反之数据越集中、越整齐。6对全距的评价优点:简单、容易理解、计算简单的差异量数。缺点:粗糙和不可靠,不稳定、不灵敏,明显受到抽样的影响。是一种低效的差异量数。应用:用于对数据作预备性检查,了解数据的大概范围,以便如何进行统计分组。7二、百分位差(或称百分位距)百分位数(percentile)又叫百分位点,指量尺上的一个点值,小于等于这个点值的个体(数据个数)占数据分布中全部数据个数的一定百分比。第P百分位数:就是指小于等于P的数据占全部数据的p%,其符号为Pp.如:P70表示70%的位数,它代表在按照从小到大顺序排列的一组数据中的一个可能数值,小于等于这个数值的数据个数占70%,大于这个数值的数据占30%。如:当P70=110,则表示在所有的数据中,有70%的数据小于等于110,而有30%的数据大于110。8(一)百分位数的计算思考:如何根据已学过的中位数的计算公式推导百分位数的计算?(一)百分位数的计算10式中:b 为某一百分位数所在组的精确下限 Fb 为百分位数所在组下限以下的累积频数f 为某一百分位数所在组的频数n 为数据总的次数 i 为组距Fb.I,fLbX(一)百分位数的计算例 用表数据计算该分布的百分位数P90及P10。11组组别别 f f 向上累加次数向上累加次数 6565 1 11571576060 4 41561565555 6 61521525050 8 81461464545 16161381384040 24241221223535 343498983030 212164642525 161643432020 111127271515 9 916161010 7 77 7(二)百分位差百分位差:百分位差是指两个百分位数之差,也叫百分位距。用几个百分位差能较好地反映一组数据的差异程度。但有一定的局限,只作为主要差异量数的辅助量数。12(三)百位数的应用例:某招干考试分数如表4-1,预定取考分居前10%的应考人员进行面试选拔,请划定面试分数线。13表表4-1 招干考试分数表招干考试分数表分组次数 累积次数累积相对次数分组次数累积次数累积相对次数4549454945494549136136136136110211021102110258585858404440444044404413413413413496696696696650.8450.8450.8450.849094 9094 9094 9094 131313131900190019001900100100100100353935393539353912612612612683283283283243.7943.7943.7943.798589 8589 8589 8589 27272727188718871887188799.3299.3299.3299.32303430343034303413813813813870670670670637.1637.1637.1637.168084 8084 8084 8084 51515151186018601860186097.8997.8997.8997.89252925292529252913913913913926826826826829.8929.8929.8929.89757975797579757970707070180918091809180995.2195.2195.2195.21202420242024202414714714714742942942942922.5822.5822.5822.58707470747074707498989898173917391739173991.5391.5391.5391.53151915191519151915115115115128228228228214.8414.8414.8414.846569656965696569134134134134164116411641164186.3786.3786.3786.371014101410141014989898981311311311316.896.896.896.89 6064606460646064131131131131150715071507150779.3279.3279.3279.325959595926262626333333331.741.741.741.74 5559555955595559125125125125137613761376137672.4272.4272.4272.42040404047 7 7 77 7 7 70.370.370.370.37 5054505450545054149149149149125112511251125165.8465.8465.8465.84(三)百分位数的应用15解:本题要划定的分数线为P90,即分数线以下的考生占90%。应求百分位分数,利用公式:面试分数线应定为面试分数线应定为73分分三、百分等级分数百分等级分数:与百分位数相反,它是事先知道分布中的一个原始分数,再求这个原始分数在分布中所处的相对位置百分等级。百分等级分数百分等级分数指出原始数据在常模团体中的相对位置,百分等级越小,原始数据在分布中相对位置越低;百分等级越大,原始数据在分布中相对位置越高。16(一)百分等级分数的计算公式17式中式中:b b 为某特定原始变量所在组的下限为某特定原始变量所在组的下限 F Fb b 小于小于L Lb b的累积频数的累积频数 f f 为某特定原始变量所在组的频数为某特定原始变量所在组的频数 N N 为数据总的次数为数据总的次数 i i 为组距为组距(二)百分等级分数的应用例:表4-1所列的考试分数分布中,已知某应试者的考分为82分,问在这次考试中低于该应试者的人数比例。解:由一个原始分数求低于它的分数比例,是一个求百分等级的问题,利用公式:82分的百分等级96.28,即有96.28%的应试者考分低于82分。18四、四分位差(四分位距)19四分位差,是百分位差的一种,它是第三个四分位数(Q3,P75)与第一个四分位数(Q1,P25)之差的一半,即在一个次数分布中,中间50%的次数的距离的一半。用四分位数间距可反映数据变异程度的大小。计算公式为:(一)四分位差的计算四分位差的计算,基于P25、P75两个百分位数,这两个点值和中数一起把一组数据的次数等分为四部分。四分位数通常与中数联系起来共同应用,中数可以看作是第二四分位点。对于未分组数据求四分位差,Q1、Q3可依照未分组数据求中数的方法求得。20(一)四分位差的计算例:假设有数组:0,10,20,30,40,50,60,70,80,90,100,110.第一个四分位为第三位和第四位的中位数,即:Q1=(20+30)/2=25;第三四分位为第九位和第十位的中位数,即:Q3=(80+90)/2=85。四分位差Q=(Q3-Q1)/2=(85-26)/2=29.5 21分组数据中四分位差计算分组数据中四分位差计算22用中位数作集中量时,常用四分位距作差异量。用中位数作集中量时,常用四分位距作差异量。L L L LQ Q Q Q:表示表示表示表示Q Q Q Q所在组的下限所在组的下限所在组的下限所在组的下限N N N N:表示总频数:表示总频数:表示总频数:表示总频数fb:fb:fb:fb:表示小于表示小于表示小于表示小于Q Q Q Q所在组下限的频数总和所在组下限的频数总和所在组下限的频数总和所在组下限的频数总和i:i:i:i:表示组距表示组距表示组距表示组距 例分组数据求四分位差组限次数自下而上累计次数算法:计算累计次数N=50计算四分位数与四分差:959085807570656055146912854150494539 30181051(三)四分位差特点优点:1,常与中数联系起来共同应用。2,对数据的离散程度的描述比全距好缺点:1,稳定性差2,反映不灵敏3,不能进行代数运算24第二节平均差、方差与标准差一、动差体系动差(moment)是物理学上测量力的旋转趋势的名称,旋转趋势的大小随力点与原点距离大小而变化,其大小是力与该距离的乘积。统计学借用力学上的动差概念来表示次数分布的离散情况。把各组次数当作力学上的力,用数值或组中值与原点之差作为距离来计算动差。以平均数为原点的动差叫做中心动差中心动差,常见的中心动差:25常见的中心动差一级动差二级动差三级动差四级动差26因其总和等于0,故不能用来表示离散程度方差,最广泛的一种差异量数指标,用来表示一个分布中离中趋势的指标,其平方根是标准差用来表示一个分布中偏斜度或偏态性的指标用来表示一个分布中峰态性的指标二、平均差定义:平均差(average deviation),是所有原始数据与平均数绝对离差的平均值。一般用AD表示2.计算:3.平均差的特点优点:平均差是根据全部数值计算的,受极端值影响较全距小。缺点:由于采取绝对值的方法消除离差的正负号,应用较少。三、方差与标准差(一)方差与标准差的意义 方差:(variance):离均差平方和的算术平均数,符号为、S2或SD2标准差:(standarddeviation):方差的正平方根,即离均差平方和求算术平均数后的正的平方根,符号为、S或SD。(二)方差与标准差的计算总体方差总体方差总体标准差总体标准差此法无需计算平均数对原始数据公式的推算30(二)方差与标准差的计算样本方差样本方差样本标准差样本标准差例用两种公式计算样本数据6,5,7,4,6,8的方差和标准差例定义公式.求平均数.求方差.求标准差用两种公式计算样本数据6,5,7,4,6,8的方差和标准差例用两种公式计算样本数据6,5,7,4,6,8的方差和标准差原始数据公式1 求原始数据的平方和:2 求离均差的平方和:3 代入公式得 S=1.4134例分别计算下列两组学生成绩的方差与标准差 甲组8,9,10,13,13,14,14,15乙组 3,5,5,7,9,13,21,33解甲(X)乙(Y)x=X-y=Y-x2y28 3 8-9 64 81 9 5 9-7 81 49 甲S2=168/72410 5-2-7 4 49 S=4.913 7 1-5 1 25 乙S2=441/7=6313 9 1-3 1 9 S=7.9414 13 2 1 4 1 14 21 2 9 4 81 15 33 3 21 9 441=12=12=168=736(二)分组次数分布表中标准差的计算 分组次数分布表求标准差:例计算30位运动员成绩标准差(三)总标准差的合成(联合标准差)当已知几个小组数据的方差或标准差时,可以计算几个小组联合在一起的总的方差或标准差。需要注意的是,只有在应用同一种观测手段,测量的是同一种特质,只是样本不同的数据时,才能计算合成方差或标准差。(三)总标准差的合成(联合标准差)组内方差组内方差+组间方差组间方差(三)总标准差的合成例:已知某班级男生36人,女生24人。男生期末平均分75分,标准差6分,女平均分80分,标准差6分,求全班的标准差。例:在三个班级进行某项能力研究,三个班测查结果的平均数和标准差分别如下,求三个班的总标准差。班级人数n平均分标准差12345384075786998101.024.02-4.981.0416.1624.88164100(三)总标准差的合成(三)总标准差的合成解:求总平均数:求 ,填入表内第5、6、7列。代入公式:(三)总标准差的合成方差或标准差能够很好地度量数据的变异性,如果数据越集中,方差或标准差的值就越小;反之,数据越分散,方差或标准差的值就越大。值得注意的是这种比较需在平均数相等的条件才能进行,若两列数据的平均数不同,尤其平均数相差悬殊时则不能进行这种比较,需要其他的方法进行比较。(四)切比雪夫定理4619世纪俄国数学家切比雪夫研究统计规律中,论证并用标准差表达了一个不等式,这个不等式具有普遍的意义,被称作切比雪夫定理 chebyshevs theorem:任意一个数据集中,位于其平均数任意一个数据集中,位于其平均数mm个标准差范围内的比个标准差范围内的比例(或部分)总是至少为例(或部分)总是至少为1-1/h1-1/h2 2,其中,其中h h为大于为大于1 1的任意正的任意正数。(参见书上数。(参见书上4646示意图示意图)对于h=2:所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。对于h=3:所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。对于h=5:所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内。(四)切比雪夫定理应用异常值的取舍在一个正态分布中,平均数上下一定的标准差处,包含有确定百分数的数据个数。根据这个原理,在数据较多情况下:常采用三个标准差法则,进行取舍数据,即常采用三个标准差法则,进行取舍数据,即如果有一个数据的取值落在平均数加减三个标准如果有一个数据的取值落在平均数加减三个标准差之外,则在整理数据时,可将此数据作为异常差之外,则在整理数据时,可将此数据作为异常值加以取舍。值加以取舍。.标准差性质标准差是一组数据方差的平方根,它不可以进行代数计算,但有以下特性。(五)方差与标准差的性质和意义l每一个观测值都加上一个相同常数C之后,计算得到的标准差等于原标准差。l每一个观测值都乘以一个相同的常数C,则所得的标准差等于原标准差乘以这个常数。l以上两点相结合,每一个观测值都乘以同一个常数C(C0),再加上一个常数d,所得的标准差等于原标准差乘以这个常数C。(五)方差与标准差的性质和意义3.标准差的实用意义标准差具备一个良好的差异量数应具备的条件:反应灵敏;计算公式严密确定;容易计算;适合代数运算;受抽样变动影响小;简单明了。标准差与其他各种差异量数相比,具有数学上的优越性。第三节差异系数与标准差一、差异系数二、标准分数一、差异系数(一)差异系数的概念及计算公式差异系数(coefficientofvariation)也叫变异系数、相对标准差,是指标准差与其算术平均数的百分比,它是没有单位的相对数。常以CV表示,其计算公式为50(二)差异系数的作用1.1.同一团体不同单位资料的差异程度比较2.比较单位相同而平均数相差较大的两组资料的差异程度3.可判断特殊差异情况根据经验,一般CV值常在535之间。如果CV大于35时,可怀疑所求得的平均数是否失去了意义;如果CV小于5时,可怀疑平均数与标准差是否计算有误。51平均数标准差差异系数体重19.39千克2.16千克11.14%身高115.87厘米4.86厘米4.19%521975年上海市区6岁男童体重与身高数据(三)差异系数的应用 例:比较计量单位不同的数据资料的差异程度例:比较单位相同而平均数相关较大的两组资料的差异程度。平均数标准差差异系数2个月组5.45千克0.62千克11.38%6岁组19.02千克2.12千克11.15%5319751975年上海市区两组女童体重的数据:年上海市区两组女童体重的数据:(四)应用差异系数应注意差异系数主要应用于平均数不等于零的连续数据。第一,测量的数据要保证具有等距尺度,这时计算的平均数和标准差才有意义,应用差异系数进行比较也才有意义。第二,观测工具应具有绝对零,这时应用差异系数去比较分散程度效果才更好。第三,差异系数只能用于一般的相对差异量的描述。54二、标准分数标准分数(standardscore),又称为基分数或分数(Zscore),是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。原始分数是指,从观测中直接得到的原始的、没有经过转换的分数。55例假设你在一次统计考试中得到x76分。你做得怎样?显然,为了预测你的成绩优良中差,你需要更多的信息。你的x76分可能是班里最好的成绩,也可能是分布里面最差的。为了找到你的分数的位置,你必须知道关于分布中其他分数的信息。比如说,知道全班的平均数是有帮助的。如果平均数70,那么,你的情况将比平均数85时好很多。显而易见,你在班里的相对位置依赖于平均数。56例但是,仅仅有平均数还不足以告诉你你的分数的精确位置。假设你知道本次统计考试的平均数并70,你的分数X=76。此时,你知道你的分数比平均数高6分,但是,你仍然不知道其准确的位置。6分可能是一个很大的分数段,你可能是班里的最高分之一,或者6分可能是一个很小的分数段,你只是比平均数高一点而已。57下图显示了考试分数的两种可能分布。两种分布的同为70,但是,其中一个标准差3另外一个=12。注意,在两种分布中,x76的相对位置是显著不同的。当标准差3时,你的分数X=76在最右边的尾端,是分布中的最高分数之一,可是在另外一个分布中,当12时,你的分数仅仅稍高于平均数。因此,你的实际分数在分布中的相对位置依赖于平均数和标准差。二、标准分数(一)标准分数的定义定义:原始量数与其平均数的差数,除以标准差所得的商,称之为标准分数。又称为Z分数。用公式表示:标准分数是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。标准分数从分数对平均数的相对地位、该组分数的离中趋势两个方面来表示原始分数的地位。(二)标准分数的求法X96908685838281807572137320-1-2-3-8-11(三)标准分数的性质Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。一组原始分数转换得到的Z分数可以是正值,也可以是负值。所有原始分数的Z分数之和为0,Z分数的平均数也为0,即一组数据的标准分数的标准差为1,即。若原始分数呈正态分布,则转换得到的所有Z分数值服从均值为0,标准差为1的标准正态分布。(四)标准分数转换的意义把原始分数转换成Z分数,就是把单位不等距的和缺乏明确参照点的分数转换成以标准差为单位,以平均数为参照点的分数。因为在一个分布中,标准差所表示的距离是相等的,以标准差为单位就使单位等距了。以平均数为参照点,也就是以0为参照点,因为等于平均数的原始分数转换成标准分数后,其值为0。原始分数转换成Z分数,就是转换为以1为标准差,以0为参照点(平均值)的分数,从而可以明确各个原始分数的相对地位,并且分数间也有了相互比较的基础。正因为它以1(1个标准差)为单位,以0为参照点,故名标准分数。(五)标准分数的应用1.比较几个性质不同的观测值在各自数据分布中相对位置的高低例测验一个班级的数学成绩,平均数为80分,标准差为8分;又测验了该班的语文成绩,平均数为70分,标准差为5分。甲生在数学测验中得81分,在语文测验中得78分,问该生哪一学科的成绩在班上比较优?解:(五)标准分数的应用2.计算不同质的观测值的总和或平均值,以表示在团体中的相对位置例在招生考试时,有甲、乙两考生的各科成绩如下表,如果这两个考生只录取一个,应录取哪位考生?表甲、乙两考生的各科成绩考试科目个人分数全体考生个人标准分甲乙平均分标准差甲乙语文数学外语政治历史748732787089825060657080357568128111070.3330.875-0.2720.30.2851.580.251.36-1.50-0.42合计3413461.5211.27(五)标准分数的应用3.表示标准测验分数思考成绩报告采用原始分和标准分各有何利弊?小结(一)各种差异量数的比较1标准差比较难以理解,运算较繁琐,容易受极端值的影响2方差的描述作用不大,但由于其具有可加性,是对一组数据造成各种变异的总和的测量,通常采用方差的可加性分解并确定属于不同来源的变异性。3全距计算简便,容易理解,适应于所有类型数据,但它易受极值的影响的,不能显示全部数据的差异情况,仅作为辅助使用。(二)各种差异量数的比较4平均差容易理解,容易计算,能说明分布中全部数值的差异状况,缺点是会受两极竖直的影响,但数据较多时,这种影响小,因有绝对值也不适合代数方法。5百分位差容易理解、计算、不受极值的影响,但不能反映出分布的中间数值的差异状况,只能做辅助量数。6四分位差意义明确,计算方法容易,对极端值不敏感,比较不受极端值影响,当组距不确定时,其他差异量数无法计算时,可以用四分位差。小结(二)良好差异量数应具备的条件1、应该根据客观数据资料获得,而不是主管估计得到的。2、应该容易了解,不应太具抽象意义。3、应该是根据全部观测数据得来的,而不是个别数据。4、计算应该方便、容易、迅速。5、应该较少受抽样变动的影响,在反复抽样中具有想对恒常性。6、应当能够采用代数方法计算。小结(三)差异量数选用1)当样本是随机取样时,s、Q、R,这几个差异量数的可靠性依次降低;2)当要求计算要容易、快捷时,R、Q、s依次变得繁杂;3)当要求统计量进一步使用时,s远远胜于其他差异量数。4)在偏态分布中,Q比s更常用。作业5254第4,9,11,14题
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!