资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,9.2,用样本估计总体,根据下面的情境,请同学们回顾初中阶段我们学习了,哪些样本的数字特征呢,?,情境1,对于上海市市民的寿命情况和纽约市市民的寿命情况,你更关注哪个方面的统计量?,情境,2,如果对某地感染新型冠状病毒的患者年龄情况做一项统计,你最关心什么数据?,情境,3,新型冠状病毒潜伏期,中位数,为3天,最长24天,新课导入,中位数的优点是不受偏大或偏小数据的影响,因此,有时用它代表全体数据的一般水平更合适。,为了了解总体的情况,前面我们研究了如何,通过样本的分布规律估计总体的分布规律,。但有时候,我们可能不太关心总体的分布规律,而,更关注总体取值在某一方面的特征,。,在初中的学习中我们已经了解到,,平均数、中位数和众数,等都是刻画“,中心位置,”的量,,它们,从不同角度刻画了一组数据的集中趋势,。,新课导入,通过具体案例,进一步加深对这些数字特征统计含义的认识与理解,会用合适的数字特征描述数据。,学会通过样本数据或频率分布直方图,求解,平均数、中位数与众数,从而估计总体,.,【学习目标】,例题,1,利用9.2.1节中100户居民用户的月均用水量的调查数据,,计算样本数据的平均数和中位数,,并据此,估计全市居民用户月均用水量的平均数和中位数,.,假设通过随机抽样,获得了,100,户居民用户的月均用水量数据,:,(,单位:,t,),新课讲授,由,样本平均数,的定义,可得,即,100,户居民的月均用水量的平均数为,8.79t.,因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民的月均用水量约为,8.79t,,其中位数约为,6.8t.,解:,由,中位数,的定义,可得,即,100,户居民的月均用水量的中位数为,6.8t.,样本,平均数,与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;,中位数,只利用了样本数据中间位置的一个或两个值,所以不是任何一个样本数据的改变都会引起中位数的改变,思考,小明用统计软件计算了100 户居民月用水量的平均数和中位数,但录入数据时,把一个数据,7.7,录成了,77,.,请,计算录入数据的平均数和中位数,,并与真实的样本平均数和中位数作,比较,.,哪个量的值变化更大?你能解释其中的原因吗?,平均数由8.79t变为9.48,1,t,中位数没有变化,还是6.,8,t.,与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感。,平均数与中位数的区别与联系,我们可以多改变几个数据的值来观察平均数和中位数的变化,如果我们将数据中的2.0变为200,我们再来计算一下平均数和中位数.,探究,1,平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关。,在下图的三种分布形态中,,平均数和中位数的大小存在什么关系,?,(,1,)直方图的形状是对称的,平均数和中位数应该大体上差不多,和中位数相比,平均数总是在“长尾巴”那边.,(,2,)直,方图在右边“拖尾”,平均数大于中位数,(,3,),直方图在左边“拖尾”,那么平均数小于中位数,平均数与中位数的区别与联系,如果一组数据的,平均数和中位数相差较大,,那么可以推断这组数据一定是,不对称,的,.,如果一组数据的平均数和中位数相差较大,那么可以推断这组数据一定是不对称的,.,如果样本平均数大于样本中位数,说明数据中存在较大的极端值;反之,说明数据中不存在较大的极端值.在实际应用中,如果同时知道样本中位数和样本平均数,可以使我们了解样本数据中极端数据的信息,帮助我们做出决策.,如果样本,平均数大于样本中位数,,说明,数据中存在较大的极端值,;反之,说明数据中不存在较大的极端值.,平均数与中位数的区别与联系,例题,2,某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格,.,据统计,高一年级女生需要不同规格校服的,频数,如下表所示,校服规格,155,160,165,170,175,合计,频数,39,64,167,90,26,386,如果,用,一个量,来代表该校高一年级女生所需校服的规格,,那么在中位数、平均数和众数中,哪个量比较合适?,试讨论用上表中的数据,估计全国高一年级女生校服规格,的合理性.,解,:,为了更直观地观察数据的特征,我们用条形图表示表中的数据,(,如下图,).,由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理,.,可以发现,选择校服规格为“,165”,的女生的频数最高,所以用众数,165,作为该校高一年级女生校服的规格比较合适,.,众数,只利用,了出现次数最,多的那个值的信息,.,众数只能告诉我们它比其他值出现的次数多,但,并未告诉我们它比别的数值多的程度,.,因此,,众数只能传递数据中的信息的很少的一部分,对极端值也不敏感,.,对,数值型数据,(如用水量、身高、收入、产量等),集中趋势的描述,,可以用,平均数、中位数;,对,分类型数据,(如校服规格、性别、产品质量等级等),集中趋势的描述,,可以用,众数,.,【小结】,在频率分布直方图中,我们无法知道每个组内的数据是如何分布的,.,此时,通常,假设,它们在,组内均匀分布,.,探究,2,样本的平均数、中位数和众数可以分别作为总体的平均数、中位数和众数的估计,,但在某些情况下我们无法获知原始的样本数据,如何,由频率分布直方图估计样本的平均数、中位数和众数,?,你能以图9.2-1中频率分布直方图提供的信息为例,给出估计方法吗?,(一)估计平均数,假设,数据在,组内均匀分布,.,分组,小矩形底边中点的横坐标,频率(小矩形面积),频数,小矩形面积,小矩形底边中点横坐标,于是,平均数的近似值,为,这个结果与根据原始数据计算的样本平均数8.79相差不大.,(一)估计平均数,每个小矩形底边中点的横坐标与小矩形的面积的乘积之和,小矩形面积,小矩形底边中点横坐标,根据中位数的意义,在样本中,,有,50,的个体小于或等于中位数,也有,50,的个体大于或等于中位数,.,因此,在频率分布直方图中,,中位数,左边和右边的直方图的面积,应该相等,.,中位数落在区间,4.2,7.2),内,设中位数是,x,,则,这个结果与根据原始数据求得的中位数,6.8,相差不大,.,(二)估计中位数,中位数左边的直方图面积和右边的直方图面积相等,x,-4.2,众数常用在描述分类型数据中,众数5.7让我们知道月均用水量在区间,4.2,,,7.2),的居民用户最多.,这个信息具有实际意义。,在频率分布直方图中,月均用水量在区间,4.2,,,7.2),内的居民,最多,,可以将这个,区间的中点5.7,作为,众数,的估计值.,(三)估计众数,最高矩形的中点,找众数、中位数、平均数,众数:,最高矩形的,中点,由频率分布直方图估计总体的集中趋势,中位数:,中位数左边的直方图面积和右边的直方图,面积相等,平均数:,每个小矩形底边,中点的横坐标,与小矩形的,面积,的,乘积之和,【小结】,练习,某校从参加高二年级学业水平测试的学生中抽出80名学生,其数学成绩(均为整数)的频率分布直方图如图所示.,(,1,)求这次测试数学成绩的众数;,(,2,)求这次测试数学成绩的中位数.,(,3,)求这次测试数学成绩的平均分.,练习巩固,(,2,),中位数,中位数落在区间,4.2,7.2),内,,设中位数是,x,,则,中位数约为,7.33,众数为最高矩形的中点,中位数左边的直方图面积和右边的直方图面积相等,0.05,0.15,0.2,0.3,(,2,),平均数,=,每个小矩形底边中点的横坐标与小矩形的面积的乘积之和,45,55,65,75,85,95,由样本观测数据计算得到的中位数与通过频率分布直方图估计的中位数可能不同,引起不同的原因是频率分布直方图已经损失了一些样本的信息、进一一步地、总体的各种数字特征都可以由两种途径来估计,即直接利用样本数据或由频率分布直方图来估计:在有样本原始数据时,尽量用原始数据直接计算平均数和中位数等;在没有样本原始数据,但有整理好的频率分布直方图等时,也可以近似计算样本平均数和中位数等,从而估计总体平均数和中位数等.通过这部分内容的学习,可以让学生体会统计方法没有对错,只有好坏之分,在解决实际问题时应该寻求更好的方法,,总体的各种数字特征都可以由两种途径来估计:,直接利用样本数据;由频率分布直方图来估计,两者可能不同,课堂小结,众数:,最高矩形的,中点,由频率分布直方图估计总体的集中趋势,中位数:,中位数左边的直方图面积和右边的直方图,面积相等,平均数:,每个小矩形底边,中点的横坐标,与小矩形的,面积,的,乘积之和,1.,平均数,与每个数据都有关,,反映信息充分,相对稳定可靠,但,易受极端情况影响,.,2.,中位数作为一组数据代表,可靠性相对较差,但当一组数据中,个别数据偏大或者偏小,,中位数来描述该数据的集中趋势较合适,.,3.,众数作为数据代表可靠性也比较差,但如果,个别数据有很大变动,,且,某个数据出现次数最多,,,用该数据表示集中趋势也比较适合,.,4.,三个数据各有特点,在具体情况中经常会将者结合起来考虑,.,如何正确看待平均数、中位数、众数反映的集中趋势,以上我们讨论了平均数、中位数和众数等特征量在刻画一组数据的集中趋势时的各自特点。并研究了用样本的特征量估计总体的特征量的方法。需要注意的是,这些特征量有时也会被利用而产生误导。,正确解读统计数据,问题,1,假设你到人力市场去找工作,有一个企业老板告诉你,“我们企业员工的年平均收入是20万元”,你该如何理解这句话?,这句话是真实的,但它可能描述的是差异巨大的实际情况。,例如,可能这个企业的工资水平普遍较高,也就是员工年收入的中位数、众数和平均数差不多;也可能是绝大多数员工的年收入较低(如大多数是,5,万元左右),而少数员工的年收入很高,甚至达到,100,万元,在这种情况下年收入的平均数就比中位数大很多。尽管在后一种情况下,用中位数或众数比用平均数更合理些,但这个企业的老板为了招揽员工,却用了平均数。,我们强调,“用数据说话”,,但同时又要,防止被数据误导,,这就需要掌握更多的统计知识和方法,.,本小节最后通过招聘中企业老板描述本企业员工年平均收人的实际背景,解释了有些人是如何利用人们对统计术语的模糊认识进行误导,使学生能够正确理解在日常生活中像“我们单位的收入水平比别的单位高”这类话的模糊性,这里的“收人水平”是指员工收人数据的某种中心,点,即可以是中位数、平均数或众数,不同的解释有不同的含义.类似的现象还有很多,比如在高考成绩公布后,有几个中学都说自己学校是第一。有的学校说他们学校学生成绩的平均分最高,有的学校说他们学校学生的成绩超过重点大学录取分数线的最多,还有学校说他们学校学生,的录取率最高比较统计结果的角度不同,对各学校的排名也不同.,再如,经常听到某类人数比上一年增加了百分之多少,这时通常要思考一下上一一年是多少人如果上一年是10000人,增加了10%,就是增加了1000人;如果上一年是10人,增加10%,也就增加了1人,10人和11人就没有很大的差别了.,问题,2,某校举行演讲比赛,10 位评委对两位选手的评分如下:,甲 7.5 7.5,7.8,7.8,8.0,8.0,8.2 8.3 8.4 9.9,乙 7.5,7.8,7.8,7.8 8.0 8.0 8.3 8.3 8.5 8.5,选手的最终得分为,去掉一个最低分利一个最高分,之后,剩下8个评分的平均数,.,那么这两个选手的最后得分是多少?,若直接用10位评委评分的平均数作为选手的得分,两位选手的排名有变化吗?,你认为哪种评分办法更好?为什么?,甲:,8.14,乙:,8.05,甲:,8,乙:,8.0625,平均数反映出样本数据中的更多信息,对样本中的极端值敏感。,在体育、文艺等各种比赛的评分中,使用的是平均数.计分过程中采用“去掉一个最高分,去掉一个最低分”的方法,就是为了防止个别裁判的人为因素而
展开阅读全文