资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,2.2,用样本估计总体,.2.1,用样本的频率分布估计总体分布,问题提出,1.,随机抽样有哪几种基本的抽样方法?,2.,随机抽样是收集数据的方法,如何通,过样本数据所包含的信息,估计总体的,基本特征,即用样本估计总体,是我们,需要进一步学习的内容,.,简单随机抽样、系统抽样、分层抽样,.,频率分布表及直方图、,折线图、密度曲线、,茎叶图,知识探究(一):频率分布表,【,问题,】,我国是世界上严重缺水的国家之一,城市缺水问题较为突出,某市政府为了节约生活用水,计划在本市试行居民生活用水定额管理,即确定一个居民月用水量标准,a,,用水量不超过,a,的部分按平价收费,超出,a,的部分按议价收费,.,通过抽样调查,获得,100,位居民,2007,年的月均用水量如下表(单位:,t,):,3.1 2.5 2.0,2.0,1.5 1.0 1.6 1.8 1.9 1.6,3.4 2.6 2.2,2.2,1.5 1.2,0.2,0.4 0.3 0.4,3.2 2.7 2.3 2.1 1.6 1.2 3.7 1.5 0.5 3.8,3.3 2.8 2.3 2.2 1.7 1.3 3.6 1.7 0.6 4.1,3.2 2.9 2.4 2.3 1.8 1.4 3.5 1.9 0.8,4.3,3.0 2.9 2.4,2.4,1.9 1.3 1.4 1.8 0.7 2.0,2.5 2.8 2.3,2.3,1.8 1.3,1.3,1.6 0.9 2.3,2.6 2.7 2.4 2.1 1.7 1.4 1.2 1.5 0.5 2.4,2.5 2.6 2.3 2.1 1.6 1.0,1.0,1.7 0.8 2.4,2.8 2.5 2.2 2.0 1.5 1.0 1.2 1.8 0.6 2.2,思考,1,:,上述,100,个数据中的最大值和最小值分别是什么?由此说明样本数据的变化范围是什么?,思考,2,:,样本数据中的最大值和最小值的差称为,极差,.,如果将上述,100,个数据按,组距,为,0.5,进行分组,那么这些数据共分为多少组?,0.2,4.3,(,4.3-0.2,),0.5=8.2,思考,3,:,以组距为,0.5,进行分组,上述,100,个数据共分为,9,组,各组数据的取值范围可以如何设定?,思考,4,:,如何统计上述,100,个数据在各组中的,频数,?如何计算样本数据在各组中的,频率,?你能将这些数据用表格反映出来吗?,0,,,0.5,),,0.5,,,1,),,1,,,1.5,),,,,4,,,4.5.,分 组 频数累计 频数 频率,0,,,0.5,),4 0.04,0.5,,,1,),正,8 0.08,1,,,1.5,),正 正 正,15 0.15,1.5,,,2,),正 正 正 正,22 0.22,2,,,2.5,),正 正 正 正 正,25 0.25,2.5,,,3,),正 正,14 0.14,3,,,3.5,),正 一,6 0.06,3.5,,,4,),4 0.04,4,,,4.5 2 0.02,合计,100 1.00,思考,5,:,上表称为样本数据的,频率分布表,,由此可以推测该市全体居民月均用水量分布的大致情况,给市政府确定居民月用水量标准提供参考依据,这里体现了一种什么统计思想?,用样本的频率分布估计总体分布,.,思考,6,:,如果市政府希望,85%,左右的居民每月的用水量不超过标准,根据上述频率分布表,你对制定居民月用水量标准(即,a,的取值)有何建议?,88%,的居民月用水量在,3t,以下,可建议取,a=3.,思考,7,:,在实际中,取,a=3t,一定能保证,85%,以上的居民用水不超标吗?哪些环节可能会导致结论出现偏差?,分组时,组距的大小可能会导致结论出现偏差,实践中,对统计结论是需要进行评价的,.,思考,8,:,对样本数据进行分组,其组数是由哪些因素确定的?,了解:,对样本数据进行分组,组距的确定没有固定的标准,组数太多或太少,都会影响我们了解数据的分布情况,.,数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多,.,按统计原理,若样本的容量为,n,,分组数一般在(,1+3.3lg,n,)附近选取,.,当样本容量不超过,100,时,按照数据的多少,常分成,5,12,组,.,若以,0.1,或,1,为组距对上述,100,个样本数据分组合适吗?,思考,10,:,一般地,列出一组样本数据的频率分布表可以分哪几个步骤进行?,第一步,求极差,.,(极差,=,样本数据中最大值与最小值的差),第二步,决定组距与组数,.,(设,k=,极差,组距,若,k,为整数,则组数,=k,,否则,组数,=k+1,),第三步,确定分点,将数据分组,.,第四步,统计频数,计算频率,制成表格,.,(频数,=,样本数据落在各小组内的个数,频率,=,频数,样本容量),知识探究(二):频率分布直方图,思考,1,:,为了直观反映样本数据在各组中的分布情况,我们将上述频率分布表中的有关信息用下面的图形表示:,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,上,图称为,频率分布直方图,,其中横轴表示月均用水量,纵轴表示频率,/,组距,.,频率分布直方图中各小长方形的宽度和高度在数量上有何特点?,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,宽度:,组距,高度:,频率,组距,思考,2,:,频率分布直方图中各小长方形的面积表示什么?各小长方形的面积之和为多少?,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,各小长方形的面积,=,频率,各小长方形的面积之和,=,1,思考,3,:,频率分布直方图非常直观地表明了样本数据的分布情况,使我们能够看到频率分布表中看不太清楚的数据模式,但原始数据不能在图中表示出来,.,你能根据上述频率分布直方图指出居民月均用水量的一些数据特点吗?,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,(,1,)居民月均用水量的分布是,“,山峰,”,状的,而且是,“,单峰,”,的;,月均用水量,/t,频率,组距,0.5,0.4,0.3,0.2,0.1,0.5 1 1.5 2 2.5 3 3.5 4 4.5,O,(,2,)大部分居民的月均用水量集中在一个中间值附近,只有少数居民的月均用水量很多或很少;,(,3,)居民月均用水量的分布有一定的对称性等,.,思考,4,:,样本数据的频率分布直方图是根据频率分布表画出来的,一般地,频率分布直方图的作图步骤如何?,第一步,画平面直角坐标系,.,第二步,在横轴上均匀标出各组分点,在纵轴上标出单位长度,.,第三步,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形,.,思考,5,:,对一组给定的样本数据,频率分布直方图的外观形状与哪些因素有关?在居民月均用水量样本中,你能以,1,为组距画频率分布直方图吗?,与分组数(或组距)及坐标系的单位长度有关,.,月均用水量,/t,频率,组距,0.4,0.3,0.2,0.1,1 2 3 4 5,O,同样一组数据,如果组距不同,得到的图的形状也会不同。不同的形状给人以不同的印象,这种印象有时会影响我们对总体的判断。,理论迁移,例,1,某地区为了了解知识分子的年龄结构,,随机抽样,50,名,其年龄分别如下:,42,,,38,,,29,,,36,,,41,,,43,,,54,,,43,,,34,,,44,,,40,,,59,,,39,,,42,,,44,,,50,,,37,,,44,,,45,,,29,,,48,,,45,,,53,,,48,,,37,,,28,,,46,,,50,,,37,,,44,,,42,,,39,,,51,,,52,,,62,,,47,,,59,,,46,,,45,,,67,,,53,,,49,,,65,,,47,,,54,,,63,,,57,,,43,,,46,,,58.,(1),列出样本频率分布表;,(2),画出频率分布直方图;,(3),估计年龄在,32,52,岁的知识分子所占的比例约是多少,.,(1),极差为,67-28=39,,取组距为,5,,分为,8,组,.,分 组 频数 频率,27,,,32,),3 0.06,32,,,37,),3 0.06,37,,,42,),9 0.18,42,,,47,),16 0.32,47,,,52,),7 0.14,52,,,57,),5 0.10,57,,,62,),4 0.08,62,,,67,),3 0.06,合 计,50 1.00,样本频率分布表:,(,2,)样本频率分布直方图:,年龄,0.06,0.05,0.04,0.03,0.02,0.01,27 32 37 42 47 52 57 62 67,频率,组距,O,(,3,)因为,0.06+0.18+0.32+0.14=0.7,,故年龄在,32,52,岁的知识分子约占,70%.,将直方图各块顶端中点连线你会发现什么呢?:,年龄,0.06,0.05,0.04,0.03,0.02,0.01,27 32 37 42 47 52 57 62 67,频率,组距,O,思考:,若组距取得越小,则频率折线的,光滑程度会怎样?,越,光滑,频率分布折线图,如果样本容量足够大,分组的组距取得足够小,则频率折线图将趋于一条光滑的曲线:,年龄,0.06,0.05,0.04,0.03,0.02,0.01,27 32 37 42 47 52 57 62 67,频率,组距,O,总体密度曲线,小结,1.,频率分布是指一个样本数据在各个小范围内所占比例的大小,总体分布是指总体取值的频率分布规律,.,我们通常用样本的频率分布表或频率分布直方图去估计总体的分布,.,2.,频率分布表和频率分布直方图,是对相同数据的两种不同表达方式,.,用紧凑的表格改变数据的排列方式和构成形式,可展示数据的分布情况,.,通过作图既可以从数据中提取信息,又可以利用图形传递信息,.,3.,样本数据的频率分布表和频率分布直方图,是通过各小组数据在样本容量中所占比例大小来表示数据的分布规律,它可以让我们更清楚的看到整个样本数据的频率分布情况,并由此估计总体的分布情况,.,例,2,甲乙两篮球运动员在上赛季每场比赛的得分如下,试比较两位运动员的水平。,甲:,12,,,15,,,24,,,25,,,31,,,31,,,36,,,36,,,37,,,39,,,44,,,49,,,50,;,乙:,8,,,13,,,14,,,16,,,23,,,26,,,28,,,33,,,38,,,39,,,51.,解决这个实际问题还用频率分布表或者频率分布直方图来做吗?,知识探究(三):频率分布茎叶图,此时可以考虑:频率分布茎叶图,一般地,当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上的叶子,因此通常将此图成为茎叶图,知识探究(三):频率分布茎叶图,0,1,2,3,4,5,8,346,368,389,1,52,54,976611,94,0,甲,乙,通过此图即可看出甲运动员的得分大致对称,发挥比较稳定!,第一步,将每个数据分为茎(十位数)和叶(个位数);,第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在中间;,第三步,将各个数据的叶按大小次序写在其茎右(左)侧,.,一般地,列出一组样本数据的频率分布,茎叶图可以分哪几个步骤进行?,
展开阅读全文