资源描述
第2节用样本估计总体及统计图表,考试要求1.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性;2.能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义;3.能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义;4.了解样本估计总体的取值规律;5.能用样本估计百分位数,理解百分位数的统计含义.,知 识 梳 理,1.频率分布直方图,极差,分组,(1)频率分布表的画法:,(2)频率分布直方图:反映样本频率分布的直方图(如图),频率,2.频率分布折线图和总体密度曲线 (1)频率分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图. (2)总体密度曲线:随着样本容量的增加,作图时所分的_增加,_减小,相应的频率分布折线图就会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.,中点,组数,组距,3.样本的数字特征 (1)众数:一组数据中_的那个数据,叫做这组数据的众数. (2)中位数:把n个数据按大小顺序排列,处于_位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.,出现次数最多,最中间,4.百分位数 如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数.可表示为:一组n个观测值按数值大小排列.如,处于p%位置的值称第p百分位数. 微点提醒 1.频率分布直方图与众数、中位数与平均数的关系 (1)最高的小长方形底边中点的横坐标即是众数. (2)中位数左边和右边的小长方形的面积和是相等的. (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.,基 础 自 测,1.判断下列结论正误(在括号内打“”或“”),(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.() (2)一组数据的方差越大,说明这组数据越集中.() (3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越大.(),解析(1)正确.平均数、众数与中位数都在一定程度上反映了数据的集中趋势. (2)错误.方差越大,这组数据越离散.,答案(1)(2)(3),2.(必修3P1002(1)改编)一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为() A.4 B.8 C.12 D.16,答案B,3.(必修3P70示例改编)若某校高一年级8个班参加合唱比赛的得分分别为87,89,90,91,92,93,94,96,则这组数据的中位数和平均数分别是() A.91.5和91.5 B.91.5和92 C.91和91.5 D.92和92,解析这组数据为87,89,90,91,92,93,94,96,,答案A,4.(2018全国卷)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如图所示的饼图:,则下面结论中不正确的是() A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半 解析法一设新农村建设前经济收入为a,则新农村建设后经济收入为2a,则由饼图可得新农村建设前种植收入为0.6a,其他收入为0.04a,养殖收入为0.3a.新农村建设后种植收入为0.74a,其他收入为0.1a,养殖收入为0.6a,养殖收入与第三产业收入的总和为1.16a,所以新农村建设后,种植收入减少是错误的. 法二因为0.60.372,所以新农村建设后,种植收入增加,而不是减少,所以A是错误的. 答案A,5.(2019新余二模)为了解户籍、性别对生育二胎选择倾向的影响,某地从育龄人群中随机抽取了容量为100的样本,其中城镇户籍与农村户籍各50人;男性60人,女性40人,绘制不同群体中倾向选择生育二胎与倾向选择不生育二胎的人数比例图(如图所示),其中阴影部分表示倾向选择生育二胎的对应比例,则下列叙述中错误的是(),A.是否倾向选择生育二胎与户籍有关 B.是否倾向选择生育二胎与性别无关 C.倾向选择生育二胎的人员中,男性人数与女性人数相同 D.倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数 解析由题图,可得是否倾向选择生育二胎与户籍有关、性别无关,倾向选择不生育二胎的人员中,农村户籍人数少于城镇户籍人数,倾向选择生育二胎的人员中,男性人数为6060%36,女性人数为4060%24,不相同.故选C. 答案C,答案50,考点一频率分布直方图,【例1】 (2019石家庄模拟)“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称.某市为了了解人们对“一带一路”的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:20,25),第二组:25,30),第三组:30,35),第四组:35,40),第五组:40,45,得到如图所示的频率分布直方图,已知第一组有6人.,(1)求x; (2)求抽取的x人的年龄的中位数(结果保留整数);,(3)从该市大学生、军人、医务人员、工人、个体户五种人中用分层抽样的方法依次抽取6人,42人,36人,24人,12人,分别记为15组,从这5个按年龄分的组和5个按职业分的组中每组各选派1人参加知识竞赛,分别代表相应组的成绩,年龄组中15组的成绩分别为93,96,97,94,90,职业组中15组的成绩分别为93,98,94,95,90. ()分别求5个年龄组和5个职业组成绩的平均数和方差; ()以上述数据为依据,评价5个年龄组和5个职业组对“一带一路”的认知程度,并谈谈你的感想.,()从平均数来看两组的认知程度相同,从方差来看年龄组的认知程度更稳定(感想合理即可).,【训练1】 某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频率分布表. A地区用户满意度评分的频率分布直方图,图,B地区用户满意度评分的频率分布表,(1)在图中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);,B地区用户满意度评分的频率分布直方图,图,(2)根据用户满意度评分,将用户和满意度分为三个等级:,估计哪个地区用户的满意度等级为不满意的概率大?说明理由.,解(1)作出频率分布直方图如图:,通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值;B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.,(2)A地区用户的满意度等级为不满意的概率大. 记CA表示事件:“A地区用户的满意度等级为不满意”; CB表示事件:“B地区用户的满意度等级为不满意”. 由直方图得P(CA)的估计值为(0.010.020.03)100.6, P(CB)的估计值为(0.0050.02)100.25. 所以A地区用户的满意度等级为不满意的概率大.,考点二样本的数字特征 【例2】 (1)(2017全国卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是() A.x1,x2,xn的平均数 B.x1,x2,xn的标准差 C.x1,x2,xn的最大值 D.x1,x2,xn的中位数,解析(1)刻画评估这种农作物亩产量稳定程度的指标是标准差. (2)某7个数的平均数为4, 这7个数的和为4728,,又这7个数的方差为2,且加入一个新数据4,,答案(1)B(2)A,规律方法1.平均数反映了数据取值的平均水平,而方差、标准差描述了一组数据围绕平均数波动的大小,标准差、方差越大,数据离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定. 2.用样本估计总体就是利用样本的数字特征来描述总体的数字特征.,【训练2】 抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:,则成绩较为稳定(方差较小)的那位运动员成绩的方差为_.,答案2,思维升华 1.用样本估计总体是统计的基本思想. 用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用. 2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质. (2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大. 3.频率分布表和频率分布直方图都可直观描述样本数据的分布规律.,易错防范,直方图与条形图不要搞混 频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误.,数据分析百分位数的统计含义,1.数据分析是指针对研究对象获取数据,运用数学方法对数据进行整理、分析和推断,形成关于研究对象知识的素养.数据分析过程主要包括:收集数据,整理数据,提取信息,构建模型,进行推断,获得结论. 2.数据分析是研究随机现象的重要数学技术,是大数据时代数学应用的主要方法,也是“互联网”相关领域的主要数学方法,数据分析已经深入到科学、技术、工程和现代社会生活的各个方面. 3.数据分析主要表现为:收集和整理数据,理解和处理数据,获得和解释结论,概括和形成知识.,4.百分位数是统计学述语,百分位数用于描述一组数据某一百分位置的水平,多个百分位数结合应用,可全面描述一组观察值的分布特征;百分位数还可用于确定非正态分布资料的医学参考值范围.但应用百分位数时,样本含量要足够大,否则不宜取太靠近两端的百分位数. 【案例】 阶梯电价的设计(此材料见2017版课程标准P130) 情境为了实现绿色发展,避免浪费能源,某市政府计划对居民用电采用阶梯收费的方法.为此,相关部门在该市随机调查了200户居民六月份的用电量(单位:kWh),以了解这个城市家庭用电量的情况.数据如下:,10710178992081277422331131 214 135 89 66 60 115 189 135 146 127 203 97 96 62 65 111 56 151 106 8 162 91 67 93 212 159 61 63 178 194 194 216 101 98 139 78 110 192 105 96 22 50 138 251 120 112 100 201 98 84 137 203 260 134 156 61 70 100 72 164 174 131 93 100 163 80 76 95 152 182 88 247 191 70 130 49 114 110 163 202 265 18 94 146 149 147 177 339 57 109 107 182 101 148 274 289 82 213 165 224,142 61 108 137 90 254 201 83 253 113 130 82 170 110 108 63 250 237 120 84 154 288 170 123 172 319 62 133 130 127 107 71 96 140 77 106 132 106 135 132 167 82 258 542 51 107 69 98 72 48 109 134 250 42 320 113 180 144 116 530 200 174 135 160 462 139 133 304 191 283 121 132 118 134 124 178 206 626 120 274 141 80 187 88 324 136 498 169 77 57 根据以上数据,应当如何确定阶梯电价中的电量临界值,才能使得电价更为合理?,分析选取六月份调查,是因为这个城市六月份的部分时间需要使用空调,因此六月份的用电量在一年12个月中处于中等偏上水平.如果阶梯电价临界值的确定依赖于居民月用电量的分布,例如计划实施3阶的阶梯电价,有人给出一个分布如下:75%用户在第一档(最低一档),20%用户在第二档,5%用户在第三档(最高一档).这样,需要通过样本数据估计第一档与第二档、第二档与第三档的两个电量临界值,即75%和95%这两个电量临界值. 通过样本估计总体百分位数的要领是对样本数据进行排序,得到有序样本(在统计学中称之为顺序统计量).利用电子表格软件,对上面的样本数据进行排序,可以得到下面的结果:,8 18 22 31 42 48 49 50 51 56 57 57 60 61 61 61 62 62 63 63 65 66 67 69 70 70 71 72 72 74 76 77 77 78 78 80 80 82 82 82 83 84 84 88 88 89 90 91 93 93 94 95 96 96 96 97 98 98 98 99 100 100 100 101 101 101 105 106 106 106 107 107 107 107 108 108 109 109 110 110 110 111 112 113 113 114 115 116 118 120 120 120 121 123 124 127 127 127 130 130 130 131 131 132 132 132 133 133 134 134,134 135 135 135 135 136 137 137 138 139 139 140 141 142 144 416 146 147 148 149 151 152 154 156 159 160 162 163 163 164 165 167 169 170 170 172 174 174 177 178 178 180 182 182 187 189 191 191 192 194 194 200 201 201 202 203 203 206 208 212 213 214 216 223 224 237 247 250 250 251 253 254 258 260 265 274 274 283 288 289 304 319 320 324 339 462 498 530 542 626,样本数据总共有200个,最小值是8,最大值是626,说明200户居民六月份的最小用电量为8 kWh,最大用电量为626 kWh,极差为618.初中统计内容中学过的中位数,相当于50%分位数.因为数据量是200,那么这组数据的样本中位数就是有序样本第100个数130和101个数130的平均数,即130,说明这个城市六月份居民用电量的中间水平大约在130 kWh左右. 下面确定75%和95%这两个电量临界值.类似中位数的计算,因为20075%150,所以第一个临界值为有序样本中第150个数178和第151个数178的平均数,仍然是178.因为20095%190,所以第二个临界值为有序样本中第190个数289和第191个数304的平均数,这个平均数为296.5(因为是对百分位数的估计,估计值可以是289和304之间任何一个数,为了便于操作可以取值为297).,依据确定了的电量临界值,阶梯电价可以规定如下: 用户每月用电量不超过178 kWh(或每年用电量不超过2 136 kWh),按第一档电价标准缴费;每月用电量(单位:kWh)在区间(178,297内(或每年用电量在区间(2 136,3 564内),其中的178 kWh按第一档电价标准缴费,超过178 kWh的部分按第二档电价标准缴费;每月用量超过297 kWh(或每年用电量超过3 564 kWh),其中的178 kWh按第一档电价标准缴费,(297178)119 kWh按第二档电价标准缴费,超过297 kWh的部分按第三档电价标准缴费. 社会上对这种制定阶梯电价的原则和方法存在不同意见,可以讨论制定合理阶梯电价的原则和方法.,评析分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置.百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息.对于无大量重复的数据,第p百分位数将它分为两个部分.大约有p%的数据项的值比第p百分位数小;而大约有(100p)%的数据项的值比第p百分位数大.对第p百分位数,严格的定义如下: 第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100p)%的数据项大于或等于这个值.,【案例应用1】 对于考试成绩的统计,如果您的成绩处在95的百分位数上,则意味着95%的参加考试者得到了和您一样的考分或还要低的考分,而不是您答对了95%的试题.也许您只答对了20%,即使如此,您取得的成绩也与95%的参加考试者一样好,或者比95%的参加考试者更好.,【案例应用2】 假设想为退休存够钱.可创建一个包括所有不确定变量的模型,如投资年回报率、通货膨胀、退休时的开支等,得到概率分布的结果如下图所示,如果选择平均值,钱不够的概率就会有50%.所以选第90百分位数所对应的投资数,这样钱不够的概率将只有10%.,
展开阅读全文