资源描述
第十章 概率、统计及统计案例高考文数高考文数10.2统计及统计案例统计及统计案例知识清单考点一抽样方法考点一抽样方法1.三种抽样方法的比较2.分层抽样中公式的运用抽样比=.3.简单随机抽样每次每个个体被抽到的概率都相等,都是 .在抽样过程中,每个个体被抽到的概率都是 .样本容量个体总量各层所抽取的个体数各层个体数量1NnN4.系统抽样的步骤当是整数时,(1)先将总体中每一个个体编号.(2)确定分段间隔k=,对编号进行分段.(3)在第一段用抽签法确定第一个个体编号t(tk).(4)按照一定的规则抽取样本,通常是抽取t,t+k,t+2k,t+(n-1)k.当不是整数时,先随机地从总体中剔除余数个个体,然后按上述步骤进行.NnNnNn考点二频率分布直方图与茎叶图考点二频率分布直方图与茎叶图1.频率分布直方图的特征(1)各个小矩形的面积和为1.(2)纵轴的含义为,矩形的面积=组距=频率.(3)样本数据的平均数的估计值等于每个小矩形的面积乘矩形底边中点横坐标之和.(4)众数为最高矩形的底边中点的横坐标.2.茎叶图的优点茎叶图的优点是可以保留原始数据,而且可以随时记录,这给数据的记录和表示都带来了方便.频率组距频率组距考点三样本的数字特征考点三样本的数字特征1.众数、中位数、平均数2.方差和标准差方差和标准差反映了数据波动程度的大小.(1)方差:s2=(x1-)2+(x2-)2+(xn-)2;1nxxx(2)标准差:s=.注意:方差和标准差描述了一组数据与平均数的离散程度,反映了一组数据相对于平均数的波动情况,标准差和方差越大,说明这组数据的波动性越大.3.关于平均数、方差的有关性质(1)若x1,x2,xn的平均数为,那么mx1+a,mx2+a,mxn+a的平均数为m+a.(2)数据x1,x2,xn与数据x1=x1+a,x2=x2+a,xn=xn+a的方差相等.(3)若x1,x2,xn的方差为s2,那么ax1+b,ax2+b,axn+b的方差为a2s2.222121()()() nxxxxxxnxx考点四变量间的相关性考点四变量间的相关性1.回归直线方程为=+x,其中其中(,)为样本点的中心,=xi,=yi.2.样本相关系数r=.如果|r|r0.05,那么表明有95%的把握认为x与y具有线性相关关系.如果|r|r0.05,那么求回归直线方程没有意义.yab1122211()(),().nniiiiiinniiiixxyyx ynxybxxxnxaybxxyx1n1niy1n1ni1222211niiinniiiix ynxyxnxyny3.相关指数:R2=1-.R2越大,模型的拟合效果越好;R2越小,模型的拟合效果越差.4.相关系数r.|r|1,表示两个变量的线性相关性越强.|r|0,表明两个变量之间几乎不存在线性相关性.通常|r|0.75时,认为两个变量有很强的线性相关性.2121()()niiiniiyyyy考点五独立性检验考点五独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)如下:可构造一个随机变量K2=,其中n=a+b+c+d为样本容量.3.独立性检验利用独立性假设、随机变量K2来确定是否有一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.两个分类变量X和Y是否有关系的判断标准:统计学研究表明:当K23.841时,认为X与Y无关;当K23.841时,有95%的把握说X与Y有关;当K26.635时,有99%的把握说X与Y有关;当K210.828时,有99.9%的把握说X与Y有关.2()()()()()n adbcab cd ac bd系统抽样与分层抽样的特点及步骤系统抽样与分层抽样的特点及步骤1.系统抽样(1)适用于元素个数很多且均衡的总体;(2)各个个体被抽到的机会均等;(3)总体分组后,在起始部分采用的是简单随机抽样;(4)如果总体容量N能被样本容量n整除,则抽样间隔k=,如果总体容量N不能被样本容量n整除,可随机地从总体中剔除余数个个体,然后再按系统抽样的方法抽样.2.分层抽样适用于由差异明显的几部分组成的总体,抽取的步骤是:(1)按某种特征将总体分成若干部分.(2)按比例确定每层抽取的个体数.Nn方法技巧方法1(3)各层按简单随机抽样或系统抽样的方法抽取个体.(4)综合每层抽取的个体,组成样本.例1(2016广东肇庆三模,3)一个总体中有100个个体,随机编号为0,1,2,99.依编号顺序平均分成10个小组,组号依次为一,二,三,十.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第七组中抽取的号码是(A)A.63B.64C.65D.66解析若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,69,故在第7组中抽取的号码是63.频率分布直方图频率分布直方图1.小长方形的面积=组距=频率.2.各小长方形的面积之和等于1.例2(2017安徽黄山二模,19)全世界越来越关注环境保护问题,某监测站点于2016年8月某日起连续n天监测空气质量指数(AQI),数据统计如下表:频率组距方法2(1)根据所给统计表和频率分布直方图中的信息求出n,m的值,并完成频率分布直方图;(2)由频率分布直方图,求该组数据的平均数与中位数;(3)在空气质量指数分别为(50,100和(150,200的监测数据中,用分层抽样的方法抽取5天,从中任意选取2天,求事件A“两天空气质量等级都为良”发生的概率.解析(1)0.00450=,n=100,20+40+m+10+5=100,m=25.=0.008;=0.005;=0.002;=0.001.由此完成频率分布直方图,如图:20n40100 5025100 5010100 505100 50(2)由频率分布直方图得该组数据的平均数为250.00450+750.00850+1250.00550+1750.00250+2250.001 50=95,0,50的频率为0.00450=0.2,(50,100的频率为0.00850=0.4,中位数为50+50=87.5.(3)由题意知在空气质量指数为(50,100和(150,200的监测天数中分别抽取4天和1天,在所抽取的5天中,将空气质量指数为(50,100的4天分别记为a,b,c,d;将空气质量指数为(150,200的1天记为e,从中任取2天的基本事件为(a,b),(a,c),(a,d),(a,e),(b,c),(b,d),(b,e),(c,d),(c,e),(d,e),共10个,0.50.20.4其中事件A“两天空气质量等级都为良”包含的基本事件为(a,b),(a,c),(a,d),(b,c),(b,d),(c,d),共6个,所以P(A)=.61035样本的数字特征样本的数字特征1.利用频率分布直方图估计样本的数字特征(1)在样本数据的频率分布直方图中,众数就是最高矩形底边中点的横坐标.(2)在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数的值.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标的积之和.2.平均数:=;方差:s2=(x1-)2+(x2-)2+(xn-)2;x123nxxxxn1nxxx方法3标准差:s=.方差、标准差描述数据的离散程度.例3(2017湖北黄冈3月质检,7)已知数据x1,x2,x3,xn是某市n(n3,nN*)个普通职工的年收入,设这n个数据的中位数为x,平均数为y,方差为z,如果再加上世界首富的年收入xn+1,则这(n+1)个数据中,下列说法正确的是(B)A.年收入平均数可能不变,中位数可能不变,方差可能不变B.年收入平均数大大增大,中位数可能不变,方差变大C.年收入平均数大大增大,中位数可能不变,方差也不变D.年收入平均数大大增大,中位数一定变大,方差可能不变222121()()() nxxxxxxn解析数据x1,x2,x3,xn是某市n(n3,nN*)个普通职工的年收入,xn+1为世界首富的年收入,则xn+1远大于x1,x2,x3,xn,故这(n+1)个数据中,年收入平均数大大增大;中位数可能不变,也可能稍微变大;由于数据的集中程度受到xn+1的影响比较大,更加离散,所以方差变大.回归分析的应用回归分析的应用分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出回归直线方程.把样本数据表示的点在直角坐标系中作出,构成的图叫散点图.从散点图上,我们可以分析出两个变量是否存在相关关系.如果这些点大致分布在通过散点图中心的一条直线附近,那么就说这两个变量之间具有线性相关关系,这条直线叫做回归直线,直线方程叫做回归直线方程.求回归直线方程的步骤:(1)整理数据,计算出,xiyi,.(2)计算回归系数,公式为1ni2ix1nixyab方法4(3)写出回归直线方程=x+.例4(2015重庆,17,13分)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:1221,.niiiniix ynxybxnxaybxyba(1)求y关于t的回归方程=t+;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,=,=-.ybaybab1221niiiniit yntytntaybt解析(1)列表计算如下:这里n=5,=ti=3,=yi=7.2.又ltt=-n=55-532=10,lty=tiyi-n=120-537.2=12,从而=1.2,=-=7.2-1.23=3.6,2itt1n1ni155y1n1ni3651ni2it2t1nitybtyttll1210aybt故所求回归方程为=1.2t+3.6.(2)将t=6代入回归方程可预测该地区2015年的人民币储蓄存款为=1.26+3.6=10.8(千亿元).yy独立性检验的思想方法独立性检验的思想方法1.独立性检验的思想来自于统计上的假设检验思想,它与反证法类似,它们都是先假设结论不成立,然后根据是否能推出“矛盾”来判定结论是否成立.但二者“矛盾”的含义不同,反证法中的“矛盾”是指不符合逻辑的事件发生;而假设检验中的“矛盾”是指不符合逻辑的小概率事件发生,即在结论不成立的假设下推出有利于结论成立的小概率事件的发生.2.独立性检验的一般步骤:(1)独立性检验原理只能解决两个对象,每个对象有两类属性的问题,所以对于一个实际问题,我们要首先确定能否用独立性检验的思想加以解决;方法5(2)如果确实属于这类问题,要科学地抽取样本,样本容量要适当,不可太小;(3)根据数据列出22列联表;(4)提出假设H0:所研究的两类对象(X、Y)无关;(5)根据公式计算K2=的值;(6)比较观测值k与临界值表中相应的检验水平,根据小概率原理肯定或者否定假设,即判断X、Y是否相关.例5(2017安徽池州4月模拟,18)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).2()()()()()n adbcab cd ac bd(1)求图中a的值;(2)估计该次考试的平均分(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面22列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.x参考公式:K2=,其中n=a+b+c+d2()()()()()n adbcab cd ac bd解析(1)由频率分布直方图中各小长方形面积总和为1,得(2a+0.020+0.030+0.040)10=1,解得a=0.005.(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95,对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为=550.05+650.3+750.4+850.2+95 0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为1000.25=25,填写22列联表如下:xK2=2.6132.072,所以有85%的把握认为“晋级成功”与性别有关.2100 (16 41 34 9)25 75 50 50
展开阅读全文