资源描述
16概率与统计的综合应用1.某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为20,40),40,60),60,80),80,100.若低于60分的人数是15,则该班的学生人数是().A.45B.50C.55D.60解析由频率分布直方图知,低于60分的频率为(0.010+0.005)20=0.3,该班学生人数n=150.3=50,故选B.答案B2.有一个容量为66的样本,数据的分组及各组的频数如下:11.5,15.5),2;15.5,19.5),4;19.5,23.5),9;23.5,27.5),18;27.5,31.5),11;31.5,35.5),12;35.5,39.5),7;39.5,43.5,3.根据样本的频率分布估计,数据落在27.5,43.5内的概率是.解析由条件可知,落在27.5,43.5内的数据有11+12+7+3=33(个),故所求概率是3366=12.答案123.已知某运动员每次投篮命中的概率都为40%,现采用随机模拟的方法估计该运动员三次投篮恰有两次命中的概率:先由计算机产生0到9之间取整数值的随机数,指定1,2,3,4表示命中,5,6,7,8,9,0表示不命中,再以每三个随机数为一组,代表三次投篮的结果.经随机模拟产生了如下20组随机数:907966191925271932812458569683431257393027556488730113537989据此估计,该运动员三次投篮恰有两次命中的概率为.解析20组随机数中表示三次投篮恰好有两次命中的是191,271,932,812,393,其频率为520=0.25,以此估计该运动员三次投篮恰有两次命中的概率为0.25.答案0.254.如图所示的茎叶图是甲、乙两人在4次模拟测试中的成绩,其中一个数字被污损,则甲的平均成绩不超过乙的平均成绩的概率为.解析依题意,设题中被污损的数字为x,若甲的平均成绩不超过乙的平均成绩,则有(8+9+2+1)-(5+3+x+5)0,解得x7,即此时x的可能取值是7,8,9,因此甲的平均成绩不超过乙的平均成绩的概率P=310=0.3.答案0.3能力1概率与随机抽样的交汇问题【例1】已知某中学高三理科班学生的数学与物理的水平测试成绩抽样统计如下表:x人数yABCA144010Ba36bC28834若抽取学生n人,成绩分为A(优秀),B(良好),C(及格)三个等级,设x与y分别表示数学成绩与物理成绩,例如:表中物理成绩为A等级的共有14+40+10=64(人),数学成绩为B等级且物理成绩为C等级的共有8人.已知x与y均为A等级的概率是0.07.(1)设在该样本中,数学成绩的优秀率是30%,求a,b的值;(2)已知a7,b6,求数学成绩为A等级的人数比C等级的人数多的概率.解析(1)由题意知14n=0.07,解得n=200,14+a+28200100%=30%,解得a=18,易知a+b=30,b=12.(2)由14+a+2810+b+34得ab+2.又a+b=30且a7,b6,则(a,b)的所有可能结果为(7,23),(8,22),(9,21),(24,6),共18种,而ab+2的可能结果为(17,13),(18,12),(24,6),共8种,则所求概率P=818=49.求解古典概型与抽样方法交汇问题的思路(1)依据题目中抽样方法的信息,提炼需要的信息.(2)进行统计与古典概型概率的正确计算.某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度的出险次数的关联如下:上年度出险次数012345保费(元)0.85aa1.25a1.5a1.75a2a设该险种一续保人一年内出险次数与相应概率如下:一年内出险次数012345概率0.300.150.200.200.100.05(1)求一续保人本年度的保费比基本保费高出60%的概率;(2)若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的概率;(3)求续保人本年度的平均保费与基本保费的比值.解析(1)设A表示事件“一续保人本年度的保费比基本保费高出60%”,则事件A发生即为当且仅当一年内出险次数大于3,故P(A)=0.1+0.05=0.15.(2)设B表示事件“一续保人本年度的保费高于基本保费”,则事件B发生当且仅当一年内出险次数大于1,故P(B)=0.2+0.2+0.1+0.05=0.55.又P(AB)=P(A),故P(A|B)=P(AB)P(B)=P(A)P(B)=0.150.55=311.(3)记续保人本年度的保费为X,则X的分布列为X0.85aa1.25a1.5a1.75a2aP0.300.150.200.200.100.05E(X)=0.85a0.30+a0.15+1.25a0.20+1.5a0.20+1.75a0.10+2a0.05=1.23a.因此续保人本年度的平均保费与基本保费的比值为1.23.能力2概率与频率分布直方图的综合应用【例2】PM2.5是衡量空气污染程度的一个指标,为了了解某市空气质量情况,从去年每天的PM2.5值的数据中随机抽取40天的数据,其频率分布直方图如图所示.现将PM2.5值划分为如下等级PM2.5值0,100)100,150)150,200)200,250等级一级二级三级四级用频率估计概率.(1)估计该市在下一年的360天中空气质量为一级的天数;(2)在样本中,按照分层抽样的方法抽取8天的PM2.5值的数据,再从这8个数据中随机抽取5个,求一级、二级、三级、四级天气都有的概率;(3)如果该市对环境进行治理,治理后经统计,每天PM2.5值X近似满足XN(115,752),求治理后的PM2.5值的均值比治理前大约下降了多少.解析(1)由样本空气质量PM2.5的数据的频率分布直方图可知,其频率分布如下表:PM2.5值0,50)50,100)100,150)150,200)200,250频率0.1250.1250.3750.250.125由上表可知,如果该市维持现状不变,那么该市下一年的某一天空气质量为一级的概率为0.25,因此在360天中约有3600.25=90(天).(2)在样本中,按照分层抽样的方法抽取8天的PM2.5值数据,则这8个数据中一级、二级、三级、四级天气的数据分别有2个、3个、2个、1个.从这8个数据中随机抽取5个,则这四种天气都有三种情况:一级天气的数据有2个,其余的均为1个;二级天气的数据有2个,其余的均为1个;三级天气的数据有2个,其余的均为1个.情况有:C22C31C21C11+C21C32C21C11+C21C31C22C11=24种.而从8个数据中随机抽取5个,有C85=56种情况.故所求概率为2456=37.(3)如果该市维持现状不变,那么该市的PM2.5值的均值约为E(Y)=250.125+750.125+1250.375+1750.25+2250.125=131.25.如果该市对环境进行治理,那么该市的PM2.5值X的均值为E(X)=115,因此该市治理后的PM2.5值的均值比治理前大约下降了16.25.有关古典概型与统计结合的题型是高考考查概率的一个重要题型,已成为高考考查的热点.概率与统计综合题,无论是直接描述还是利用概率分布表、频率分布直方图、茎叶图等给出信息,准确从题中提炼信息是解题的关键.从某企业生产的某种产品中抽取100件,测量这些产品的质量指标值.由测量结果得到如图所示的频率分布直方图,质量指标值落在区间55,65),65,75),75,85内的频率之比为421.(1)求这些产品质量指标值落在区间75,85内的频率;(2)若将频率视为概率,从该企业生产的这种产品中随机抽取3件,记这3件产品中质量指标值位于区间45,75)内的产品件数为X,求X的分布列.解析(1)设这些产品质量指标值落在区间75,85内的频率为x,则落在区间55,65),65,75)内的频率分别为4x,2x.依题意得(0.004+0.012+0.019+0.030)10+4x+2x+x=1,解得x=0.05.所以这些产品质量指标值落在区间75,85内的频率为0.05.(2)由(1)得,这些产品质量指标值落在区间45,75)内的频率为0.3+0.2+0.1=0.6,将频率视为概率得p=0.6.从该企业生产的这种产品中随机抽取3件,相当于进行了3次独立重复试验,所以X服从二项分布B(n,p),其中n=3,p=0.6.因为X的所有可能取值为0,1,2,3,且P(X=0)=C300.600.43=0.064,P(X=1)=C310.610.42=0.288,P(X=2)=C320.620.41=0.432,P(X=3)=C330.630.40=0.216,所以X的分布列为X0123P0.0640.2880.4320.216能力3概率与统计案例的综合应用【例3】某校计划面向高一年级1200名学生开设校本选修课程,为确保工作的顺利实施,先按性别进行分层抽样,抽取了180名学生对社会科学类、自然科学类这两大类校本选修课程的选课意向进行调查,其中男生有105人.在这180名学生中选择社会科学类的男生、女生均为45人.(1)分别计算抽取的样本中男生、女生选择社会科学类的频率,并以统计的频率作为概率,估计实际选课中选择社会科学类的学生人数;(2)根据抽取的180名学生的调查结果,完成22列联表,并判断能否在犯错误的概率不超过0.025的前提下认为“科类的选择与性别有关”.选择自然科学类选择社会科学类合计男生女生合计附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.P(K2k0)0.5000.4000.2500.1500.100k00.4550.7081.3232.0722.706P(K2k0)0.0500.0250.0100.0050.001k03.8415.0246.6357.87910.828解析(1)由条件知,抽取的男生有105人,女生有180-105=75(人),所以男生选择社会科学类的频率为45105=37,女生选择社会科学类的频率为4575=35.由题意知,男生总数为1200105180=700,女生总数为120075180=500,所以估计选择社会科学类的学生人数为70037+50035=600.(2)根据统计数据,可得列联表如下:选择自然科学类选择社会科学类合计男生6045105女生304575合计9090180则K2的观测值k=180(6045-3045)21057590905.14295.024,所以在犯错误的概率不超过0.025的前提下能认为“科类的选择与性别有关”.(1)本题常见的错误是对独立性检验思想理解不深刻,做出错误判定.(2)进行独立性检验时,提出的假设是两者无关.近几年出现各种食品问题,食品添加剂会引起血脂增高、血压增高、血糖增高等疾病.为了解三高疾病是否与性别有关,医院随机对入院的60人进行了问卷调查,得到了如下的列联表:患三高疾病不患三高疾病合计男630女合计36(1)请将列联表补充完整.若用分层抽样的方法在患三高疾病的人群中抽取9人,其中女性抽取多少人?(2)为了研究患三高疾病是否与性别有关,请计算出统计量K2的观测值k,并说明是否可以在犯错误的概率不超过0.005的前提下认为“患三高疾病与性别有关”.临界值表:P(K2k0)0.1500.1000.050.0250.0100.0050.001k02.0722.7063.8415.0246.6357.87910.828参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d.解析(1)补充列联表如下:患三高疾病不患三高疾病合计男24630女121830合计362460在患三高疾病的人群中抽取9人,则抽取比例为936=14,所以女性应该抽取1214=3(人).(2)由22列联表,得K2的观测值k=60(2418-612)230303624=107.879,所以可以在犯错误的概率不超过0.005的前提下认为“患三高疾病与性别有关”.能力4统计与概率的综合应用【例4】一家面包房根据以往某种面包的销售记录,绘制了日销售量的频率分布直方图,如图所示.将日销售量落入各组的频率视为概率,并假设每天的销售量相互独立.(1)求在未来连续3天里,有连续2天的日销售量都不低于100个且另1天的日销售量低于50个的概率;(2)用X表示在未来3天里日销售量不低于100个的天数,求随机变量X的分布列、数学期望E(X)及方差D(X).解析(1)设A1表示事件“日销售量不低于100个”,A2表示事件“日销售量低于50个”,B表示事件“在未来连续3天里,有连续2天的日销售量都不低于100个且另1天的日销售量低于50个”,因此P(A1)=(0.006+0.004+0.002)50=0.6,P(A2)=0.00350=0.15,P(B)=0.60.60.152=0.108.(2)X可能取的值为0,1,2,3,相应的概率为P(X=0)=C30(1-0.6)3=0.064,P(X=1)=C310.6(1-0.6)2=0.288,P(X=2)=C320.62(1-0.6)=0.432,P(X=3)=C330.63=0.216.X的分布列为X0123P0.0640.2880.4320.216因为XB(3,0.6),所以数学期望E(X)=30.6=1.8,方差D(X)=30.6(1-0.6)=0.72.二项分布的期望与方差.(1)如果XB(n,p),那么用公式E(X)=np;D(X)=np(1-p)求解,可大大减少计算量.(2)有些随机变量虽然不服从二项分布,但与之具有线性关系的另一随机变量服从二项分布,这时,可以综合应用E(aX+b)=aE(X)+b以及E(X)=np求出E(aX+b),同样还可求出D(aX+b).空气质量指数(AQI)是定量描述空气质量状况的指数,空气质量按照AQI大小分为六级:050为优;51100为良;101150为轻度污染;151200为中度污染;201300为重度污染;300以上为严重污染.一环保人士记录去年某地六月中的10天的AQI的茎叶图如图所示.(1)利用该样本估计该地六月空气质量为优良(AQI100)的天数;(2)将频率视为概率,从六月中随机抽取3天,记3天中空气质量为优良的天数为,求的分布列.解析(1)从茎叶图中可以发现样本中空气质量为优的天数为2,空气质量为良的天数为4,该样本中空气质量为优良的频率为610=35,从而估计该地六月空气质量为优良的天数为3035=18.(2)由(1)估计六月某天空气质量为优良的概率为35,的所有可能取值为0,1,2,3,且B3,35.P(=0)=253=8125,P(=1)=C3135252=36125,P(=2)=C3235225=54125,P(=3)=353=27125,故的分布列为0123P8125361255412527125一、选择题1.已知随机变量x,y的值如表所示,如果x与y线性相关且回归直线方程为y=bx+72,那么实数b=().x234y546A.-12B.12C.-110D.110解析因为x-=3,y-=5,由回归直线过样本点的中心(3,5),得5=3b+72,所以b=12.答案B2.把样本容量为20的数据分组,分组区间与频数如下:10,20),2;20,30),3;30,40),4;40,50),5;50,60),4;60,70,2.则在区间10,50)上的数据的频率是().A.0.05B.0.25C.0.5D.0.7解析由题知,在区间10,50)上的数据的频数是2+3+4+5=14,故其频率为1420=0.7,故选D.答案D3.在一个容量为N的总体中抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则().A.p1=p2p3B.p2=p3p1C.p1=p3s乙2.说明甲、乙的平均水平一样,但乙的方差小,乙发挥更稳定,故选择乙同学.(2)从6个成绩中随机选择2个,共有15个基本事件,分别是102,105,102,112,102,113,102,117,102,123,105,112,105,113,105,117,105,123,112,113,112,117,112,123,113,117,113,123,117,123,其中满足条件的基本事件有5个,故所求概率P=515=13.8.某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,b-),(a,b),(a-,b),(a-,b-),(a,b),(a,b),(a,b-),(a-,b),(a,b-),(a-,b-),(a,b),(a,b-),(a-,b),(a,b),其中a和a-分别表示甲组研发成功和失败;b和b-分别表示乙组研发成功和失败.(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平.(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.解析(1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数x-甲=1015=23;方差s甲2=1151-23210+0-2325=29.乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数x-乙=915=35;方差s乙2=1151-3529+0-3526=625.因为x-甲x-乙,s甲2s乙2,所以甲组的研发水平优于乙组.(2)记“恰有一组研发成功”为事件E,在所抽得的15个结果中,恰有一组研发成功的结果有(a,b-),(a-,b),(a,b-),(a-,b),(a,b-),(a,b-),(a-,b),共7个.因此事件E发生的频率为715.用频率估计概率,即得所求概率P(E)=715.9.某工厂有25周岁以上(含25周岁)的工人300名,25周岁以下的工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60),60,70),70,80),80,90),90,100,分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率.(2)规定日平均生产件数不少于80的为“生产能手”,请你根据已知条件完成22列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2k0)0.1000.0500.0100.001k02.7063.8416.63510.828解析(1)由已知得,样本中有25周岁以上(含25周岁)组工人60名,25周岁以下组工人40名.所以样本中日平均生产件数不足60的工人中,25周岁以上(含25周岁)组工人有600.05=3(人),记为A1,A2,A3;25周岁以下组工人有400.05=2(人),记为B1,B2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A1,A2),(A1,A3),(A2,A3),(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A1,B1),(A1,B2),(A2,B1),(A2,B2),(A3,B1),(A3,B2),(B1,B2),故所求的概率P=710.(2)由频率分布直方图可知,在抽取的100名工人中,25周岁以上(含25周岁)组中的生产能手有600.25=15(人),25周岁以下组中的生产能手有400.375=15(人),据此可得22列联表如下:生产能手非生产能手合计25周岁以上(含25周岁)组15456025周岁以下组152540合计3070100所以K2的观测值k=100(1525-1545)2604030701.79.因为1.792.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”.10.某校高三期中考试后,数学教师对本次全部数学成绩按120进行分层抽样,随机抽取了20名学生的成绩作为样本,成绩用茎叶图记录如图所示,但部分数据不小心丢失,同时得到如下表所示的频率分布表:分数段(分)50,70)70,90)90,110)110,130)130,150总计频数b频率a0.25 (1)求表中a,b的值及成绩在90,110)范围内的样本数,并估计这次考试全校高三学生数学成绩的及格率(成绩在90,150范围内为及格);(2)若从茎叶图中成绩在100,130)范围内的样本中一次性抽取两个,求取出的两个样本数字之差的绝对值小于或等于10的概率.解析(1)由茎叶图知成绩在50,70)范围内的有2人,在110,130)范围内的有3人,a=0.1,b=3.成绩在90,110)范围内的频率为1-0.1-0.25-0.25=0.4,成绩在90,110)范围内的样本数为200.4=8.估计这次考试全校高三学生数学成绩的及格率为P=1-0.1-0.25=0.65.(2)所有可能的结果为(100,102),(100,106),(100,106),(100,116),(100,118),(100,128),(102,106),(102,106),(102,116),(102,118),(102,128),(106,106),(106,116),(106,118),(106,128),(106,116),(106,118),(106,128),(116,118),(116,128),(118,128),共21个,取出的两个样本中数字之差的绝对值小于或等于10的结果为(100,102),(100,106),(100,106),(102,106),(102,106),(106,106),(106,116),(106,116),(116,118),(118,128),共10个.所求概率为1021.
展开阅读全文