资源描述
第二讲统计与统计案例必记公式数据x1,x2,x3,xn的数字特征(1)众数:在样本数据中,出现次数最多的那个数据中位数:样本数据中,将数据按大小排列,位于最中间的数据如果数据的个数为偶数,就取中间两个数据的平均数作为中位数;(2)样本平均数(x1x2xn)xi;(3)样本方差s2(x1)2(x2)2(xn)2 (xi)2;(4)样本标准差s.重要结论1直方图的三个有用结论(1)小长方形的面积组距频率;(2)各小长方形的面积之和等于1;(3)小长方形的高,所有小长方形高的和为.2回归直线方程一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn)其回归方程x,其过样本点中心(,)3独立性检验K2(其中nabcd为样本容量).失分警示1混淆简单随机抽样、系统抽样、分层抽样,不能正确地选择抽样方法2不能正确地从频率分布直方图中提取相关的信息,忽略了频数与频率的差异3混淆条形图与直方图,条形图是离散随机变量,纵坐标刻度为频数或频率,直方图是连续随机变量,纵坐标刻度为频率/组距,这是密度,连续随机变量在某一点上是没有频率的4回归分析是对具有相关关系的两个变量进行统计分析的方法只有在散点图大致呈线性时,求出的回归直线方程才有实际意义考点抽样方法典例示法典例1(1)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大在下面的抽样方法中,最合理的抽样方法是()A简单随机抽样 B按性别分层抽样C按学段分层抽样 D系统抽样解析因为男女生视力情况差异不大,而学段的视力情况有较大差异,所以应按学段分层抽样答案C(2)20xx广东高考已知某地区中小学生人数和近视情况分别如图1和图2所示为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为()A200,20 B100,20C200,10 D100,10解析由题图可知,样本容量等于(350045002000)2%200;抽取的高中生近视人数为20002%50%20,故选A.答案A系统抽样与分层抽样的求解方法(1)系统抽样的最基本特征是“等距性”,每组内所抽取的号码需要依据第一组抽取的号码和组距唯一确定每组抽取样本的号码依次构成一个以第一组抽取的号码m为首项,组距d为公差的等差数列an,第k组抽取样本的号码akm(k1)d.(2)分层抽样的关键是根据样本特征的差异进行分层,实质是等比例抽样,求解此类问题需先求出抽样比样本容量与总体容量的比,则各层所抽取的样本容量等于该层个体总数与抽样比的乘积在每层抽样时,应采用简单随机抽样或系统抽样进行针对训练1.20xx浙江杭州模拟某校150名教职工中,有老年人20名,中年人50名,青年人80名,从中抽取30名作为样本采用随机抽样法:抽签取出30个样本;采用系统抽样法:将教职工编号为00,01,149,然后平均分组抽取30个样本;采用分层抽样法:从老年人、中年人、青年人中抽取30个样本下列说法中正确的是 ()A无论采用哪种方法,这150名教职工中每个人被抽到的概率都相等B两种抽样方法,这150名教职工中每个人被抽到的概率都相等;并非如此C两种抽样方法,这150名教职工中每个人被抽到的概率都相等;并非如此D采用不同的抽样方法,这150名教职工中每个人被抽到的概率是各不相同的答案A解析三种抽样方法中,每个人被抽到的概率都等于,故选A.220xx江西南昌一模一所中学共有4000名学生,为了引导学生树立正确的消费观,需抽样调查学生每天使用零花钱的数量(取整数元)情况,分层抽取容量为300的样本,作出频率分布直方图如图所示,请估计在全校所有学生中,一天使用零花钱在6元14元的学生大约有_人答案2720解析根据频率分布直方图得:一天使用零花钱在6元14元的学生频率是1(0.020.030.03)410.320.68,对应的频数是40000.682720,估计全校学生中,一天使用零花钱在6元14元的大约有2720人考点用样本估计总体典例示法题型1用样本数字特征估计总体典例220xx湖南高考某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:(a,b),(a,),(a,b),(,b),(,),(a,b),(a,b),(a,),(,b),(a,),(,),(a,b),(a,),(,b),(a,b),其中a,分别表示甲组研发成功和失败;b,分别表示乙组研发成功和失败(1)若某组成功研发一种新产品,则给该组记1分,否则记0分试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率解(1)甲组研发新产品的成绩为1,1,1,0,0,1,1,1,0,1,0,1,1,0,1,其平均数为甲;方差为s.乙组研发新产品的成绩为1,0,1,1,0,1,1,0,1,0,0,1,0,1,1,其平均数为乙;方差为s.因为甲乙,ss,所以甲组的研发水平优于乙组(2)记E恰有一组研发成功在所抽得的15个结果中,恰有一组研发成功的结果是(a,),(,b),(a,),(,b),(a,),(a,),(,b),共7个,故事件E发生的频率为.将频率视为概率,即得所求概率为P(E).题型2用频率分布直方图估计总体典例320xx广东高考某城市100户居民的月平均用电量(单位:度),以160,180),180,200),200,220),220,240),240,260),260,280),280,300分组的频率分布直方图如图(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为220,240),240,260),260,280),280,300的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在220,240)的用户中应抽取多少户?解(1)由已知得,20(0.0020.00950.0110.0125x0.0050.0025)1,解得x0.0075.(2)由题图可知,面积最大的矩形对应的月平均用电量区间为220,240),所以月平均用电量的众数的估计值为230;因为20(0.0020.00950.011)0.450.5,所以中位数在区间220,240)内,设中位数为m,则20(0.0020.00950.011)0.0125(m220)0.5,解得m224.所以月平均用电量的中位数为224.(3)由题图知,月平均用电量为220,240)的用户数为(240220)0.012510025,同理可得,月平均用电量为240,260),260,280),280,300的用户数分别为15,10,5.故用分层抽样的方式抽取11户居民,月平均用电量在220,240)的用户中应抽取115(户)1用样本估计总体的两种方法(1)用样本的频率分布(频率分布表、频率分布直方图、茎叶图等)估计总体的频率分布. (2)用样本的数字特征(众数、中位数、平均数、方差、标准差)估计总体的数字特征2方差的计算与含义计算方差首先要计算平均数,然后再按照方差的计算公式进行计算,方差和标准差是描述一个样本和总体的波动大小的特征数,方差、标准差大说明波动大3众数、中位数、平均数与频率分布直方图的关系(1)众数为频率分布直方图中最高矩形的底边中点的横坐标(2)中位数为平分频率分布直方图面积且垂直于横轴的直线与横轴交点的横坐标(3)平均数等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和考点线性回归分析与独立性检验典例示法题型1线性回归分析典例420xx全国卷下图是我国至生活垃圾无害化处理量(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测我国生活垃圾无害化处理量附注:参考数据:yi9.32,tiyi40.17, 0.55,2.646.参考公式:相关系数r,回归方程t中斜率和截距的最小二乘估计公式分别为:, .解(1)由折线图中数据和附注中参考数据得4, (ti)228, 0.55, (ti)(yi)tiyiyi40.1749.322.89,r0.99.因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系(2)由1.331及(1)得0.103,1.3310.10340.92.所以,y关于t的回归方程为0.920.10t.将对应的t9代入回归方程得0.920.1091.82.所以预测我国生活垃圾无害化处理量约为1.82亿吨题型2独立性检验典例520xx长春质检近年来我国电子商务行业迎来蓬勃发展的新机遇,双11期间,某平台的销售业绩高达918亿人民币与此同时,相关管理部门也推出了针对电商的商品和服务评价体系现从评价系统中随机选出200次成功的交易,并对其评价结果进行统计,对商品的好评率为,对服务的好评率为,其中对商品和服务都做出好评的交易为80次(1)是否可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关?(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,并从中选择2次交易进行客户回访,求只有一次好评的概率P(K2k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828解(1)由题意可得关于商品和服务评价的22列联表:对服务好评对服务不满意合计对商品好评8040120对商品不满意701080合计15050200K211.11110.828,可以在犯错误概率不超过0.1%的前提下,认为商品好评与服务好评有关(2)若针对商品的好评率,采用分层抽样的方式从这200次交易中取出5次交易,则好评的交易次数为3,不满意的次数为2,令好评的交易为A,B,C,不满意的交易为a,b,从5次交易中,取出2次的所有取法为(A,B)、(A,C)、(A,a)、(A、b)、(B,C)、(B,a)、(B,b)、(C,a)、(C,b)、(a,b),共计10种情况,其中只有一次好评的情况是(A,a)、(A,b)、(B,a)、(B,b)、(C,a)、(C,b),共计6种,因此,只有一次好评的概率为.1进行线性回归分析时应注意的问题(1)正确理解计算、的公式和准确的计算,是求线性回归方程的关键(2)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值2进行独立性检验的步骤(1)假设两个分类变量X与Y无关;(2)找相关数据,列出22列联表;(3)由公式K2(其中nabcd)计算出K2的值;(4)将K2的值与临界值进行对比,进而做出统计推断提醒:K2的观测值越大,对应假设事件成立的概率越小,假设事件不成立的概率越大全国卷高考真题调研120xx全国卷根据下面给出的2004年至我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是()A逐年比较,减少二氧化硫排放量的效果最显著B我国治理二氧化硫排放显现成效C以来我国二氧化硫年排放量呈减少趋势D以来我国二氧化硫年排放量与年份正相关答案D解析根据柱形图可观察两个变量的相关性,易知A、B、C正确,以来我国二氧化硫年排放量与年份负相关,选项D错误故选D.220xx全国卷某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响对近8年的年宣传费xi和年销售量yi(i1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值 (xi)2 (wi)2 (xi)(yi) (wi)(yi)46.65636.8289.81.61469108.8表中wi,wi.(1)根据散点图判断,yabx与ycd哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;(3)已知这种产品的年利润z与x,y的关系为z0.2yx.根据(2)的结果回答下列问题:年宣传费x49时,年销售量及年利润的预报值是多少?年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),(un,vn),其回归直线vu的斜率和截距的最小二乘估计分别为,解(1)由散点图可以判断,ycd适宜作为年销售量y关于年宣传费x的回归方程类型(2)令w,先建立y关于w的线性回归方程由于68,563686.8100.6,所以y关于w的线性回归方程为100.668w,因此y关于x的回归方程为100.668.(3)由(2)知,当x49时,年销售量y的预报值100.668576.6,年利润z的预报值576.60.24966.32.根据(2)的结果知,年利润z的预报值0.2(100.668)xx13.620.12.所以当6.8,即x46.24时,取得最大值故年宣传费为46.24千元时,年利润的预报值最大其它省市高考题借鉴320xx山东高考某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A56 B60C120 D140答案D解析由频率分布直方图可知,这200名学生每周的自习时间不少于22.5小时的频率为(0.160.080.04)2.50.7,故这200名学生中每周的自习时间不少于22.5小时的人数为2000.7140.故选D.420xx湖南高考在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为135号,再用系统抽样方法从中抽取7人,则其中成绩在区间139,151上的运动员人数是_答案4解析35人抽取7人,则n5,而在139,151上共有20人,应抽取4人520xx安徽高考某高校共有学生15000人,其中男生10500人,女生4500人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时)(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”附:K2P(K2k0)0.100.050.0100.005k02.7063.8416.6357.879解(1)30090,所以应收集90位女生的样本数据(2)由频率分布直方图得12(0.1000.025)0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有3000.75225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表男生女生总计每周平均体育运动时间不超过4小时453075每周平均体育运动时间超过4小时16560225总计21090300结合列联表可算得K24.7623.841.所以,有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”一、选择题120xx兰州双基测试某乡政府调查A、B、C、D四个村的村民外出打工的情况,拟采用分层抽样的方法从四个村中抽取一个容量为500的样本进行调查已知A、B、C、D四个村的人数之比为4556,则应从C村中抽取的村民人数为()A100 B125C150 D175答案B解析由题意可知,应从C村中抽取500125名村民220xx湖北武汉第二次调研如图是依据某城市年龄在20岁到45岁的居民上网情况调查而绘制的频率分布直方图,现已知年龄在30,35),35,40),40,45)的上网人数呈现递减的等差数列分布,则年龄在35,40)的网民出现的频率为()A0.04 B0.06C0.2 D0.3答案C解析由频率分布直方图的知识得,年龄在20,25)的频率为0.0150.05,25,30)的频率为0.0750.35,设年龄在30,35),35,40),40,45的频率为x,y,z,又x,y,z成等差数列,所以可得解得y0.2,所以年龄在35,40)的网民出现的频率为0.2.故选C.320xx开封一模下列说法错误的是()A自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B在线性回归分析中,相关系数r的值越大,变量间的相关性越强C在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D在回归分析中,R2为0.98的模型比R2为0.80的模型拟合的效果好答案B解析根据相关关系的概念知A正确;当r0时,r越大,相关性越强,当r0时,r越大,相关性越弱,故B不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好二是R2越大,拟合效果越好,所以R2为0.98的模型比R2为0.80的模型拟合的效果好,C,D正确,故选B.420xx河南郑州二模某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价(元)456789销量(件)908483807568由表中数据,求得线性回归方程4xa,若在这些样本点中任取一点,则它在回归直线左下方的概率为()A. B.C. D.答案B解析由表中数据得6.5,80.由(,)在直线4xa上,得a106.即线性回归方程为4x106.经过计算只有(5,84)和(9,68)在直线的下方,故所求概率为,选B.520xx湖南永州一模为大力提倡“厉行节约,反对浪费”,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:做不到“光盘”能做到“光盘”男4510女3015附:P(K2k)0.100.050.025k2.7063.8415.024K2.参照附表,得到的正确结论是()A在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别有关”B在犯错误的概率不超过1%的前提下,认为“该市居民能否做到光盘与性别无关”C有90%以上的把握认为“该市居民能否做到光盘与性别有关”D有90%以上的把握认为“该市居民能否做到光盘与性别无关”答案C解析由题设知,a45,b10,c30,d15,所以K23.0303.27063.03033.841.由附表可知,有90%以上的把握认为“该市居民能否做到光盘与性别有关”,故选C.二、填空题620xx石家庄质检二将高三(1)班参加体检的36名学生,编号为:1,2,3,36,若采用系统抽样的方法抽取一个容量为4的样本,已知样本中含有编号为6、24、33的学生,则样本中剩余一名学生的编号是_答案15解析根据系统抽样的特点可知抽取的4名学生的编号依次成等差数列,故剩余一名学生的编号是15.720xx豫北十校联考的NBA全明星赛于北京时间2月14日举行如图是参加此次比赛的甲、乙两名篮球运动员以往几场比赛得分的茎叶图,则甲、乙两人这几场比赛得分的中位数之和是_答案64解析应用茎叶图的知识得,甲、乙两人这几场比赛得分的中位数分别为28,36,因此甲、乙两人这几场比赛得分的中位数之和是64.820xx吉林通化月考某产品的广告费用x(万元)与销售额y(万元)的统计数据如下表:广告费用x(万元)3456销售额y(万元)25304045根据上表可得回归方程x中的为7.据此模型预测广告费用为10万元时销售额为_万元答案73.5解析由题表可知,4.5,35,代入回归方程7x,得3.5,所以回归方程为7x3.5.所以当x10时,7103.573.5.三、解答题920xx河北三市二联下表是高三某位文科生连续5次月考的历史、政治的成绩,结果统计如下:月份91011121历史(x分)7981838587政治(y分)7779798283(1)求该生5次月考历史成绩的平均分和政治成绩的方差;(2)一般来说,学生的历史成绩与政治成绩有较强的线性相关关系,根据上表提供的数据,求两个变量x、y的线性回归方程x.附:, 解(1)(7981838587)83,(7779798283)80,s(7780)2(7980)2(7980)2(8280)2(8380)24.8.(2)(xi)(yi)30,(xi)240,0.75, 17.75.则所求的线性回归方程为0.75x17.75.1020xx江淮十校一联某学校在高一、高二两个年级学生中各抽取100人的样本,进行普法知识调查,其结果如下表:高一高二总数合格人数70x150不合格人数y2050总数100100200(1)求x,y的值;(2)有没有99%的把握认为“高一、高二两个年级这次普法知识调查结果有差异”;(3)用分层抽样的方法从样本的不合格同学中抽取5人的辅导小组,在5人中随机选2人,这2人中,正好高一、高二各1人的概率为多少?参考公式:225.0246.6357.87910.82897.5%99%99.5%99.9%解(1)x80,y30.(2)由(1)得22.676.635,所以没有99%的把握认为“高一、高二两个年级这次普法知识调查结果有差异”(3)由分层抽样得从高一抽取3人,设为A,B,C,从高二抽取2人,设为1,2.从5人中选2人,有(AB),(AC),(A1),(A2),(BC),(B1),(B2),(C1),(C2),(12),共10种选法其中正好高一、高二各1人,有(A1),(A2),(B1),(B2),(C1),(C2),共6种选法所以所求概率为P.1120xx重庆测试从甲、乙两部门中各任选10名员工进行职业技能测试,测试成绩(单位:分)数据的茎叶图如图1所示:(1)分别求出甲、乙两组数据的中位数,并比较两组数据的分散程度(只需给出结论);(2)甲组数据频率分布直方图如图2所示,求a、b、c的值;(3)从甲、乙两组数据中各任取一个,求所取两数之差的绝对值大于20的概率解(1)甲组数据的中位数为78.5,乙组数据的中位数为78.5.从茎叶图可以看出,甲组数据比较集中,乙组数据比较分散(2)由图易知a0.05,b0.02,c0.01.(3)从甲、乙两组数据中各任取一个,得到的所有基本事件共有100个,其中满足“两数之差的绝对值大于20”的基本事件有16个,故所求概率P.12为了调查学生星期天晚上学习时间的利用问题,某校从高二年级1000名学生(其中走读生450名,住宿生550名)中,采用分层抽样的方法抽取n名学生进行问卷调查根据问卷取得了这n名同学星期天晚上学习时间(单位:分钟)的数据,按照以下区间分为八组:0,30),30,60),60,90),90,120),120,150),150, 180),180,210),210, 240),得到频率分布直方图如图,已知抽取的学生中星期天晚上学习时间少于60分钟的人数为5人(1)求n的值并补全频率分布直方图;(2)如果把“学生晚上学习时间达到两小时”作为是否充分利用时间的标准,对抽取的n名学生,完成下列22列联表:利用时间充分利用时间不充分总计走读生住宿生10总计据此资料,是否有95%的把握认为学生“利用时间是否充分”与走读、住宿有关?(3)若在第组、第组共抽出2人调查影响有效利用时间的原因,求抽出的2人中第组、第组各有1人的概率参考数据:P(K2k)0.150.100.050.0250.0100.0050.001k2.0722.7063.8415.0246.6357.87910.828解(1)设第i组的频率为Pi(i1,2,8),由图可知P130,P230,学习时间少于60分钟的频率为P1P2,由题意得n5,n100.又P330,P530,P630,P730,P830,P41(P1P2P3P5P6P7P8),第组的高度为h,频率分布直方图如图(2)由频率分布直方图可知,在抽取的100人中,“住宿生”有55人,“走读生”有45人,利用时间不充分的有100(P1P2P3P4)25人,从而22列联表如下:利用时间充分利用时间不充分总计走读生301545住宿生451055总计7525100将22列联表中的数据代入公式计算,得K23.030.3.03019时,y3800500(x19)500x5700.所以y与x的函数解析式为y(xN)(2)由柱状图知,需更换的零件数不大于18的频率为0.46,不大于19的频率为0.7,故n的最小值为19. (3)若每台机器在购机同时都购买19个易损零件,则这100台机器中有70台在购买易损零件上的费用为3800,20台的费用为4300,10台的费用为4800,因此这100台机器在购买易损零件上所需费用的平均数为(380070430020480010)4000.若每台机器在购机同时都购买20个易损零件,则这100台机器中有90台在购买易损零件上的费用为4000,10台的费用为4500,因此这100台机器在购买易损零件上所需费用的平均数为(400090450010)4050.比较两个平均数可知,购买1台机器的同时应购买19个易损零件模型归纳求解统计与概率综合问题的模型示意图如下:
展开阅读全文