资源描述
第75课 变量的相关性与统计案例1. 两个变量的线性相关(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域, 对于两个变量的这种相关关系,我们将它称为负相关(3)相关系数r,当r0时,两变量正相关,当r0时,两变量负相关,当|r|1且|r|越接近于1,相关程度越高,当|r|1且|r|越接近于0,相关程度越低(4)线性相关关系、回归直线 如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线2.回归方程(1)最小二乘法:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法(2)回归方程:方程是两个具有线性相关关系的变的一组数据 , , , )的回归方程,其中是待定参数,3两个分类变量的独立性检验的一般步骤:(1)列出两个分类变量的列联表:(2)假设两个分类变量无关系;(3)计算(其中为样本容量);(4)把的值与临界值比较,确定有关的程度或无关系【例1】对变量有观测数据,得散点图;对变量有观测数据,得散点图 由这两个散点图可以判断()A变量与正相关,与正相关 B变量与正相关,与负相关C变量与负相关,与正相关 D变量与负相关,与负相关【变式】为了解某商品销售量(件)与销售价格(元/件)的关系,统计了的10组值,并画成散点图如图,则其回归方程可能是( )A BC D 【例2】(2020新课标II卷)某地区2020年至2020年农村居民家庭人均纯收入(单位:千元)的数据如下表:年份2020202020202020202020202020年份代号t1234567人均纯收入y2.93.33.64.44.85.25.9()求关于的线性回归方程;()利用()中的回归方程,分析2020年至2020年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2020年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:【解析】()由所给数据计算得:, 所求回归方程为. ()由()由知,故年至年该地区农村居民家庭人均纯收入逐 年增加,平均每年增加千元. 将年的年份代号代入()中的回归方程,得,故预测该地区年农村居民家庭人均纯收入为千元.【变式】 (2020江门一模)某产品的广告费用与销售额的统计数据如下表:根据上表数据用最小二乘法求得关于的线性回归方程中,则据此模型预测,广告费用为万元时,销售额约为 【答案】万元【解析】,广告费用为万元时,销售额约为(万元)【例3】今年春节黄金周,记者通过随机询问某景区110名游客对景区的服务是否满意,得到如下的列联表:性别与对景区的服务是否满意(单位:名)(1)从这50名女游客中按对景区的服务是否满意采取分层抽样,抽取一个容量为5的样本,问样本中满意与不满意的女游客各有多少名?(2)从(1)中的5名女游客样本中随机选取两名作深度访谈,求选到满意与不满意的女游客各一名的概率;(3)根据以上列联表,问有多大把握认为“游客性别与对景区的服务满意”有关【解析】(1)由题意,样本中满意的女游客为名,不满意的女游客为名(2)记样本中对景区的服务满意的3名女游客分别为,对景区的服务不满意的2名女游客分别为从5名女游客中随机选取两名,共有10个基本事件,分别为,其中事件:选到满意与不满意的女游客各一名包含了6个基本事件,分别为,所求概率 (3)假设:该景区游客性别与对景区的服务满意无关,则应该很小根据题目中列联表得:由可知:有99的把握认为该景区游客性别与对景区的服务满意有关 【变式】以下四个命题: 在一次试卷分析中,从每个试室中抽取第5号考生的成绩进行统计,是简单随机抽样;样本数据:,的方差为;对于相关系数,越接近,则线性相关程度越强;通过随机询问名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下列联表:由可得, 附表则有在犯错误率不超过的条件下认为“选择过马路方式与性别有关”其中正确的命题序号是 第75课 变量的相关性与统计案例的后作业1在回归分析中,残差图中纵坐标为( ) A残差 B样本编号 C D【答案】A2(2020韶关一模)已知回归直线的斜率的估计值为,样本点的中心为,则回归直线方程为( )A B C D【答案】C【解析】依题意可得, , 3已知与之间的一组数据:则与的线性回归方程必过点 ()A B C D【答案】D【解析】,.4.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是 ()A B C D【答案】A【解析】易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则.5. (2020江西高考)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )A成绩 B视力 C智商 D阅读量 【答案】D【解析】因为K,K,K,K,则有KKKK,所以阅读量与性别关联的可能性最大6.某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过_【答案】【解析】计算得 的观测值为,则推断犯错误的概率不超过 .7.某数学老师身高176 cm,他爷爷、父亲和儿子的身高分别是173 cm、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为_ cm.【答案】【解析】儿子和父亲的身高可列表如下:父亲身高173170176儿子身高170176182设线性回归方程为,由表中的三组数据可求得,且过中心点,故,故线性回归方程为,将代入得孙子的身高为cm.8.从某居民区随机抽取10个家庭,获得第个家庭的月收入(单位:千元)与月储蓄(单位:千元)的数据资料,算得,(1)求家庭的月储蓄对月收入的线性回归方程;(2)判断变量与之间是正相关还是负相关,并说明这10个家庭月储蓄对于月收入的变化情况;(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄附:线性回归方程中, 其中,为样本平均值9. 某中学研究性学习小组,为了研究高中学生的作文水平是否与爱看课外书有关系,在本校高三年级随机调查了50名学生调查结果表明:在爱看课外书的25人中有18人作文水平好,另外7人作文水平一般;在不爱看课外书的25人中有6人作文水平好,另外19人作文水平一般(1)试根据以上数据完成以下22列联表,并运用独立性检验思想,指出有多大把握认为高中学生的作文水平与爱看课外书有关系;爱看课外书不爱看课外书总计作文水平好作文水平一般总计(2)将其中某5名爱看课外书且作文水平好的学生分别编号为1,2,3,4,5,某5名爱看课外书且作文水平一般的学生也分别编号为1,2,3,4,5,从这两组学生中各任选1人进行学习交流,求被选取的2名学生的编号之和为3的倍数或4的倍数的概率参考公式:,其中.参考数据: 0.100.050.0250.0100.0050.0012.7063.8415.0246.6357.87910.828【解析】(1)22列联表如下:爱看课外书不爱看课外书总计作文水平好18624作文水平一般71926总计252550因为 由表知 ,所以有 的把握认为高中学生的作文水平与爱看课外书有关系(2)设“被选取的2名学生的编号之和为3的倍数”为事件,“被选取的2名学生的编号之和为4的倍数”为事件.则基本事件为123451(1,1)(1,2)(1,3)(1,4)(1,5)2(2,1)(2,2)(2,3)(2,4)(2,5)3(3,1)(3,2)(3,3)(3,4)(3,5)4(4,1)(4,2)(4,3)(4,4)(4,5)5(5,1)(5,2)(5,3)(5,4)(5,5)共25个,因为事件所包含的基本事件为(1,2),(1,5),(2,1),(2,4),(3,3),(4,2),(4,5),(5,1),(5,4),共9个,所以 ;事件所包含的基本事件为(1,3),(2,2),(3,1),(3,5),(4,4),(5,3),共6个,所以.因为事件、互斥,所以 ,即被选取的2名学生的编号之和为3的倍数或4的倍数的概率为.轿车A轿车B轿车C舒适型100150z标准型30045060010.一汽车厂生产A,B,C三类轿车,每类轿车均有舒适型和标准型两种型号,某月的产量如下表(单位:辆):按类用分层抽样的方法在这个月生产的轿车中抽取50辆,其中有A类轿车10辆(1)求z的值;(2)用分层抽样的方法在C类轿车中抽取一个容量为5的样本将该样本看成一个总体,从中任取2辆,求至少有1辆舒适型轿车的概率;(3)用随机抽样的方法从B类舒适型轿车中抽取8辆,经检测它们的得分如下:9.4 ,8.6 ,9.2 ,9.6 ,8.7 ,9.3 ,9.0 ,8.2,把这8辆轿车的得分看成一个总体,从中任取一个数,求该数与样本平均数之差的绝对值不超过0.5的概率【解析】(1)设该厂这个月共生产轿车n辆,由题意得,所以,则 .(2)设所抽样本中有a辆舒适型轿车,由题意得,则.因此抽取的容量为5的样本中,有2辆舒适型轿车,3辆标准型轿车用A1,A2表示2辆舒适型轿车,用B1,B2,B3表示3辆标准型轿车,用E表示事件“在该样本中任取2辆,其中至少有1辆舒适型轿车”,则基本事件空间包含的基本事件有:(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),(B1,B2),(B1,B3),(B2,B3),共10个事件E包含的基本事件有:(A1,A2),(A1,B1),(A1,B2),(A1,B3),(A2,B1),(A2,B2),(A2,B3),共7个故P(E),即所求概率为.(3)样本平均数(9.48.69.29.68.79.39.08.2)9.设D表示事件“从样本中任取一个数,该数与样本平均数之差的绝对值不超过0.5”,则基本事件空间中有8个基本事件,事件D包含的基本事件有9.4,8.6,9.2,8.7,9.3,9.0,共6个,所以P(D),即所求概率为.
展开阅读全文