资源描述
第3节 变量的相关性与统计案例,知识链条完善,考点专项突破,解题规范夯实,知识链条完善 把散落的知识连起来,【教材导读】 1.变量的相关关系与变量的函数关系有什么区别? 提示:相关关系是一种不确定关系,函数关系是确定关系. 2.如何判断两个变量间的线性相关关系? 提示:散点图中点的分布从整体上看大致在一条直线附近,或者通过计算相关系数作出判断. 3.独立性检验的基本步骤是什么? 提示:列出22列联表,计算k值,根据临界值表作出结论.,知识梳理,1.变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的这种相关关系为负相关. 2.回归方程与回归分析 (1)线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在 附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.,一条直线,(2)回归方程 最小二乘法:使得样本数据的点到回归直线的 最小的方法叫做最小二乘法.,距离的平方和,(3)回归分析 定义:对具有 的两个变量进行统计分析的一种常用方法.,相关关系,正,负,越强,越弱,不同类别,22列联表 假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为,如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断“X与Y有关系”.,【重要结论】 1.线性回归直线方程的斜率为正(负)时,两个变量正(负)相关. 2.线性回归直线一定经过样本点的中心.,夯基自测,1.在线性回归模型中,以下说法正确的是( ) (A)预报变量(因变量)是解释变量(自变量)与随机误差共同作用的结果 (B)预报变量(因变量)与解释变量(自变量)之间建立了确定的关系 (C)预报变量(因变量)与残差变量没有关系 (D)预报变量(因变量)与残差变量有确定的关系 解析:由线性回归模型y=bx+a+e可知选项A是正确的.,A,2.当我们建立多个模型拟合某一数据组时,为了比较各个模型的拟合效果,我们可通过计算下列( )量来确定 残差平方和 回归平方和 相关指数R2 相关系数r (A) (B) (C) (D) 解析:残差平方和越小,相关指数R2越大,拟合的效果越好.,B,3.研究女大学生的身高和体重的相关关系时,得到身高x cm和体重y kg之间的回归直线方程是 =0.849x-85.721,则预报身高为160 cm的女大学生的体重是 kg.,答案:50.128,4.如果发现散点图中所有的样本点都在一条直线上,则解释变量和预报变量的关系是 (选填“相关关系”或“函数关系”),相关系数是 . 解析:当所有的样本点都在一条直线上时,解释变量和预报变量之间的关系是完全确定的函数关系,此时相关系数的绝对值等于1,即相关系数等于1. 答案:函数关系 1,5.为了考察某种药物预防疾病的效果,进行动物试验,得到如下列联表:,则认为药物有效的可信度是 .,解析:如果“服药情况与是否患病之间没有关系”,则K2的观测值应该比较小,如果K2的观测值很大,则说明很可能“服药情况与是否患病之间有关系”.由题目中所给数据计算得k6.109 1,而P(K25.024)0.025,而6.109 15.024,所以有97.5%的把握认为“服药情况与是否患病之间有关系”,即大约有97.5%的把握认为药物有效. 答案:97.5%,考点专项突破 在讲练中理解知识,考点一,变量的相关性,【例1】 (1)(2015高考湖北卷)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( ) (A)x与y正相关,x与z负相关 (B)x与y正相关,x与z正相关 (C)x与y负相关,x与z负相关 (D)x与y负相关,x与z正相关,解析:(1)由y=-0.1x+1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关,故选C.,(2)(2015高考新课标全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( ),(A)逐年比较,2008年减少二氧化硫排放量的效果最显著 (B)2007年我国治理二氧化硫排放显现成效 (C)2006年以来我国二氧化硫年排放量呈减少趋势 (D)2006年以来我国二氧化硫年排放量与年份正相关,解析:(2)由柱形图可知:A,B,C均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,所以D不正确.故选D.,解析:(1)由正、负相关的定义知,x与y负相关; u与v正相关,故选C.,(2)对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( ) (A)r2r40r3r1 (B)r4r20r1r3 (C)r4r20r3r1 (D)r2r40r1r3,解析:(2)由题图知为正相关,中的点大致集中在一条直线附近,较分散,所以r1r30, 又为负相关且较集中在直线附近,较分散, 所以r2r40. 综上得r2r40r3r1.故选A.,考点二,回归分析,【例2】 (2015高考福建卷)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:,(2)由回归直线方程得出的y值为估计值.,【即时训练】 假设关于某设备的使用年限x和所支出的维修费y(万元),有如下的统计资料,答案:12.38,独立性检验,考点三,【例3】 某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在(29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出500件,量其内径尺寸的结果如表: 甲厂:,乙厂:,(1)试分别估计两个分厂生产的零件的优质品率;,反思归纳 独立性检验的一般步骤 (1)根据样本数据制成22列联表,假设两个变量无关系;,(3)比较k与临界值的大小关系作统计推断.,【即时训练】 某矿石粉厂当生产一种矿石粉时,在数天内即有部分工人患职业性皮炎,在生产季节开始,随机抽取75名车间工人穿上新防护服,其余仍用原来的防护服,生产进行一个月后,检查两组公认的皮炎患病人数,结果如表所示:,问:这种新防护服对预防工人患职业性皮炎是否有效?说明你的理由.,备选例题,(2)在已有的五组数据中任意抽取两组,求至少有一组数据其预测值与实际值之差的绝对值不超过5的概率.,【例2】一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,收集数据如下:,(1)在5次试验中任取2次,记加工时间分别为a,b,求事件“a,b均小于80分钟”的概率;,【例3】 近年空气质量逐步恶化,雾霾天气现象出现增多,大气污染危害加重.大气污染可引起心悸、呼吸困难等心肺疾病.为了解某市心肺疾病是否与性别有关,在某医院随机的对入院50人进行了问卷调查得到了如下的列联表:,(1)请将上面的列联表补充完整; (2)是否有99.5%的把握认为患心肺疾病与性别有关?说明你的理由;,(1)根据上述数据完成下列22列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?,(2)以上述各种产品的频率作为各种产品发生的概率,若一等品、二等品、三等品的单件利润分别为30元、20元、15元,你认为以后该工厂应该选择哪种工艺生产该种零件?请说明理由.,Y的数学期望为E(Y)=300.6+200.1+150.3=24.5, Y的方差为D(Y)=(30-24.5)20.6+(20-24.5)20.1+(15-24.5)20.3=47.25. 答案一:由上述结果可以看出E(X)E(Y),即乙工艺的平均利润大,所以以后应该选择乙工艺. 答案二:由上述结果可以看出D(X)D(Y),即甲工艺波动小,虽然E(X)E(Y),但相差不大,所以以后选择甲工艺.,解题规范夯实 把典型问题的解决程序化,回归方程的求解与应用 【典例】(2015高考新课标全国卷)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,8)数据作了初步处理,得到下面的散点图及一些统计量的值.,(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程;,
展开阅读全文