资源描述
第九章 统计、统计案例,第 3节 变量间的相关关系与 统计案例,1会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系 2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程 3了解独立性检验(只要求22列联表)的基本思想、方法及其简单应用 4了解回归分析的基本思想、方法及其简单应用.,要点梳理 1变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系 (2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关,质疑探究1:相关关系与函数关系有何异同点? 提示:(1)相同点:两者均是指两个变量的关系 (2)不同点:函数关系是一种确定的关系,相关关系是一种非确定的关系 函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系,2回归方程与回归分析 (1)线性相关关系与回归直线 如果散点图中点的分布从整体上看大致在_附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线 (2)回归方程 最小二乘法:求回归直线使得样本数据的点到回归直线的_最小的方法叫做最小二乘法,一条直线,距离的平方和,相关关系,3独立性检验 (1)分类变量 变量的不同“值”表示个体所属的_,像这样的变量称为分类变量 (2)列联表 列出两个分类变量的_,称为列联表假设有两个分类变量X和Y,它们的取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为 22列联表,不同类别,频数表,(3)独立性检验 利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验 (4)独立性检验的步骤 计算随机变量K2的观测值k,查表确定临界值k0:,如果kk0,就推断“X与Y有关系”,这种推断犯错误的概率不超过P(K2k0);否则,就认为在犯错误的概率不超过P(K2k0)的前提下不能推断“X与Y有关系” 质疑探究2:k23.841和k26.635分别说明了什么问题? 提示:独立性检验得出的结论带有概率性质,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值,3.841和6.635就是两个常用的临界值,一般认为当k23.841时,则有95%的把握说事件A与B有关;当k26.635时,则有99%的把握说事件A与B有关,基础自测 1下面四个散点图中点的分布状态,可以直观上判断两个变量之间具有线性相关关系的是( ),A B C D,解析 散点图中的点无规律分布,范围很广,表明两个变量之间的相关程度很小;中所有的点都在同一条直线上,是函数关系;中点的分布在一条带状区域上,即点分布在一条直线的附近,是线性相关关系;中的点也分布在一条带状区域内,但不是线性的,而是一条曲线附近,所以不是线性相关关系. 故选B. 答案 B,2(2015枣庄模拟)下面是22列联表:,则表中a,b的值分别为( ) A94,72 B52,50 C52,74 D74,52 解析 a2173,a52,又a22b,b74. 故选C. 答案 C,3设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i1,2,n),用最小二乘法建立的回归直线方程为y0.85x85.71,则下列结论中不正确的是( ),答案 D,4已知x、y的取值如下表:,从所得的散点图分析,y与x线性相关,且y 0.95xa,则a_.,5在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算227.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(有关,无关) 解析 由227.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关 答案 有关,典例透析 考向一 相关关系的判断 例1 下面是水稻产量与施化肥量的一组观测数据: 施化肥量:15 20 25 30 35 40 45 水稻产量:320 330 360 410 460 470 480 (1)将上述数据制成散点图; (2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?,思路点拨 以水稻产量为纵轴,以施化肥量为x轴,建系描点观察点的分布情况,解 (1)散点图如图:,(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长 拓展提高 利用散点图判断两个变量是否有相关关系是比较简便的方法在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系,如果所有的样本点落在某一函数的曲线附近,变量之间就有相关关系,如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系,活学活用1 (2015镇江联考)如图所示,有5组(x,y)数据,去掉_组数据后,剩下的4组数据具有较强的线性相关关系,解析 A、B、C、E大致在一条直线上,而D较远 答案 D,活学活用2 (2015南昌模拟)以下是某地搜集到的新房屋的销售价格y和房屋的面积x的数据.,(1)求线性回归方程; (2)据(1)的结果估计当房屋面积为150 m2时的销售价格,考向三 独立性检验 例3 (2015石家庄模拟)为了调查某大学学生在某天上网的时间,随机对100名男生和100名女生进行了不记名的问卷调查得到了如下的统计结果: 表1:男生上网时间与频数分布表,表2:女生上网时间与频数分布表,(1)从这200名学生中任抽1人,求上网时间在50,60)间的概率 (2)完成下面的22列联表,并回答能否有90%的把握认为“大学生上网时间与性别有关”?,思路点拨 (1)根据古典概型求概率 (2)列22列联表,计算2确定把握度,(2),拓展提高 解决独立性检验的应用问题,首先要根据题目条件列出两个变量的22列联表,通过计算随机变量2的值,依据临界值与犯错误的概率得出结论注意观测值的临界值与概率间的对应关系 提醒:准确计算K2的值是正确判断的前提,活学活用3 (2015东北三校联考)某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主),(1)根据以上数据完成下列22列联表:,(2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析,解 (1)22列联表如下:,规范答题8 概率、统计案例问题的规范答题 典例 (本小题满分12分)(2013福建高考)某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:50,60)、60,70)、70,80)、80,90)、90,100分别加以统计,得到如图所示的频率分布直方图,审题视角 由频率分布直方图列举基本事件,结合古典概型,求概率利用独立性检验公式计算2. 满分展示 解 (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有600.053(人),记为A1,A2,A3;25周岁以下组工人有400.052(人),记为B1,B2.(2分),(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手600.2515(人),“25周岁以下组”中的生产能手400.37515(人),据此可得22列联表如下:,【答题模板】 第1步:由分层抽样计算两组工人的数目 第2步:由频率分布直方图计算两组不足60件的人数 第3步:列举5人抽取2人的基本事件数 第4步:由古典概型计算概率 第5步:统计生产能手与非生产能手,列22列联表 第6步:由公式计算K2,确定答案,跟踪训练 (2015张掖市三诊)随着工业化以及城市车辆的增加,城市的空气污染越来越严重,空气质量指数API一直居高不下,对人体的呼吸系统造成了严重的影响现调查了某市500名居民的工作场所和呼吸系统健康,得到列联表如下:,解 ()列联表如下:,思维升华 【方法与技巧】,1求回归直线方程,关键在于正确求出系数a,b,由于a,b的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意回归直线方程中一次项系数为b,常数项为a,这与一次函数的习惯表示不同),2回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出回归直线方程 3根据2的值可以判断两个分类事件有关的可信程度,【失误与防范】,1r的大小说明两变量是否相关,|r|越接近1,线性相关程度越强;|r|越接近0,线性相关程度越弱 2独立性检验的统计量23.841是判断是否有关系的临界值,23.841应判断为没有充分证据显示两变量有关系,而不能作为小于95%的量化值来判断,
展开阅读全文