资源描述
最新考纲 1.会作两个有关联变量的数据的散点图,会利用 散点图认识变量间的相关关系;2.了解最小二乘法的思想, 能根据给出的线性回归方程系数公式建立线性回归方程;3. 了解独立性检验(只要求22列联表)的基本思想、方法及其 简单应用;4.了解回归分析的基本思想、方法及其简单应 用,第3讲 变量间的相关关系、统计案例,1变量间的相关关系 (1)常见的两变量之间的关系有两类:一类是函数关系,另一类是_;与函数关系不同,_是一种非确定性关系 (2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为_,点散布在左上角到右下角的区域内,两个变量的相关关系为_,知 识 梳 理,相关关系,相关关系,正相关,负相关,2回归分析 对具有_的两个变量进行统计分析的方法叫回归分析其基本步骤是:()画散点图;()求_ _;()用回归直线方程作预报 (1)回归直线:如果散点图中点的分布从整体上看大致在_附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线 (2)回归直线方程的求法最小二乘法,相关关系,回归直,一条直线,线方程,(3)相关系数 当r0时,表明两个变量_; 当r0时,表明两个变量_ r的绝对值越接近于1,表明两个变量的线性相关性_ r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系通常|r|大于0.75时,认为两个变量有很强的线性相关性 3独立性检验 (1)分类变量:变量的不同“值”表示个体所属的_,像这类变量称为分类变量,正相关,负相关,越强,不同类别,(2)列联表:列出两个分类变量的_,称为列联表假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为 22列联表,频数表,构造一个随机变量K2_,其中n_为样本容量 (3)独立性检验 利用随机变量_来判断“两个分类变量_”的方法称为独立性检验,abcd,K2,有关系,1判断正误(在括号内打“”或“”) 精彩PPT展示 (2)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大 ( ) (3)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀 ( ),诊 断 自 测,2下面哪些变量是相关关系 ( ) A出租车车费与行驶的里程 B房屋面积与房屋价格 C身高与体重 D铁块的大小与质量 答案 C,3为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K20.99,根据这一数据分析,下列说法正确的是 ( ) A有99%的人认为该电视栏目优秀 B有99%的人认为该电视栏目是否优秀与改革有关系 C有99%的把握认为该电视栏目是否优秀与改革有关系 D没有理由认为该电视栏目是否优秀与改革有关系 解析 只有K26.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而既使K26.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关故只有D正确 答案 D,4(2014湖北卷)根据如下样本数据 答案 A,5(人教A选修23P95例1改编)在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K2的观测值k27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(填“有关”或“无关”) 答案 有关,考点一 相关关系的判断 【例1】 (1)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i1,2,n)都在直线yx1上,则这组样本数据的样本相关系数为 ( ),(2)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图(1);对变量u,v有观测数据(ui,vi)(i1,2,10),得散点图(2)由这两个散点图可以判断 ( ),A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关 C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关 解析 (1)所有点均在直线上,则样本相关系数最大即为1,故选D. (2)由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关 答案 (1)D (2)C,规律方法 对两个变量的相关关系的判断有两个方法:一是根据散点图,具有很强的直观性,直接得出两个变量是正相关或负相关;二是计算相关系数法,这种方法能比较准确地反映相关程度,相关系数的绝对值越接近1,相关性就越强,相关系数就是描述相关性强弱的,相关性有正相关和负相关,【训练1】 变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1)r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则 ( ) Ar2r10 B0r2r1 Cr20r1 Dr2r1 解析 对于变量Y与X而言,Y随X的增大而增大,故Y与X正相关,即r10;对于变量V与U而言,V随U的增大而减小,故V与U负相关,即r20,所以选C. 答案 C,考点二 回归方程的求法及回归分析 【例2】 (2014新课标全国卷)某地区2007年至2013年农村居民家庭人均纯收入y(单位:千元)的数据如下表: (1)求y关于t的线性回归方程; (2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入,附:回归直线的斜率和截距的最小二乘估计公式分别为:,【训练2】 (2014云南检测)春节期间,某销售公司每天销售某种取暖商品的销售额y(单位:万元)与当天的平均气温x(单位:)有关现收集了春节期间这个销售公司4天的x与y的数据列于下表:,考点三 独立性检验 【例3】 (2014安徽卷)某高校共有学生15 000人,其中男生10 500人,女生4 500人为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时) (1)应收集多少位女生的样本数据? (2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12估计该校学生每周平均体育运动时间超过4小时的概率;,(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请完成每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”,(2)由频率分布直方图得12(0.1000.025)0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.,(3)由(2)知,300位学生中有3000.75225人的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时又因为样本数据中有210份是关于男生的,90份是关于女生的所以每周平均体育运动时间与性别列联表如下: 每周平均体育运动时间与性别列联表,【训练3】 某学生对其亲属30人的饮食习惯进行了一次调查,并用下图所示的茎叶图表示30人的饮食指数(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主),(1)根据以上数据完成下列22列联表: (2)能否有99%的把握认为其亲属的饮食习惯与年龄有关?并写出简要分析,解 (1)22列联表如下:,思想方法 1回归分析是处理变量相关关系的一种数学方法主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程 2根据K2的值可以判断两个分类变量有关的可信程度,易错防范 1回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义根据回归方程进行预报,仅是一个预报值,而不是真实发生的值 2独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.,
展开阅读全文