资源描述
10.4变量间的相关关系、 统计案例,知识梳理,双基自测,2,3,4,1,5,1.变量间的相关关系 (1)定义:当自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.与函数关系不同,相关关系是一种. (2)散点图:表示具有相关关系的两个变量的一组数据的图形叫做散点图,它可直观地判断两个变量的关系是否可以用线性关系表示.若这些点分布在从左下角到右上角的区域,则称两个变量;若这些点分布在从左上角到右下角的区域,则称两个变量. (3)线性相关关系、回归直线:如果散点图中的点的分布从整体上看大致在,那么就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.,非确定性关系,正相关,负相关,一条直线附近,知识梳理,双基自测,2,3,4,1,5,(4)非线性相关:若散点图上所有点看上去都在 附近波动,则称这两个变量为非线性相关.此时,可以用来拟合. (5)不相关:如果所有的点在散点图中,那么称这两个变量是不相关的.,某条曲线(不是一条直线),一条曲线,没有显示任何关系,知识梳理,双基自测,2,3,4,1,5,2.回归分析 对具有相关关系的两个变量进行统计分析的方法叫做回归分析.在线性回归模型y=bx+a+e中,因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化,在统计中,我们把自变量x称为,因变量y称为.,解释变量,预报变量,知识梳理,双基自测,2,3,4,1,5,知识梳理,双基自测,2,3,4,1,5,4.相关系数 ,它主要用于相关量的显著性检验,以衡量 它们之间的线性相关程度.当r0时表示两个变量正相关,当r0时表示两个变量负相关.|r|越接近1,表明两个变量的线性相关性;当|r|接近0时,表明两个变量间几乎不存在.,越强,线性相关性,知识梳理,双基自测,2,3,4,1,5,5.独立性检验 (1)分类变量:变量的不同“值”表示个体所属的,像这类变量称为分类变量. (2)列联表:列出两个分类变量的,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(称为22列联表)为 22列联表,不同类别,频数表,知识梳理,双基自测,2,3,4,1,5,(3)独立性检验:利用随机变量K2来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.,a+b+c+d,2,知识梳理,双基自测,3,4,1,5,1.下列结论正确的打“”,错误的打“”. (1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.() (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.() (3)只有两个变量有相关关系,所得到的回归模型才有预测价值. () (4)若事件X,Y的关系越密切,则由观测数据计算得到的K2的观测值越大.(),答案,知识梳理,双基自测,2,3,4,1,5,答案,解析,知识梳理,双基自测,2,3,4,1,5,3.广告投入对商品的销售额有较大影响.某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如下表(单位:万元):,万元时的销售额约为() A.101.2万元B.108.8万元 C.111.2万元D.118.2万元,答案,解析,知识梳理,双基自测,2,3,4,1,5,4.高三年级267位学生参加期末考试,某班37位学生的语文成绩、数学成绩与总成绩在全年级中的排名情况如下图所示,甲、乙、丙为该班三名学生. 从这次考试成绩看, (1)在甲、乙两人中,其语文成绩名次比其总成绩名次靠前的学生是; (2)在语文和数学两个科目中,丙同学的成绩名次更靠前的科目是.,答案,解析,知识梳理,双基自测,2,3,4,1,5,5.为了考察某种病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表: 参照附表,在犯错误的概率最多不超过(填百分比)的前提下,可认为“该种疫苗有预防这种病毒感染的效果”.,答案,解析,知识梳理,双基自测,2,3,4,1,5,自测点评 1.若散点图上的点大致分布在某条直线附近,整体上呈线性分布,则这两个变量具有很强的相关关系. 2.K2越大,“X与Y有关联”的把握程度越大. 3.注意回归分析时对应的结果均是估计值,不要误认为是真实值. 4.要理解回归直线方程中的参数是用最小二乘法得出的,目的是使距离的平方和最小,不是看具体某一个距离的大小,这样使用求平方和也避免了讨论绝对值和正负问题.,考点1,考点2,考点3,例1(1)为研究语文成绩和英语成绩之间是否具有线性相关关系,统计某班学生的两科成绩得到如图所示的散点 图(x轴、y轴的单位长度相同),用回归直线方程 近似地刻画其相关关系,根据图形,以下结论最有可能成立的是() A.线性相关关系较强,b的值为1.25 B.线性相关关系较强,b的值为0.83 C.线性相关关系较强,b的值为-0.87 D.线性相关关系较弱,无研究价值,考点1,考点2,考点3,(2)甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表: 则哪位同学的试验结果体现A,B两个变量有更强的线性相关性() A.甲B.乙C.丙D.丁 思考如何判断两个变量有无相关关系?,答案,解析,考点1,考点2,考点3,解题心得判断两个变量有无相关关系有两个方法:一是根据散点图,具有很强的直观性,直接得出两个变量是正相关或负相关;二是计算相关系数法,这种方法能比较准确地反映相关程度,相关系数的绝对值越接近1,相关性就越强,相关系数就是描述相关性强弱的.,考点1,考点2,考点3,对点训练1(1)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是() A.r2r40r3r1B.r4r20r1r3 C.r4r20r3r1D.r2r40r1r3,A,考点1,考点2,考点3,(2)在一组样本数据(x1,y1),(x2,y2),(xn,yn)(n2,x1,x2,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,n)都在直线y=-3x+1上,则这组样本数据的样本相关系数为() A.-3B.0C.-1D.1,C,解析:(1)易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,故r2r40r3r1. (2)因为所有样本点(xi,yi)(i=1,2,n)都在直线y=-3x+1上,所以回归直线方程是y=-3x+1,可得这两个变量是负相关,故这组样本数据的样本相关系数为负值,且所有样本点(xi,yi)(i=1,2,n)都在直线y=-3x+1上,则|r|=1,相关系数r=-1,故选C.,考点1,考点2,考点3,例2一次考试中,五名学生的数学、物理成绩(单位:分)如下表所示:,(1)要从5名学生中选2人参加一项活动,求选中的学生中至少有一人的物理成绩高于90分的概率; (2)根据上表数据,作出散点图,并求变量y与x的相关系数说明物理成绩y与数学成绩x之间线性相关关系的强弱.如果具有较强的线性相关关系,求y与x的线性回归方程(系数精确到0.01);如果不具有线性相关关系,请说明理由.,考点1,考点2,考点3,思考对已知的两个变量的一组数据如何做回归分析?,考点1,考点2,考点3,解:(1)从5名学生中任取2名学生的情况共有10种,其中至少有一人的物理成绩高于90分的情况有7种,故选中的学生中至少有一人的物理成绩高于90分的概率为 .,可以看出,物理成绩与数学成绩高度正相关. 散点图如图所示.,考点1,考点2,考点3,从散点图可以看出这些点大致分布在一条直线附近,并且在逐步上升,故物理成绩与数学成绩正相关.,考点1,考点2,考点3,解题心得1.求线性回归直线方程的步骤 (1)用散点图或进行相关性检验判断两个变量是否具有线性相关关系;,考点1,考点2,考点3,2.对变量值的预测方法 主要是由给出的变量的值预测与其有相关关系的变量的值.一般方法如下:,考点1,考点2,考点3,对点训练2下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨标准煤)的几组对照数据. (1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程 (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:32.5+43+54+64.5=66.5),考点1,考点2,考点3,考点1,考点2,考点3,考点1,考点2,考点3,例3为了调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:,考点1,考点2,考点3,(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例; (2)能否在犯错误的概率不超过0.01的前提下认为该地区的老年人需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.,思考独立性检验的方法是什么?,考点1,考点2,考点3,解 (1)调查的500位老年人中有70位需要志愿者提供帮助, 因此该地区老年人中,需要帮助的老年人的比例的估计值为 由于9.9676.635,所以在犯错误的概率不超过0.01的前提下认为该地区的老年人需要志愿者提供帮助与性别有关.,(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此,在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样的方法取得样本.可知分层抽样的方法比采用简单随机抽样方法更好.,考点1,考点2,考点3,解题心得独立性检验的方法 (1)构造22列联表; (2)计算K2的观测值k; (3)查表确定有多大的把握判定两个变量有关联. 注意:查表时不是查最大允许值,而是先根据题目要求的百分比找到第一行对应的数值,再将该数值对应的k值与求得的K2的观测值k相比较.另外,表中第一行数据表示两个变量没有关联的可能性p,所以其有关联的可能性为1-p.,考点1,考点2,考点3,对点训练3某校卫生所成立了调查小组,调查“按时刷牙与不患龋齿的关系”,对该校某年级800名学生进行检查,按患龋齿和不患龋齿分类,得汇总数据:按时刷牙且不患龋齿的学生有160名,不按时刷牙但不患龋齿的学生有100名,按时刷牙但患龋齿的学生有240名. (1)该校4名校卫生所工作人员甲、乙、丙、丁被随机分成两组,每组2人,一组负责数据收集,另一组负责数据处理,求工作人员甲、乙分到同一组的概率. (2)能否在犯错误的概率不超过0.001的前提下认为该年级学生按时刷牙与不患龋齿有关系?,考点1,考点2,考点3,解:(1)4人分组的所有情况如下表.,因此4人分组的情况共有6种,其中工作人员甲乙分到同一组有2种,所以工作人员甲、乙分到同一组的概率是,(2)根据题意,列22联表如下.,考点1,考点2,考点3,所以在犯错误的概率不超过0.001的前提下认为该年级学生按时刷牙与不患龋齿有关系.,考点1,考点2,考点3,2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程. 3.根据K2的值可以判断两个分类变量有关的可信程度,并用来指导科研和生活实际.,考点1,考点2,考点3,1.相关关系与函数关系的区别 相关关系与函数关系不同,函数关系中的两个变量之间是一种确定性关系.例如正方形面积S与边长x之间的关系S=x2就是函数关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.例如商品的销售额与广告费之间的关系是相关关系.两个变量具有相关关系是回归分析的前提. 2.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性分布时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.,
展开阅读全文