资源描述
,(,会作两个相关变量的数据的散点图,会利用散点图认识变量的相关关系,/,了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,/,了解独立检验,(,只要求,2,2,列联表,),的基本思想、方法简单应用,/,了解假设检验的基本思想、方法简单应用,/,了解聚类分析的基本思想、方法简单应用,),9.5,变量间的相关关系、回归分析及,独立性检验,1,相关关系的量:,当,自变量一定时,因变量的取值带有一定的随机性的两个变量之间的关系称为相关关系,2,回归分析:,对,具有相关关系的两个变量进行统计分析的方法叫做回归分析,3,散点图:,表,示具有相关关系的两个变量的一组数据的图形叫做散点图,4,正相关与负相关概念:,如,果散点图中的点散布在从左下角到右上角的区域内,称为正相关如果散点图中的点散布在从左上角到右下角的区域内,称为负相关,6,相关系数:,r, ,叫,做变量,y,与,x,之间的样本相关系数,简称相关系数,用,它来衡量两个变量之间的线性相关程度,7,相关系数的性质:,|,r,|,1,,,且,|,r,|,越接近,1,,,相关程度越强,;,且,|,r,|,越接近,0,,,相关程度越弱,8,独立性检验:,一般地,假设有两个分类变量,X,和,Y,,,它们的可能取值分别为,x,1,,,x,2,和,y,1,,,y,2,,,其样本频数列联表,(,称为,2,2,列联表,),为,:,2,2,列联表,若要推断的论述为,H,1,:,X,与,Y,有关系,可以按如下步骤判断结论,H,1,成立的可能性,:,y,1,y,2,总计,x,1,a,b,a,b,x,2,c,d,c,d,总计,a,c,b,d,a,b,c,d,可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度具体做法是:,根据实际问题需要的可信程度确定临界值,k,0,;,利用公式,K,2, ,由观测数据计算得到随机变量,K,2,的观测值,k,;,如果,k,k,0,,就以,(1,P,(,K,2,k,0,),100%,的把握认为,“,X,与,Y,有关系,”,;否则就说样本观测数据没有提供,“,X,与,Y,有关系,”,的充分证据,1,在对两个变量,x,,,y,进行线性回归分析时有下列步骤:,对所求出的回归方程作出解释;,收集数据,(,x,i,,,y,i,),,,i,1,2,,,,,n,;,求线性回归方程;,求相关系数;,根据所搜集的数据绘制散点图,如果根据可靠性要求能够作出变量,x,,,y,具有线性相关结论,则在下列操作顺序中正确的是,(,),A,B,C,D,答案:,D,2,对两个变量,y,和,x,进行回归分析,得到一组样本数据:,(,x,1,,,y,1,),,,(,x,2,,,y,2,),,,,,(,x,n,,,y,n,),,则下列说法中不正确的是,(,),A,由样本数据得到的回归方程 ,bx,a,必过样本中心,(,x,,,y,),B,残差平方和越小的模型,拟合的效果越好,C,用相关指数,R,2,来刻画回归效果,,R,2,越小,说明模型的拟合效果越好,D,若变量,y,和,x,之间的相关系数为,r,0.9362,,则变量,y,和,x,之间具有线性相关关系,答案:,C,3,(2009,宁夏、海南,),对,变量,x,,,y,有观测数据,(,x,i,,,y,i,)(,i,1,2,,,,,10),,得散点图,(1),;对变量,u,、,v,有观测数据,(,u,i,,,v,i,)(,i,1,2,,,,,10),,得散点图,(2),由这两个散点图可以判断,(,),A,变量,x,与,y,正相关,,u,与,v,正相关,B,变量,x,与,y,正相关,,u,与,v,负相关,C,变量,x,与,y,负相关,,u,与,v,正相关,D,变量,x,与,y,负相关,,u,与,v,负相关,解析:,由图,(1),可知,各点整体呈递减趋势,,x,与,y,负相关,由图,(2),可知,各点整体呈递增趋势,,u,与,v,正相关,答案:,C,4,下面是一个,2,2,列联表,则表中,a,、,b,处的值分别为,(,),A,94,96 B,52,50 C,52,54 D,54,52,答案:,C,y,1,y,2,总计,x,1,a,21,73,x,2,2,25,27,总计,b,46,判断两个变量正相关还是负相关,有三种方法:,1,利用散点图;,2,利用相关系数,r,的符号;当,r,0,时,正相关;,r,0,时,负相关;,3,在已知两变量线性相关时,也可以利用回归方程 ,a,bx,.,当,b,0,时,,a,bx,是增函数,两变量是正相关,当,b,0,时, ,a,bx,是减函数,,两变量是负相关,【,例,1,】,山,东鲁洁棉业公司的科研人员在,7,块并排、形状大小相同的试验田上对某棉花新品种进行施化肥量,x,对产量,y,影响的试验,得到如下表所示的一组数据,(,单位:,k,g),(1),画出散点图;,(2),判断是否具有相关关系,施化肥量,x,15,20,25,30,35,40,45,棉花产量,y,330,345,365,405,445,450,455,思维点拨:,用施化肥量,x,作为横轴,产量,y,为纵轴可作出散点图,由散点图即可分析是否具有线性相关关系,解答:,(1),散,点图如右图所示,,(2),由散点图知,各组数据对应点大致都在一条直线附近,所以施化肥量,x,与产量,y,具有线性相关关系,.,对具有相关关系的两个变量进行统计分析时,首先要作出散点图,然后进行相关性检验,在确认具有线性相关关系后,再求其回归直线,【,例,2,】,一台机器使用时间较长,但还可以使用它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:,转速,x,(,转,/,秒,),16,14,12,8,每小时生产有缺点的零件数,y,(,件,),11,9,8,5,(1),对变量,y,与,x,进行相关性检验;,(2),如果,y,与,x,有线性相关关系,求回归直线方程;,(3),若实际生产中,允许每小时的产品中有缺点的零件最多为,10,个,那么,机器的运转速度应控制在什么范围内?,思维点拨:,利用相关系数,r,进行线性相关检验,(,也可利用散点图,),如果线性相关,再求回归直线方程并加以判断,(2),0.728 6,x,0.857 1.,(3),要使,10,0.728 6,x,0.857 1,10,,所以,x,14.901 3.,所以机器的转速应控制在,14.901 3,转,/,秒以下,解答:,变式,2.,假,设关于某设备的使用年限,x,和所支出的维修费用,y,(,万元,),,有如下的统计资料:,(1),y,与,x,间是否有线性相关关系?若有,求出线性回归方程;,(2),估计使用年限为,10,年时的维修费用,使用年限,(,x,)/,年,2,3,4,5,6,维修费用,(,y,)/,万元,2.2,3.8,5.5,6.5,7.0,所谓独立性检验,就是根据采集样本的数据,先利用三维柱形图和二维条形图粗略判断两个分类变量是否有关系,再利用公式计算,K,2,的值,比较它与临界值的大小关系,来判断事件,X,与,Y,是否有关的问题,【,例,3,】,(2009,辽宁,),某企业有两个分厂生产某种零件,按规定内径尺寸,(,单位:,mm),的值落在,29.94,30.06),的零件为优质品从两个分厂生产的零件中各抽出了,500,件,量其内径尺寸,得结果如下表,:,甲厂,:,分组,29.86,,,29,90),29.90,,,29,94),29.94,,,29,98),29.98,,,30,02),30.02,,,30,06),30.06,,,30,10),30.10,,,30,14),频数,12,63,86,182,92,61,4,乙厂:,(1),试分别估计两个分厂生产的零件的优质品率;,(2),由以上统计数据填下面,2,2,列联表,并问是否有,99%,的把握认为,“,两个分厂生产的零件的质量有差异,”,.,分组,29.86,,,29,90),29.90,,,29,94),29.94,,,29,98),29.98,,,30,02),30.02,,,30,06),30.06,,,30,10),30.10,,,30,14),频数,29,71,85,159,76,62,18,甲厂,乙厂,合计,优质品,非优质品,合计,解答:,(1),甲厂抽查的产品中有,360,件优质品,从而甲厂生产的零件的优质品率估计为,72%,;,乙厂抽查的产品中有,320,件优质品,从而乙厂生产的零件的优质品率估计为,64%.,所以有,99%,的把握认为,“,两个分厂生产的零件的质量有差异,”,甲厂,乙厂,合计,优质品,360,320,680,非优质品,140,180,320,合计,500,500,1 000,(2),变式,3.,在,对人们休闲方式的一次调查中,共调查了,124,人,其中女性,70,人,男性,54,人女性中有,43,人主要的休闲方式是看电视,另外,27,人的休闲方式是运动;男性中有,21,人主要的休闲方式是看电视,另外,33,人主要的休闲方式是运动,(1),根据以上数据建立一个,2,2,列联表;,(2),画出二维条形图;,(3),检验休闲方式是否与性别有关,可靠性有多大,解答:,(1)22,列,联表如图:,休闲方式,性别,看电视,运动,合计,女,43,27,70,男,21,33,54,合计,64,60,124,(2),二维条形图如图:,(3),假设休闲方式与性别无关,则,K,2,6.201,5.024,,所以有理由认为休闲方式与性别无关是不合理的,即我们有,97.5%,的把握认为休闲方式与性别有关,【,方法规律,】,1,求回归方程,关键在于正确求出系数,a,,,b,,由于,a,,,b,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误,(,注意回归直线方程中一次项系数为,b,,常数项为,a,,这与一次函数的习惯表示不同,),2,回归分析是处理变量相关关系的一种数学方法主要解决:,确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;,根据一组观察值,预测变量的取值及判断变量取值的变化趋势;,求出回归直线方程,3,独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的随机变量,对假设的正确性进行判断,.,为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议现对他前,7,次考试的数学成绩,x,、物理成绩,y,进行分析下面是该生,7,次考试的成绩,.,数学,88,83,117,92,108,100,112,物理,94,91,108,96,104,101,106,(1),他的数学成绩与物理成绩哪个更稳定?请给出你的证明;,(2),已知该生的物理成绩,y,与数学成绩,x,是线性相关的,若该生的物理成绩达到,115,分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议,.,【,答题模板,】,(2),由于,x,与,y,之间具有线性相关关系,根据回归系数公式得到,b, ,0.5,,,a,100,0.5,100,50,,,线性回归方程为 ,0.5,x,50.,当,y,115,时,,x,130.,建议:进一步加强对数学的学习,提高数学成绩的稳定性,将有助于物理成绩的进一步提高,【,分析点评,】,1.,成绩的稳定性用样本数据的方差判断,由物理成绩估计数学成绩由回归直线方程解决本题容易出错的就是把回归系数和回归常数弄颠倒,导致解题错误,2,回归系数与回归常数回归直线方程 ,bx,a,和通常的一次函数表达式在,系数上的习惯不一样,这里的系数,b, 叫做回,归系数,求回归直线方程时首先求这个系数,然后由,a,y,bx,计算出的,a,叫做回归常数在求回归直线方程时注意不要把这两个系数弄颠倒了,.,点击此处进入 作业手册,
展开阅读全文