资源描述
第四节变量间的相关关系、统计案例第四节变量间的相关关系、统计案例一条直线附近一条直线附近 距离的平方距离的平方 4独立性检验独立性检验(1)利用随机变量利用随机变量_来判断来判断“两个分类变量两个分类变量_”的方法的方法称为独立性检验称为独立性检验(2)列联表:列出的两个分类变量的频数表,称为列联表假设列联表:列出的两个分类变量的频数表,称为列联表假设有两个分类变量有两个分类变量X和和Y,它们的可能取值分别为,它们的可能取值分别为x1,x2和和y1,y2,其样本频数列联表,其样本频数列联表(称为称为22列联表列联表)为为y1y2总计总计x1aBabx2cdcd总计总计acbdabcd22列联表列联表K2有关系有关系abcd 2残差分析中的相关指数残差分析中的相关指数R2对模型拟合效果的影响是怎样的?对模型拟合效果的影响是怎样的?【提示【提示】R2越大,意味着残差平方和越小,即模型的拟合效果越大,意味着残差平方和越小,即模型的拟合效果越好越好R2越小,残差平方和越大,即模型的拟合效果越差在线越小,残差平方和越大,即模型的拟合效果越差在线性回归模型中,性回归模型中,R2表示解释变量对于预报变量变化的贡献率,表示解释变量对于预报变量变化的贡献率,R2越接近于越接近于1,表示回归的效果越好,表示回归的效果越好【答案【答案】D【解析【解析】由题意回归方程斜率应为负,故排除由题意回归方程斜率应为负,故排除B,D,又销,又销售量应为正值,故售量应为正值,故C不正确,故选不正确,故选A.【答案【答案】A【解析【解析】由题意知由题意知0.254(x1)0.321(0.254x0.321)0.254.【答案【答案】0.2544在一项打鼾与患心脏病的调查中,共调查了在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计人,经过计算算K2的观测值的观测值k27.63,根据这一数据分析,我们有理由认为打,根据这一数据分析,我们有理由认为打鼾与患心脏病是鼾与患心脏病是_的的(填有关或无关填有关或无关)【解析【解析】k27.636.635,有有99%的把握认为的把握认为“打鼾与患心脏病有关打鼾与患心脏病有关”【答案【答案】有关有关 利用散点图判断两个变量的相关性利用散点图判断两个变量的相关性 下面是水稻产量与施化肥量的一组观测数据:下面是水稻产量与施化肥量的一组观测数据: 施化肥量施化肥量15202530354045水稻产量水稻产量320330360410460470480(1)将上述数据制成散点图;将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?吗?水稻产量会一直随施化肥量的增加而增长吗?【思路点拨【思路点拨】分析观测数据、制图,分析散点图,做出判分析观测数据、制图,分析散点图,做出判断断【尝试解答【尝试解答】(1)散点图如下:散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系成线性相关关系不会,水稻产量只是在一定范围内随着化不会,水稻产量只是在一定范围内随着化肥施用量的增加而增长肥施用量的增加而增长 1(1)利用散点图判断两个变量是否有相关关系是比较直观简便利用散点图判断两个变量是否有相关关系是比较直观简便的方法的方法(2)如果所有的样本点都落在某一函数的曲线附近,如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系如果所有的样本点都落在某一直线附变量之间就有相关关系如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系近,变量之间就有线性相关关系2在散点图中,若点散布在从左下角到右上角的区域,称为正在散点图中,若点散布在从左下角到右上角的区域,称为正相关;若散布在从左上角到右下角的区域称为负相关相关;若散布在从左上角到右下角的区域称为负相关5个学生的数学和物理成绩如下表:个学生的数学和物理成绩如下表: 由散点图判断它们是否有相关关系,是正相关还是负相关?由散点图判断它们是否有相关关系,是正相关还是负相关? 学生学生学科学科ABCDE数学数学8075706560物理物理7066686462【解【解】以以x轴表示数学成绩,轴表示数学成绩,y轴表示物理成绩,可得到相应轴表示物理成绩,可得到相应的散点图如图所示的散点图如图所示由散点图可知由散点图可知,两者之间具有相关关系两者之间具有相关关系,且为正相关且为正相关 (2011安徽高考安徽高考)某地最近十年粮食需求量逐年上升,下某地最近十年粮食需求量逐年上升,下表是部分统计数据:表是部分统计数据:(1)利用所给数据求年需求量与年份之间的回归直线方程利用所给数据求年需求量与年份之间的回归直线方程bxa;(2)利用利用(1) 中所求出的直线方程预测该地中所求出的直线方程预测该地2012年的粮食需求年的粮食需求量量线性回归分析线性回归分析 年份年份20022004200620082010需求量需求量(万吨万吨)236246257276286【思路点拨【思路点拨】(1)为了方便计算,可将数据适当处理,再列对为了方便计算,可将数据适当处理,再列对应表格,求回归系数;应表格,求回归系数;(2)根据回归方程进行预测分析根据回归方程进行预测分析【尝试解答【尝试解答】(1)由所给数据看出,年需求量与年份之间是近由所给数据看出,年需求量与年份之间是近似直线上升,下面来求回归直线方程,为此对数据预处理如下:似直线上升,下面来求回归直线方程,为此对数据预处理如下:年份年份200642024需求量需求量257211101929 为了分析某个高三学生的学习状态,对其下一阶段的学为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议现对他前习提供指导性建议现对他前7次考试的数学成绩次考试的数学成绩x、物理成绩、物理成绩y进行分析下面是该生进行分析下面是该生7次考试的成绩次考试的成绩.(1)他的数学成绩与物理成绩哪个更稳定?为什么?他的数学成绩与物理成绩哪个更稳定?为什么?(2)已知该生的物理成绩已知该生的物理成绩y与数学成绩与数学成绩x是线性相关的,若该生是线性相关的,若该生的物理成绩达到的物理成绩达到115分,请你估计他的数学成绩大约是多少?分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议学、物理上的合理建议数学数学888311792108100112物理物理949110896104101106某地区甲校高二年级有某地区甲校高二年级有1 100人,乙校高二年级有人,乙校高二年级有900人,人,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,为了统计两个学校高二年级在学业水平考试中的数学学科成绩,采用分层抽样的方法在两校共抽取了采用分层抽样的方法在两校共抽取了200名学生的数学成绩,名学生的数学成绩,如下表:如下表:(已知本次测试合格线是已知本次测试合格线是50分,两校合格率均为分,两校合格率均为100%)甲校高二年级数学成绩:甲校高二年级数学成绩:独立性检验独立性检验 分组分组50,60)60,70)70,80)80,90)90,100频数频数10253530 x乙校高二年级数学成绩:乙校高二年级数学成绩:(1)计算计算x,y的值,并分别估计以上两所学校数学成绩的平均的值,并分别估计以上两所学校数学成绩的平均分分(精确到精确到1分分)(2)若数学成绩不低于若数学成绩不低于80分为优秀,低于分为优秀,低于80分的为非优秀,根分的为非优秀,根据以上统计数据列出据以上统计数据列出22列联表,并回答能否在犯错误的概率列联表,并回答能否在犯错误的概率不超过不超过0.05的前提下认为的前提下认为“两个学校的数学成绩有差异?两个学校的数学成绩有差异?”【思路点拨【思路点拨】(1)先求甲、乙两校各抽取的人数,再计算先求甲、乙两校各抽取的人数,再计算x、y的值,最后根据频数和组中值估计两个学校数学成绩的平均的值,最后根据频数和组中值估计两个学校数学成绩的平均分分(2)列出列出22列联表,计算列联表,计算K2后确定答案后确定答案分组分组50,60)60,70)70,80)80,90)90,100频数频数153025y5甲校甲校乙校乙校总计总计优秀优秀402060非优秀非优秀7070140总计总计11090200 为调查某地区老年人是否需要志愿者提供帮助,用简单为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了随机抽样方法从该地区调查了500位老年人,结果如下:位老年人,结果如下: (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比估计该地区老年人中,需要志愿者提供帮助的老年人的比例;例;(2)能否有能否有99%的把握认为该地区的老年人是否需要志愿者提的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?供帮助与性别有关? 性别性别是否需要志愿者是否需要志愿者男男女女需要需要4030不需要不需要160270(3)根据根据(2)的结论,能否提出更好的调查方法来估计该地区的的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理老年人中,需要志愿者提供帮助的老年人的比例?说明理由附:由附:P(K2k)0.0500.0100.001k3.8416.63510.828从近两年高考看,以考查独立性检验,回归分析为主,从近两年高考看,以考查独立性检验,回归分析为主,多为选择题、填空题,也可能以解答题形式考查,主要以实际多为选择题、填空题,也可能以解答题形式考查,主要以实际问题为背景,考查阅读理解、分析问题、解决问题的能力,在问题为背景,考查阅读理解、分析问题、解决问题的能力,在解决一些简单实际问题的过程中考查基本的统计思想解决一些简单实际问题的过程中考查基本的统计思想思想方法之十五用回归分析的思想方法进行预测思想方法之十五用回归分析的思想方法进行预测 (2011广东高考广东高考)为了解篮球爱好者小李的投篮命中率与为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月打篮球时间之间的关系,下表记录了小李某月1号到号到5号每天打号每天打篮球时间篮球时间x(单位:小时单位:小时)与当天投篮命中率与当天投篮命中率y之间的关系:之间的关系:小李这小李这5天的平均投篮命中率为天的平均投篮命中率为_;用线性回归分析的方法,;用线性回归分析的方法,预测小李该月预测小李该月6号打号打6小时篮球的投篮命中率为小时篮球的投篮命中率为_时间时间x12345命中率命中率y0.40.50.60.60.4【答案【答案】0.50.531(2011山东高考山东高考)某产品的广告费用某产品的广告费用x与销售额与销售额y的统计数据如的统计数据如下表:下表:A63.6万元万元B65.5万元万元C67.7万元万元 D72.0万元万元广告费用广告费用x(万元万元)4235销售额销售额y(万元万元)49263954【答案【答案】B2(2011湖南高考湖南高考)通过随机询问通过随机询问110名性别不同的大学生是否名性别不同的大学生是否爱好某项运动,得到如下的列联表:爱好某项运动,得到如下的列联表:男男女女总计总计爱好爱好402060不爱好不爱好203050总计总计6050110附表:附表:参照附表,得到的正确结论是参照附表,得到的正确结论是()A在犯错误的概率不超过在犯错误的概率不超过0.1%的前提下,认为的前提下,认为“爱好该项运动爱好该项运动与性别有关与性别有关”B在犯错误的概率不超过在犯错误的概率不超过0.1%的前提下,认为的前提下,认为“爱好该项运动爱好该项运动与性别无关与性别无关”C有有99%以上的把握认为以上的把握认为“爱好该项运动与性别有关爱好该项运动与性别有关”D有有99%以上的把握认为以上的把握认为“爱好该项运动与性别无关爱好该项运动与性别无关”【解析【解析】由相关系数由相关系数K2的意义,附表所对应的概率为的意义,附表所对应的概率为“爱好该爱好该运动与性别无关运动与性别无关”,有有99%以上的把握认为以上的把握认为“爱好该项运动与性别有关爱好该项运动与性别有关”【答案【答案】CP(K2k)0.0500.0100.001k3.8416.63510.828
展开阅读全文