变量间的相关关系与统计案例

上传人:daj****de2 文档编号:51940911 上传时间:2022-02-07 格式:DOC 页数:21 大小:350.50KB
返回 下载 相关 举报
变量间的相关关系与统计案例_第1页
第1页 / 共21页
变量间的相关关系与统计案例_第2页
第2页 / 共21页
变量间的相关关系与统计案例_第3页
第3页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
变量间的相关关系与统计案例【知识要点】1相关关系的判断如果散点图中点的分布从整体上看大致在一条直线的附近,我们说变量x和y具有线性相关关系.n迟(Xi x)(yi y)样本数据(Xi, yj (i = 1,2,n)的相关系数r : i 士当r 0时,两变量正相关,当r : 0rn(Xi -X)2(yi -y)2,yid时,两变量负相关,当| r匡1且|r|越接近于1,相关程度越高,当|r |叮且| r |越接近于0 ,相关程度越低.2回归方程的求法求回归方程的方法是最小二乘法,即使得样本数据的点到回归直线的距离的平方和最小.若变量x与y具有线性相关关系,有 n个样本数据 氐,)0 = 1,2,,n),则回归方程y = bx + 5中斜率和截 距的最小二乘估计公式分别为:_ 1 n _ 1 n _ _其中xxi , yyi , (x, y)称为样本点的中心.n i n iI:【重点】回归直线y=bx + a必过样本点的中心(x, y),这个结论既是检 验所求回归直线方程是否准确的依据,也是求参数的一个依据.3 .独立性检验设X, Y为两个变量,它们的取值分别为和,其样本频数列联表(2 2列联表)如下:y1y2总计X1aba+ bX2cdc+ d总计a + cb + da+ b+ c+ d利用随机变量宀(a+b)(XXb+d)0.0500.0100. 0013.6.10.841635828中n b c d为样本容量)来判断两个变量有关系”勺方法称为独立性检验.【例题解析】题型一变量间的相关关系【例1】对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A .2403 V riB.42 0 VVDC .42 03D .24 V 心解析:选A 易知题中图(1)与图是正相关,图与图是负相关,且图与图中的样本点集中分布在 一条直线附近,则2400, b0B. a0, b0C. a0D . a0, b0解析:选B由表中数据画出散点图,如图,小.I、Li由散点图可知 b0,选B.【例3】对于下列表格所示五个散点,已知求得的线性回归方程为=0.8x 155,则实数m的值为()x196197200203204y1367mA.8B . 8.2C . 8.4D. 8.5解析:选 A = 200,=.样本中心点为,将样本中心点代入=0.8x155,可得m= 8故A正确.题型二回归方程的求法【例4】某城市理论预测2011年到2015年人口总数与年份的关系如下表所示请根据上表提供的数据,求最小二乘法求出关于的线性回归方程;据此估计2016年该城市人口总数.参考公式:nZ Xi yi - nxyb-乍,a = y-bx、/nx,解:(1): x=2,八10,2分55送 Xiyi =0 冷+1 X7+2 8+3X11+4 19=132,送 Xi2 = 02 +12 + 22 + 32 + 42 = 30 i4? i4n、W _ nx y&瞪 =3.2 , ? = ybX6故y关于X的线性回归方程为?V 2_2xi nxi占、* fjL 严 、 / /=3.2x+3.6(2)当x=5时,?=3.2*5+3.6即?=佃.6据此估计2016年该城市人口总数约为196万.【例5】某保险公司有一款保险产品的历史户获益率(获益率=获益保费收入)的频率分布直方图如图所示:(I )试估计平均获益率;(n)根据经验若每份保单的保费在 20元的基础上每增加 x元,对应的销量y (万份)与x (元)有较强线性相关关系,从历史销售记录中抽样得到如下5组x与y的对应数据:(i )根据数据计算出销量 y (万份)与x (元)的回归方程为y =bxa ;(ii)若把回归方程y=bx.a当作丫与x的线性x(元)销量y (万份)关系,用(I)中求出的平均获益率估计此产品的获益率,每份保单的保费定为多少元时此产品可获得最大获益, 并求出该最大获益l(Xi_x)(yi_y)lxiyi-nxy_参考公示:b = - n1,a = y -bx222jj(x -x) x - nxi _i 4nn解析:(I )区间中值依次为:0.05, 0.15, 0.25, 0.35, 0.45, 0.55,取值概率依次为:0.1, 0.2, 0.25, 0.3, 0.1, 0.05 ,平均获益率为 o.O5 0.10 0.15 0.20 0.25 0.25 0.35 0.30 0.45 0.10 0.55 0.05 = 0.275(n)( i)则I . y -6.0 - -0.10(x - 40) 即 y - -0.10x 10.0(ii)设每份保单的保费为20 x元,则销量为y - -0.10x 10.0,则f(x) = (20x)(-0.10x 10.0)保费获益为万元,f (x)二0.1x2 8x 200 二-0.1(x -40)2 360当x=40元时,保费收入最大为 360万元,保险公司预计获益为360 0.275=99万元. J I IL- I题型三独立性检验【例6】为考察棉花种子经过处理跟生病之间的关系得到下表数据:种子处理种子未处理总计得病32101133不得病61213274总计93314407根据以上数据,则种子经过处理与是否生病 (填 有”或 无”关.解析:在假设无关的情况下,根据题意K2=- 0.16可以得到无关的概率大于 50%,所以种子经过处理跟是否生病有关的概率小于 50%,所以可以认为种子经过处理与是否生病无关.答案:无【例7】某高校为调查学生喜欢应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:喜欢应用统计”课程不喜欢应用统计”课程总计男生20525女生102030总计302555(1)判断是否有99.5%的把握认为喜欢 应用统计”课程与性别有关?(2)用分层抽样的方法从喜欢统计课程的学生中抽取6名学生做进一步调查,将这6名学生作为一个样本,从中任选2人,求恰有1个男生和1个女生的概率.下面的临界值表供参考:121P(K 沫)0.150.100.050.250.0100.0050.001k2.0722.7063.8415.0246.6357.8791F10.828(参考公式:K =,其中n= a+ b + c+ d)解:(1)由公式 K2=11.9787.879所以有99.5%的把握认为喜欢 应用统计”课程与性别有关.设所抽样本中有 m个男生,则=,得 m= 4,所以样本中有4个男生,2个女生,分别记作 B1, B2, B3,I I /B4, G1, G2.从中任选 2 人的基本事件有(B1, B2), (B1 , B3), (B1, B4), (B1, G1), (B1, G2), (B2, B3), (B2, B4),(B2, G1), (B2, G2), (B3, B4), (B3, G1), (B3, G2), (B4, G) (B4, G2), (G1, G?),共 15 个,其中恰有 1个男生和1个女生的事件有(B1,G1),(B1 ,G2),(B2,G1),(B2,G2),(B3, G,(B3,G2),(B4,G1), (B4, G2),共 8 个.所以恰有1个男生和1个女生的概率为【变式1】经过对计量K2的研究,得到了若干个临界值如下:n 11 逹、.当K2的观测值K 3.841时,我们(A)A.在犯错误的概率不超过0.05的前提可认为 A与B有关B.在犯错误的概率不超过0.05的前提可认为 A与B无关C.在犯错误的概率不超过0.01的前提可认为 A与B有关D.没有充分理由说明事件A与B有关系150【变式2】某校高三子啊一次模拟考试后,为了解数学成绩是否与班级有关,对甲乙两个班数学成绩(满分100人中随机抽取分)进行分析,按照不小于120分为优秀,120分以下为非优秀的标准统计成绩,已知从全班31人数学成绩优秀的概率为,调查结果如下表所示.10(1 )请完成上面的列联表;(2)根据列联表的数据,问是否有95%的把握认为 数学成绩与班级有关系”;(3)若按下面的方法从甲班数学成绩优秀的学生中抽取1人:把甲班数学成绩优秀的 10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数和被记为抽取人的编号,求抽到的编号为6或10的概率.【变式3】为了解人们对新颁布的生育二孩放开”政策的热度,现在某市进行调查.对5,65岁的人群随机抽取了人,得到如下统计表和各年龄段抽取人数的频率分布直方图:(I) 求,p的值,并由频率分布直方图估计被调查人群的平均年龄;(n )根据以上统计数据填下面2X2列联表,并根据列联表的独立 性检验,判断能否有99%的把握认为以45岁为分界点的不同人群 对生育二孩放开”政策的支持度有关系?参考的人年龄不低于45岁的人数年龄低于145岁的人 数合计支持不支持合计数据:2 _n(ad - be)K -0.0500.0100. 0013.6.10.841635828其中解:2(a+b)(c + d)(a+c)(b+d) (I )从5,15)岁这一年龄组中抽取数为=5,且频率为0.010 10 = 0.1 ,0.8:n =50 ; 2 分又第二组的频率为0.2,则第二组人数为10人,二-=0.54分10人平均数 X =0.1 汉10 +0.2x20 +0.3x30 十0.2 X40+0.1 汇 50 十 0.1汉 60 =33(岁)6分(n)2 2列联表如下:年龄不低于45岁的人数年龄低于45岁的人数合计支持329321不支持7111 1 .-18合计104050K225 17 172 32 1872256.27 : 6.6351152生育没有99%的把握认为以45岁为分界点的不同人群对二孩放开”政策的支持度有关系。【例8】为研究患肺癌与是否吸烟有关,做了一次相关调查,其中部分数据丢失,但可以确定的是不吸烟人数与、 I I4吸烟人数相同,吸烟患肺癌人数占吸烟总人数的-;不吸烟的人数中,患肺癌与不患肺癌的比为1:4 .5(1) 若吸烟不患肺癌的有 4人,现从患肺癌的人中用分层抽样的方法抽取5人,再从这5人中随机抽取2人进行调查,求这两人都是吸烟患肺癌的概率;(2) 若研究得到在犯错误概率不超过 0.001的前提下,认为患肺癌与吸烟有关,则吸烟的人数至少有多少?2n(ad be)附:K2 : n(ad -be),其中门=a b e d .(a +b)(c +d)(a +c)(b +d)1解:(1)设吸烟人数为x,依题意有 x =4,所以吸烟的人有 20人,故有吸烟患肺癌的有 16人,不患肺癌的5有4人.用分层抽样的方法抽取5人,则应抽取吸烟患肺癌的4人,记为a , b , c, d .不吸烟患肺癌的人,记为A 从5人中随机抽取2人,所有可能的结果有(a,b), (a,c) , (a,d) , (a,A),(b,c), (b,d) , (b, A) , (c,d) , (c, A) , (d,A),共10种,则这两人都是吸烟患肺癌的情形共有6种,a P= =-,1053即这两人都是吸烟患肺癌的概率为5(2 )方法一:设吸烟人数为 5x,由题意可得列联表如下:患肺癌不患肺癌合计1 -. -吸烟I1ii,.|不吸烟总计j 1由表得,K210X(16X -X)=3.6x,由题意 3.6x 10.828 , a x 3.008 ,(5x)4/ x为整数,a x的最小值为4 则5x =20,即吸烟人数至少为 20人. 方法二:设吸烟人数为 x,由题意可得列联表如下:患肺癌不患肺癌合计吸烟不吸烟总计16 2 1 2 22 2x(25x _5x)1818由表得,K二一25严x,由题意一 x 10.828 , a x 15.04 , / x为整数且为5的倍数,a x(x)2525的最小值为20即吸烟人数至少为20人.【高考真题】-来源网络,仅供个人学习参考【1】【2017课标1,文19】为了监控某种零件的一条生产线的生产过程,检验员每隔30min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9. 9510.129. 969. 9610.019. 929. 9810.04抽取次序910111213141516零件尺寸10.269. 9110.1310.029. 2210.0410.059. 951 16亍621 16 27经计算得 乂 = 一送 Xi =9.97 , s= 送(x x)2 = 任 x2 -16x2)托 0.212,16 i. 16 i j16 i 4T616拭(i 8.5)2 /8.439, E (x X)(i8.5) =2.78,其中人为抽取的第i个零件的尺寸,i =1,2,16.i 4i 4(1) 求(x,) (i =1,2 16)的相关系数r,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若| r | : 0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2) 一天内抽检零件中,如果出现了尺寸在(x -3s,x 3s)之外的零件,就认为这条生产线在这一天的生I产过程可能出现了异常情况,需对当天的生产过程进行检查.(i )从这一天抽检的结果看,是否需对当天的生产过程进行检查?(ii)在(xsxs)之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0. 01)II亠1匚:I In _ _迟(XiX)(y -y)i 吕附:样本(x,yj (i =1,2,n)的相关系数r =下 , d 0.008氐0.09 .存xx)2 仪 yT)2【答案】(1) r、-0.18,可以;(2)( i )需要;(ii )均值与标准差估计值分别为10. 02, 0. 09.【解析】试题分析:(1)依公式求r;(2)(i)由x = 7 2Bs賂,得抽取的第13个零件的尺寸在 任-3s,x+3s)以外,因此需对当天的生产过程进行检查;( ii)易V除第13个数据,则均值的估计值为10. 02,方差为0. 09.1(ii)易V除离群值,即第13个数据,剩下数据的平均数为(16 9.97 -9.22)=10.02,这条生产线当天生产的15零件尺寸的均值的估计值为10. 02 .16ryrr、Xi =16 0.21216 9.971591.134 ,i =11剔除第13个数据,剩下数据的样本方差为(1591.134 _9.222 -15 10.022): 0.008 ,15这条生产线当天生产的零件尺寸的标准差的估计值为,0008、0.09 .【2】【2017课标II,文19】海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A表示事件 旧养殖法的箱产量低于50kg”,估计A的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量 v 50kg 箱产量 50kg旧养殖法iP新养 殖法1 一1(3)根据箱产量的频率分布直方图,对两种养殖方法- a. I I的优劣进行较。附:P ()0.0500.0100.001k3.8416.63510.828【答案】(1)0.62.( 2)有把握(3)新养殖法优于旧养殖法【解析】(2)根据箱产量的频率分布直方图得列联表箱产量v 50kg箱产量50kg旧养殖法6238新养殖法34662 200 (62 66-34 38)K2=15.705100 x100x96x104由于15.705 6.635,故有99%的把握认为箱产量与养殖方法有关(3)箱产量的频率分布直方图平均值(或中位数)在45kg到50kg之间,且新养殖法的箱产量分布集中程度较旧养殖法的箱产量分布集中程度高,因此,可以认为新养殖法的箱产量较高且稳定,从而新养殖法优于旧养殖法.|【3】(2016年全国III卷高考)下图是我国 2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图(I)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(n)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量附注:参考数据:7、Vi =9.32 ,i 47、tiYi =40.17 ,i 4Z (yi-y)2=0.55,2.646.i 4n参考公式:相关系数 r(t -1)( yi - y)i 士nn、(ti -t) (yi -y)2i仝i 4回归方程bt中斜率和截距的最小二乘估计公式分别为:7-932 (:)(%y)0.103,(n )由 y =止1.331 及(I) 得 b =7=7: j _t)228i#所以,y关于t的回归方程为:b 0.92 0.10t10分p.- . I I将2016年对应的t =9代入回归方程得:b =0.92 0.10 9 = 1.82 .所以预测2016年我国生活垃圾无害化处理量将约1.82亿吨12分【4】【2015高考新课标1,文19】某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费 x (单位:千元)对年销售量y(单位:t)和年利润z (单位:千元)的影响,对近 8年的宣传费x和年销售量yi(i=1,2l),8 )数据作了初步处理,得到下面的散点图及一些统计量的值.46.656.38289.81.61469108.8表中Wi = X ,W八Wi8 7(I )根据散点图判断,八a bx与八c d x ,哪一个适宜作为年销售 量y关于年宣传费x的回归方程类型(给出判断即可,不必说明 理由);(II)根据(I)的判断结果及表中数据,建立 y关于x的回归方 程; (III )已知这种产品的年利润Z与X, y的关系为z = 0.2y_x,根据(II )的结果回答下列问题:(i)当年宣传费X=9O时,年销售量及年利润的预报值时多少?(ii)当年宣传费X为何值时,年利润的预报值最大?附:对于一组数据(qvj , (U2,V2), (Un,Vn),其回归线v=a+Pu的斜率和截距的最小二乘估计分别为:n一_无(Ui -u)(Vi -V)=7 n,: = U (Ui-u)2i 4【答案】(I) y=cd x适合作为年销售y关于年宣传费用x的回归方程类型(n ) y = 100.6 68 x (川)4624【解析】(I)由散点图可以判断,c d x适合作为年销售y关于年宣传费用X的回归方程类型.2分8送(Wj w)(* y)(II )令w二x 先建立y关于w的线性回归方程,由于8Z (w w)=108.8=68 ,:c = y dw=563-68 6.8=100616.I y关于w的线性回归方程为y =100.6 68w ,I I y关于x的回归方程为y =100.6 68 x .6分(川)(i )由(I)知,当X =49时,年销售量y的预报值t! yy = 100.6 十 68、; 79 =576.6,z 二 576.6 0.2 一 49 二 66.32 . 9 分(ii)根据(I)的结果知,年利润z的预报值z = 0.2(100.6 68 x)-x = -x 13.6 x 20.12 ,.当 x = 13.6 =6.8,即 x= 46.24时,:z取得最大值.2故宣传费用为46.24千元时,年利润的预报值最大.12分【5】【2015高考重庆,文17】随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20102011201220132014时间代号t12345储蓄存款y(千亿元)567810(I )求y关于t的回归方程y = bt a(I)用所求回归方程预测该地区2015年(6)的人民币储蓄存-来源网络,仅供个人学习参考款.附:回归方程y =ba中【答案】(I) ?=1.2t+3.6 ,( n) 10.8 千亿元.【解析】(I )列表分别计算出x,y , lnt=邋i-nt2,lny= yi-nty.的值,i=1i=1然后代入1?=二求得?,再代入o?=y-bt求出a值,从而就可得到回归方1 nt程?=1.2t+3.6,(n)将t=6代入回归方程?=1.2t+3.6可预测该地区2015年的人民币 储蓄存款.试题解析:(1)列表计算如下iJ J 7i115152264123379214418163255102550153655120这里 n = 5,tJ邋i 半=3,=in;=10 = 1.2,a?=y-bt=7.2-1.2?3 3.6 .故所求回归方程为?=1.2t+3.6 .-来源网络,仅供个人学习参考将t = 6代入回归方程可预测该地区2015年的人民币储蓄存款为?=1.2?6 3.6 = 10.8(千亿元).
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 活动策划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!