第十章直线相关与回归

上传人:软*** 文档编号:172245425 上传时间:2022-12-02 格式:DOCX 页数:15 大小:106.54KB
返回 下载 相关 举报
第十章直线相关与回归_第1页
第1页 / 共15页
第十章直线相关与回归_第2页
第2页 / 共15页
第十章直线相关与回归_第3页
第3页 / 共15页
点击查看更多>>
资源描述
第十章 直线相关与回归一、教学大纲要求(一) 掌握内容1. 直线相关与回归的基本概念。2. 相关系数与回归系数的意义及计算。3. 相关系数与回归系数相互的区别与联系。(二) 熟悉内容1 相关系数与回归系数的假设检验。2 直线回归方程的应用。3 秩相关与秩回归的意义。(三) 了解内容 曲线直线化。二、学内容精要(一) 直线回归1. 基本概念直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求 各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故 又称简单回归(simple regression)。直线回归方程Y a + bX中,a、b是决定直线的两个系数,见表10-1。表10-1直线回归方程a、b两系数对比ab含义回归直线在Y轴上的截距(i ntercept)回归系数(regression coefficient),即直线表示X为零时,Y的平均水平的估计的斜率。表示X每变化一个单位时,Y的值。平均变化量的估计值。系数 0a0 表示直线与纵轴的交点在原点的b0,表示直线从左下方走向右上方,即Y上方随 X 增大而增大系数 0a0 表示直线与纵轴的交点在原点的b0,表示直线从左上方走向右下方,即Y下方随 X 增大而减小系数 =0a=0表示回归直线通过原点b=0,表示直线与X轴平行,即Y不随X 的变化而变化计算公式* 工(X - X)(Y - Y)la = Y - bXb 二-r-乙(X - X)2lXX2. 样本回归系数b的假设检验( 1 )方差分析;( 2) t 检验。3. 直线回归方程的应用(1) 描述两变量的依存关系;(2) 用回归方程进行预测;(3) 用回归方程进行统计控制;(4) 用直线回归应注意的问题。(二) 直线相关1. 基本概念直线相关(linear correlation)又称简单相关(simple correlation),用于双变量正态分布 资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。相关系数又称积差相关系数(coefficient of product-moment correlation),以符号r表示样 本相关系数,P表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的密切 程度与相关方向的指标。2. 计算公式工(X - X)(Y - Y)lr =.= -XY2 (X - X)2、.:(Y - Y)2 叭xS相关系数r没有单位,其值为一lWrWl。其绝对值愈接近1,两个变量间的直线相关愈 密切;愈接近0相关愈不密切。r值为正表示正相关,说明一变量随另一变量增减而增减, 方向相同;r值为负表示负相关,说明一变量增加、另一变量减少,即方向相反;的绝对值 等于 1 为完全相关。3. 样本相关系数r的假设检验(1) r界值表法; ( 2) t 检验法。(三) 直线回归与相关的区别与联系1. 区别(1) 资料要求:直线回归要求因变量Y服从正态分布,X是可以精确测量和严格控制 的变量,一般称为I型回归;直线相关要求两个变量X、Y服从双变量正态分布。这种资料 若进行回归分析称为II型回归。(2) 应用情况:直线回归是说明两变量依存变化的数量关系;直线相关是说明两变量 间的相关关系。(3) 意义:b表示X每增(减)一个单位时,Y平均改变b个单位;r说明具有直线关 系的两个变量间关系的密切程度与相关方向。(4) 计算:b= lxy/ lxx ; r =厂厂。xx yy(5) 取值范围:一8br0.05( n-2)时,可认为两变量X与Y间()A.有一定关系B.有正相关关系C. 一定有直线关系D.有直线关系答案: D评析 本题考点:直线相关系数假设检验的理解。因为直线相关系数r是样本的相关系数,它是相应总体相关系数P的估计值。由于抽样 误差的影响,必须进行显著性检验。 r 的假设检验是检验两变量是否有直线相关关系。 lrlr0.05( n-2)时,PvO.05,拒绝H0,接受比,认为总体相关系数P工0,因此可认为两变量X 与 Y 间有直线关系。4. 相关系数检验的无效假设H0是()A. P =0B. P 工0C. P0D. P0, b0, b0Cr0D. r 与 b 的符号毫无关系答案: B评析 本题考点:直线相关与回归的区别与联系的理解。因为对同一资料而言直线相关系数与回归系数的方向一致,若能同时计算b和r,它们的 符号一致。因此,同一双变量资料,进行直线相关与回归分析,有0, b0。四、习 题一)单项选择题1. 下列()式可出现负值。A.ECX X ) 2B.EY2(工Y) 2/nC.工(Y Y )2D.E(X X ) (Y Y )2. Y=14+4X是17岁儿童以年龄(岁)估计体重(市斤)的回归方程,若体重换3.成国际单位kg,则此方程()。A.截距改变B.回归系数改变C.两者都改变D.两者都不改变已知r=1,贝y 定有()。A. b=1B. a=1C. SY. X=0D.SY. X=SY4. 用最小二乘法确定直线回归方程的原则是各观察点()。A. 距直线的纵向距离相等B. 距直线的纵向距离的平方和最小C. 与直线的垂直距离相等D. 与直线的垂直距离的平方和最小5.直线回归分析中,X的影响被扣除后,Y方面的变异可用指标()表示。6.A. S =辽(X - X)2f(n - 2)x, yC. S =订(Y - $)2;(n 2)y, x直线回归系数假设检验,其自由度为(A. nC. n2B.D.)。B. n1D. 2n1A. SS 剩=SS 回B.SS总=SS剩C. SS ,SS 回D.以上均可8.下列计算SS剩的公式不正确的是()。A. l - lbYYXY:B.l -blYYXXC. l - 12 卩YYXYXXD.(1- r2 )l9.直线相关系数可用()计算。YYA. l二 1 lXY 丿* XX YYB.b Jl卩YXXX :c :b bYX XYD以上均可10.当r=0时,Y a + bX回归方程中有()。A.a 必大于零B. a必等于XC.a 必等于零D. a必等于Y二)名词解释1. 直线回归2.回归系数3.剩余平方和 4.回归平方和5.直线相关6.零相关7.相关系数8.决定系数9.曲线直线化10.秩相关(三)是非题1-剩余平方和SS剩i=SS剩2,则G必然等于。2直线回归反映两变量间的依存关系,而直线相关反映两变量间的相互直线关系。3. 两变量关系越密切r值越大。(四)简答题1. 用什么方法考察回归直线图示是否正确?2. 剩余标准差的意义和用途?3. 某资料n=100, X与Y的相关系数为r=0.1,可否认为X与Y有较密切的相关关系?4. r与的应用条件有何不同?5. 应用直线回归和相关分析时应注意哪些问题?6. 举例说明如何用直线回归方程进行预测和控制?7. 直线回归分析时怎样确定因变量与自变量?(五)计算题1. 10名20岁男青年身高与前臂长的数据见表10-2。计算相关系数并对P =0进行假设检验;计算总体P的95%可信区间。表 10-210 名 20 岁男青年身高与前臂长身高(cm)170173160155173188178183180165前臂长(cm)454244414750474649432.某单位研究代乳粉营养价值时,用大白鼠作实验,得到大白鼠进食量和增加体重的数据见表10-3。此资料有无可疑的异常点?求直线回归方程并对回归系数作假设检验。试估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并 说明其含义。求进食量为900g时,个体Y值的95%容许区间,并解释其意义。表10-3 八只大白鼠的进食量和体重增加量鼠号12345678进食量(g)800780720867690787934750增量(g)1851581301801341671861333.某省卫生防疫站对八个城市进行肺癌死亡回顾调查,并对大气中苯并(a)芘进行监 测,结果如下,试检验两者有无相关?表10-4八个城市的肺癌标化死亡率和大气中苯并(a)芘浓度城市编号12345678肺癌标化死亡率(1/10万)5.6018.5016.2311.4013.808.1318.0012.10苯并(a)芘(卩g/100m3)0.051.171.050.100.750.500.651.204. 就下表资料分析血小板和出血症的关系。表 10-5 12 例病人的血小板浓度和出血症的关系病例号123456789101112血小板数12013016031042054074010601260123014402000( 109/L)出血症状+土+五、习题答题要点4.B 5.C 6.C7.D 8.B 9.D 10.D(一)单项选择题1 .D2 .C3.C(二)名词解释1.直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种,故又称简单回归(simple regression)。2.回归系数(regression coefficient)即直线的斜率(slope),在直线回归方程中用b表示,b的统计意义为X每增(减)一个单位时,Y平均改变b个单位。、3. 剩余平方和(residual sum of squares), SS剩即 U K ,它反映X对Y的线性影各实测点离回归直线越近响之外的一切因素对Y的变异的作用,申就是在总平方和中无法用X解释的部分。在散点图中, ,y丿也就越小,说明直线回归的估计误差越小。4. 回归平方和(regression sum of squares), SS回即工 Y Y ,它反映由于X与Y的 直线关系而使Y的总变异所减小的部分,也就是在总平方和中可以用X解释的部分。回归平方 和越大,说明回归效果越好。5. 直线相关(1 inear correlation)又称简单相关(simple correlation),用于双变量正态 分布资料。有正相关、负相关和零相关等关系。直线相关的性质可由散点图直观的说明。6. 零相关(zerro correlation)是指两变量间没有直线相关关系。11. 相关系数又称积差相关系数(coefficient of product-moment correlation),以符号r表 示样本相关系数,P表示总体相关系数。它是说明具有直线关系的两个变量间,相关关系的 密切程度与相关方向的指标。1212 :l SS12. 决定系数(coefficient of determination)即 r 的平方,r2 = x;= 节 XX = 回 ,l l l SSXX YYYY总说明当SS总固定不变时,回归平方和的大小决定了 r平方的大小。回归平方和越接近总平方和, 则r平方值越接近1。13. 曲线直线化(rectification)是曲线拟合的重要手段之一。对于某些非线性的资料可 以通过简单的变量变换使之直线化,用直线回归分析方法来分析。14. 秩相关又称等级相关(rank correlation),是用双变量等级数据作直线相关分析,适 用于下列资料:不服从双变量正态分布而不宜作积差相关分析;总体分布型未知;用 等级表示的原始数据。(三) 是非题1错。两样本剩余平方和SS剩1=SS剩2,但两样本总平方和SS总及回归平方和SS回不一 定相等,故两样本相关系数r1与r2不一定相等。心2. 正确。3错。相关系数r有正负之分,其值为一1WrW1,在总体相关系数不为零,即两变量确 有直线关系前提下,r绝对值愈接近1,两个变量间的直线相关愈密切;愈接近0,相关愈不密 切。(四)简答题1.用以下三种方法判定:直线必须通过点(X Y )。若纵坐标、横坐标无折断号时,将此线左端延长与纵轴相交,交点的纵坐标必等于截 距a。直线是否在自变量X的实测范围内。(、2.剩余标准差用sY. %表示:SY.x =2SS剩/ C 2)=严- 2)其意义是指当X对Y的影响被扣除后,Y方面仍有变异。这部分变异与X无关,纯属抽样变 异。故sY. x是用来反映Y的剩余变异的,即不考虑X以后Y本身的随机变异。剩余标准差可 用于:估计回归系数b的标准误,s = s厂,进行回归系数的区间估计和假设检验。估计总体中当X为某一定值时,估计值Y的标准误。S”二SYn+(X_X/工(X_X)2 并可计算Y的可信区间,s X可作为预报精度的指标。估计总体中当X为某一定值时,个体Y值的标准差。 n 二 298525 -17252 10 二 962.5XXl 二工 Y2 - Y丄 n 二 20690 4542;10 二 78.4l 二工 XY 乞 X ) Y ) n 二 78541 1725 x 45410 二 226XY:r = xy 0.8227l l V 962.5 x 78.4XX YYl226与P =0进行假设检验。H0: P=0,即身高与前臂长间无直线相关关系H: PM0,即身高与前臂长间有直线相关关系tr00.8227 x、10 22) 4.09辺0.82272a =0.05v n 2 10 2 8,查 t 界值表,得 0.002PP0.05,按a =0.05水准,拒绝H0,接受H,,结论同上。 本题、;F 二 J16.147 = 4.018 = t故可用直线回归方程y = a + bX =-47.326 + 0.261X来描述大白鼠的进食量与增加 体重的关系。异常点即对应于残差(Y Y )绝对值特大的观测数据见表10-7。表10-7残差的计算序号XYYY Y1800185161.47423.5262780158156.2541.7463720130140.59410.5944867180178.9611.0395690134132.7641.2366787167158.0818.9197934186196.44810.4488750133148.424 15.424由散点图及残差分析,第一号点(X=800, Y=185)为可疑的异常点。根据以上的计算结果,进一步求其总体回归系数的95%可信区间。绘制回归直线并图 示回归系数的95%可信区间。总体回归系数B的95%可信区间:(b t0.05(n2) Sb, bt0.05(n2) SbL=(0.2612.447X13.5107/ 订43366 , 0.261+2.447X13.5107/ 43366 )=(0.1022,0.4198)取 X=690,代入回归方程0 =47.326+0.261X,得乙=132.76; X2=934, Y2=196.45。在 图上确定(690, 132.76)和(934, 196.45)两个点,以直线连接即得回归直线的图形见图 10-2。按回归系数的95%可信区间下限和上限分别代入a二Y - bX,得a =78.285, a =12 172.937。回归系数的95%可信区间上、下限对应的两条直线,即图10-2中两条回归直线, 回归方程为:0 =78.285+0.1022X, 0 = 172.937+0.4198X估计进食量为900g时,大白鼠的体重平均增加多少,计算其95%的可信区间,并说明 其含义。s = sn + (X - X)2 二(X X)2=13.5276、亍8 + (900 - 791)2 .43366 = &5446当X=900时,卩的95%可信区间:八y(Y t s , Y +t s )0.05(6) Y0.05(6) Y=(187.5742.447X8.5446, 187.574+2.447X8.5446) = (166.67,208.48)即总体中,进食量为900g时,大白鼠的体重平均增加187.574g,其95%的可信区间为 166.67208.48g。其含义为:当进食量为900g时,相应的平均增重服从一个正态分布(此正态分布的样本 均数估计值为187.574g),如果从此正态分布中重复抽样100次,这100个可信区间中理论 上将有95个区间包含真正的总体均数(虽然这个总体均数真值是未知的)。求进食量为900g时,个体Y值的95%容许区间,并解释其意义。s = s1 +1/n + (X X )2(X X )2YY. X=13.527,1 +18 + (900 791). 43366 = 16.0002当 X=900 时,Y =47.326+0.261X=187.574,个体 Y 值的 95%容许区间:( Y t0.05(6)SY , Y +t0.05(6)SY)=(187.5742.447X16.0002, 187.574+2.447X16.0002) =(148.42, 226.73) 即估计总体中,进食量为900g时,有95%的大白鼠增加体重在148.42226.73g范围内。3本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-8表 10-8 八个城市的肺癌标化死亡率和大气中苯并(a) 芘的相关分析肺癌标化死亡率(1/10万)苯并(a)芘城市编号X等级Y等级dd2(6)=(3) (5)15.6010.05100218.5081.17711316.2361.05600411.4030.10211513.8050.7550068.1320.50311718.0070.65439812.1041.208416Ed2=28H0: P =0,即肺癌标化死亡率和大气中苯并(a)芘无相关关系0sH: P工0,即肺癌标化死亡率和大气中苯并(a)芘有相关关系1sa =0.05由上计算表,rs=1-6Ed2 / n (n21)=16X28 / 8X(821)=0.6667查rs界值表,得0.10P0.05,按a =0.05水准,不拒绝H0,尚不能认为肺癌标化死亡 率和大气中的苯并(a)芘有相关关系。4本题资料不服从双变量正态分布,宜计算等级相关系数。计算过程见表10-9。表 10-9 血小板数与出血症状的等级相关分析病例号血小板数(X109/L)出血症状d(6)=(3)d2 X等级Y等级11201+10.59.590.2521302+12.510.0100.00316037.04.016.00431043.50.50.2554205+8.5 3.512.2565406+8.52.56.25774073.53.512.258106083.54.520.2591260103.56.542.2510123093.55.530.2511144011+10.50.50.25122000123.58.572.25Ed2=402.5H: Ps=0,即血小板数与出血症状无相关关系H: P:M0,即血小板数与出血症状有相关关系 a=0.05因出血症状Y中,相同秩次较多,需计算校正r值rs STX=023 )1辛 J +18.5”-Ty=E(t3t)/ 12=(636)+(232)+( 232) / 12=18.5 (3 一 n”6-(T + T )一丫 d 2 J b - n)6 2T K3一 n)6 2T)-402.5 耳 8123 12丿 6丄 0飞 23 12丿 62 x 18.5=0.5095查rs界值表,得0.10P0.05,按a =0.05水准,不拒绝H0,尚不能认为血小板数与出 血症状有相关关系。王彤 万毅)
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!