资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,版权所有,内蒙古财经学院统计学系,结束,休息,经济、管理类,基础课程,统计学,2 -,*,当前日期是:,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第六章,相关与回归分析,第六章相关与回归分析,第一节 相关的种类,一、相关的概念,现象之间的关系可分为两类:,一类是函数关系,即现象之间确实存在的严格的依存关系,在这种关系中,对于某一变量的每一个数值,都有另一个变量的确定的值与之相对应,可以用数学表达式反映出来。,例如圆的周长,=2R,,就是函数关系,。,第一节 相关的种类一、相关的概念,1、是一一对应的确定关系,2、设有两个变量,x,和,y,,变量,y,随变量,x,一起变化,并完全依赖于,x,,当变量,x,取某个数值时,,y,依确定的关系取相应的值,则称,y,是,x,的函数,记为,y,=,f,(,x,),,其中,x,称为自变量,,y,称为因变量,3、各观测点落在一条线上,x,y,函数关系,1、是一一对应的确定关系xy函数关系,另一种关系是相关关系,即现象之间确实存在的不严格的依存关系,在相关关系中某一变量的每一个数值,另一个变量都有许多数值与之相对应,不是一一对应关系,是不严格的依存关系。,1、变量间关系不能用函数关系式精确表达,2、一个变量的取值不能由另一个变量唯一确定,3、当变量,x,取某个值时,变量,y,的取值可能有几个,4、各观测点分布在直线周围,x,y,另一种关系是相关关系1、变量间关系不能用函数关系式精确表达,例:,1,、商品的消费量,(,y,),与居民收入,(,x,),之间的关系,2,、商品销售额,(,y,),与广告费支出,(,x,),之间的关系,3,、粮食亩产量,(,y,),与施肥量,(,x,1,),、降雨量,(,x,2,),、温度,(,x,3,),之间的关系,4,、收入水平,(,y,),与受教育程度,(,x,),之间的关系,5,、父亲身高,(,y,),与子女身高,(,x,),之间的关系,例:1、商品的消费量(y)与居民收入(x)之间的关系,自变量:在相关关系中,有时存在一定的因果关系,一般把起着影响作用、主导作用的那个因素的标志称为自变量,也称之为因素标志,因变量:把受到自变量影响而发生变动的那个因素的标志称为因变量,也称之为结果标志。,有时两变量之间互为因果,在这种情况下,就只有根据研究目的来决定自变量和因变量。,自变量:在相关关系中,有时存在一定的因果关系,一般把起着影响,二、相关的种类,(一)按变量之间的相关强度有:完全相关、不完全相关和不相关,二、相关的种类(一)按变量之间的相关强度有:完全相关、不完全,(二)按变量之间相关的方向分为正相关和负相关,(二)按变量之间相关的方向分为正相关和负相关,(三)按变量之间相关的形式分为线性相关和非线性相关,x,y,非线性相关,(三)按变量之间相关的形式分为线性相关和非线性相关,(四)按影响因素的多少(即变量的多少)分为单相关和复相关,两个变量之间的相关关系称为简单相关,又称单相关。,三个或三个以上变量之间的相关关系称为多元相关,又称复相关。,复相关可以分解为简单相关,即在实际工作中,如果存在多个自变量对一个因变量的关系,可以抓住其中最主要的因素,研究其相关关系,将多元相关化为简单相关。,(四)按影响因素的多少(即变量的多少)分为单相关和复相关,三、相关分析的主要内容,(一)确定现象之间有无关系,确定相关关系的表现形式。这是相关分析的出发点。,主要根据经验、相关图表和相关系数。,(二)确定相关关系的密切程度。,相关系数能从数量上明确说明关系的密切程度。,(三)测定两个变量之间的一般的关系值。,(四)测定因变量估计值和实际值之间的差异, 用来反映因变量估计值的可靠性。,三、相关分析的主要内容(一)确定现象之间有无关系,确定相关关,第二节 相关图表和相关系数,一、相关表,相关表就是将原始资料按顺序排列绘成的相关表格,通过相关表可以直观地判断变量之间大致呈现何种关系形式。,根据给定资料是否分组,相关表可以分为简单相关表和分组相关表。,(一)简单相关表,简单相关表是资料未分组,直接将自变量按照从小到大的顺序排列并配上对应的因变量的数值制成的表格。,第二节 相关图表和相关系数一、相关表,例如,为了研究家庭收入与家庭消费支出的关系,通过抽样调查获得了,40,个家庭的月收入与月消费支出的资料,以月收入为自变量,月消费支出为因变量编制简单相关表,月收入,月支出,月收入,月支出,月收入,月支出,月收入,月支出,856,856,858,858,862,862,862,865,865,865,799,799,800,802,803,805,810,805,808,815,865,870,870,880,880,880,880,880,885,885,820,810,830,840,845,851,853,855,850,852,885,885,898,898,898,898,898,898,898,902,857,860,855,858,861,863,866,867,890,850,902,902,902,902,915,915,915,915,915,915,853,869,872,873,850,859,863,868,875,898,例如,为了研究家庭收入与家庭消费支出的关系,通过抽样调查获得,(二)分组相关表,分组相关表是将原始资料分组后编制而成的表格,分组相关表有单变量分组相关表和双变量分组相关表之分。,1,、单变量分组相关表,单变量分组相关表是将自变量分组并计算次数,对应的因变量计算其平均值制成的表格。,(二)分组相关表分组相关表是将原始资料分组后编制而成的表格,,单变量分组相关表如表,家庭月收入(元),家庭个数(个),家庭月平均支出(元),856,858,862,865,870,880,885,898,902,915,2,2,3,4,2,5,4,7,5,6,799.00,801.00,806.00,812.00,820.00,848.80,854.75,865.72,863.40,868.83,单变量分组相关表如表 家庭月收入(元)家庭个数(个)家庭月平,2,、双变量分组相关表双变量分组相关表是将自变量和因变量都进行分组而制成的相关表格,通常也称之为棋盘式表格。,家庭月支出(元),收 入(元),855-865,865-875,875-885,885-895,895-905,905-915,合 计,895-905,885-895,875-885,865-875,855-865,845-855,835-845,825-835,815-825,805-815,795-805,2,5,1,2,3,1,3,1,2,2,1,5,4,2,1,1,1,2,1,1,1,1,6,9,8,1,1,2,5,5,2、双变量分组相关表双变量分组相关表是将自变量和因变量都进,二、相关图,通过编制相关图也可直观地判断变量之间大致上呈现何种关系形式。,相关图又称散布图或散点图,通过相关点的分布状况,可以直观地大致判断出两个现象之间存在的关系性质和密切程度。,二、相关图 通过编制相关图也可直观地判断变量之间大致上呈现何,图,6-4,家庭月收入和月支出的相关图,图6-4 家庭月收入和月支出的相关图,不相关,负线性相关,正线性相关,非线性相关,完全负线性相关,完全正线性相关,相关关系的图示,不相关负线性相关,三、相关系数,式中,r,为相关系数,称为协方差,相关系数是指直线相关条件下,测定两现象之间相关关系密切程度的统计分析指标。,相关系数一般是按积差法计算的,其基本公式如下:,三、相关系数式中r为相关系数称为协方差 相关系数是指直,是自变量,x,的标准差;,是因变量,y,的标准差。,据此,上式可简化为:,(,1,),是自变量x的标准差;是因变量y的标准差。据此,上式可简化为:,又可将(,1,)式简化为:,(,2,),r,0,正相关,r,0,负相关,r,0,不存在线性相关,又可将(1)式简化为:(2) r0 正相关,一般情况下,通过相关系数判断相关关系密切程序的标准是:,当,|r|=0,时,表明,x,和,y,不存在直线相关。,当,0,|r|,0.3,时,表明,x,和,y,微弱相关(或无关)。,当,0.3|r|,0.5,时,表明,x,和,y,低度相关。,当,0.5|r|,0.8,时,表明,x,和,y,显著相关。,当,0.8|r|,1,时,表明,x,和,y,高度相关。,当,|r|=1,时,表明,x,和,y,完全相关。,相关系数必须保留四位小数 。,一般情况下,通过相关系数判断相关关系密切程序的标准是:当|r,例,某地区,1997-2001,年各年的职工生活费收入和商品销售额的资料如表,6-4,所示。计算职工生活费收入与商品销售额的相关关系,年 份,职工生活费,收入,x,(百元),商品销售额,y,(亿元),1997,1998,1999,2000,2001,5.6,6.0,6.1,6.4,7.0,87,93,100,106,114,合计,31.1,500,x,2,31.36,36.00,37.21,40.96,49.00,194.53,y,2,7569,8649,10000,11236,12996,50450,xy,487.2,558.0,610.0,678.4,798.0,3131.6,例,某地区1997-2001年各年的职工生活费收入和商品销售,从计算结果看出职工生活费收入和商品销售额是高度正相关。,从计算结果看出职工生活费收入和商品销售额是高度正相关。,已知汽车使用年限和维修费用的资料如下:,序号,汽车使用年限(年),汽车维修费用(百元),1,1,4,2,3,6,3,3,7,4,5,7,合计,12,24,x,y,x,2,1,9,9,25,44,y,2,16,36,49,49,150,xy,4,18,21,35,78,判断汽车使用年限和维修费用的相关程度和相关方向,已知汽车使用年限和维修费用的资料如下:序号汽车使用年限(年),二者高度正相关,二者高度正相关,第三节 回归分析,一、回归分析的意义,相关分析法,说明相关方向和相关密切程度,但我们不能指出现象之间相互关系的具体数量形式,无法从一个现象的某一数量来推测另一与之相关的现象的数量。,统计分析还需要知道它们之间的一般数量关系,以计算出来对应数值,作为进一步的各种估计预测的依据。这就需要借助于回归分析。,第三节 回归分析一、回归分析的意义,回归分析,是指对具有显著相关关系的现象之间数量变化的一般关系进行测定,建立一个相关的数学表达式,以便从一个已知量去推断另一个与之联系的未知量,进而进行估计预测的统计方法。,回归分析是相关分析的延续,但二者之间是有区别的。,第一,相关关系两个现象之间是对等关系,都是随机变量,而回归分析则要确定哪一个是自变量,哪一个是因变量。,第二,说明相关关系密切程度的指标只有一个相关系数,而回归分析有时可能建立两个回归方程。,回归分析,是指对具有显著相关关系的现象之间数量变化的一般,二、配合回归直线的方法,建立回归方程的一般步骤如下:,1,、确定变量之间有无相关关系。,2,、通过编制相关图表和计算相关系数,判断变量之间相关关系的形态、方向和密切程度。,3,、正确确定自变量与因变量。,4,、应用最小平方法配合回归方程。,二、配合回归直线的方法,回归直线方程,y,c,= a + bx,a,代表直线的起点值(截距),表示当,x=0,时,y,的值;,b,代表回归系数(斜率),表示当,x,增加或减少一个单位时,,y,平均增加或减少的数量。,b,为正表明,x,和,y,正相关,,b,为负表明,x,和,y,为负相关。,a,和,b,都是待定参数,是需要根据实际资料予以确定的数值。,回归直线方程,求解,a,、,b,两个参数,统计中采用的是最小平方法。,利用此法求解,a,、,b,的标准方程式为:,求解a、b两个参数利用此法求解a、b的标准方程式为:,对其进行数学变换可得:,用上式求出,a,、,b,之值后,代入,y,c,= a + bx,中,就得到所求回归直线的方程。,对其进行数学变换可得:用上式求出a、b之值后,代入yc =,例,某地区,1997-2001,年各年的职工生活费收入和商品销售额的资料如表,6-4,所示。,表,6-4,某地区职工生活费收入和商品销售额的资料,年 份,职工生活费,收入,x,(百元),商品销售额,y,(亿元),x,2,y,2,xy,1997,1998,1999,2000,2001,5.6,6.0,6.1,6.4,7.0,87,93,100,106,114,31.36,36.00,37.21,40.96,49.00,7569,8649,10000,11236,12996,487.2,558.0,610.0,678.4,798.0,合计,31.1,500,194.53,50450,3131.6,例,某地区1997-2001年各年的职工生活费收入和商品销售,变量,x,、,y,满足配合一元线性回归方程的前提条件。给变量,x,、,y,配合回归直线方程,y,c,= a + bx,计算得:,变量x、y满足配合一元线性回归方程的前提条件。给变量x、y配,则回归方程,y,c,= -23.47 + 19.85X,b=19.85,表明职工收入与销售额是正相关,当职工收入增加,1,百元时,该地区销售额平均增加,19.85,亿元。,则回归方程yc = -23.47 + 19.85X,建立回归方程的原则:,1,、必须在显著相关的条件下(,r,0.5,)建立,2,、必须确定自变量和因变量,3,、自变量是给定的,因变量是随机的,4,、回归方程不能进行互推,建立回归方程的原则:,已知汽车使用年限和维修费用的资料如下:,序号,汽车使用年限(年),汽车维修费用(百元),1,1,4,2,3,6,3,3,7,4,5,7,合计,12,24,x,y,x,2,1,9,9,25,44,y,2,16,36,49,49,150,xy,4,18,21,35,78,建立直线回归方程并指出汽车使用年限每增加,1,年时,维修费用如何变化?,假定汽车使用年限为,4,年时,汽车维修费用为多少百元?,计算估计标准误差,已知汽车使用年限和维修费用的资料如下:序号汽车使用年限(年),Y,c,=3.75+0.75,x,当,x,=4,时:,Y,c,=3.75+0.754=6.75,(百元),b=0.75,表明当汽车使用年限每增加一年,汽车维修费用平均增加,0.75,百元,Yc=3.75+0.75x当x=4时:b=0.75表明当汽车,教育学第六章-相关与回归分析课件,三、估计标准误差,回归方程的一个重要作用在于根据自变量的已知值推算因变量的可能值。这个可能值或称估计值、理论值、平均值,估计标准误差是,y,的实际值与估计值离差的一般水平。,回归方程的代表性如何,一般是通过估计标准误差指标的计算来加以检验。,三、估计标准误差回归方程的一个重要作用在于根据自变量的已知值,式中,S,yx,表示估计标准误差,下标,yx,表示,y,依,x,而回归的方程。,y,是因变量实际值,,y,c,是根据回归方程推算出来的因变量估计值。,分母,n-2,称为回归估计自由度。因为模型,y,c,= a + bx,中包括估计量,a,和,b,,因此失去了两个自由度。在实际应用中,有时为了方便也采用,n,来计算。,估计标准误差计算原理与标准差基本上相同,计算公式为:,式中Syx表示估计标准误差估计标准误差计算原理与标准差基本上,将,y,c,= a + bx,代入上述误差公式,可得出以下简化公式:,将yc = a + bx代入上述误差公式,可得出以下简化公式,例,根据表,6-4,的资料计算估计标准误差。,例,根据表6-4的资料计算估计标准误差。,估计标准误差是有计量单位,其数值越大,反映实际值与估计值的差距越大,说明回归方程或回归线的代表性小,回归估计的准确性低;反之。,只有在估计标准误差相对较小的情况下,用回归方程作出的估计或预测才具有实用价值。,估计标准误差是有计量单位,某企业上半年产品产量(千件)与单位成本(元)资料如下:,月份,产量(千件),单位成本(元),1,2,73,2,3,72,3,4,71,4,3,73,5,4,69,6,5,68,合计,21,426,某企业上半年产品产量(千件)与单位成本(元)资料如下:月份产,某企业上半年产品产量(千件)与单位成本(元)资料如下:,月份,产量(千件),单位成本(元),x,2,y,2,xy,1,2,73,4,5329,146,2,3,72,9,5184,216,3,4,71,16,5041,284,4,3,73,9,5329,219,5,4,69,16,4761,276,6,5,68,25,4624,340,合计,21,426,79,30268,1481,某企业上半年产品产量(千件)与单位成本(元)资料如下:月份产,r,=-0.9091,Y,c,=,77.37-1.82,x,X,c,=35.45-0.45,y,r=-0.9091,习题答案:,1,、(,3,),0.9882,(,4,),y,c,= -0.36 + 2.284x,(,5,),4.2%,(,6,),0.8323,2,、(,1,),y,c,= 77.37 1.82x,(,2,),66.45,元 (,3,),3.95,千件,习题答案:,
展开阅读全文