薪酬设计回归分析

上传人:z****2 文档编号:181218493 上传时间:2023-01-11 格式:DOCX 页数:33 大小:141.23KB
返回 下载 相关 举报
薪酬设计回归分析_第1页
第1页 / 共33页
薪酬设计回归分析_第2页
第2页 / 共33页
薪酬设计回归分析_第3页
第3页 / 共33页
点击查看更多>>
资源描述
相关与回归分析第一节简单线性相关分析一、相关关系的概念与种类(一)相关关系的概念在自然界和人类社会中, 普遍着存在现象之间的相互依赖、相互制约的关系。一些现象在数量上的发展变化经常伴随着另一些现象数量上的发展变化。现象间的数量关系可分为两种基本类型:函数关系。它是指现象间存在的严格依存的、确定的因果关系,一种现象的数量变化必然决定着另一种现象的数量变化,这种关系可通过精确的数学表达式来反映,比如,圆面积同其半径的关系为 s=n r2,自由落体落下的距1 2离同时间的关系为h= gt2,等等。相关关系。指的是现象之间确实存在着数量关2系,但这种关系不是严格确定的,当一种现象的数量发生变化时,另一种现象的数量可能在一定范围内发生变化,出现不同的数值。比如,单位产品成本同产量之间的关系,一般说来,当工厂规模扩大,产品产量增加时,单位产品成本会随之下降,这种 变化趋势体现了规模经济的效应,具有客观性和普遍性。 但由于影响产品成本的因素众多,有主要的,也有次要的,有必然的,也有偶然的,有随机的,也有非随机的, 有观察得到的,也有观察不到的,等等。同一产量水平下,可能会出现各种各样的单 位成本,或者某一确定的单位成本对应着不同的产量,两者的关系不是唯一确定的。 粮食收获量与施肥量之间、商品价格与需求量之间、 身高与体重之间等都具有类似的特征,这种关系就是相关关系。函数关系与相关关系既有区别,又有联系。由于观察和实验中的误差,函数关系往往通过相关关系表现出来;而当对现象之间的内在联系和规律性了解得更加清楚的 时候,相关关系又可能转化为函数关系。在社会经济领域里,一般说来,函数关系反 映了现象间关系的理想化状态,相关关系则反映了现象间关系的现实化状态,只有在大量观察时,在平均的意义上,它才能被描述。综上所述,相关关系是现象之间确实存在的,但关系数值不固定的相互依存关系。 相关分析则是研究一个变量与另一个变量或另一组变量之间相关密切程度和相关方 向的一种统计分析方法。(二)相关关系的种类现象之间的相关关系是很复杂的,从不同的角度看,相关关系有不同的种类。1. 固定相关和随机相关。 按变量的性质(是否是随机变量),相关关系可分固定相关和随机相关。固定相关是指一个随机变量与另一个或一组非随机变量之间的的相关 关系。例如,农作物的施肥量是一个可控制的变量,农作物收获量是一个不确定的变量,两个变量之间的关系表现为一个随机变量与另一个非随机变量之间的固定相关。随机相关是指一个随机变量与另一个或一组随机变量之间的相关关系。例如,大学生的身高和体重之间的关系就是两个随机变量之间的随机相关关系,如果观察某一身高的一组学生时,其体重各不相同,会形成一个分布;如果观察某一体重的一组学生时, 其身高也不相同并形成一个分布,两个变量均为随机变量。2. 简单相关和多元相关。按变量的多少,相关关系可分为简单相关和多元相关。 简单相关,又称单相关,是指一个随机变量与另一个随机变量或非随机变量之间的相 关关系;多元相关,又称复相关,是指一个随机变量与另一组随机变量或非随机变量 之间的相关关系。按变量之间的相关方向不同, 简单相关又可分为正相关和负相关。当自变量的值增加,因变量的值也相应地增加;自变量的值减少,因变量的值也随之减少时,这样 的相关关系就是正相关。反之,当自变量的值增加时,因变量的值随之减少;自变量 的值减少时,因变量的值反而增加,具有这种特点的相关关系就是负相关。多元相关可进一步分解为简单相关和偏相关。 偏相关是指在测定一个随机变量与 某个或某些随机变量或非随机变量之间的相互关系后,该随机变量与某一新增加的随机量或非随变量之间的相关关系,又称之为净相关。3. 线性相关和非线性相关。按变量之间的相关形式,相关关系可分为线性相关和非线性相关。若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系表 现为线性组合时,则称它们之间的相关关系为线性相关。反之,若一随机变量与另一个或一组随机变量或非随机变量之间的相关关系不能表现为线性组合,而只能表现为非线性组合时,则称它们之间的相关关系为非线性相关。4. 完全相关、不完全相关和不相关。按变量之间的相关程度不同,相关关系可分为完全相关、不完全相关和不相关。若一个变量的值完全由另一个或一组变量的值所 决定,则称变量之间的这种相关关系为完全相关,即函数关系。若一个变量的值与另一个或一组变量的值有关, 但其中要受到随机因素的影响,则称变量之间的这种相关关系为不完全相关。 若一个变量的值完全不受另一个或一组变量值的影响,则称变量之间不相关。大量社会经济现象之间的相关关系都属于不完全相关,不完全相关是相关分析的基本内容。完全相关和不相关可视为相关关系中的特例。二、简单线性相关图表判定两变量之间的相关程度和相关方向是简单线性相关分析的重要内容之一。其最简单、最直观的方法就是列相关表、绘制相关图。简单线性相关简单线性相关关系有固定简单线性相关与随机简单线性相关之分。图表可用于直观地表明这两类简单线性相关变量之间的相关程度和相关方向。(一)固定简单线性相关图表已知有两个变量,设 y是随机变量,x是非随机变量,对应于 x的每一个给定的 取值,y有多个可能的取值,但在一次试验中,y只取其中一个可能值。由于x是非随机变量,在实验中其取值可以控制并重复进行,所以在n次试验中,x可能取n个相同或不同的值,相应地也有n个y的值,即得到一一对应的样本资料(x,y)。将这些数据按x的取值由小到大依次对应排列,即构成固定简单线性相关表,又称之为一维相关表。例9.1某地区居民人均收入水平 (x)与其食品支出占生活费支出比重(y)之间具有相关关系,编制相关表如下(见表9-1):表9-1一维相关表人均收 入水平 (元)x2803203905306506707908809101050食品支 出占生 活费支 出比重(%)y68.367.566.264.956.760.254.449.050.543.6从表9-1可以粗略看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重有下降的趋势。将一一对应的(x,y)描点于坐标系上,即构成散点图,又称相关图。在相关图上, 以横轴表示非随机变量(x),以纵轴表示随机变量(y),通过观察各对变量值坐标点 的分布状况,可以大致判断变量之间相关的形态、方向和密切程度。利用表9-1资料,可绘制相关图如下(见图9-1):%重比的出支用费活生占出支品食80706040 30 -5020 -10 -x01002003004005006007008009001000 1100人均收入水平(元)图9-1居民人均收入水平与其食品支出的关系图从图9-1可以看出,随着居民人均收入水平的提高,食品支出占生活费支出的比重明显降低,并大致呈线性下降趋势,即负线性相关。一些常见的相关分布状态可用下述各图表示(见图9-2):xxx xx xx较显著的线性正相关较显著的线性负相关xxxx x不相关不显著的线性负相关图9-2几种常见的相关散点图(二)随机简单线性相关图表设x、y为两个随机变量,将观测值 (x,y)分组之后按顺序排列,x从小到大排 列,y从大到小排列,形成一棋盘式平衡表,称之为二维相关表。例9.2 某地区为研究降雨量和农作物平均每亩收获量的关系,从40个降雨量不同的试验田中获得40对数据。用x表示降雨量,y表示平均每亩收获量。据此可编出二维相关表如下(见表9-2)。该表中,中间每一格列出的是 x、y的联合频数,它表明 x和y同时取某值的次 数;最后一列每一格是每一行的联合频数的和, 它表明y取某值的次数;最后一行每 一格则是每一列的联合频数的和,它表明 x取某值的次数。表9-2二维相关表从表9-2可以粗略看出,降雨量与收获量之间大致呈线性正相关关系。利用表9-2资料,可绘制相关图如下(见图9-3):232 2 2 -12 1 62 3 11:;280斤公量获收亩每均平260 )24022020018016014012010080604020 00246810 121416 18 20降雨量(毫米)图9-3降雨量与收获量之间相关图三、简单相关系数(一)简单相关系数的意义简单线性相关图表虽然直观,但不能精确地描述现象间的相关关系。测量两个变量之间线性相关程度和相关方向的指标,称为简单相关系数。总体相关系数一般用 R表示,定义式为2 XY、R(式 9.1)X Y式中, x和y表示变量X和Y的标准差,对有限总体而言,其计算公式为r(xX I N(式 9.2)(式 9.3)2xy表示两个变量 X和Y之间的协方差,计算公式为2XY(X X)(X Y)N(式 9.4)这里,变量X和Y为总体变量,N为总体单位数,X和y分别为变量X及Y的总体平均数,计算式为XXNYN(式 9.5)(式 9.6)要理解相关系数R的意义,首先要明确协方差2XY和标准差 x、 Y在反映变量之间相关关系中的作用。协方差 2XY反映了变量X和Y的共变性,可以显示两个变量的相关方向和相关 关系的密切程度,它可能出现以下几种情况:第一,所有相关点均为正相关,则2xy0 ,说明两个变量之间正线性相关。第二,所有相关点均为负相关,则2XY 0 ,说明两个变量之间负线性相关。第三,在全部相关点中,既有正相关、又有负相关和零相关,在计算协方差时就 会出现正负抵销。抵销的结果如为正数则是正相关,如为负数则是负相关。数值大表示相关程度强,数值小则表示相关关系弱。若正、负全部低销掉了,结果为零,则表 示不相关。第三种情况是实际经济生活中最常见到的情况。 此外,还有两种极端的情况: 当 所有相关点都是零相关时, 抵销结果为零,表示两个变量完全没有相关关系。 当所有 相关点全部落在直线上时,表示两个变量完全线性相关,即存在函数关系。进一步,相关系数是一个界于 +1和-1之间的数,即-1 RW 1,若R=1,说明两 个变量之间存在完全正线性相关;若R=-1说明两个变量之间存在完全负线性相关;若0 R 1,说明两个变量之间存在一定程度的正线性相关;若 -1 R 0, 说明两个变量之间存在一定程度的负线性相关;若R=0说明两个变量之间没有线性相关关系。(二)简单相关系数的计算在实际工作中,总体相关系数 R一般是未知的,往往需要用样本资料推断总体的 相关情况,因而需要计算样本相关系数。1. 固定简单线性相关系数的计算设x和y为样本变量,其中y为随机变量,x为非随机变量,n为样本容量,X、 y分别为变量x及y的样本平均数,sx、sy和s2xy分别表示变量x和y的样本标准差及它们之间的样本协方差,其计算为(式 9.7)(式 9.8)- xxn- yynSx(x x)2n(式 9.9)Sy(y y)2n(式 9.10)2S xy(x x)(y y)(式 9.11)曰是,n就可得到与总体相关系数计算形式相同的样本相关系数(记为r)的公式2S xy(式 9.12)SxSy经过简单的推导,上式还可变化为下面易于计算的形式n xy x yn x2 ( x)2 . n y2 ( y)2(式 9.13)根据表9-1的资料计算相关系数如表9-3 所示:表9-3固定简单线性相关系数计算表序号水平收元)22xyxy食品支岀占生 活费支岀比重x(%)y128068.3784004664.8919124232067.51024004556.2521600339066.21521004382.4425818453064.92809004212.0134397565056.74225003214.8936855667060.24489003624.0440334779054.46241002959.3642976888049.07744002401.0043120991050.58281002550.254595510105043.611025001900.9645780合计6470581.3481430034466.09355959将表9-3数字代入上述相关系数计算公式,得:n xy x yn x2( x)2、n y2( y)2103559596470581.3丿厂=-0.9810481430064702 ,1034466.09581.322. 随机简单线性相关系数的计算如果x和y均为随机变量,计算样本相关系数的基本式仍为2s xySxS但由于存在联合频数(fij),其具体的计算略有变化,经过不复杂的类推可得下 式1k xiYj 1ijXi 1L yjffi Xfj(Xif2 ,fj2 r yj fj(yjfj)2(式 9.14)根据表9-2资料计算相关系数,计算过程如表9-4、表9-5、表9-6所示:表9-4 降雨量(x)数据的计算表降雨量(毫米)x if i2XiXif iXi2fi83642419210610060600121414416820161411196154215616525680128018132418324合计405046568表9-5平均每亩收获量(y)数据的计算表平均每亩收获量(公 斤)yjfj2y;yjfj2丄 yj fj1603256004807680018033240054097200200134000026005200002201148400242053240024065760014403456002604676001040270400合计4085201842400表9-6平均每亩收获量(y)数据的计算表降雨量(毫米)x i平均每亩收获量(公斤)yjfijXi% fj816011280818011440820011600101601160010200360001022024400121601192012180243201220061440012220379201224025760142003840014220515400142402672014260136401622013520162402768016260283201626014680合计40109000根据以上各表资料可得:fj Xjyjfj Xi f yj fjr i=.fi Xi2 fi( Xi fi) fj yj2 fj ( yj fj)2=4010900050485204065685042 .40184240085202=0.67四、相关系数的统计推断总体相关系数 R一般是未知的,能够计算出的只是样本相关系数r,r虽然能够提供关于总体相关程度与方向的某种信息,r愈大,在一定程度上说明总体相关程度愈高,但也可能犯错误。这就需要根据样本资料对总体相关系数R进行检验和估计。(一)关于总体相关系数 R的检验由于相关系数r的分布复杂,不能直接利用它去进行统计推断,但如果设Zr= ln() (式 9.15)21R1 1rzr = - ln() (式 9.16)2 1r可以证明,当样本(x,y )抽自正态分布总体时,zr近似服从平均值为 Zr,方差1为的正态分布,于是n 3z=(z r-ZR) , n 3 (式 9.17)近似服从标准正态分布。据此可以检验R=R(Ro 0)禾U用例9.1资料,计算的样本相关系数r=-0.98,是否可以认为总体相关系数R=-0.90,统计假设为H: R=-0.90H: R -0.90此时,21R1 1rzr= ln( )2 1.r于是,检验统计量1 10.90、ln() =-1.4722 10.90丄叫 一)=-2.298210.98z=(z r-ZR)、n 3=(-2.298+1.472)103=-2.185当显著水平a =5%时,查正态分布表可得ZZ 0.0251.96 Z 2.186 ,2故否定H),接受H,即不能认为总体的相关系数R=-0.90。同理,也可以对总体相关系数进行单边检验。(二)关于总体相关系数 R的区间估计首先,求出Zr的估计区间。若与估计保证程度对应的概率度为z, Zr的估计区间就为-2.298-1.96.10 3Zr-2.298+1.96 10 3zzZr-ZZ r +.n 3n 3对于例9.1 , Zr的95%置信估计区间为即-3.039Zr -1.557根据Zr的置信区间,可以换算出R的置信区间:1 1R当 Zr= ln( ) =-3.039 时,R=-0.992 1Re 11 R、n,当 Zr=|n( ) =-1.557 时,R=-0.9221R计算结果说明,居民人均收入水平与食品支出占生活费支出比重之间的总体相关 系数R的95%勺置信区间为-0.99至-0.92。同理,也可类似地对例9.2进行分析,请读者自己思考。第二节简单线性回归分析一、回归分析的概念和种类从历史上看,“回归”概念的提出是要早于“相关”的,生物统计学家高尔顿在 研究豌豆和人体的身高遗传规律时,首先提出“回归”的思想。1887年,他第一次将“回复” (Reversion )作为统计概念使用,后改为“回归”(Regression ) 一词。1888年他又引入“相关” (Correlation )的概念。原来,他在研究人类身高的遗传 时发现,不管祖先的身高是高还是低,成年后代的身高总有向一般人口的平均身高回归的倾向。通俗的讲就是,高个子父母,其子女一般不象他们那样高,而矮个子父母,其子女一般也不象他们那样矮,因为子女的身高不仅受到父母的影响(尽管程度最 强),还要受其上两代共四个双亲的影响(尽管程度相对弱一些),上三代共八个双亲的影响(尽管程度更加弱一些),如此等等,即子女的身高要受到其 2(n趋近无穷) 个祖先的整体(即总体)影响,是遗传和变异的统一结果。回归和相关已成为统计学中最基本的概念之一,其分析方法已是最标准、最常用的统计工具之一。从狭义上看,相关分析的任务主要是评判现象之间的相关程度高低 以及相关的方向的,而回归分析则是在相关分析的基础上进一步借用数学方程将那种 显著存在的相关关系表示出来,从而使这种被揭示出的关系具体化并可运用于实践中 去。但也常从广义的角度去理解相关和回归,此时回归分析就包含着相关分析。回归分析最基本的分类就是一元回归和多元回归,前者是指两个变量之间的回归分析,如收入与意愿支出之间的关系;后者则是指三个或三个以上变量之间的关系, 如消费支出与收入及商品价格之间的关系等。进一步,一元回归还可细分为线性回归和非线性回归两种,前者是指两个相关变量之间的关系可以通过数学中的线性组合来描述, 后者则没有这种特征, 即两个相关 变量之间的关系不能通过数学中的线性组合来描述,而表现为某种曲线模型。二、简单线性回归方程总体的简单线性回归模型可表示为Y=A+BX+e (式 9.18)上式中,X称为自变量,Y称为因变量,e称为随机误差值。从这里可以看出相关分析与回归分析的显著区别,在前述的相关分析中通常可以将变量X和Y视作是某种“对等”的因素,而在这里的回归分析中,它们却是不“对 等”的。自变量是解释变量或预测变量,并假定它是可以控制的无测量误差的非随机变量;相反,因变量是被解释变量或被预测变量,它是随机变量,即相同的Y可能是由于不同的X所造成,或者相同的 X可能引起不同的 Y,其表现正是随机误差项 e。 随机误差值e是观察值Y能被自变量X解释后所剩下的值, 故又称为残差值,它是随 机变量。A和B为未知待估的总体参数,又称其为回归系数。由此可见,实际观测值Y被分割为两个部分:一是可解释的肯定项A+BX二是不可解释的随机项 e。与相关分析类似,总体的回归模型Y=A+BX+e是未知的,如何根据样本资料去估计它就成为回归分析的基本任务。由此可以假设样本的回归方程如下:Y? a bx (式 9.19)上式中,Y?、a和b分别为丫、A和B的估计值。如果对变量X和Y联合进行n次观察,就可以获得一个样本(x,y),据此就可 求出a、b的值。求a、b的方法有多种,但一般是采用最小平方法。它要求观察值y与估计值丫?的离差平方和达到最小值,即Q (y Y?)2(ya bx)2=最小值满足这一要求的a和b可由下述标准方程求出解方程得:(式9.20)(x x)(y y)(x x)2a y bx b (式 9.21) n n例9.3为研究某类企业的生产量和单位成本之间的关系,现随机抽取10个企业,得如下数据(见表9-7 ):根据该资料,经计算可得表 9-8 :表9-7 10 个企业的生产量和单位成本情况编号12345678910产量(万件)2344566789单位成本(元/件)52545248484645444038表9-8一兀线性回归计算表编号产量(万件)x单位成本(元/件)y2x2 yxy彳y-Y?12524270410454.35-2.3523549291616252.101.90345216270420849.852.15444816230419247.85-1.85554825230424047.600.40664636211627645.350.65764536202527045.35-0.35874449193630843.100.90984064160032040.85-0.851093881144434238.60-0.60合计54467336 ;220532422 :4670由上表资料,可得:n xy x yn x2( x)2102422544672= - 2.2510 3365446754(2.25)= 58.851010这样就可以得到生产量(x)和单位成本(y)之间的样本回归方程Y? a bx =58.85-2.25x在简单线性回归方程 Y? a bx中,a为截距,b为斜率,后者表示自变量x变 化一个单位时,Y?将平均变化b个单位。当b取正值时,表明x和y的变化方向相同, 当b取负值时,表明x和y的变化方向相反。本例中,b =-2.25,表明产量每增加1万件时,单位成本将平均下降2.25元。根据样本资料获得的回归方程 Y? a bx又称为经验方程,如果计算出观察值 y 的估计值Y?,并进一步求出残差 y-Y?,就可以观察回归方程对总体方程拟合的优良 程度。对于某一特定的自变量 x而言,观察值y同其估计值Y?是有一定差别的,比如, 当产量为5万件时,实际单位成本为48元,而其估计值为 47.60元,两者相差0.4元,但全部残差项之和等于零 (见表9-8),这说明估计值平均来说是无偏的。事实上,最小平方估计量还满足下式工(y- Y?)=0即 y Y?这里,Y?表示估计值Y?的平均值,即Y?n从理论上讲,最小平方法具有优良特性,因为参数 A、B的最小平方估计量 a、 b是最优的线性无偏估计量,这一性质通常称为“高斯一马尔科夫定理” ,这也是最 小平方法获得广泛应用的主要原因。此外,如果记随机误差项e的方差为c2,它也是未知的总体参数,其无偏估计量为?2Qn 2(y Y?)2n 2(式 9.22)上式中,Q (y Y?)2称为剩余离差平方和或残差平方和,n-2为自由度。三、离差分析对于某一个观察值y,其离差大小可通过观察值yi与全部观察值的均值 y之差yi- y表示出来,yi - y又可进一步分解为Y?- y和yi-Y?两部分,即yi- y =( Y?- y)+( yi- Y?)可以证明,当变量 X和Y之间线性相关时,还进一步存在下述等式关系(y-y)2= (W- y)2+ (y-Y?)2通常记2t=( y- y)r=( Y?- y)2Q (y Y)2分别称T、R和Q为总离差平方和、回归离差平方和和剩余离差平方和。总离差 平方和反映了样本中全部数据的总波动程度;回归离差平方和反映了回归估计值自身的离散程度,它是由于回归方程及自变量x取值不同所造成的,是可以解释的差别;剩余离差平方和是回归拟合后所剩下的部分,是不能解释的变差,故又称为残差平方和。显然,T中R的比重愈大,或者Q的比重愈小,则说明线性回归拟合愈好, 反之, 拟合就愈差。由此可以建立下述指标(式 9.23)称r2为样本相关程度的判定系数,r=为样本相关系数。由此就可直观地看出r2和r的特性:2(1)r 1 或-1 r +1:)|r|愈接近于1,相关程度愈强;|r|愈接近于0,相关程度愈弱。(3) r取正值时表明正相关,r取负值时表明负相关。(4) r只能表明总体是否可能存在线性相关,当|r|很小甚至接近于 0时,只能说明总体可能不存在线性相关,但是否存在非线性相关还需进一步判定。从计算角度看,上述几种离差还可表示为2 2 1 2T= ( y-y) = y2( y)2nR= (Y?- y)2=b2 (x - x)2=b2 x2 -( x)2nQ(yY)2 =T-R对于例9.3,有T= y21(y)21=22053-X2(467) =244.10n102 1 2X 336-X (54) =224.78R= b22 x1(x) =(-2.25)n10Q =T-R=244.1-224.78=19.32计算结果说明:单位成本的总离差平方和为244.10,其中由于产量变化所造成的为224.78,占92.09%,由于产量以外的所有因素共同造成的为19.55,占8.01%。据此计算的相关系数为四、统计推断依据样本数据得到的经验回归方程,是否能够较好地拟合了总体的实际情况,必须通过统计检验加以判断。可以证明:当变量 Y服从正态分布时,从中随机抽取样本(x,y),回归系数 A和B的最小平方估计值 a和b也服从正态分布,其平均值分别为a =A(式 9.24)b =B(式 9.25)方差分别为2 x22 x2n (x x)22 1 2n x -( x)n(式 9.26)2(x x)2(式 9.27)2 1 2x2-( x)2n于是,就可建立两个标准正态统计量(式 9.28)(式 9.29)并且,2 2a和b的计算式中般未知,但其无偏估计量为?2 旦(y Y)2n 2n 2据此对A和B进行统计假设检验的步骤如下(仍以例9.3的资料):(1)检验A 第一步:建立统计假设H):A=OH:A 0第二步:计算z统计量由于?2Q 19.32=2.415n 21022 2? x2 1 2n x ( x)n2.415 336=1.8281210 336542 ?a1.828 =1.352因此,检验统计量为a A 58.850 =43.5281.352第三步:确定显著水平,做出判断若设 =5%经查表得zZo 975 =j96z=43.528,拒绝零假设,即认为回1 2归系数A显著的不为零。(2)检验B同理,可对回归系数 B进行检验。若统计假设为H):B=QH:B此时2.415x2 丄(x)2n=0.0541233654210.Q.Q54 =Q.233检验统计量2.250 =-9.657Q.233由于zz0975=1.96|z|=9.657,拒绝零假设,即认为回归系数B也显著的不1 一2等于零,说明单位成本同产量之间存在显著的线性相关关系。与前面的讨论类似,也可对A和B进行单边检验以及 A和B是否显著的与某一确 定值相同或不相同的检验。但通常进行的是对 A=0和B=0的检验。对A=0的检验是考察回归直线是否通过坐标原点;由于B表示X变化一个单位时对 Y的影响程度,因此对B=0的检验实际是考察这种程度是否为零,即是否存在线性相关关系。另外,通过最小平方法获得的 a和b只是A和B的点估计量,在此基础上可进 步给出它们的区间估计。当置信度为1 a时,A和B的置信区间分别为(式 9.30 )这里b- b A b +(式 9.31 )a=Zl(式 9.32)b = Zi(式 9.33)2对于例9.3,当置信概率为95%寸a=Z?a =1.96 X 1.352=2.65aa1 -2?b = Z?b=1.96 X 0.233=0.461 一2于是可得A和B的置信区间分别为AAB58.85-2.65即 56.20-2.55-0.46即-3.0158.85+2.6561.50-2.55+0.462.09五、回归预测拟合的回归方程及其参数通过检验后, 时,Y的点预测量为经常要应用它去预测,显然,给定X=X0Y的置信度为Y? a bx(式 9.34)1-的区间预测量为Y0Y Y0+ Y0(式 9.35)这里丫0(式 9.36)2Y。21(X。接上面的例子,X)2_2 J(x X)21当产量为(X X) (式 9.37 ) x)2X2丄(n10万件时,单位成本的点预测值为Y? a bx0=58.85-2.2510=36.35 (元)由于2Y0?21 1(xo X)22_1X2-( X)22.4151 102336 丄 54210=3.807Yo = , 3.807 =1.951当产量为10万件,置信度为95%寸,由于?Y =z?Y =1.96 X 1.95仁3.82Yo 1 _ 丫02于是可得单位成本的预测区间为36.35-3.82 Y 36.35+3.82即 32.53 元 Y 40.17 元必须指出的是,给定的 X0如果在样本(X!, X2,,Xn)的最小值至最大值之间取 值,预测过程称为内插预测,否则,称为外推预测。进行外推预测时,误差一般较大,这是由两方面原因引起的:一是X0远离X,二是回归方程通过检验后,虽然能代表总体的线性相关关系,但这种关系只能在样本范围内成立,在其之外就有可能出错误, 并且,随着情况的变化,原样本也可能不再能反映总体的现状,这样,预测的效果就 不好甚至失败。第三节多元线性回归与相关分析一、多元线性回归分析简单线性回归与相关分析是对客观现象之间的关系进行高度简化的结果,但在实际问题中,影响因变量的因素往往不只一个,而是多个。比如,产品的成本不仅取决于该产品的生产量,而且也与原材料价格、技术水平、管理水平等因素有关;再如, 影响农作物收获量的因素,除施肥量外,还有种子、气候条件、耕作技术等因素。多 元线性回归与相关所研究的就是三个或三个以上的变量之间的数量关系问题。总体的多元线性回归方程为Y=A+BXi+B2X2+BX+e(式 9.38 )总体回归方程一般未知,需要通过样本去估计。设估计方程为Y? = a+biXi+b?X2+bkXk(式 9.39 )上式中,a、bi、b2、bk称为回归系数,其中,bi(i=1,2,,k)又称为偏回 归系数,它表示当其它自变量均为零时,Xi每变化一个单位对因变量影响的数值。设样本为(xi, X2,,xk, y),利用最小平方法可估计出回归方程中的参数,即 要求Q=s (y- Y?)2=sy -( a+bixi+b2X2+bkXk) 2=最小值据此可得下列联立标准方程工 y=n a +biX xi+b2X2+bkX Xk2工 xiy= a 工 x计bi S xi +b2xiX2+bkxixk2S X2y= a S X2+biS XiXz+b?X2 + +bkS x?Xk2S Xky= a S Xk+bi S XiXk+b2 S X2Xk +bk S Xk当k=2时,标准方程为变为S y=n a +bi S xi+b2S X22S Xiy= a S Xi+bi S Xi+b?S XiX22S X2y= a S X2+biS xiX2+b2 S X2解方程,可得b(X2X2)(XiXi)(yy)(XiXi)(X2X?)(x?X?)y)bi222(Xi Xi) (X2 X2) (Xi Xi ) (X2 X2)(式 9.40 )b (XiXi)2(X2X2)(y旳(XiXJ(X2X2)(XiXj(yV)2 2 2 2(Xi Xi) (X2 X2) (Xi Xi) (X2 X2)(式 9.42)(式 9.4i )a = yb1xib2x2dib22n nn为计算方便,上述各因子项还可表示为2 (xi22 iXi ) =2 Xi -(2 xi) 2(式 9.43 )n2 ( X222 iX2) =2 X2 -2(2 X2)(式 9.44)n2 (XiXi )( X2X2 )=i2 xiX2 -2 Xi 2 X2 (式 9.45 )1工(y y)2=x y2-(工 y) 2 (式 9.46)n_i、工(X!x1 )(yy )=工 xly -工 xi y(式9.47 )n_i、工(x2x2)(yy )=工 X2y -工 X2y(式9.48)n可以证明,最小平方估计量 a、bi、b2、bk是总体参数 A、B、R、B的最优线性无偏估计量。例9.4为研究某商品的需求量、价格、消费者收入三者之间的关系,经调查得如表9-9所示资料:表9-9某商品的需求量、价格及消费者收入资料编号需求量(件)收入(百元)价格(元)iioi5328io538i8447io3548666io57ioi938iii629ioi8iio597根据上表资料,可得如表9-10的回归计算表:据表中数据,如果设需求量(y)与收入(x i)及价格(x 2)之间的回归方程为:Y?=a +biXi+bx2可通过最小平方法求出a、bi和b2,经计算可得:_ii工(xi xi )2=2 xi2 -(工 Xi)2=i935-i332=i66.ini022 i2i 2工(X2 X2) =2 X2 -(工 X2) =i83-39 =30.9nio编号需求量(件)y收 入(百 元)Xi价格(元)X22 y2Xi2X2X1X2XiyX2yi1015310022594515030281056410025508040381846432416721443247103491009307021548616643648322466105361002550603071019310036195719030811162121256432176229101811003241181801010597258149634535合计791333967519351834651127 1274X2表9-i0回归数据计算表_ 1 1X2 )= 2 xiX2 -2 Xi 2 X2=456-133 39=-53.710Xi )(XiXiX22 :y) =2 yXi )(X2)(i 2-(2 y) =675- n丄10279 =50.9iy=ii27-i33 79=76.3- iy )=工 xiy -工 Xi 2ni0- iiy )= 2 X2y -2 X22 y=274-39ni079=-34.1是可得bi30.976.3 ( 53.7) ( 34.i)=0.234i66.i 30.9 ( 53.7)2b2i66.i ( 34.i)( 53.7) 76.3=-0.697i66.i 30.9 ( 53.7)279 a =y bXi b2x2 =-0.234i0空-(-0.6971039 =7.506i0从而可得经验方程Y = a+bix计bx2=7.506+0.234x i-0.697x 2回归方程表明:在价格不变情况下,消费者收入增加i百元时,对该商品的需求平均上升0.234件;在消费者收入不变情况下,价格每上涨1元时,对该商品的需求平均下降0.697件。从数学角度看,回归方程 Y?=7.506+0.234x i-0.697x 2是一个以Y?为纵坐标轴、Xi 和X2为横坐标轴的回归平面。此外,回归方程Y=A+EBXi+BX2+BX+e中的随机误差项e的方差2也是未知的, 其无偏估计量为?2 Q (y Y?)2n k 1 n k 1上式中,n-k-1为自由度。从这里可以看出,样本容量n必须大于或等于k+2,即nK+2,否则就无法估计b 2。事实上,实践中进行回归分析时,样本观察值数目 要比k+2大得多。、多元线性相关分析对多元线性回归方程而言,总离差平方和T同样可以分解为回归离差平方和R及残差平方和Q两部分,即T=R+Q由此,可以定义出样本的复判定系数,即2 R r =(式 9.49)Tr2反映了经验方程对总体线性相关关系的拟合优度的大小,其值愈大,说明回归方程的拟合优度愈高,反之,拟合优度愈低。显然,0W r2w 1, r称为复相关系数,它测定了因变量 y与k个自变量X1、X2、xk之间线性相关程度的大小。r称为复相关系数,它为Rr=.(式 9.50).T对于例9.4,由于2 2 1 2 1 2t= ( y - y) = y ( y) =675-x(79)=50.9n10Q (y Y?)2= y2 a y D x b? x?y=675-7.50679-0.2341127-(-0.697)274=9.286R=T-Q =50.9-9.286=41.614因此可得2 R 41.614 ccc r =0.82T 50.9r=0.82 =0.90复相关系数r总是取正值,因为在多个自变量情况下,偏回归系数有两个以上, 无法说明y与k个x变量线性关系的方向。与简单线性回归及相关分析不同, 一般说来,进行多元线性回归分析时, 随着自 变量个数的增加,总离差平方和 T虽不发生变化,但回归离差平方和 R却随之增大, 残差平方和Q随之缩小。对于例9.4,若只进行需求量(y)和收入(xi)之间的回归分析,设回归方程为Y = a +bixi此时,a和bi的取值分别为n 驾 人 y 10 1127 133 279 =0.459n x12 ( x1)210 1935 1332y 为79 门133ab-0.459=1.795n n 1010回归方程为Y =1.795 + 0.459x1此时2 2 1 2 1 2T= ( y- y )2= y2( y)2=675- X (79) 2=50.9n10R= ( Y?- y )2= bj 1( xj2n212=(0.459) X 1935- X (133) =34.9910Q=T-R=50.9-34.99=15.91由此可以看出,价格因素(X2)未加入前,R=34.99 ,它小于价格因素(X2)加入后的R=41.614,两者相差 41.614-34.99=6.624,它表示在原方程 Y=a+b1X1的基础上,将价格因素(X2)纳入后而净增加的回归离差平方和,称之为价格(X2)效应,并用RX2/X1表示。当k=2时,如果将未加入X2之前的R、Q分别记作RX1和QX1,纳入X2之后的R、Q分别记作Rx1 ,x2和Qx1,x2,于是有下列关系RX1,X2 =RXi + RX2/XiRX2 /Xi =QXi - QX1,X2对于例9.4,有氏心= RX1 + RX2/X1 =34.99+6.624=41.614RX2 /Xi =QX1 - QX1,X2 =15.91-9.286=6.624由上面的讨论知道,复判定系数r2及复相关系数r同自变量的个数k有关,k愈 大,r2值也愈大。有时,某个变量同因变量之间没有什么明显的关系,但将其纳入方 程后,也能增加r2的值,这样就造成r2或r高估了变量间的相关程度。因此,应当 对r2的值加以修正,其一般修正式是2=1-(1-r 2) -(式 9.51)n k 1式中,n为样本容量,k为自变量的个数,r2为原来的复判定系数,2为修正后的复判定系数。当n较大而k较小时,2和r2之间的差别较小,修正作用微弱;反之,当 n较小而k较大时,2就远远小于r2,此时修正作用明显。对于例9.4,修正后的2为210 1r =1-(1-0.82)=0.7710 2 1在多元线性相关分析中,既可以用复相关系数来度量y与k个变量X1、X2、Xk之间的相关程度,也可以用简单相关系数来度量 y与其中的某一变量 Xi(i=1,2,, k)之间的相关程度,以此来比较自变量对因变量的影响中哪一个更显著。但由于在多变量的回归与相关分析中,许多问题都复杂起来, 比如,任意两个自变量都有可能存在相关关系,此时,简单相关关系中就或多或少地掺杂着其它变量的影响,从而使简单相关系数在反映两个变量之间的相关程度上具有一定的虚假性,只能是粗略的度 量。事实上,在多元线
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!