公司金融案例--线性回归分析

资源描述

回归分析过程浙江财经学院金融学院朴哲范一、回归分析概述一、回归分析概述1.回归方程回归分析是处理变量x与y之间统计关系的一种统计方法和技术。如果要由x预测y的值，就要利用x与y的观察值，即样本观测值x1，y1，x2，y2，xn，yn来建立一个公式，当给定x值后，就代入此公式中算出一个y值，这个值就称为y的预测值。如何建立这个公式？1绘制散点图2建立线性函数：y=+x2.回归方程线性方程式y=+x中的参数，还不知道，这就需要由样本数据来进行估计，估计出，的值后，以估计值分别代替线性方程式中的，得到方程这个方程就称为回归方程。这里因为因变量y与自变量x的关系呈线性关系，因此我们也称上述方程为线性回归方程，是线性回归方程所画出的直线在y轴上的截距，为直线的斜率，它们分别被称作回归常数与回归系数。具体（社会经济）问题设置指标变量搜集整理数据构造理论模型估计模型参数模型检验模型运用经济变量控制经济因素分析经济决策预测修改建立实际问题回归模型的过程1.根据研究的目的，设置指标变量2.搜集整理统计数据3.确定理论回归模型的数学形式4.模型参数的估计5.模型的检验与修改6.回归模型的运用二、二、一元线性回归一元线性回归一元线性回归是描述两个变量之间统计关系的最简单的回归模型。例1 假定一保险公司希望确定居民住宅火灾造成的损失数额与该住户到最近的消防站的距离之间的相关关系，以便准确地确定出保险金额，表1列出了15起火灾事故的损失及火灾发生地与最近的消防站的距离。距消费站距离3.41.84.62.33.15.50.73.0火灾损失26.217.831.323.127.536.014.122.3距消费站距离2.64.32.11.16.14.83.8火灾损失19.631.324.017.343.236.426.1参数的估计参数的估计线性回归方程的显著性检验线性回归方程的显著性检验1.相关系数的显著性检验由于一元线性回归方程讨论的是变量x与y之间的线性关系，所以我们可以用变量x与y之间的相关系数来检验回归方程的显著性。当 r=0 时，说明变量之间不存在线性相关关系；当 0 r 1时，说明变量之间存在一定程度的正相关关系；当-1 r 0时，说明变量之间存在一定程度的负相关关系；当r=1 或 r=-1 时说明变量之间完全正相关或完全负相关。设总体 X 和 Y 的相关系数为 r，那么检验的原假设和对立假设为：其中零假设表示：假设变量之间不存在线性相关关系。检验时采用的统计量为：F F检验及决定系数检验及决定系数总平方和反映因变量y的波动程度或称不确定性，在建立了y对x的线性回归后，总平方和SST就分解成回归平方和SSR与残差平方和SSE这两个组成局部，其中SSR是由回归方程确定的，也就是由自变量x的波动引起的，SSE是不能用自变量解释的波动，是由x之外的未加控制的因素引起的。这样，总平方和SST中，能够由自变量解释的局部为SSR，不能由自变量解释的局部为SSE。这样，回归平方和SSR越大，回归效果就越好，可以据此构造F检验统计量：在零假设成立的情况下，F 统计量服从F分布，第一个自由度为1，第二个自由度为n 2，即 F F(1，n 2)。决策的规则是：对于给定的显著水平，若F F(1，n 2)就拒绝原假设。由回归平方和与残差平方和的意义我们知道，如果在总的离差平方和中，回归平方和所占的比重越大，那么线性回归效果就越好，这说明回归直线与样本观测值拟合优度就越好；如果残差平方和所占比重大，那么回归直线与样本观测值拟合得就不理想。这里把回归平方和与总离差平方和之比定义为样本觉得系数，记为：性质1：决定系数r2是一个回归直线与样本观测值拟合优度的相对指标。r2的值总是在0和1之间，那么r2越接近于1，拟合优度就越好，反之亦然。性质2：回归方程的显著性检验与r2值的大小是一致的，即检验越显著，r2就越大，但是这种关系并不是完全确定的，在样本容量n很大时，对高度显著的检验结果仍然可能得到一个小的r2。导致r2小的可能原因有两个，第一是线性回归不成立，第二是y与x之间确实符合线性模型，只是误差项方差大导致r2小，这时在样本容量你很大时，检验结果仍然可能得出线性回归显著的结论。2.5 残差分析残差分析l一个线性回归方程通过了t检验或F检验，只是说明变量y与x之间的线性关系是显著的，或者说线性回归方程是有效的，但不能保证数据拟合得很好，也不能排除由于意外原因而导致的数据不完全可靠。只有当与模型中的残差项有关的假定满足时，才说明模型有效。l2.5.1 残差的概念：实际观测值y与通过回归方程给出的回归值之差，l残差ei可以看做是误差项的估计值。2.5.2残差图分析模型的有效性。残差图分析模型的有效性。l一般认为，如果一个回归模型满足所给出的根本假定，所有残差应是在e0附近随机变化，并在变化幅度不大的一条带子内。l残差图：以自变量x作横轴，以残差为纵坐标，讲相应的残差点画在直角坐标系上，就可以得到残差图。具体作法：l1.计算残差：回归分析主对话框中选择save按钮，Residuals选项下的Unstandardized选项，按continue，在原数据文件中参加残差值，l2.画残差图。GraphScatterl例:火灾损失与距离消防站的远近的回归分析l2.5.3改进的残差3.回归系数的区间估计回归系数的区间估计l当我们用最小二乘法得到0，1的点估计后，在实际应用中往往还希望给出回归系数的估计精度，即给出其置信水平为1的置信区间。这个区间以1的概率包含参数0，1。置信区间的长度越短，说明估计值与0，1接近的程度越好，估计值就越精确。l应用spss软件计算回归系数的区间估计：在线性回归对话框中，点击StatisticsConfidence interval，这样，在回归系数表中就增加了回归系数的区间估计。4.预测与控制预测与控制l建立回归模型的目的是为了应用，而预测和控制是回归模型最重要的应用。l4.1单值预测l4.2区间预测l4.2.1因变量新值的区间预测l4.2.2因变量新值的平均值的区间估计 4.3控制问题4.1单值预测单值预测l单值预测就是用单个值作为因变量的预测值。即当x0新值时，求出y0的预测值。l单值预测只是一个大概值，我们除了想知道预测值外，还希望知道预测值得精度，这就要作区间估计。4.2区间预测区间预测l给一个预测范围比只给出单个预测值更可信，这个问题也就是：应用应用SPSS软件直接计算预测值软件直接计算预测值1.单值预测：在计算回归之前，把自变量新值x0输入样本数据中，在回归分析主对话框中点击Save按钮在save对话框中点击Predicted ValuesUnstandardized2.因变量新值的区间预测：在save对话框中点击Predicted intervalsIndividul3.因变量新值平均值的区间预测在save对话框中点击Predicted intervalsmean例：火灾损失与距离消防站远近，x03.5公里，预测火灾损失额。5.应用应用SPSS软件进行一元线性回归分析软件进行一元线性回归分析1、执行Analyze Regression Linear命令，翻开对话框1从源文件量清单中选择一个数值型变量移入 Dependent框中，选择一个变量作为自变量移入Independent 框中2选择回归模型的自变量的进入方式Enter 所有选择自变量全部进入方式3Save选项下选择Residuals 下的Unstandardized选项4点击OK6.一元线性回归模型建立小结一元线性回归模型建立小结l第一步，提出因变量与自变量l第二步，搜集数据l第三步，根据数据画散点图l第四步，设定理论模型l第五步，用SPSS软件计算，输出计算结果l第六步，回归诊断，分析输出结果实习实习1：l应用人均国民收入表中的数据建立人均消费金额与人均国民收入的回归模型。数据资料为：l 2006年SPSS教学资料/第八周教学资料/人均国民收入表.sav实习实习2：l下表为四组数据，分别对此四组数据进行回归分析，并做显著性检验。l实验数据文件为：2006年SPSS教学资料/第八周教学资料/回归显著性比较.sav第一组x第一组y第二组x第二组y第三组x第三组y第四组x第四组y44.2643.145.3986.5855.6854.7455.7385.7667.2466.1366.0887.7174.8277.2676.4488.8486.9588.1486.7788.4798.8198.7797.1187.04108.04109.14107.4685.25118.33119.26117.8185.561210.84129.13128.1587.91137.58138.741312.7486.89149.96148.1148.841912.5第三节第三节多元线性回归多元线性回归l3.1多元线性回归模型l3.2回归参数的估计l3.3回归方程的显著性检验l3.4逐步回归l3.5应用spss软件选项进行多元线性回归分析3.1多元线性回归模型多元线性回归模型一、多元线性回归模型的一般形式二、多元线性回归方程的解释二、多元线性回归方程的解释以p2为例。在建立空调机销售量的预测模型时，用y来表示空调机的销售量，用x1表示空调机的价格，用x2表示消费者可用于支配的收入。那么可以建立二元线性回归模型：3.2 回归参数的估计回归参数的估计l回归参数可以应用普通最小二乘估计。l具体计算可以通过spss软件进行。l例1 中国民航客运量的回归模型。为了研究我国民航客运量的变化趋势及其成因，我们以民航客运量作为因变量y，以国民收入、消费额、铁路客运量、民航航线里程、来华旅游入境人数为影响民航客运量的主要因素。根据?1994年统计摘要?获得19781993年统计数据。建立中国民航客运量的回归模型，应用spss软件进行参数估计。3.3 回归方程的显著性检验回归方程的显著性检验一、F检验对多元线性回归方程的显著性检验就是要看自变量x1，x2，xp从整体上对随机变量y是否有明显的影响。为此，提出原假设：结论：1.如果原假设被接受，那么说明随机变量y与自变量之间的关系由线性回归模型表示不适宜。类似一元线性回归检验。2.如果拒绝原假设，那么说明自变量全体对因变量y产生显著性影响。二、回归系数的显著性检验二、回归系数的显著性检验在多元线性回归中，回归方程显著并不意味着每个自变量对y的影响都显著，因此，我们总想从回归方程中剔除那些次要的、可有可无的变量，重新建立更为简单的回归方程。所以就需要对每个自变量进行显著性检验。显然，如果某个自变量xj对y的作用不显著，那么在回归模型中，它的系数就取值为零。因此，检验变量xj是否显著，等价于检验假设：l回归系数的显著性检验应用t检验，具体检验方法同一元线性回归方程的t检验。例2，某地区1973-1990年水稻产量y和水稻播种面积x1，化肥施用量x2，生猪存栏数x3以及水稻扬花期降雨量x4的数据资料，用回归分析过程对该地区水稻产量建立回归模型，并对回归系数进行显著性检验。回归方程检验的小结回归方程检验的小结1.F检验是检验自变量全体对因变量y是否产生显著影响2.t检验室检验每个自变量对因变量y是否产生显著影响。3.当一个回归方程通过了F检验之后，并不能说明这个回归方程中所有的自变量都对因变量y有显著影响，因此，还要对回归系数进行检验。三、回归系数的置信区间三、回归系数的置信区间l应用spss软件计算回归系数区间估计。l线性回归分析主菜单中，单击statistics按钮，翻开statistics对话框。l对话框Regression Coefficients栏用于选择输出与回归系数有关的统计量，选择其中的Confidence intervals 选项，就可以输出回归系数的95置信区间。l例：运用“中国民航客运量.sav数据文件中的数据计算回归系数的置信区间。四、多元回归方程的拟合优度检验四、多元回归方程的拟合优度检验l多元回归方程的拟合优度同样应用样本决定系数来检验。方法同一元线性回归方程。l在输出结果model summary 中。3.4逐步回归逐步回归l回归自变量的选择是建立回归模型的一个极为重要的问题。应用spss软件中回归方法的选择可以进行自变量的选择。l一、前进法Forwardl二、后退法Backwardl三、逐步回归法Stepwise一、前进法一、前进法l前进法的思想是变量由少到多，每次增加一个，直至没有可引入的变量为止。l具体作法是首先将全部m个自变量，分别对因变量y建立m个一元线性回归方程，并分别计算这m个一元回归方程的m个回归系数的F检验值，选择其中最大的F值，如果此F值大于F的临界值，那么首先将xj引入回归方程，为了方便，设xj就是x1。l接下来因变量y分别与x1，x2，x1，x3，x1，xm建立m1个二元线性回归方程，对这m1个回归方程中x2，x3，xm的回归系数进行F检验，选择其中最大的引入回归方程。l依上述方法接着做下去。直至所有未被引入方程的自变量的F值均小于F的临界值。这时，得到的回归方程就是最终确定的方程。l例：运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析，用前进法做变量选择，取显著性水平二、后退法二、后退法l后退法与前进法相反，首先用全部m个变量建立一个回归方程，然后在这m个变量中选择一个最不重要的变量，将它从方程中剔除。l具体作法是首先计算所有变量的回归系数的F检验值，取其最小值Fj，如果Fj小于0.5水平下的F临界值，那么把回归系数检验的F值最小者对应的自变量剔除。l接下来对剩下的m1个自变量重新建立回归方程，进行回归系数的显著性检验，如上述方法剔除掉F检验值最小的自变量，依此下去，直至回归方程中所剩余的p个自变量的F检验值均大于临界值，没有可以剔除的自变量为止。这时得到的回归方程就是最终确定的方程。l例：例：运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析，用后退法做变量选择，取显著性水平前进法与后退法的缺乏前进法与后退法的缺乏l前进法与后退法都有明显的缺乏。l前进法可能存在的问题是，不能反映引进新的自变量后的变化情况。因为某个自变量开始可能是显著的，但当引入其它自变量后它变得并不显著了，但是也没有时机将其剔除，即一旦引入，就是“终身制的；l后退法的缺乏之处是，一开始把全部自变量引入回归方程，这样计算量很大，如果有些自变量不太重要，一开始就不引入，就可以减少一些计算。另外，一旦某个自变量被剔除，“一棍子就把它打死了，它再也没有时机重新进入回归方程了。三、逐步回归三、逐步回归l逐步回归的根本思想是有进有出。l具体作法是：将变量一个一个引入，当每引入一个自变量后，对已经选入的变量要进行逐个检验，当原引入的变量由于后面变量的引入而变得不再显著时，要将其剔除。引入一个变量或从回归方程中剔除一个变量，为逐步回归的一步，每一步都要进行F检验，以确保每次引入新的变量之前回归方程中只包含显著的变量。这个过程反复进行，直到既无显著的自变量选入回归方程，也无不显著自变量从回归方程中剔除为止。这样就防止了前进法和后退法各自的缺陷，保证了最后所得到的回归子集时最优回归子集。l例：运用水稻产量数据文件的资料对水稻产量y关于播种面积等4个变量作回归分析，用逐步回归做变量选择。l注意：引入自变量和剔除自变量的显著性水平进小于剔除自变量的显著性水平否那么可能产生“死循环。3.5应用应用spss软件选项进行多元线性回归分析软件选项进行多元线性回归分析1线性回归过程：一元、多元逐步回归。回归系数估计值、协方差矩阵、复相关系数R、因变量的最正确预测值、方差分析表2对数据要求：自变量和因变量必须具有Scale测度的数值型变量标志或范畴变量3因变量的所有观测值：相互独立的等方差的正态总体，因变量和各变量之间应具有一定的线性关系线性回归过程线性回归过程1、执行Analyze Regression Linear命令，翻开对话框线性回归过程线性回归过程1从源文件量清单中选择一个数值型变量移入 Dependent框中，选择一个或多个变量作为自变量移入Independent 框中2选择回归模型的自变量的进入方式Enter 所有选择自变量全部进入方式Stepwise 逐步回归方式Remove 移除法根据设定条件剔除局部自变量Backward 向后剔除法Forward 向前剔除法线性回归过程线性回归过程3参与分析的观测量选择规那么选择观测量的子集参与回归分析，将未选入这个子集的观测量排除在分析之外线性回归过程线性回归过程对话框中Define Selection RulelEqual to:等于lLess than or equal:小于或等于lNot equal to:不等于lLess than:小于lGreater than:大于lGreater than or equal:大于或等于线性回归过程线性回归过程4从源文件量清单中选择一个指示变量加到 Case Labels2、选项按钮的功能设置 1单击WLS按钮权重变量 2单击Statistics 按钮，翻开对话框线性回归过程线性回归过程l对话框选择输出与回归系数有关的统计量 Estimates:回归系数B的估计值、标准误差、标准化系数、t 分布 Confidence intervals:回归系数95%的置信区间 Covariance:协方差矩阵l残值栏 Durbin-Watson:DW检验，残值的序列相关检验 Casewise diagnostics:观测量的诊断方式线性回归过程线性回归过程l其他统计量l Model fit 模型拟合拟合优度统计量l R squared change:交换、F交换及其显著性l Descriptives:回归中的各变量的描述统计量l Part and partial correlation：相关系数与偏相关系数l Collinearity and diagnostics：多重共线性诊断l l l 线性回归过程线性回归过程3单击Plots按钮，翻开Plots对话框选择散点图变量，散点图DEPENDENT：因变量ZPERD：标准化预测值ZRESID：标准化残值DRESID：剔除残值ADJPRED：经调整的预测值SRESID：学生化残值SDRESID：学生化剔除残值线性回归过程线性回归过程线性回归过程线性回归过程l选择Standardized Residual Plots 栏选项,标准化残值图 Histogram Residual:Normal probability plot:l对话框Produce all partial选项，输出每一个自变量对于自变量残差的散点图线性回归过程线性回归过程3、单击Save按钮，翻开对话框线性回归过程线性回归过程(1)Predicated Value:预测栏lUnstandardized:未标准化的预测值lStandardized:标准化的预测值lAdjusted:经调整后的预测值lS.E of mean prediction value:平均预测值的标准误差(2)Distances：距离栏lMahalanobis:马氏距离lCooks:库克距离lLeverage Value:杠杆值线性回归过程线性回归过程(3)Prediction Intervals 预测区间栏l Mean:均值预测区间的上下限lIndividual:因变量的单个观测量预测区间的上下限lConfidence:置信概率(4)Residuals:残值栏(5)Influence Statistics：统计影响栏lDFBeta(s)Beta:特定观测值所引起的预测值的变化lStandardized DFBeta:标准化DFBeta值lDfFit:拟合值之差lStandardized DfFit:标准化的DfFitlCovariance ratio:协方差比率线性回归过程线性回归过程4、单击Options按钮，翻开对话框线性回归过程线性回归过程1Stepping Method Criteria:逐步回归标准栏Use probability:使用F概率作为决策变量进入Use F value:使用F统计量值(2)Include constant in equation:常数项(3)Missing Value:缺损值处理栏Exclude cases listwise:全部变量的有效观测值Exclude cases pairwise:成对地剔除Replace with mean:用变量的均值代替缺损值5、单击OK，提交系统运行实习：实习：1l验证有些回归方程通过拟和优度检验单还是通不过F检验，这就是样本容量个数n太小，而自变量又较多造成R2的虚假现象。l例：在研究建筑业降低生产本钱y对流动资金X1，固定资金x2，优良品率x3，竣工面积x4，劳动生产率x5，施工产值x6的关系时，利用“建筑业.sav数据文件中的数据建立回归方程，并对回归方程的显著性进行检验。l通过F检验单不能保证所有的回归系数都对因变量y有显著影响。

展开阅读全文

公司金融案例--线性回归分析

最新文档