多元回归分析--课件

上传人:风*** 文档编号:171605675 上传时间:2022-11-28 格式:PPT 页数:78 大小:4.26MB
返回 下载 相关 举报
多元回归分析--课件_第1页
第1页 / 共78页
多元回归分析--课件_第2页
第2页 / 共78页
多元回归分析--课件_第3页
第3页 / 共78页
点击查看更多>>
资源描述
Multiple Linear Regression Analysis1ppt课件一元线性回归模型复习一元线性回归模型复习一个自变量X与一个因变量Y作散点图模型形式 Y=0+1X+回归直线模型的F检验,T检验,(P值相同,作用等价)R2决定系数-相关系数2ppt课件房屋售价 房价房价Y,受面积,受面积X1影响影响,还有影响因素吗?受地域x2(市中心与否),结构x3影响(高层与砖混)3ppt课件汽车销售汽车销售若公司管理人员要预测来年该公若公司管理人员要预测来年该公司的汽车销售额司的汽车销售额y时,影响销时,影响销售额的因素售额的因素-广告宣传费广告宣传费x1还有个人可还有个人可支配收入支配收入x2,价格价格x34ppt课件研究地区经济增长GDP,受劳动力投入人数x1影响!还有:资本要素,科还有:资本要素,科技水平的影响技水平的影响 5ppt课件多元回归应用 例:财政收入y为因变量。自变量如下:x1工业总产值,x2农业总产值,x3建筑业总产值,x4人口数,x5社会商品零售总额。例:股票价格Y,自变量为每股收益X1,每股帐面价值X2。例:失业的时间长度Y(月),自变量有学历x1,年龄x2,工龄X3.6ppt课件多元回归模型(multiple regression model)描述因变量 y 依赖于自变量 x1,x2,xk 和误差项 的方程,称为多元回归模型0 0,1 1,2 2 ,k k是参数是参数 是被称为误差项的随机变量是被称为误差项的随机变量 包含在包含在y y里面但不能被里面但不能被k k个自变量的线性关系所解释个自变量的线性关系所解释的变异性的变异性7ppt课件地区地区GDPGDP就业人员就业人员(万人)(万人)投资投资(亿元亿元)北北 京京 3663.10858.62169.26 天天 津津 2447.66419.71039.39 河河 北北 7098.563389.52477.98 山山 西西 2456.591469.51100.86 内蒙古内蒙古 2150.411005.21174.66 辽辽 宁宁 6002.541861.32076.36 吉 林 2522.621044.6969.03 黑龙江 4430.001622.41166.18 多元回归样本数据多元回归样本数据8ppt课件多元多元回归模型回归模型n 1n(k 1)(k 1)1n 1 YX模型矩阵表示模型矩阵表示i01i12i2ki,kiiid2iYXXX,N(0,)i1,2,.,n其中且01111k12212k21nn1nknkY1XXY1XXY1XX9ppt课件多元回归模型基本假定多元回归模型基本假定1.误差项是一个期望值为0的随机变量,即E()=02.对于自变量x1,x2,xk的所有值,的方差 2都相同3.误差项是一个服从正态分布的随机变量,即N(0,2),且相互独立10ppt课件多多元线性回归方程元线性回归方程的形式为 E(y)=0+1 x1+2 x2+k xk描述因变量 y 的平均值或期望值平均值或期望值如何依赖于自变量 x1,x2,xk的方程11ppt课件YX1X201122YXXSlope for variable X1Slope for variable X2多元回归方程几何意义Multiple Regression Equation12ppt课件最小二乘估计ppxxYE110)(最小 SSE:2110YYSSExxYpp13ppt课件14ppt课件YX1X222110XbXbbYYi Yix2ix1i The best fit equation,Y,is found by minimizing the sum of squared errors,e2 样本观测回归残差示意图Residual=i =(Yi Yi)15ppt课件普通最小二乘估计普通最小二乘估计对于随机抽取的n组观测值kjniXYjii,2,1,0,2,1),(如果样本函数的参数估计值已经得到,则有:KikiiiiXXXY22110i=1,2n根据最小二乘原理,参数估计值应该是下列方程组的解 0000210QQQQk其中2112)(niiiniiYYeQ2122110)(nikikiiiXXXY16ppt课件于是得到关于待估参数估计值的正规方程组:kiikikikiiiiikikiiiiiikikiiikikiiXYXXXXXYXXXXXYXXXXYXXX)()()()(221102222110112211022110 解该(k+1)个方程组成的线性代数方程组,即可得到(k+1)个待估参数的估计值,jjk 012。17ppt课件正规方程组的矩阵形式nknkknkkiikikikiiiikiiYYYXXXXXXXXXXXXXXXXn212111211102112111111即YXX)X(由于XX满秩,故有 YXXX1)(18ppt课件多元回归方程模型系数由样本数据估计得到i011i22ikkiYXXX估计值估计值Estimated(or predicted)value of Y斜率斜率Estimated slope coefficients截距截距Estimatedintercept用 Excel 计算得到回归系数19ppt课件馅饼Pie销售量sale,受价格price的影响。还受广告费Advertising 的影响20ppt课件馅饼销售Sales=0+1(Price)+2(Advertising)星期销售价格广告费WeekPie SalesPrice($)Advertising($100s)13505.503.324607.503.333508.003.044308.004.553506.803.063807.504.074304.503.084706.403.794507.003.5104905.004.0113407.203.5123007.903.2134405.904.0144505.003.5153007.002.7Multiple regression equation:21ppt课件多元回归结果Regression StatisticsMultiple R0.72213R Square0.52148Adjusted R Square0.44172Standard Error47.46341Observations15ANOVA dfSSMSFSignificance FRegression229460.02714730.0136.538610.01201Residual1227033.3062252.776Total1456493.333 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888ertising)74.131(Adv ce)24.975(Pri-306.526 Sales22ppt课件多元回归方程ertising)74.131(Adv ce)24.975(Pri-306.526 Salesb1=-24.975:表明每表明每周销售量将减少,周销售量将减少,价格增加美元,价格增加美元,销售量平均减少销售量平均减少 24.975 个,(假个,(假设广告的效果不变)设广告的效果不变)b2=74.131:表明销表明销售量增加,广告费售量增加,广告费增加美元,增加美元,销售平均增加销售平均增加 74.131个周个周,(假设价格不变)(假设价格不变)23ppt课件用模型预测预测价格为$5.50,广告费为$350:预测销量为 428.62 pies428.62(3.5)74.131 (5.50)24.975-306.526 ertising)74.131(Adv ce)24.975(Pri-306.526 Sales注意:单位百元,$350 意味 X2=3.524ppt课件模型的检验模型的检验系数的检验系数的检验拟合度检验决定系数拟合度检验决定系数25ppt课件误差平方和的分解误差平方和的分解越小越好越大越好假设不变26ppt课件多重判定系数-可决系数-拟合优度(multiple coefficient of determination)1.回归平方和占总平方和的比例2.计算公式为3.因变量取值的变差中,能被多元回归方程所解释的比例 27ppt课件Regression StatisticsMultiple R0.72213R Square0.52148Adjusted R Square0.44172Standard Error47.46341Observations15ANOVA dfSSMSFSignificance FRegression229460.02714730.036.538610.01201Residual1227033.3062252.776Total1456493.333 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888.5214856493.329460.0SSTSSRr2销量变化的销量变化的52.1%,由价格和广告,由价格和广告因素解释因素解释决定系数28ppt课件 随着自变量个数的不断增加,会使得R2不断增加,因此在作拟合优度检验的判定时,一般采用调整的R2,以消除自变量的个数以及样本量的大小对R2的影响。TSSRSSpnnRTSSRSSTSSESSR11112229ppt课件修正多重判定系数修正多重判定系数(adjusted multiple coefficient of determination)1.为避免增加自变量而高估 R2,需要用样本量n和自变量的个数k去修正R2得到 计算公式为意义与 R2类似,数值小于R2目的是惩罚过多使用不重要的自变量目的是惩罚过多使用不重要的自变量。用于比较多个模型用于比较多个模型30ppt课件Regression StatisticsMultiple R0.72213R Square0.52148Adjusted R Square0.44172Standard Error47.46341Observations15ANOVA dfSSMSFSignificance FRegression229460.02714730.0136.538610.01201Residual1227033.3062252.776Total1456493.333 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888.44172r2adj销量变化的销量变化的44.2%由价格和广告解释。由价格和广告解释。Adjusted r231ppt课件回归方程显著性F检验1.提出假设H0:12k=0 线性关系不显著H1:1,2,k至少有一个不等于0.计算检验统计量F3.分子自由度k、分母自由度n-k-1得出统计量F,得到检验值4.作出决策:确定显著性水平和比较,P 拒绝H0利用F统计量进行总体线性显著性检验32ppt课件6.53862252.814730.0MSEMSRFRegression StatisticsMultiple R0.72213R Square0.52148Adjusted R Square0.44172Standard Error47.46341Observations15ANOVA dfSSMSFSignificance FRegression229460.02714730.016.53860.01201Residual1227033.3062252.776Total1456493.333 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept306.52619114.253892.682850.019957.58835555.46404Price-24.9750910.83213-2.305650.039-48.576-1.3739Advertising74.1309625.967322.854780.014917.553130.70888总体线性显著性检验F Test for Overall SignificanceP-value for the F Test33ppt课件H0:1=2=0H1:1 和 2 不全为=.05df1=2 df2=12 检验统计量检验统计量:判定判定:结论结论:因为统计量在拒绝域(p-value .05),拒绝 H0结果说明至少有一个自变量影响结果说明至少有一个自变量影响0 =.05F.05=3.885拒绝H0不能拒绝 H06.5386MSEMSRF临界值临界值:F =3.885F F 检验意义检验意义F34ppt课件检验的值计算F检验临界值35ppt课件单个自变量回归系数的检验1.提出假设H0:i=0 (自变量 xi 与 因变量 y 没有线性关系)H1:i 0 (自变量 xi 与 因变量 y有线性关系)2.计算检验的统计量 t36ppt课件Regression StatisticsMultiple R0.72213R Square0.52148Adjusted R Square0.44172Standard Error47.46341Observations15ANOVA dfSSMSFSignificance FRegression229460.02714730.016.538610.01201Residual1227033.3062252.776Total1456493.333 CoefficientsStandard Errort StatP-valueLower 95%Upper 95%Intercept306.52619114.253892.682850.0199357.58835555.46404Price-24.9750910.83213-2.305650.03979-48.57626-1.37392Advertising74.1309625.967322.854780.0144917.55303130.70888价格价格t=-2.306,p-value.03979广告费广告费 t=2.855,p-value.01449单个变量显著性检验37ppt课件d.f.=15-2-1=12=.05t/2=2.1788Inferences about the Slope:t Test ExampleH0:i=0H1:i 0检验统计量在拒绝域(p-values 3041ppt课件一、EXCEL软件计算:将输入的X1,x2,x3,xk,排列在一起,再输入Y的观察值。在“工具工具”栏栏“数据分析数据分析”中选中选“回归回归”在数据区中选X时多个变量一起选中,Y的区域。得到回归系数值与检验值42ppt课件43ppt课件44ppt课件EXCEL多元回归系数检验多元回归系数检验分行分行编号编号不良贷不良贷款款(亿元)亿元)Y各项贷款余各项贷款余额额(亿元)(亿元)x1x1本年累计应收本年累计应收贷款贷款(亿元)(亿元)x2x2贷款项目个贷款项目个数数(个)(个)x3x3本年固定资产投本年固定资产投资额资额(亿元)(亿元)x4x410.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.262.716.22.212.271.6107.410.71720.2812.5185.427.11843.891.096.11.71055.9102.672.89.11464.3110.364.22.11142.7124.0132.211.22376.7130.858.66.01422.8143.5174.612.726117.11510.2263.515.634146.7163.079.38.91529.945ppt课件46ppt课件CoefficientsCoefficients标准误差标准误差t Statt StatP-valueP-valueInterceptIntercept-1.021639763-1.0216397630.7823720.782372-1.30582-1.305820.2064340.206434各项贷款余额各项贷款余额(亿元)(亿元)x1x10.0400393530.0400393530.0104340.0104343.8374953.8374950.0010280.001028本年累计应收贷款本年累计应收贷款(亿元)(亿元)x2x20.1480338910.1480338910.0787940.0787941.8787381.8787380.0749350.074935贷款项目个数贷款项目个数(个)(个)x3x30.0145293530.0145293530.0830330.0830330.1749830.1749830.8628530.862853本年固定资产投资额本年固定资产投资额(亿元)(亿元)x4x4-0.029192866-0.0291928660.0150730.015073-1.93677-1.936770.067030.0670347ppt课件逐步回归法 在多元线性回归中,最难的是如何选择自变量的问题,如果自变量选的太少,则自变量对Y的决定系数太小,导致过大的偏差,如果把与Y有关的自变量都选入是不可能的。多个自变量间的相关会给回归方程的实际解释上造成麻烦,即多重共线性的影响。最优方程:最优方程:要求进入回归方程的自变量都是显著的,未进入回归方程的自变量都是不显著的。48ppt课件变量选择过程1.在建立回归模型时,对自变量进行筛选2.选择自变量的原则是对统计量进行显著性检验将一个或一个以上的自变量引入到回归模型中时,是否使得残差平方和(SSE)有显著减少。如果增加一个自变量使SSE的减少是显著的,则说明有必要将这个自变量引入回归模型,否则,就没有必要将这个自变量引入回归模型确定引入自变量是否使SSE有显著减少的方法,就是使用F统计量的值作为一个标准,以此来确定是在模型中增加一个自变量,还是从模型中剔除一个自变量3.变量选择的方法主要有:向前选择、向后剔除、逐步回归、最优子集等 49ppt课件向前选择(forward selection)1.对k个自变量分别拟合对因变量的一元线性回归模型,共有k个,然后找出F统计量的值最高的模型及其自变量,并将其首先引入模型 2.分别拟合引入模型外的k-1个自变量的线性回归模型 3.如此反复进行,直至模型外的自变量均无统计显著性为止50ppt课件向后剔除(backward elimination)1.先对因变量包括所有k个自变量的回归模型。然后去掉一个自变量,这个自变量是使模型的SSE值减小最少的自变量,被挑选出来并从模型中剔除2.如此反复进行,一直将自变量从模型中剔除,直至剔除一个自变量不会使SSE显著减小为止51ppt课件逐步回归(stepwise regression)1.将向前选择和向后剔除两种方法结合起来筛选自变量2.在增加了一个自变量后,它会对模型中所有的变量进行考察,看看有没有可能剔除某个自变量。如果在增加了一个自变量后,前面增加的某个自变量对模型的贡献变得不显著,这个变量就会被剔除3.按照以上方法不停地增加变量并考虑剔除以前增加的变量的可能性,直至增加变量已经不能导致SSE显著减少4.在前面步骤中增加的自变量在后面的步骤中有可能被剔除,而在前面步骤中剔除的自变量在后面的步骤中也可能重新进入到模型中52ppt课件 *2、赤池信息准则和施瓦茨准则、赤池信息准则和施瓦茨准则 为了比较所含解释变量个数不同的多元回归模型的拟合优度,常用的标准还有:赤池信息准则赤池信息准则(Akaike information criterion,AIC)nknAIC)1(2lnee施瓦茨准则(Schwarz criterion,SC)nnknAClnlnee 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模型中增加该解释变量。53ppt课件 Eviews的估计结果显示:中国居民消费二元例中:AIC=6.68 SC=6.83 中国居民消费一元例中:AIC=7.09 SC=7.19从这点看,可以说前期人均居民消费CONSP(-1)应包括在模型中。54ppt课件含有虚拟自变量的回归55ppt课件虚拟自变量(dummy variable)1.用数字代码表示的定性自变量2.虚拟自变量可有不同的水平只有两个水平的虚拟自变量比如,性别(男,女)有两个以上水平的虚拟自变量贷款企业的类型(家电,医药,其他)3.虚拟变量的取值为0,156ppt课件虚拟自变量的回归1.回归模型中使用虚拟自变量时,称为虚拟自变量的回归2.当虚拟自变量只有两个水平时,可在回归中引入一个虚拟变量比如,性别(男,女)3.一般而言,如果定性自变量有k个水平,需要在回归模型中引进k-1个虚拟变量57ppt课件虚拟自变量的回归58ppt课件虚拟自变量的回归(考试成绩与性别的散点图)考试成绩与性别的散点图考试成绩与性别的散点图255075100性别考试成绩男 女59ppt课件虚拟自变量的回归引进虚拟变量时,回归方程表示为E(y)=0+1x男(x=0):E(y)=0男学生考试成绩的期望值女(x=1):E(y)=0+11女学生考试成绩的期望值注意:当指定虚拟变量0,1时0总是代表与虚拟变量值0所对应的那个分类变量水平的平均值1总是代表与虚拟变量值1所对应的那个分类变量水平的平均响应与虚拟变量值0所对应的那个分类变量水平的平均值的差值,即 平均值的差值=(0+1)-0=160ppt课件虚拟自变量的回归(例题分析)61ppt课件虚拟自变量的回归引进虚拟变量时,回归方程写为 E(y)=0+1x1+2x2女(x2=0):E(y|女性)=0+1x1男(x2=1):E(y|男性)=(0+2)+1x1 0表示:女性职工的期望月工资收入(0+2)表示:男性职工的期望月工资收入 1表示:工作年限每增加1年,男性或女性工资的平均增加值 2表示:男性职工的期望月工资收入与女性职工的期望月工资收入之间的差值(0+2)-0=262ppt课件用虚拟自变量回归解决方差分析问题63ppt课件设对某种职业者的工资采集了设对某种职业者的工资采集了10个样本,列于下表,个样本,列于下表,工资单位略去,性别栏中工资单位略去,性别栏中1表示男性,表示男性,0表示女性表示女性。序号序号12345678910工资工资22.0 19.0 18.0 21.7 18.5 21.0 20.5 17.0 17.5 21.2性别性别1001011001我们以性别为自变量建立回归模型我们以性别为自变量建立回归模型iiiDY1064ppt课件序号序号工资工资性别性别122121903180421.71518.506211720.518170917.501021.21回归系数分析回归系数标准误标准化的betat显著性常数项 18.0000 0.3118 57.73500.0000变量0002 3.2800 0.4409 0.9347 7.4392 0.0001方差分析表平方和自由度均方F值显著性回归 26.89601 26.8960 55.3416 0.0001残差 3.88808 0.4860总和 30.78409回归方程工资=18.000000+3.2800*性别65ppt课件iiDY28.300.181t对表中数据回归得 它表示,女性的平均工资为18,男性的平均工资为18+3.28=21.28。由于回归系数的统计量为7.44,远大于临界值0.44,非常显著,故认为该项工作男女工资存在差别。66ppt课件具体(社会经济)问题具体(社会经济)问题设置指标变量设置指标变量收集整理数据收集整理数据修改修改构造理论模型构造理论模型估计模型参数估计模型参数模型运用模型运用经济因素分析经济因素分析经济变量控制经济变量控制经济决策预测经济决策预测模型检验通过模型检验通过?NY67ppt课件例如,描述税收与税率关系的拉弗曲线:抛物线 s=a+b r+c r2 c0 s:税收;r:税率三 非线性回归 例如,Cobb-Dauglas生产函数:幂函数 Q=AKLQ:产出量,K:投入的资本;L:投入的劳动68ppt课件非线性回归非线性回归1.1.因变量因变量 y y 与与 x x 之间不是线性关系之间不是线性关系2.2.可通过变量代换转换成线性关系可通过变量代换转换成线性关系3.3.用最小二乘法求出参数的估计值用最小二乘法求出参数的估计值4.4.并非所有的非线性模型都可以化为线性并非所有的非线性模型都可以化为线性模型模型69ppt课件1.多项式模型 在只有一个自变量的情况下,多项式模型形式如下:2.对数模型 对数模型方程为:.2210 xbxbby)(xbLnay上一页下一页返回本节首页70ppt课件双曲线1.基本形式:2.线性化方法令:y=1/y,x=1/x,则有y=+x3.图像71ppt课件幂函数曲线1.基本形式:2.线性化方法两端取对数得:lg y=lg+lg x令:y=lgy,x=lg x,则y=lg+x3.图像72ppt课件对数曲线1.基本形式:2.线性化方法x=lnx,则有y=+x3.图像73ppt课件指数曲线1.基本形式:2.线性化方法两端取对数得:lny=ln+x令:y=lny,则有y=ln+x3.图像74ppt课件S 型曲线1.基本形式:2.线性化方法令:y=1/y,x=e-x,则有y=+x3.图像75ppt课件非线性回归(例题分析)【例例】一种商品的需求量与其价格有一定的关系。现对一定时期内的商品价格x与需求量y进行观察,取得的样本数据如表11.16。试判断商品价格与需求量之间回归函数的类型,并求需求量对价格的回归方程废品率与生产率的关系废品率与生产率的关系价格价格(元元)x12345678910需求量需求量(千克千克)y5850443834302926252476ppt课件非线性回归(例题分析)价格与需求量的散点图价格与需求量的散点图020406080051015价格需求量77ppt课件非线性回归(例题分析)1.用双曲线模型:2.按线性回归的方法求解和,得78ppt课件
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!