概率论与数理统计:第八章 应用回归分析

上传人:努力****83 文档编号:190510376 上传时间:2023-02-28 格式:PPT 页数:35 大小:1.03MB
返回 下载 相关 举报
概率论与数理统计:第八章 应用回归分析_第1页
第1页 / 共35页
概率论与数理统计:第八章 应用回归分析_第2页
第2页 / 共35页
概率论与数理统计:第八章 应用回归分析_第3页
第3页 / 共35页
点击查看更多>>
资源描述
第八章第八章应用回归分析应用回归分析回归分析的研究对象回归分析的研究对象1)家庭收入与家庭支出的关系家庭收入与家庭支出的关系2)父母身高与子父母身高与子/女身高的关系女身高的关系3)平时作业成绩与最后的考试成绩的关系平时作业成绩与最后的考试成绩的关系4)银行利率与股票指数的关系银行利率与股票指数的关系现实世界中变量之间的关系并不总是可以用函数关现实世界中变量之间的关系并不总是可以用函数关系来表示的,比如系来表示的,比如:经验和统计数据表明,某些变量的取值相互经验和统计数据表明,某些变量的取值相互之间是有关系的之间是有关系的,不是完全无关的,这种关系称不是完全无关的,这种关系称为为统计相关关系统计相关关系。回归分析及回归方程回归分析及回归方程:回归分析回归分析就是研究变量间的统计相关关系一种统就是研究变量间的统计相关关系一种统计方法计方法.根据变元的统计数据,用一个函数来近似变根据变元的统计数据,用一个函数来近似变元间的统计相关关系,这个函数叫元间的统计相关关系,这个函数叫回归方程回归方程或或回回归函数归函数。统计相关关系统计相关关系:本例中本例中,父亲身高与儿子身高的关系就是统计相关关系父亲身高与儿子身高的关系就是统计相关关系上述高尔顿得到的近似直线方程就是回归方程上述高尔顿得到的近似直线方程就是回归方程8.1 一元线性回归一元线性回归一元线性回归的模型一元线性回归的模型:的因素。的因素。间不能用线性关系解释间不能用线性关系解释与与为误差项,它表示为误差项,它表示YX 其中,其中,X为确定性变量为确定性变量,它是可以测量和控制的它是可以测量和控制的,也称也称解释变量或自变量;解释变量或自变量;Y为被解释变量或响应变量;为被解释变量或响应变量;为为未未知知的的待待估估计计参参数数和和10 XY10根据变元(根据变元(X,Y)的一组观测值)的一组观测值代入上述一元线性回归模型,得:代入上述一元线性回归模型,得:(iix,y),(i=1,2,.,n)011,2,.,)iiiyxin(21)(0,)2)3iiiN正态性:独立性:相互独立)方差齐性:的方差相同与i无关21)(0,)2)3iiiN正态性:独立性:相互独立)方差齐性:的方差相同与i无关这三个性质是我们回归分析的前提,一般说来这三个性质是满足或近似满足的,比如正态性,我们知道误差的分布一般是服从正态分布的(事实上正态分布就是高斯研究误差时提出的)。独立性和方差齐性是为了便于分析的附加条件,严格说来,在讨论实际问题时,我们还需要对这三个条件进行检验和验证:1)2)32正态性检验方法:本书7.3.2节分布的检验,或正态分布概率纸检验独立性检验方法:独立性检验,本书8.3节参差分析)方差齐性检验:本书7.2.2节讲了两个随机变量等方差的检验,多个随机变量等方差的检验见本书8.3节参差分析回到我们的一元线性回归模型:回到我们的一元线性回归模型:其中误差项满足:其中误差项满足:011,2,.,)iiiyxin(21)(0,)2)3iiiN正态性:独立性:相互独立)方差齐性:的方差相同与i无关01iiiiiixxiii观测值(,y)即散点图中的各个点,如果没有随机误差项,这些点都将落在直线(回归方程)上,因为 的不同取值,才导致了y 可能偏离了回归直线。因为 是随机变量,因此y也都是随机变量201201(0,),)iiiiiyxNyNxi由(易 知:(,2012120121121()2122/22011()22012/20012)1)(2)1()(2)ln0ln0ln0niiiniiinyxnnyxnyyypyyyeLeLyLL 于 是,(,.,的 联 合 密 度 函 数 为:(,.,其 中,均 为 未 知 参 数。根 据 极 大 似 然 估 计 的 方 法:取 似 然 函 数,由1112122011()()()1()niixyinxxiiniiixxxyyLLxxyxn我们导出了参数的极大似然估计,但是,历史上高我们导出了参数的极大似然估计,但是,历史上高尔顿是用我们高等数学中所学过的最小二乘法导出尔顿是用我们高等数学中所学过的最小二乘法导出的,因此,一般称之为最小二乘估计的,因此,一般称之为最小二乘估计0101100 xyxxQyxLQL推导:0122min0111()()nniiiiiiQQyxyySSE 如果我们把求出的参数,代入,得:称为显然,SSE越小,表示观测值距回归直线越近,特别地:当 SSE=0 时,表示所有观测值的点都在回归残差平方和直线上。22220112(0,)1 ()2 2iniiiNSSEyxnnSSSnnSEE注意到我们已经证明:误差项中方差的极大似然估计为但这个估计不是无偏的,可以证明的无偏估计为,因此称 为一元回归的估计标准差越小,即SSE越小,它也表示回归估计标准差效果越好12211()()()()niixyinnxxyyiiiixx yyLL Lxxyy变元X与Y的相关系数的定义除残差平方和SSE,估计标准差 可以表示回归效果外,我们还可以用相关系数来表示回归的效果是:R=cov(,)()()XYX YE XEX YEYDX DYDX DY对比我们曾学过的随机变量 与 的相关系数 r=会发现他们形式上很象。事实上,变元X与Y的相关系数r的定义就是把(,)视为服从二维正态分布时,其相关系数 的极大似然估计)R00 xyxxyyLL LR变元X与Y的相关系数 R=与随机变量的相关系数也有类似的性质:1)12)|R|越大,表示变元X与Y线性关系越强,反之,则表示线性关系越弱3表示变元与是正统计相关关系,即越大则大体上也越大 R 表示变元与是负统计相关关系,即越大而大体上会越小222)nnnyyyiiiiii如果记:(y(y及前面讲到的:E(y残差平方和则可以证明:总离差平方和回归平方和离差分解公式2222)=SSE+SSR 2)()0)(0 )nnnnnyyyyyyiiiiiiiiiiiiiiiii证明:(y =(y =(y(y(yyy(yyy注其中:y y010 0nQQi是根据 所谓的正规方程,即:导出的。2SSRSSTSSRRSST 我们称回归平方和与总离差平方和的比值 为(coefficient of determination),记为:离差分解公式 可决系数或判定系数222)nSSRXYRSSTSSRRSSTyyiiii22SSEin-2注1)可以证明可决系数一定等于变元 与 相关系数 的平方,因此,可记 (证明略,提示利用正规方程)离差分解公式中,SSR=(y表示回归方程 y的离差平方和(y的均值等于),SSE是由随机误差造成的,的方差越大则SSE会越大,(是 的无偏估计)3)上述一元回归的离差分解公式,及可:决系数的定义可直接推广到多元线性回归关于上述例关于上述例1 1,请大家思考如下问题:,请大家思考如下问题:我们得到的回归方程有什么用?我们得到的回归方程有什么用?根据哪些指标可以判断回归的效果?上述回归的效果如根据哪些指标可以判断回归的效果?上述回归的效果如何?何?上例中:年龄为自变量(控制变量),体重为因变量上例中:年龄为自变量(控制变量),体重为因变量(响应变量),回归方程为:(响应变量),回归方程为:y=7.83+2.01x,那么据此那么据此方程得:方程得:x=(y-7.83)/2.01 ,它可否视为把体重作为自变,它可否视为把体重作为自变量,年龄作为因变量的回归方程?量,年龄作为因变量的回归方程?对于任意给定的一组数值(对于任意给定的一组数值(xi,yi)i=1,2,n,比如,比如xi表表示第示第i天的最高气温,天的最高气温,yi表示第表示第i天股市的收盘指数,是否都天股市的收盘指数,是否都可以像例可以像例1一样代入参数的公式并求出回归方程?一样代入参数的公式并求出回归方程?如果观测值较多,直接手算比较复杂,如何借助计算机如果观测值较多,直接手算比较复杂,如何借助计算机求解回归方程?求解回归方程?关于问题关于问题1 1:回归方程有什么用途?:回归方程有什么用途?回归方程的主要用途是预测和控制,比如根据上例的回归方程回归方程的主要用途是预测和控制,比如根据上例的回归方程 y=7.83+2.01x,我们可以预测,我们可以预测 x=2.2(岁)时儿童的体重为岁)时儿童的体重为:y=7.83+2.01*2.2=12.252(kg)-这是这是y的点估计,我们还可的点估计,我们还可以得到以得到y的区间估计。的区间估计。对于一元线性回归模型对于一元线性回归模型 ,其中误差项满足正态性,独立性,及,其中误差项满足正态性,独立性,及方差齐性的条件方差齐性的条件,给定给定 ,则对应,则对应 的点估计为的点估计为 ;当;当 n 充分充分大时,大时,置信水平为置信水平为XY100 x0010 yx0y0y2200111,yuyu的置信区间可近似表示为 此外,我们还可以求出参数此外,我们还可以求出参数22222201111111111(2),(2)(2),(2)xxxxxxxxxxnLnLLLtntntntn0011和 置信水平为的置信区间分别为:和 01和 的区间估计关于问题关于问题2:2:哪些指标可以判断回归的效果?哪些指标可以判断回归的效果?如下指标都可以直接或间接用来表示回归的效果:如下指标都可以直接或间接用来表示回归的效果:参差平方和参差平方和 SSE 估计标准差估计标准差 相关系数相关系数 R 判定系数判定系数 修正判定系数修正判定系数 ,其中其中 p为自变元个数为自变元个数 从例从例1第二问的结果看,该例回归的效果还是很好的第二问的结果看,该例回归的效果还是很好的 2R22111(1)nanpRR 关于问题关于问题3:3:能否由体重关于年龄的回归方程:能否由体重关于年龄的回归方程:y=7.83+2.01=7.83+2.01x,得出年龄关于体重的回归方程:得出年龄关于体重的回归方程:x=(=(y-7.83)/2.01=0.4975-7.83)/2.01=0.4975y3.8955 3.8955?答:不可以。事实上,如果把体重作为自变量年龄作为因变答:不可以。事实上,如果把体重作为自变量年龄作为因变 量,代入一元回归的公式,得:量,代入一元回归的公式,得:x=0.4939y 3.853;二者为何不同呢?二者为何不同呢?因为我们这里介绍的一元回归模型中,自变量与响因为我们这里介绍的一元回归模型中,自变量与响 应变量的地位是不等同的应变量的地位是不等同的.关于问题关于问题4:4:对于任意给定的一组数值(对于任意给定的一组数值(x xi i,y,yi i)i=1,2,ni=1,2,n,是否都可,是否都可以求变量的回归方程?以求变量的回归方程?可以代入参数最小二乘估计的公式求出变元的回归方程,但可以代入参数最小二乘估计的公式求出变元的回归方程,但是,如果变元是,如果变元 X 和和 Y 没有统计相关关系,这样求出的回归没有统计相关关系,这样求出的回归方程是没有意义的(如气温与股票点数);而如果回归模型方程是没有意义的(如气温与股票点数);而如果回归模型的三个条件,即正态性,独立性,方差齐性的三个条件,即正态性,独立性,方差齐性 不满足,我们就不满足,我们就无法对参数的概率特性(分布,区间估计无法对参数的概率特性(分布,区间估计 等)作出判断。等)作出判断。直观地说,如果根据变元直观地说,如果根据变元 X 和和 Y 的观测值算出的观测值算出的相关系数的绝对值越大(越接近的相关系数的绝对值越大(越接近1),即表示),即表示变元变元 X 和和 Y线性关系越强,这时拟合观测值(线性关系越强,这时拟合观测值(xi,yi)的回归方程越有意义。那么,相关系数的绝对的回归方程越有意义。那么,相关系数的绝对值要达到多大才可以求回归方程呢?值要达到多大才可以求回归方程呢?在统计上,我们是用假设检验的方法来判定变元在统计上,我们是用假设检验的方法来判定变元的线性关系是否显著,因为检验的统计量服从的线性关系是否显著,因为检验的统计量服从F分布(证明略),因此这个检验叫分布(证明略),因此这个检验叫F检验。检验。关于问题关于问题4:4:如何借助计算机算法进行回归分析?如何借助计算机算法进行回归分析?各种统计软件都有回归分析的功能,比如各种统计软件都有回归分析的功能,比如SAS,SPSS,R,包,包括括MATLAB的统计包的统计包 等,这里我们介绍等,这里我们介绍EXCEL的回归分析功能的回归分析功能操作步骤(多元回归同样操作,但利用操作步骤(多元回归同样操作,但利用EXCEL多元回归分析时多元回归分析时自变元个数不能超过自变元个数不能超过16个):个):1)把数据输入)把数据输入EXCEL表表2)点工具菜单)点工具菜单 加载宏加载宏 数据分析数据分析 回归回归对例对例1 1中数据的中数据的EXCELEXCEL回归分析结果:回归分析结果:相关系数相关系数判定系数判定系数修正判定系数修正判定系数估计标准差估计标准差F统计量观测值统计量观测值F检验的检验的P值,当值,当P值小于给定显著性值小于给定显著性水平时,说明变元水平时,说明变元线性关系显著线性关系显著01P值小于显著性水平时说明常数项显著性非零P值小于显著性水平时说明x系数显著性非零回归参数置信区回归参数置信区间的上下限间的上下限例例2 2:恩格尔系数:恩格尔系数(食品支出与收入之比食品支出与收入之比)的估算的估算已知人均月收入已知人均月收入X与人均食品月支出与人均食品月支出Y的的15组抽组抽样数据如下,求恩格尔系数:样数据如下,求恩格尔系数:X X102010209609609709701020102091091015801580540540830830Y Y270270260260250250280280270270360360190190260260分析:根据给定数据,先找出分析:根据给定数据,先找出X,Y的回归函数,的回归函数,再根据回归函数来估计恩格尔系数再根据回归函数来估计恩格尔系数.X X12301230106010601290129013801380810810920920640640Y Y310310310310340340380380270270280280200200解:利用解:利用EXCEL进行回归分析,得:进行回归分析,得:99.87160.1802X0.1802,于是,得X,Y的回归方程为 Y=99.8716+0.1802XY即:X即恩格尔系数约为且恩格尔系数会随收入的增大而变小8.2 多元线性回归多元线性回归令:解方程组得参数的解方程组得参数的此外:此外:2SSRrSST复判定系数22111(1)nan pRR 修正判定系数例例3:试根据表中居民月收入:试根据表中居民月收入X1(单位百元)及(单位百元)及 某商品的单价某商品的单价X2(单位十元)来拟合该商(单位十元)来拟合该商 品的需求量品的需求量Y(单位百件)的函数(单位百件)的函数需求需求 Y Y月收入月收入 X X1 1商品单价商品单价 X X2 210105 52 210107 73 315158 82 213139 95 514149 94 4202010103 3181810104 4242412123 3191913135 5232315154 4解:利用解:利用EXCEL进行回归分析,得:进行回归分析,得:12124.58751.86851.79960.00061,0.05,0.05YXXFPYXX即 拟 合 的 函 数 为 因检 验 的值 为小 于 显 著 性 水 平说 明与和有 显 著 的 线 性 相 关 关 系,即 所 求 的 回 归 方程 在 显 著 性 水 平下 是 成 立 的,有 意 义 的。需要说明的是:需要说明的是:1),TTTTXXX YXXXX多元回归的参数(如果不可逆,就无法求出 根据线性代数的知识我们知道:不可逆等价于矩阵X的列向量组(对应各自变元观测值向量)线性相关,即自变元之间存在线性相关关系(有“多余”的自变元),这在统计上叫复共线性问题,解决的方法是踢除“多余”的自变元,踢除的方法叫逐步回归,这是可以通过统计软件直接实现的 逐步回归,多元回归参数的检验,预测,参差分逐步回归,多元回归参数的检验,预测,参差分析,及应用案例等析,及应用案例等 略略 THE ENDTHE END
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!