概率论与数理统计

上传人:仙*** 文档编号:181901481 上传时间:2023-01-18 格式:PPT 页数:46 大小:974KB
返回 下载 相关 举报
概率论与数理统计_第1页
第1页 / 共46页
概率论与数理统计_第2页
第2页 / 共46页
概率论与数理统计_第3页
第3页 / 共46页
点击查看更多>>
资源描述
第十一章 回归分析11.1回归概念11.2一元线性回归方程11.3可线性化的回归方程1.理解变量间的相关关系以及回归分析的主要任务2.会用最小二乘法建立回归直线方程一元线性回归方程的建立回归直线方程的有效性检验教学要求教学要求 回归分析的任务是回归分析的任务是:根据试验数据取估计回归函数,讨论有关的点估计、区间估计、假设检验等问题。特别重要的是对随机变量Y的观察值做出点预测和区间预测。确定性关系是指变量之间的关系可以用函数关系确定性关系是指变量之间的关系可以用函数关系来表达的;来表达的;11.1 11.1 回归概念回归概念 自然界和生产实践中的许多现象之间存在着自然界和生产实践中的许多现象之间存在着相互依赖、相互制约的关系。相互依赖、相互制约的关系。一、现象确定性现象非确定性现象确定性关系非确定性关系二、关系非确定性关系即所谓相关关系。回归分析是研究相关关系的一种数学工具。它能帮助我们从一个变量取得的值去估计另一个变量所取得值。另一类是统计关系或称相关关系统计关系或称相关关系。即变量之间虽然存在着密切的关系,但从一个(或一组)变量的每一确定的值,不能求出另一变量的确定的值。可是在大量试验中,这种不确定的关系,具有统计规律性,这种联系使称为统计相关。二、关系确定性关系非确定性关系 一类是函数关系,即变量之间有着确定的关系确定的关系。例如已知圆的半径R,则圆面积可以用公式S=R2 来计算。这里S与R之间有着确定的关系。这些关系表现在量上主要有两种类型:例 1 居民按人口计算的平均收入与某种商品(如糖果)的消费量之间,有着一定的联系。一般说来平均收入高的,消费量大,但平均收入相同时,这种商品的消费量却不一定是完全相同的。例 2 森林中的同一种树木,其断面直径与高度之间是有联系的。一般说来,较粗的树较高,但直径相同的树,其高度也不完全是相同的。例 3 消费者对某种商品(比如西红柿)的月需求量与该种商品的价格有很密切的关系。一般说来,价格低时需求量大,价格高时需求量小,但同一种价格,月需求量也不完全相同。例 4 农作物的产量与施肥量、气候、农药也有这种不确定的关系。即便是具有确定关系的变量,由于试验误差的影响,其表现形式也具有某种程度的不确定性。如果这个模型是线性的就称为线性回归分析线性回归分析。这种方法是处理变量间相关关系的有力工具,是数理统计中一种常用的方法。它不仅告诉人们怎样建立变量间的数学表达式,即经验公式经验公式,而且还利用概率统计知识进行分析讨论,判断出所建立的经验公式的有效性,从而可以进行预测或估计。这在实际中是很有用的。本章主要介绍如何建立经验公式介绍如何建立经验公式,以及建立的经验公式其有效性的判断以及建立的经验公式其有效性的判断。由一个或一组非随机变量非随机变量来估计或预测某一个随机变量随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析回归分析。11.2 11.2 一元线性回归方程一元线性回归方程 具有相关关系的变量间虽然不具有确定的函数关系,但是可以借助函数关系表达它们之间的统计规律性。用以近似地描述具有相关关系的变量间联系的函数称为回归函数回归函数。在实际中最简单的情况是由两个变量组成的关系,比如:在经济关系中,对某种商品的需求量随价格的升降而变化;居民消费随收入的增减而改变等等。首先考察两量间的模型即=()(11.1)y f x我们对普通变量x取定一组不完全相同的值:1(,)nxx,12Y,Y,Yn设分别是在1,nxx,处对Y的独立观察结果称12(,Y),(,Y),(,Y)nnxxx12是一个样本,对应的样本值记为12(,),(,),(,)nnx yx yx y12如何利用样本来估计Y关于x的回归函数=()y f x首先需要推测f(x)的形式,可将每对观察值(,)iix y 在直角坐标系中描绘出它的相应的点,这种图称为散散点图点图。通过散点图可以粗略的看出f(x)的形式。由于两个变量之间不存在完全确定的函数关系,因此必须把随机波动产生的影响引入方程:其中,y是随机变量,是随机变量,x是普通变量是普通变量,是随机是随机项项。随机变量yi表示对应于给定变量x的值xi的试验结果:首先一个问题是如何根据已经试验的结果以及以往的经验来确定回归函数的类型以及求出函数中的未知参数的估计,得到经验公式。=()(11.2)y f x=()(=1,2,)(11.3)iiiyf xin(一)(一)回归直线方程回归直线方程 例1 以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如表11-1所示:统计结果表明,尽管价格不变,需求仍可能变化,价格改变需求也可能不变。但是,总的趋势是家庭对该商品的年需求量随着价格的上升而减少,它们之间存在着密切的联系。我们要找出近似地描述它们关系的回归函数,也就是求出求出d对于对于p的回归方程。的回归方程。价格Pi(xi)需求量di(yi)1523.5232.32.72.52.42.62.52.8231.53.31.23.51.2的类型,先把10对数据作为直角坐标平面上点的坐标,并把这些点画在直角坐标平面上。这样得到的图称为散点图散点图(如图11-1)。为了确定回归函数=()y f x0 1 2 3 454321xy可以看出,所有的点大体上分布在一条直线的周围。即需求量与价格大致成线性关系。要求出回归直线方程L,就是要找出a与b的估计量 因而可以决定该种商品的需求量y对价格x的回归函数为直线型。我们把y对x的回归函数记为L:=y abxb称为回归系数称为回归系数y 对x的回归直线方程达到最小。使直线 L 总的看来与所有的散点最接近。通常是固定x使得2=1(-)niiiyy散点的纵坐标回归直线上点的纵坐标(,)(,)iiiix yx y是散点图中的点,是回归直线上的点ab与 一般地,两个变量的线性回归模型为=(11.4)y abx取一个容量为n的样本1122(,),(,),(,)nnx yx yx y =(=1,2,)(11.4)iiiyabxin有并且假定:22N(0,)(=1,2,)(11.5)iin未知 平面上任意一条直线L的方程记为 L:=y abx2(-)iiy y(,)iix y用数值描述点与它沿平行纵轴方向到L的远近距离。jE()=0 (j,j=1,2,)iiin:定量地描述了直线L与n个观察点总的接近程度。Q的大小随直线L的位置变化而变化。也就是说,Q 的值随着 a和 b的不同而变化。它是 a和和b b的二元函数。的二元函数。2=1Q=-()niiiyabx2=1Q=(-)niiiy y称它们为a及 b的最小二乘估计最小二乘估计。ab和要找一条总的看来最接近这n个点的直线,就要找出使得Q达到最小值的求法可以利用微积分中的极值求法:ab与=1=1Q=-2-()=0 (11.6)Q=-2-()=0niiiniiiiyabxayabxxb2=1 Q=(-)niiiy y求最小2=1 Q=-()niiiyabx即求最小整理后得:112111 (11.7)nniiiinnniiiiiiinabxyaxbxx y112111 1 2nniiiinnniiiiiiinabxyaxbxx y()()由(1)得:SS=xyxxyxaybx代入(2)得121)()niiiniixx yybxx(-(1221=niiiniix ynxyxnxS=Sxyxx(11.8)aybx(11.9)于是所求的回归直线方程为L:=y abx(11.10)可以用(11.9)与(11.8)式分别计算 为了清楚起见,可先列出回归计算表如表11-2:可以证明,确实使平方和Q达到最小。ab与 例1 以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如表11-1所示:Pi(xi)di(yi)1523.5232.32.72.52.42.62.52.8231.53.31.23.51.2ab与比如求例子1中的回归方程5174646.215.2966.256.56.765.67.844.593.9610.894.212.252 iiix yx252554.9767.28L =y abx:所求回归方程应为继续计算:2.51.62.5 6.5()2.5 2.5xy1221S=Sniixyinxxiix ynxybxnx254.97 10 2.5 2.51.667.28 10 2.5 aybxL =6.5 1.6yx:L =y abx:解:设回归直线方程为2252554.9767.28iiiiixyx yx10nP223 1、2、3、4 (二)(二)相关性检验相关性检验l说明x值的变化对y没有影响,因而变量x不能控制变量y,用回归直线方程(11.10)不能描述两个变量y与x之间的关系。用最小二乘法求出的回归直线并不需要事先假定并不需要事先假定y与与x一定具有线性相关的关系一定具有线性相关的关系。就方法最小二乘法本身而言,对任意对任意一组数据一组数据都可以用(11.8)及(11.9)式给它们配一条直线,描述y与x间的关系。因此,需要判断y对x的回归函数的类型是否为线性的,也就是这两个变量间是否真的存在着近似线性的关系。如果在=(11.4)y abx中的b=0l因此,在相关性检验时首先提出待检假设:(二)(二)相关性检验相关性检验l因此,在相关性检验时首先提出待检假设:0H 0b:若H0成立,则x与y之间无线性关系,由此建立的无线性关系,由此建立的回归直线方程就无效。回归直线方程就无效。若拒绝H0,则x与y之间存在线性关系,由此建立存在线性关系,由此建立的回归直线方程就有效。的回归直线方程就有效。用方差分析的方法进行检验。为此先介绍平方和分解公式,将x对y的线性影响与随机波动引起的变差分开。总的离差平方和2=1(-)niiyy2=1(-)niiy y2=1(-)+(-)niiiiy yy y(,)iix y样本点(,)iix y回归点=iiyabxaybx对于任意n组数据:(,)iix y总的离差平方和22=1=1(-)+(-)nniiiiiy yy y总和Syy余和Q回归和U2=1 U(-)niiy y回归和2=1 Q(-)niiiy y余和1221S=Sniixyinxxiix ynxybxnx222=1=1=1(-)(-)+(-)nnniiiiiiiy yy yy y在平方和分解公式中S=QUyy须证明=1(-)(-)=0niiiiy yy y成立带入上式左端得 aybx和=1(-)(-)=niiiiy yy ya =iiyabx将=1-()(-)niiiiyabxabx y=1-()(-)niiiiyybxbxybxbx y=1=(-)()()=niiiiy yb xx b xx2=1(-)()()niiiiby y xxb xx=0(1)=1=12=1-()(-)(-)()()=(-)()()niiiiniiiiniiiiyybxbxybxbx yy yb xx b xxby y xxb xx2=1=1=(-)()()nniiiiiby y xxbxx=S-S xyxxbbS=Sxyxxb=0=1(-)(-)=0niiiiyyyy=1=1=1=-nnniiiiiiix y xy yxnxy=1=1S=(-)(-)=-nnxyiiiiiix x yyx y nxy(2)证明:=1=1 S=(-)(-)=(-+)nnxyiiiiiiiix x y yx y y x x y xy=1=-niiix y xny ynxnxy=1=-niiix y nxy=1=1 S=(-)(-)=-nnxyiiiiiix x y yx y nxy=11=niiyyn(3)证明:=y=1=111=()nniiiiyabxnn=11=niiabxn=abx是回归直线上的点(,)x y说明也是样本值的均值点在平方和分解公式中S=QUyy222=1=1=1(-)(-)+(-)nnniiiiiiiy yy yy y2=1 Q(-)niiiy y余和2=1 U(-)niiy y回归和其中U是 对于其平均值 的离差平方和它反映了 的分散程度。而这一分散性是由于在回归直线上它们所对应的横坐标 ,的变化引起的,并且通过x对于y的线性影响表现出来,称它为回归平方和回归平方和。12ny yy,y 12ny yy,12,nx xx(11.1)2=1 U(-)(11.12)niiy y2=1 U(-)(11.12)niiy y可更清楚地看出x对y的线性影响与U的关系。22S=S=Sxyxxxxb22=1=1U(-)=()-()nniiiiy yabxabx2=1=(-)niibx bx22=1=(-)niibx x222=1SU=(-)=(11.13)Snxyiixxbx x2=1 Q(-)niiiy y余和至于Q,它是对应于变量x的每一个取值 xi,变量y的实际观察值yi与回归函数值 的离差平方和,是由总误差中分离出x对y的线性影响之外的其余因素而产生的误差。iy在(11.2)式假定下,Q完全是随机项 引起的,称为残差平方和或剩余平方和剩余平方和。2SQ=S-U=S1 (11.14)S Sxyyyyyxxyy=()(11.2)y f x在平方和分解公式中222=1=1=1(-)(-)+(-)nnniiiiiiiy yy yy yS=QUyy 如果 U的值大,说明U起主导作用,建立的回归方程回归效果显著。如果 Q的值大,说明Q起主导作用,建立的回归方程回归效果不显著。则建立的回归方程无效可以证明:L:=y abx回归直线方程若建立的回归直线方程无效,则b=022U(1)Q(-2)n认为x与y之间存在线性相关关系。1.首先提出待检假设0H 0b:2.根据假设选取统计量U=(11.15)Q-2Fn在H。成立的条件下所选统计量U=(1,2)Q-2FFnn3.对于给定的检验水平,构造小概率事件P(1,2)=F Fn(1,2)F Fn确定拒绝区域为(4)根据样本观察值计算统计量F的值并与临界值F比较;(5)下结论:如果F F,则否定假设H0 只有存在线性相关关系的变量之间建立回归直线方程才是有意义的。为了检验相关性,有时选用样本相关系数SR (11.16)SSxyxxyy为统计量,并把R的临界值列成相关系数表(附表七)。不过这两种检验方法是一致的两种检验方法是一致的。这是由于2(11.13)(11SS.14)2S(2)SU=Q-2S1=xyxxyyxyyynFn()22(2)R=(11.17)1 RnF因此,F的值较大等价于等价于|R|较大,可以用0|R|R(2)Hn来否定以例1为例,说明相关性检验的步骤:可以用(11.9)与(11.8)式分别计算 为了清楚起见,可先列出回归计算表如表11-3:例1 以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如表11-1所示:Pi(xi)di(yi)1523.5232.32.72.52.42.62.52.8231.53.31.23.51.2ab与5174646.215.2966.256.56.765.67.844.593.9610.894.212.252 iiix yx252554.9767.2874.68L =y abx:解:设回归直线方程为2512.2597.295.766.2542.251.441.442iy相关性检验的一般步骤1.提出待检假设0H 0b:2.列出方差计算表(如表113)根据表中结果继续计算:22S-=yyiy ny22S-=xxix nxS-=xyiix y nxy2SU=SxyxxQ=S-U=yy3.列出方差分析表方差来源 离差平方和自由度F的值F的临界值显著性4.7812.18-7.5311.860.32方差来源回归和余和总和离差平方和U11.86Q0.32Syy=12.18自由度189F的值F296.5F的临界值显著性0.01(1,8)=11.26F0.05(1,8)=5.32F0.01 296.511.26=(1,8)FF0.05 296.55.32=(1,8)FF在显著性一栏内画一个在显著性一栏内再画一个4.结论:拒绝假设H0认为b0变量x对y有极其显著的线性影响。所求回归方程应为继续计算:2.51.62.5 6.5()1221S=Sniixyinxxiix ynxybxnx254.97 10 2.5 2.51.667.28 10 2.5 aybxL =y abx:=6.5 1.6yx即11.3 可线性化的回归方程可线性化的回归方程l 如果由观察数据画出的散点图或由经验认为两个变量之间不能用线性关系近似描述,但是其中有些回归方程仍可化为线性回归方程,那么只要进行变量替换,就能直接利用线性回归方程的结果。l 在经济领域中常用的有下面几种形式:10=yx01u=uyx1令得(一)双曲线型(二)指数曲线型 1.=caxye00c0,u=ln,u=+lncyax若令得其中 001c0,v=ln,u=v=+u lncybx若令得其中2.=caxye(三)幂函数型=cbyx00c0,v=ln,u=ln v=+u lncyxb若令得其中(四)S曲线型011=xye01v=,u=v=+u xeby令得(五)对数曲线型1.双对数型log=loglogyabx00v=log,u=log v=+u logyxba令得其中2.半对数型0(1)=logybx0 u=log =+uxyb令得01(2)log=yx01 u=log u=+yx令得 试利用下列资料(见表11-5),求出y y对x x的回归曲线方程。例 同一生产面积上某作物单位产品的成本与产量间近似满足双曲线型关系:10=yx5.6717.74.4518.53.8418.93.8418.83.7218.32.1819.1iixy解:u=x1令得回归方程为01=uy列出回归计算表5.6717.70.180.03243.1864.4518.50.220.04844.073.8418.90.260.06764.9143.8418.80.260.06764.8883.7218.30.270.07294.9412.1819.10.460.21168.786111.31.650.500530.78512u=uuiiiixiiixyy再利用公式(11.8)及(11.9),可求出01及01-u=18.553.80 2.75=17.505y122u-u0.17753.800.04675u-uiiiy n yn故该作物单位产品的成本与产量之间的回归方程为3.80=17.505yx
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!