回归分析法概念及原理

上传人:时间****91 文档编号:120297246 上传时间:2022-07-17 格式:DOCX 页数:10 大小:144.19KB
返回 下载 相关 举报
回归分析法概念及原理_第1页
第1页 / 共10页
回归分析法概念及原理_第2页
第2页 / 共10页
回归分析法概念及原理_第3页
第3页 / 共10页
点击查看更多>>
资源描述
回归分析法概念及原理回归分析定义:运用数据记录原理,对大量记录数据进行数学解决,并拟定因变量与某些自变量的有关关系,建立一种有关性较好的回归方程(函数体现式),并加以外推,用于预测此后的因变量的变化的分析措施。分类:1. 根据因变量和自变量的个数来分类:一元回归分析;多元回归分析;2. 根据因变量和自变量的函数体现式来分类:线性回归分析;非线性回归分析;几点阐明:1. 一般状况下,线性回归分析是回归分析法中最基本的措施,当遇到非线性回归分析时,可以借助数学手段将其化为线性回归;因此,重要研究线性回归问题,一点线性回归问题得到解决,非线性回归也就迎刃而解了,例如,取对数使得乘法变成加法等;固然,有些非线性回归也可以直接进行,如多项式回归等;2. 在社会经济现象中,很难拟定因变量和自变量之间的关系,它们大多是随机性的,只有通过大量记录观测才干找出其中的规律。随机分析是运用记录学原理来描述随机变量有关关系的一种措施;3. 由回归分析法的定义懂得,回归分析可以简朴的理解为信息分析与预测。信息即记录数据,分析即对信息进行数学解决,预测就是加以外推,也就是合适扩大已有自变量取值范畴,并承认该回归方程在该扩大的定义域内成立,然后就可以在该定义域上取值进行“将来预测”。固然,还可以对回归方程进行有效控制;4. 有关关系 可以分为拟定关系和不拟定关系。但是不管是拟定关系或者不拟定关系,只要有有关关系,都可以选择一合适的数学关系式,用以阐明一种或几种变量变动时,另一变量或几种变量平均变动的状况。回归分析重要解决的问题:回归分析重要解决方面的问题;1. 拟定变量之间与否存在有关关系,若存在,则找出数学体现式;2. 根据一种或几种变量的值,预测或控制另一种或几种变量的值,且要估计这种控制或预测可以达到何种精确度。回归模型:回归分析环节:1. 根据自变量与因变量的既有数据以及关系,初步设定回归方程;2. 求出合理的回归系数;3. 进行有关性检查,拟定有关系数; 4. 在符合有关性规定后,即可根据已得的回归方程与具体条件相结合,来拟定事物的将来状况,并计算预测值的置信区间;回归分析的有效性和注意事项:有效性:用回归分析法进行预测一方面要对各个自变量做出预测。若各个自变量可以由人工控制或易于预测,并且回归方程也较为符合实际,则应用回归预测是有效的,否则就很难应用;注意事项:为使回归方程较能符合实际,一方面应尽量定性判断自变量的也许种类和个数,并在观测事物发展规律的基本上定性判断回归方程的也许类型;另一方面,力求掌握较充足的高质量记录数据,再运用记录措施,运用数学工具和有关软件从定量方面计算或改善定性判断。回归分析中的几种常用概念:实际值:实际观测到的研究对象特性数据值;理论值:根据实际值我们可以得到一条倾向线,用数学措施拟合这条曲线,可以得到数学模型,根据这个数学模型计算出来的、与实际值相相应的值,称为理论值;预测值:事实上也是根据数学模型计算出来的理论值,但它是与将来相应的理论值。表达符号:实际值,用表达;理论值,用表达;预测值,用表达。+Unary Linear Regression +一元线性回归,就是只波及一种自变量的回归;自变量和因变量之间的关系是线性关系的回归;因变量与自变量之间的关系用一条线性方程来表达的回归。措施环节:1. 拟定回归模型:由于我们研究的是一元线性回归,因此其回归模型可表达为:;其中,是因变量;是自变量;是误差项;和称为模型参数(回归系数)。2. 求出回归系数:这里的回归系数的求解,就要用一定的措施,使得该系数应用于该方程是“合理的”。最常用的一种措施就是最小二乘估计法。最小二乘法是测量工作和科学实验中最常用的一种数据解决措施,其基本原理是,根据实验观测得到的自变量x和因变量y之间的一组相应关系,找出一种给定类型的函数,使得它所取的值与观测值 在某种尺度下最接近,即在各点处的偏差的平方和达到最小,即。这种措施求的的和将使得拟合直线中的和之间的关系与实际数据的误差比其她任何直线都小。根据最小二乘法的规定,可以推导得到最小二乘法的计算公式: 其中,;有关性检查:对于若干组具体数据都可算出回归系数,从而得到回归方程。至于与之间与否真有如回归模型所描述的关系,或者说用所得的回归模型去拟合实际数据与否有足够好的近似,并没有得到判明。因此,必须对回归模型描述实际数据的近似限度,也即对所得的回归模型的可信限度进行检查,称为有关性检查。有关系数是衡量一组测量数据线性有关限度的参量,其定义为:,或者值在0|1中。 |越接近于1, 之间线性好;为正,直线斜率为正,称为正有关;为负,直线斜率为负,称为负有关。|接近于0,则测量数据点分散或之间为非线性。不管测量数据好坏都能求出,因此我们必须有一种判断测量数据好坏的措施,用来判断什么样的测量数据不适宜拟合,判断的措施是|时,测量数据是非线性的称为有关系数的起码值,与测量次数有关,如下表:有关系数起码值31.00090.798150.64140.990100.765160.62350.959110.735170.60660.917120.708180.59070.874130.684190.57580.834140.661200.561在进行一元线性回归之前应先求出值,再与比较,若| ,则具有线性关系,可求回归直线;否则反之。置信区间的拟定:当拟定有关性后,就可以对置信区间进行拟定,就可以结合实际状况,拟定事物将来的状况了。回归分析的最重要的应用就在于“预测”,而预测是不是精确的,就得有一种衡量的工具。它就是置信区间。或者从此外一方面来说,回归方程是由数理记录得出的,它反映的是实际数据的记录规律,因此,根据回归方程所得的预测值只是相应于的单点预测估计值,预测值应当有一种置信区间。这样来看,计算置信区间就是很有必要的。置信区间:,其中是的无偏估计量,称为剩余方差,称为剩余原则差。注:该体现式的自由度为是由于有2个限制变量故对于给定的,值的概率为0.95的置信区间是:。点击参看置信区间的拟定内容。+Example+实验数据如下表: 城乡居民家庭人均可支配收入都市人均住宅面积城乡居民家庭人均可支配收入都市人均住宅面积343.46.74838.917.0477.67.25160.317.8739.110.05425.118.71373.913.55854.019.41510.213.76280.020.31700.614.26859.620.82026.614.87702.822.82577.415.28472.223.73496.215.79421.625.04283.016.310493.026.1环节一:先画出散点图,进行观测:程序如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.9 5160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.8 23.7 25.0 26.1;plot(x,y,x) xlabel(城乡居民家庭人均可支配收入) ylabel(都市人均住宅面积)在MATALB中的运营成果:可以看到,除了个别点除外,基本上所有的点都分布在一条直线的附近。并且自变量只有一种,因此可以假设其回归模型为:;环节二:求出回归系数,过程根据最小而乘法的公式计算;计算公式为:其中,;编程: n1,n2=size(x); lxx=0; lxy=0 for k=1:n2 lxx=lxx+(x(k)-mean(x)2 lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxx a=mean(y)-b*mean(x)在MATLAB中的运营成果:求得=0.0017 =9.4866, 故:=9.4866+0.0017为所求。整个数据拟合如下: clf x=343.4 477.6 739.1 1373.9 1510.2 1700.6 2026.6 2577.4 3496.2 4283.0 4838.9 5160.3 5425.1 5854.0 6280.0 6859.6 7702.8 8472.2 9421.6 0493.0;y=6.7 7.2 10.0 13.5 13.7 14.2 14.8 15.2 15.7 16.3 17.0 17.8 18.7 19.4 20.3 20.8 22.8 23.7 25.0 26.1;plot(x,y,x) xlabel(城乡居民家庭人均可支配收入) ylabel(都市人均住宅面积) n1,n2=size(x); lxx=0; lxy=0 for k=1:n2 lxx=lxx+(x(k)-mean(x)2 lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxx a=mean(y)-b*mean(x)n1,n2=size(x); lxx=0; lxy=0 for k=1:n2 lxx=lxx+(x(k)-mean(x)2 lxy=lxy+(x(k)-mean(x)*(y(k)-mean(y) end b=lxy/lxx a=mean(y)-b*mean(x) xx=linspace(0,1,500) yy=a+b*xx; hold on plot(xx,yy,b-) text(6000,15,FitFunction: y=a+b*x)在MATLAB中运营得到拟合图:环节三:有关性检查;,同理编程计算出有关系数为:=0.406 由于的绝对值很接近1,因此有关性很强。换句话说,就是拟合限度较好;或者|=0.406=0.561,因此有关关系;有关指数: R2=0.961 ,因此回归效果较好。环节四:置信区间的拟定;可以根据体现式计算出剩余方差,然后给定条件,进而就可以求解给定概率内的置信区间了。至此,本次拟合基本完毕。固然,拟定数据是可以拟合之后,就可以进步一计算拟合方程的截距,斜率等项目,再根据式子的意义,就可以对现实事物进行预测和分析了。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!