概率论与数理统计第九章.ppt

上传人:tian****1990 文档编号:11540536 上传时间:2020-04-27 格式:PPT 页数:26 大小:500.50KB
返回 下载 相关 举报
概率论与数理统计第九章.ppt_第1页
第1页 / 共26页
概率论与数理统计第九章.ppt_第2页
第2页 / 共26页
概率论与数理统计第九章.ppt_第3页
第3页 / 共26页
点击查看更多>>
资源描述
回归分析简介,“回归”一词的历史渊源,“回归”一词最早由FrancisGalton引入。Galton发现,虽然父母的身高对子女的身高起到决定性作用,但给定父母的身高后,他们儿女辈的平均身高却趋向于或者“回归”到社会平均水平。Galton的普遍回归定律(lawofuniversalregression)。Galton的朋友KarlPearson通过收集一些家庭的1000多名成员的父子身高数据,证明儿子确实“回归到中等(regressiontomediocrity)”,1.回归分析的概念,现实世界中,变量之间相互依赖、相互制约的关系,可大致分为两类:一类是函数关系,即变量之间存在着确定的关系例如圆半径与圆面积的关系是s=r2另一类是相关关系例如身高与体重的关系;家庭收入与支出的关系;又如农作物的单位面积产量与降雨量、施肥量等的关系.这类关系不能用函数来表达变量之间的这种非确定性关系,称为相关关系,对于相关关系,虽然不能求出变量之间精确的函数关系式,但是通过大量的观测数据,可以发现它们之间存在着一定的统计规律性由一个(或一组)非随机变量来估计或预测某一个随机变量的观测值时,所建立的数学模型和所进行的统计分析,称为回归分析.如果这个模型是线性的,就称为线性回归分析.研究两个变量间的相关关系的回归分析,称为一元回归分析,2.一元线性回归,在一元回归分析里,我们要考察的是随机变量y与一般变量x之间的相互关系虽然x和y之间没有确定的函数关系.但是我们可以借助函数关系来表达它们之间的统计规律性用以近似地描述具有相关关系的变量间的联系的函数,称为回归函数由于y与x之间不存在完全确定的函数关系,因此必须把随机波动产生的影响考虑在内.于是我们的模型的一般形式为y=f(x)+.其中是随机项,进行n次独立试验,观测值如下表所示:,其中xi,yi表示x和y在第i次试验中的观测值,则有,通常把点(xi,yi)(i=1,2,n)画在直角坐标平面上,,这样得到的图就是散点图,例某种合成纤维的强度与其拉伸倍数有直接关系,下表是实际测定的24个纤维样品的强度与相应拉伸倍数的记录。,数据表格,将数据描绘到坐标纸上,我们称这个方程为y对x的回归直线方程,,如果所有的散点大体上散布在某一条直线附近,就可以认为y对x的回归函数的类型为直线型:,并称其中的b为回归系数.在y的上方加,是为了区别于y的实际观测值y.,如果随机变量y与非随机变量x之间存在着线性相关关系,则可用回归直线方程,来描述怎样确定该方程中未知参数a和b的值呢?,取一个容量为n的样本(xi,yi)(i=1,2,n),则有其中,满足(1)(2)相互独立.我们用即来描述点(xi,yi)(与回归直线沿平行于纵轴方向的远近距离,则,为了定量地描述回归直线与n个观测点的接近程度要找出一条总的看来最接近这n个观测点的直线,就是要找出使Q达到最小值的a,b(记作)由于平方又叫做二乘方因此把这种使“偏差平方和为最小”的方法称为最小二乘法.这样求得的称为a,b的最小二乘估计的求法如下:,整理可得法方程(正规方程)解这个方程组,可得其中,可以证明,所求得的,确实使取得最小值.于是,所求的回归直线方程为,例1炼钢基本上是一个氧化脱碳过程,设某平炉的熔毕碳(全部炉料熔化完毕时,钢液含碳量),x与精炼时间y的生产纪录列表如下:,求x,y的关系式(经验公式),解列表计算,因此,熔毕碳,与精炼时间,间的回归方程为,前面提到,只有当两个变量间存在线性相关关系时,才能用直线方程大致表示它们之间的关系.但是,对任意两个变量的一组观察数据都可以用最小二乘法形式上求得对的回归直线.这样就需要考察与间是否确有线性相关关系,能否用直线方程来表示,即判断回归方程是否有意义.这种问题一般称为回归方程的显著性检验,一元线性回归的统计分析,在的假设下,如果b=0,说明x值的变化对y没有影响,因而变量x不能控制变量y,用回归直线方程不能描述两个变量y与x之间的关系,因此,要判明y与x是否确有线性相关关系,就是要检验假设H0:b=0这和前面介绍的假设检验一样,首先要构造统计量.,下面我们先导出一个具有统计意义的分解公式:,设xi,yi(i=1,2,n)为变量x,y间的一组容量为n的样本,为由这组样本出发求得的变量x,y间的回归直线方程,则就表示了观测数据的总的变动情况,故称Lyy为总变动平方和因为,而,所以,这里,上面的公式称为变动平方和的分解公式.量U,主要描述,离,的分散程度而由公式,看出,的分散性又由,的分散性通过,对于,的线性影响反映出来的,由此,称为回归平方和.量,表示观察值,与经验回归,所对应的纵坐标,它是扣除了,直线上,的偏离情况,,x对y的线性影响后所剩余的平方和,因此称Q为剩余平方和(或残差平方和),它主要反映了试验误差的大小,不难想到,要分析样本值,是否显著地存在确定的线性相关关系,可以用,与,进行比较,如果比值,相当大(从几何上看就是,之间是否存在线性关系,即样本,是否近似地存在着线性关系,可以构造统计量,纵向偏差相对于横向来说要小的多),就可以认为存在着线性相关关系.由此,启示我们,要检验x与y,数学上已经证明:在成立时,.这样,我们得到显著性检验的步骤如下:(1)选取统计量;(2)计算和的观察值和,并按计算;(3)对给定的显著水平(一般或),从分布表中查出,使得如果,则否定假设,即可以认为回归方程在水平上显著,反之,不能断定变量x和y之间的线性关系,即回归方程意义不大,例2在例1的条件下,检验x,y之间的线性相关关系的显著性(=0.05)解(1)选取统计量(2)计算观察值;(3)对给定的显著水平,查表求得;(4)判断:因,所以x与y之间的线性相关关系显著,回归方程有效(=0.05),
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!