《相关与回归分析》PPT课件.ppt

上传人:sh****n 文档编号:13151726 上传时间:2020-06-05 格式:PPT 页数:48 大小:3.30MB
返回 下载 相关 举报
《相关与回归分析》PPT课件.ppt_第1页
第1页 / 共48页
《相关与回归分析》PPT课件.ppt_第2页
第2页 / 共48页
《相关与回归分析》PPT课件.ppt_第3页
第3页 / 共48页
点击查看更多>>
资源描述
2020年6月5日7时11分,1,第九章相关与回归分析,第一节相关分析的一般问题第二节相关关系的判断第三节回归分析的一般问题第四节回归模型的建立与检测,2020年6月5日7时11分,2,第一节相关分析,一、相关分析的意义二、相关关系的测定,2020年6月5日7时11分,3,变量间的关系,变量间的关系有两种类型:函数关系和相关关系。函数关系是一一对应的确定关系。设有两个变量x和y,变量y完全依赖于x,则称y是x的函数,记为y=f(x),其中x称为自变量,y称为因变量。例如:圆的面积(S)与半径之间的关系可表示为S=R2;某种商品的销售额(y)与销售量(x)之间的关系可表示为y=px(p为单价),2020年6月5日7时11分,4,相关关系,变量间确实存在、但数量上不固定的相互依存。这种关系不能用函数关系精确表达;一个变量的取值不能由另一个变量惟一地确定;当变量x取某个值时,与之相关的变量y的取值可能有若干个;各观测点分布在一条直线或曲线周围.,2020年6月5日7时11分,5,相关关系的例子,商品的消费量(y)与居民收入(x)之间的关系商品销售额(y)与广告费支出(x)之间的关系粮食亩产量(y)与施肥量(x1)、降雨量(x2)、温度(x3)之间的关系收入水平(y)与受教育程度之间的关系(x)父亲身高(y)与子女身高(x)之间的关系,2020年6月5日7时11分,6,相关关系的特点(见154页),相关关系和函数关系,既有联系又有区别。在实际工作中,对表现为函数关系的现象的测量由于种种原因,每次观测值都不可能完全相同,这时函数关系就表现为相关关系。在研究相关关系时,又常常要用函数形式来表现,以便得到相关关系的一般数量表达式形式。因此,相关关系是相关分析的研究对象,函数关系是相关分析的必要工具。,2020年6月5日7时11分,7,相关关系的类型,1、按相关关系涉及的因素多少分为:单相关一元相关,两变量间的相关关系;复相关多元相关,三个(或以上)变量间的相关关系;2、按相关的表现形态分为:直线相关观察点的分布大致呈现为一条直线;曲线相关观察点的分布大致呈现为一条曲线,2020年6月5日7时11分,8,3、按相关方向分为:正相关两变量大体上呈同方向变化;负相关两变量大体上呈反方向变化。4、按相关密切程度分:完全相关两变量间有确定函数关系。不完全相关两变量不存在严格函数关系。不相关当一个变量变化,另一个变量不变化或呈不规则变化或没有依存关系。,2020年6月5日7时11分,9,二、相关关系的测定,进行相关分析的一般程序:,定性分析定量分析相关表和相关图计算相关系数与判定系数,2020年6月5日7时11分,10,(一)相关表和相关图,相关表将一个变量按大小顺序排序,另一个变量对应排列而成的表格。(见P156表91)相关图也称为散点图。一对数据对应坐标图上一个点,将成对的观察数据表现为坐标图的散点而形成的图。(见P158图91)编制相关表、图的意义有助于分析者判断相关的有无、方向、形态、密切程度。,2020年6月5日7时11分,11,相关关系的图示,2020年6月5日7时11分,12,(二)相关系数和判定系数,都是对变量之间关系密切程度的度量;判定系数=相关系数的平方;不同类型的相关,相关系数的计算方法也不同.对两个变量之间线性相关程度的度量称为简单相关系数(也称直线相关系数),常简称相关系数.此外还有复相关系数、非线性相关系数、偏相关系数3.有总体相关系数与样本相关系数之分:总体相关系数根据总体数据计算的,样本相关系数r根据样本数据计算的。,2020年6月5日7时11分,13,相关关系的计算公式,或化简为,见P161公式92,2020年6月5日7时11分,14,相关系数取值及其意义,r的取值范围是-1,1|r|=1,为完全相关;r=1,为完全正相关r=-1,为完全负相关r=0,不存在线性相关关系相关;-1r0,为负相关;0r1,为正相关,2020年6月5日7时11分,15,|r|越趋于1表示关系越密切;|r|越趋于0表示关系越不密切。相关程度的三级划分法:|r|0.3,微相关或不相关0.3|r|0.5,低度相关0.5|r|0.8,显著相关r的绝对值在0.8以上的为高度相关一般情况下,只有r的绝对值在0.5以上,才进一步进行相关分析。,2020年6月5日7时11分,16,第三节回归分析的一般问题,一.回归分析的意义一元线性回归方程的确定回归估计的标准差,2020年6月5日7时11分,17,一、回归分析的意义,从一组样本数据出发,确定变量之间的数学关系式建立回归模型;借助于数学模型来表达变量之间的平均数量关系对这些关系式的可信程度进行各种统计检验并从某一特定变量的诸多影响因素(变量)中找出哪些变量的影响显著,哪些不显著;利用所求的关系式,根据一个或几个变量的取值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确程度。,2020年6月5日7时11分,18,回归分析与相关分析的区别,相关分析中,变量x、变量y处于平等地位。回归分析中,y为因变量,处在被解释的地位;x为自变量,用于解释和预测因变量的变化。2.相关分析中所涉及的变量x和y都是随机变量;回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量。3.相关分析主要描述两个变量之间相关关系的密切程度;回归分析揭示变量之间数量变动的统计规律性(不仅可以由回归方程揭示变量x对变量y的平均影响大小,还可以进行预测和控制)。,2020年6月5日7时11分,19,回归模型的类型,回归模型(方程)来表达变量之间的平均数量关系的数学模型。该模型中包含:1个因变量(被解释变量,通常为数值型的)1个或多个自变量(解释变量,通常为数值型的或分类的)包含一个自变量的回归模型称为一元回归模型;包含多个自变量的回归模型称为多元回归模型。按模型形态分,有线性回归和非线性回归。,2020年6月5日7时11分,20,二、一元线性回归方程的确定,具有线性相关关系的两个变量的关系可表示为:y=+bx线性部分反映了由于x的变化而引起的y的变化.和称为模型的两个待定参数。,2020年6月5日7时11分,21,(总体)回归方程,描述y的平均值或期望值如何依赖于x的方程称为(总体的)回归方程;一元线性(总体)回归方程的形式如下:E(y)=+x,方程的图示是一条直线,因此也称为直线回归方程是回归直线在y轴上的截距,是当x=0时y的期望值,是回归直线是起始值;是直线的斜率,表示当x每变动一个单位时,y的平均变动值。,2020年6月5日7时11分,22,样本(估计的、经验的)回归方程,总体回归参数和是未知的,我们必须利用样本数据去估计它们;用样本统计量a、b代替回归方程中的未知参数和,就得到了样本回归方程(估计的回归方程):,拟合估计方程,就是要估计方程的参数a、b,2020年6月5日7时11分,23,估计参数的最小二乘法最小平方法(LS),可用于直线回归,也可用于曲线回归。用最小平方法拟合的直线来代表x与y之间的关系,所产生的估计值与实际值的误差要比其他任何直线的误差都小。,1.最小平方法使因变量的观察值与估计值之间的离差平方和达到最小来求得a和b的方法,即:,2020年6月5日7时11分,24,a和b的计算公式,根据最小平方法的原则,利用微分求解极值(最优值)的原理,可得求解a和b的标准方程组如下:,2020年6月5日7时11分,25,三、回归估计标准误差,(一)回归估计标准误差的概念实际观察值y与估计值之间差异的平均程度,是用来说明回归方程推算结果的准确程度或可靠性的分析指标,用表示计算公式为(P166页9-8)和(P166页9-9):,2020年6月5日7时11分,26,回归估计标准差的作用,回归估计标准差反映的是因变量各实际值与其回归估计值之间的平均差异程度;表明其估计值对各实际值的代表性的强弱,其值越小,估计值(或回归方程)的代表性越强,用回归方程估计或预测的结果越准确。,说明了回归直线的拟合程度(衡量回归方程的代表性,测定回归估计的精度);反映实际观察值在回归直线周围的分散状况;,2020年6月5日7时11分,27,回归估计标准误差与一般的标准差的异同,从计算公式可见:同:都是离差的平方的平均数的平方根;反映平均差异程度;衡量代表性大小。主要区别:与什么的离差、差异;衡量谁的代表性。,2020年6月5日7时11分,28,回归估计标准差与相关系数的关系,大样本条件下,近似地:或:,见P167公式911,2020年6月5日7时11分,29,相关系数与回归系数的关系,见167页例93,2020年6月5日7时11分,30,第三节线性相关的显著性检验,检验两个变量之间是否存在线性相关关系,包括两个方面的检验:1.对相关系数r的显著性检验;对回归系数b的显著性检验;对于一元线性相关而言,二者等价。,2020年6月5日7时11分,31,例,根据下表提供的资料确定直线回归方程,计算估计标准误差。,2020年6月5日7时11分,32,解,第1步:应先确定自变量和因变量。按本题所述,生产性固定资产价值为自变量,总产值为因变量。第2步:对数据进行下列计算:,2020年6月5日7时11分,33,(续),回归参数中:,2020年6月5日7时11分,34,(续),第3步:计算估计标准误差。用公式:,2020年6月5日7时11分,35,练习题,一、判断题1、在计算相关系数时,要求两个变量都是随机的;在回归分析中,要求因变量是随机的,自变量是非随机的。()2、变量X和变量Y之间存在相关关系,当X按固定数额增加时,相应地,变量Y按大致固定的数额减小,说明两变量之间存在着负直线相关关系。(),2020年6月5日7时11分,36,(续),3、相关系数的数值越大;说明相关程度越高,相关系数的数值越小,说明相关程度越低。()4、变量之间相关关系的形式可能是多种多样的,变量间线性相关系数的大小,只能说明变量间直线相关的方向和程度。()5.估计标准误差的大小与因变量的方差无关。(),2020年6月5日7时11分,37,二、单项选择题,1、当变量X按一定数额变化时,变量Y也随之近似地按一定数额变化,这时,变量X和Y之间存在着()关系。A、正相关B、负相关C、直线相关D、曲线相关2、若变量X增加时,变量Y的值也增加,那么变量X和Y之间存在着()关系。A、正相关B、负相关C、直线相关D、曲线相关,C,A,2020年6月5日7时11分,38,(续),3、如果两变量之间的相关系数为1,说明两变量之间存在()关系。A、无相关B、低度相关C、高度相关D、完全相关4、在回归分析中,自变量同因变量地位不同,两变量X与Y中,Y倚X回归同X倚Y回归是()A、同一个问题B、有联系但意义不同的问题C、一般情况下是相同的问题D、是否相同,视两相关变量的具体内容而定。,D,B,2020年6月5日7时11分,39,(续),5、已知某企业棉大衣产量和生产成本有直接关系,具体说来,是直接相关关系,当产量为1000件时,其生产成本为30000元,其中不变成本为6000元。该企业总生产成本倚产量的回归方程应是()。,A,2020年6月5日7时11分,40,2020年6月5日7时11分,41,第四节可线性化的曲线回归方程(非线性回归),一、配合回归曲线的问题通过定性分析或散点图判断变量之间的曲线相关形态,选择曲线模型;2.可通过变量代换将曲线模型转换成线性形式;用最小二乘法求出线性模型中参数的估计值,再转换为原曲线模型的参数的估计值。(注:并非所有的非线性模型都可以化为线性模型),2020年6月5日7时11分,42,可线性化的常用曲线模型,线性化方法:令:y=1/y,x=1/x,则有y=+x,(一)双曲线1.基本形式:1/y=+/x,图,2020年6月5日7时11分,43,线性化方法:两端取对数lgy=lg+lgx令:y=lgy,x=lgx,则y=lg+x,(二)幂函数基本形式:,图,2020年6月5日7时11分,44,(三)指数函数,线性化方法:两端取对数得lny=ln+x令:y=lny,则有y=ln+x,基本形式:,图,2020年6月5日7时11分,45,线性化方法令:y=1/y,x=e-x,则有y=+x,(四)S型曲线基本形式:,图,2020年6月5日7时11分,46,三、非线性判定系数与相关系数,(一)非线性判定系数R2值域:(0,1),越接近1表示非线性相关程度越强,所配合的曲线回归模型拟合效果越好。,2020年6月5日7时11分,47,(二)非线性相关系数(相关指数)R非线性判定系数的平方根。测定两变量间曲线相关的密切程度,衡量曲线回归模型的拟合效果。不能判明相关方向(用于直线时,通过其他方法确定相关系数的正负)。注:衡量曲线回归模型的拟合效果还可以采用回归估计标准误差。,2020年6月5日7时11分,48,本章学习要求,弄清相关关系的概念、种类;掌握相关系数的计算方法和应用;掌握一元线性回归的基本原理和参数的最小二乘估计方法;掌握相关系数或回归方程的显著性检验;利用回归方程进行预测;了解可化为线性回归的曲线回归用Excel进行回归分析,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!