第八部分相关分析与一元线回归模型

上传人:仙*** 文档编号:52174132 上传时间:2022-02-07 格式:PPT 页数:96 大小:1.04MB
返回 下载 相关 举报
第八部分相关分析与一元线回归模型_第1页
第1页 / 共96页
第八部分相关分析与一元线回归模型_第2页
第2页 / 共96页
第八部分相关分析与一元线回归模型_第3页
第3页 / 共96页
点击查看更多>>
资源描述
第八章第八章 相关分析与一元线性回归模型相关分析与一元线性回归模型 相关系数 (Correlation Coefficient) 一元线性回归模型 ( Simple Linear Regression Model)8.1 随机关系随机关系 函数关系函数关系 (Deterministic Relationship) Y= f (X) 每一个 X 值都唯一地对应一个 Y值. 随机关系随机关系( Stochastic Relationship) 当 X 的值给定时, Y 的取值服从一个分布函函 数数 关关 系系 例1: 一台计算机售价为960美元。 X 计算机的销售量 Y 总总销售收入 Y=960X 例2:租车固定费用为100美元。每行驶一公里收费0.2 $ X 行驶公里数 Y 租用车辆的费用 Y= 100 + 0.20X随随 机机 关关 系系随机关系(随机关系( Stochastic Relationship): 例: 钢材消费量与国民收入 Y 钢材消费量(万吨) X 国民收入(亿元) 问题:如何测量问题:如何测量X与与Y的相关性大小?的相关性大小?),( :),( :2121nnyyyYxxxXNYX15499102429851353894246981097587212846988150278071394873813039102515551013161917111539205112156121111317852286141762231115196020031619022435钢材消费量与国民收入钢材消费量与国民收入钢材消费量与国民收入05001000150020002500050010001500200025003000国民收入(亿元)钢材消费量(万吨)随机关系(随机关系( Stochastic Relationship): 当当 X 的值给定时,的值给定时, Y 的取值服从一个分布的取值服从一个分布发电量与工业增加值(19952007)年度工业增加值(亿元)发电量(亿千瓦小时)199515446.1210070.30199618026.1110813.10199719835.1811355.53199819421.9311670.00199921564.7412393.00200025394.8013556.00200128329.3714808.02200232994.7516540.00200341990.2319105.75200454805.1022033.09200572186.9925002.60200691075.7328657.262007117048.4032815.531-1. 北京市人口变化情况北京市人口变化情况 图图为为1978197820092009年北京常年北京常住人口变化情况。住人口变化情况。户籍人口增长比较缓慢,户籍人口增长比较缓慢,年平均增长率为年平均增长率为1.24%1.24%,外来人口(指居住半年外来人口(指居住半年以上外来人口),随着以上外来人口),随着北京经济的发展,增长北京经济的发展,增长迅猛,年平均增长率为迅猛,年平均增长率为15.74%15.74%。1. 北京市人口预测北京市人口预测1-2. 北京市的人口规划与实际情况北京市的人口规划与实际情况p 根据根据北京城市总体规划(北京城市总体规划(2004-2020)2004-2020)的要求,的要求,到到20202020年,北京的常住人口为年,北京的常住人口为18001800万左右,万左右,户籍人口为户籍人口为13501350万。万。p 而实际情况是:截止而实际情况是:截止20092009年底,北京的常住人口已经达到年底,北京的常住人口已经达到了了17551755万人。万人。图4 指数预测模型的拟合图从图中看出,近10年内,北京市的常住人口基本接近指数增长。1-3. 北京市人口预测北京市人口预测 选取了2000-2009年的总常住人口数据来预测未来人口变化。选取该段数据原因是(1)2000-2009年北京人口的变化比较有规律;(2)北京市统计局从2001年开始正式对外来人口进行统计。不同年份常住人口预测结果表1 按指数函数预测的北京市未来10年的常住人口数1995.84720141940.40720131886.50820121834.10520111783.1581783.15820102363.382363.3820202297.73120192233.90520182171.85320172111.52420162052.8712052.8712015预测人口数(万人)预测人口数(万人)年份年份 20062006年中国城市生活质量报告年中国城市生活质量报告中,北京中,北京在全国仅排名第在全国仅排名第14 14 位,比上一年下降位,比上一年下降10 10 位。交位。交通问题满意度则排在所有城市的最后一位,也是通问题满意度则排在所有城市的最后一位,也是造成北京排名下滑的最主要的原因。造成北京排名下滑的最主要的原因。(中国汽车(中国汽车资源网引用资源网引用法制晚报法制晚报报道)报道)2. 全市交通承载力分析全市交通承载力分析2-1. 北京市交通现状:机动车保有量北京市交通现状:机动车保有量从图中可以看出,北京市的机动车保有量增长迅速,特别是2000年以来,增长极为迅猛。图10 2-2. 北京市人口出行总量预测(六环以内)北京市人口出行总量预测(六环以内)p 从图从图1212可以看出,随着人口的增长,出行总量也随之增长。可以看出,随着人口的增长,出行总量也随之增长。p 预计到预计到20202020年,六环内的出行总量将达到年,六环内的出行总量将达到43004300万人次万人次/ /日以日以上,上,是是20092009年的年的1.61.6倍。倍。人口出行总量分析与预测人口出行总量分析与预测常住人口(万人)出行总量(万人)3-3. 全市交通出行比例分析全市交通出行比例分析 u 右图显示:自行车出行比重下降,公共右图显示:自行车出行比重下降,公共交通出行比例不断增加,同时,小汽车交通出行比例不断增加,同时,小汽车出行比例也持续增加。出行比例也持续增加。u 目前,北京市公共交通出行比例仅为目前,北京市公共交通出行比例仅为38.9%38.9%,而东京大于,而东京大于64%64%以上。以上。u 北京的小汽车使用强度为北京的小汽车使用强度为4545车公里车公里/ /日,日,远高于东京(远高于东京(1919)、香港()、香港(3939)、伦敦)、伦敦(3030)。)。u 北京市机动车的北京市机动车的80%80%以上集中在六环范围以上集中在六环范围内。内。 北京机动车呈现高速度增长、高强北京机动车呈现高速度增长、高强度使用、高密度聚集的态势。度使用、高密度聚集的态势。交通出行比例车种20092020公共交通1050(39%)2160(50%)小汽车940(35%)1032(24%)到到20202020年,即使公交能够承担年,即使公交能够承担50%50%的出行数量,小汽车承担的出行比例降的出行数量,小汽车承担的出行比例降到到24%24%(乐观估计)。小汽车所承担的出行量也高于(乐观估计)。小汽车所承担的出行量也高于20092009年的出行量,这年的出行量,这意味着,届时,在路上行驶的小汽车的数量将高于目前的数量至少意味着,届时,在路上行驶的小汽车的数量将高于目前的数量至少1010个百个百分点。分点。小汽车和公共交通承担的出行量分析小汽车和公共交通承担的出行量分析20092009年,北京公交出行比例接近年,北京公交出行比例接近39%39%,小汽车接近,小汽车接近35%35%。如果。如果20202020年,公年,公交承担的比例为交承担的比例为50%50%,并认为增加的部分主要来自小汽车的承担量,则,并认为增加的部分主要来自小汽车的承担量,则小汽车承担的比例降为小汽车承担的比例降为24%24%。 Y 每周支出 ($)Xi 每周税后收入 ($) 解解: b1= 0.9232 b0= -8.1622 9733. 01346.10 046.1072856.367 50.321029232. 01622. 8 22SSTSSERsnSSEsSSESSTxyee8.2 相关系数相关系数(The Correlation Coefficient) Pearson 相关系数相关系数: r(x,y) 记niiniiniiiyyxxyyxxyxr12121)()()(),(YXXYniiYniiXniiiXYsssyxryynsxxnsyyxxns),( )(11 ,)(11( )(111221221样本协方差)cos,yxyxrr(x, y) 的性质的性质 (1) -1 r 1 (2) 0 r 1: 正线性相关 (3) -1 r 0 (右尾检验) H :;2.1326.29 t 132. 2)26(05. 0P 05. 0 29. 6953. 0126953. 012 t005. 022拒绝结论由于选择tttrnrSpearman秩相关系数秩相关系数 注意:注意:样本相关系数只能测量两个随机变量之间是否存在线性相关线性相关关系! 问题:如何测量非线性相关关系? xi 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 yi 12, 22, 32, 42, 52, 62, 72, 82, 92, 102计算得到: r = 0.975 思路思路1. X: 2, 4, 6, 8, 10, 12, 14, 16, 18, 20 rank 1, 2, 3, 4, 5, 6, 7, 8, 9, 10 Y: 22, 42, 62, 82, 102, 122, 142, 162,182,202 rank 1, 2, 3, 4, 5, 6, 7, 8, 9, 10niiniiniiiyyxxyyxxyxr12121)()()(),(思路思路2: (1) 求两组秩的差: Di= ui - vi (2)为防止正负号抵消: (3)(a) 如果: ui = vi , i =1,2,n 取到最小值最小值(等于零)(等于零)。 (b) 如果:两组秩取值完全相反, 取到最大值最大值。 ui n (n-1) (n-2) 3 2 1 vi 1 2 3 (n-2) (n-1) n2112)(iniiniivuDniiD12niiD123/ ) 1(212nnDnii3/ ) 1()1 () 1(22) 1() 1(22222nnnnnn 计算: 显然,l 的取值范围为 0,1 两组秩完全一致 两组秩完全相反 (4)定义定义Spearman秩相关系数秩相关系数 当 l = 0: R=1 (正相关) 当 l = 1: R= 1 (负相关) 一般认为: 为相关程度比较高。 ) 1(33/ ) 1(212212nnDnnDlniinii) 1(6121212nnDlRnii8 . 0R例例:对某地区 12 个街道进行调查,并对经济发展水平与卫生条件按规定的标准打分。评价与计算结果见下表: 编号 经济水平 卫生水平 u (经济) v (卫生) D =u-v D2 1 82 86 6 9 -3 9 2 87 78 9 6 3 9 3 60 65 1 2 -1 1 4 98 88 12 10 2 4 5 75 64 3 1 2 4 6 89 90 10 11 -1 1 7 84 80 7 7 0 0 8 78 77 4 5 -1 1 9 80 76 5 4 1 1 10 94 96 11 12 -1 1 11 85 85 8 8 0 0 12 68 70 2 3 -1 1 合计 32 计算Spearman秩相关系数秩相关系数 该地区的经济水平与卫生水平存在正相关关系!该地区的经济水平与卫生水平存在正相关关系!8 . 08881. 0) 112(1232612R32 1212niiDn例例7.1 有50个从初中升到高中的学生。为了比较初三的成绩是否和高中的成绩相关,得到了他们在初三和高一的各科平均成绩(数据在highschool.sav)。 50名同学初三和高一成绩的散点图初三成绩110100908070605040高一成绩100908070605040Correlations1.795*.0005050.795*1.0005050Pearson CorrelationSig. (2-tailed)NPearson CorrelationSig. (2-tailed)Nj3s1j3s1Correlation is significant at the 0.01 level(2-tailed).*. Pearson相关 Correlations1.000.595*.0005050.595*1.000.000.50501.000.758*.0005050.758*1.000.000.5050Correlation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)NCorrelation CoefficientSig. (2-tailed)Nj3s1j3s1Kendalls tau_bSpearmans rhoj3s1Correlation is significant at the 0.01 level (2-tailed).*. 非参数相关 讨论讨论1:从相关关系发现因果关系:从相关关系发现因果关系案例:案例:2006年北京市的福寿螺事件年北京市的福寿螺事件5月月20日日 蜀国演义酒楼将蜀国演义酒楼将“凉拌螺肉凉拌螺肉”的原料的原料海水螺改为福寿螺。海水螺改为福寿螺。5月月23日日 前后前后 广州管圆线虫病患者开始出现症状,但病因难查。广州管圆线虫病患者开始出现症状,但病因难查。6月月24日日 首例广州管圆线虫病在友谊医院确诊。(热带病研究所)首例广州管圆线虫病在友谊医院确诊。(热带病研究所)6月月25日日 友谊医院临床医生先后友谊医院临床医生先后2次到蜀国演义酒楼暗访、明查,次到蜀国演义酒楼暗访、明查, 检测出福寿螺携带广州管圆线虫幼虫。检测出福寿螺携带广州管圆线虫幼虫。8月月17日日 北京市卫生局通报因食用凉拌螺肉染上北京市卫生局通报因食用凉拌螺肉染上“广州管圆线虫病广州管圆线虫病”情况。情况。 20082008年年0505月月1212日日 新华网报道,新华网报道,100100多位曾在蜀国演义酒楼食用凉拌多位曾在蜀国演义酒楼食用凉拌螺肉的顾客患上广州管圆线虫病。该病严重者出现头痛、发热、颈部强硬螺肉的顾客患上广州管圆线虫病。该病严重者出现头痛、发热、颈部强硬等症状,严重者可致痴呆,甚至死亡。经场历时一年半的等症状,严重者可致痴呆,甚至死亡。经场历时一年半的 赔偿案审理,赔偿案审理,160160多名患者共获赔偿近多名患者共获赔偿近10001000万元。酒楼总损失则为万元。酒楼总损失则为23202320万元。万元。 讨论讨论2:相关关系:相关关系 因果关系因果关系 西班牙医生Gasper Casal 与18世纪在欧洲首次发现糙皮病是非常贫困的居民中体弱多病、伤残、夭折的一个重要原因。十九世纪初这种疾病在欧洲蔓延,二十世纪头十年,在美国泛滥。 患病者家庭贫困,环境条件恶劣,到处有苍蝇。而在欧洲,一一种吸血蝇与糙皮病有同样的地理分布范围;种吸血蝇与糙皮病有同样的地理分布范围;而吸血蝇在春天最为活跃,恰恰是糙皮病发生病历最多的季节。 许多流行病专家认为这种疾病是传染性的许多流行病专家认为这种疾病是传染性的由昆虫传染。由昆虫传染。 1914年初,美国医生Joseph Goldberger通过实验研究证实,糙皮病是由于不良饮食引起的,可以通过食用含P-P因子(烟酸)的食物而预防和治疗。烟酸天然存在与肉、奶、蛋和一些蔬菜、谷物中。发病地区的穷人主要以玉米为食物,而玉米几乎不含烟酸。1940年以来,美国销售的大部分面粉中添加了P-P因子。 苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不苍蝇是贫穷的标志,而不是糙皮病的起因。相关关系不等于因果关系。等于因果关系。(4)航空运量的增长在1996年以前是经济增长的线性趋势。1996 还有一些例子:还有一些例子: (1)闪电是打雷的原因吗 (2)公鸡打鸣,天就亮 (相关关系?反因果关系?) (3) 哲学家罗素(Bertrand Russell)讨论因果问题 在一只鸡看来:农妇到来,饲料会被放在钵子里有相关关系,不一定有因果关系;有相关关系,不一定有因果关系;没有相关关系,就一定没有因果关系。没有相关关系,就一定没有因果关系。8.3 一元线性回归模型一元线性回归模型 ( Simple Linear Regression Model) 回归模型回归模型: 研究因变量与自变量之间的因果关系 Y因变量(dependent variable) Xj 自变量(independent variable) 例例: 总体参数总体参数 : 0 , 1, , p 随机误差随机误差 : ppXXXYCTYXXY2211023/2210/21Sir Francis Galton1889, Natural InheritanceT 8, Y 4C 8, Y 64应用实例:应用实例: 美国航空公司的零件预测美国航空公司的零件预测 美国航空公司发展了RAPS分配与计划系统,可以提供从咖啡机到起落架的超过5000种零件的需求预测。这些零件的保障供应都对一架飞机的运行至关重要。零件短缺会导致航班取消,代来很高的成本。 最初使用时间序列模型,但发现不适用。之后,系统使用线性回归模型,建立月度零件更新建立月度零件更新Y与月度飞行小时与月度飞行小时X的的函数关系,函数关系,可以在不到1个小时的时间里得出所有零件的月度需求预测。美国航空公司的原材料管理小组估计“使用RAPS每年差不多节约100万美元。,n,ixyiii21 10例例1: 阿蒙德比萨饼屋的销售预测阿蒙德比萨饼屋的销售预测阿蒙德比萨饼屋在美国5个州有连锁店。最成功的店址是在大学校园边上。经理们认为,这些饭店的季度销售额Y与学生人数成正相关,即位于学生人数较多校园旁边的饭店将比位于学生人数较少的校园边上的饭店实现更达的销售额。为了研究学生人数与季度销售额之间的关系,阿蒙德公司采集了10家位于大学校园边的饭店的数据。饭店Y = 季度销售额(千美元)X = 学生人数(千人)1234567891058105881181171371571691492022688121620202226xy560 (1) b1=5 (为正),说明学生人数增加时,季度销售额便会增加(2) 学生人数每增加1000人,预计销售额会增加5000美元(3) 如果要预测一个位于拥有16 000个学生的校园边的饭店的季度销售额,可以预测季度销售额约为 140 000美元.14016560 y 一元线性回归模型一元线性回归模型 基本假设基本假设(basic assumptions ):,n,ixyiii21 100)Cov( : )3( , 0),Cov( : )2()(0)(), 0( : ) 1 ( : . 2)( : . 12210iiiijiiiiiiiii,xxjiDENxxxXYE相互独立与无序列相关对于任意的随机误差设总体模型的一元线性假一元线性回归分析的问题一元线性回归分析的问题 假设对于总体数据: 希望估计总体参数希望估计总体参数: 0 , 1 从总体中抽取容量为 n 的样本: 估计量估计量: 一元回归线一元回归线: ,n,ixyiii21 101100 ,estimatesestimatesbb) ( : 10的预测值的拟合值iiiiiyyyxbby),( ,),(),(2211nnyxyxyx8.4 最小二乘方法(最小二乘方法(Ordinary Least Squares ) 一元回归线一元回归线: 残差平方和残差平方和: SSE (Sum of Squares for Error)-( :als( Residu 10iiiiiiiyyeyyxbby残差)min)( )(21102112iniiiniiniixbbyyyeSSE解:解: 正规方程(The normal equations) :)()( : (2) 0)(2)( (1) 0)(2)( 10122112111011210102xbybxnxyxnyxxxyyxxbxbbyxbexbbybeniiniiiniiniiiiniiiiiniii截距斜率则iy iy Gauss-Markov 定理定理 如果基本假设成立如果基本假设成立: 最小二乘估计量最小二乘估计量b0 、b1是总体参数是总体参数 0 、 1的的线性最小方差无偏估计量。线性最小方差无偏估计量。例题例题:yi 股票价格 ($) xi 股息 ($) 股票 股息 ($) 股价($) ixi yi 113115 2 4 45 312100 4 5 50 5 6 55 6 8 85 7 3 40 8 4 50 9 5 45 10 7 70yi 股价 ($) xi 股息 ($)030609012015002468101214解:解: y 股价 x 股息 计算结果为计算结果为: b1=7.5072, b0=15.2017 20.280.11200.11580.112135072.72017.15)0 .115( 13$ 5072.72017.15 eyyxxy当8.5 评价回归模型评价回归模型 一一. 问题提出问题提出 样本回归模型总是可以求到的,但是它是否确实是总体回归模型的正确估计呢? 1. 该模型能否较好地解释该模型能否较好地解释 yi 的取值变化规律?的取值变化规律?回归方程的质量如何?误差多大? 2. 关于一元线性回归模型的几个基本假设条件关于一元线性回归模型的几个基本假设条件是否得到满足?是否得到满足?1 2 ixy() 与是线性关系吗?( ) 是可以舍弃随机误差项吗?(3)在残差项中是否还存在重要的、规律性信息?问题问题: 1. 估计标准误差估计标准误差: se (sy) 2. 拟合优度拟合优度 (判定系数)判定系数): R2 3. 在在 X 和和Y 之间是否存在线性关系之间是否存在线性关系? (F-test) 4. X 在解释在解释 Y时,是否有作用时,是否有作用? (t-test) 5.无序列相关检验无序列相关检验 (D-W test) 6. 残差分析残差分析 二二. 估计标准误差估计标准误差 (Standard Error of the Estimate) 回归标准误回归标准误 如果基本假设成立: se 是总体标准差 的无偏估计量 : E(se)= ), 0( 2Ni2)(21)0 (210)(1)(11 121210111nSSEyynensxbbynyyneneniiiniieEquationNormaliniiiniinii自由度(自由度(Degree of Freedom )= n-20)()(0)()( (2) 0)( (1) 0)(1011110111101101iiniiiiniiniiiiiniiininiiiniiiiniixbbyxyyxexxbbyyyexbbyxxbby我们有由正规方程组neee , ,21计算计算 se 例例 :股价与股息之间的关系股价与股息之间的关系 回归标准误差 653. 5 31.952 31.952 2106196.2552 255.6196)(222112 ssnSSEsyyeSSEeeeiniinii%15 yse一般要求:( 5.653/65.5=8.63% )5 .65y三三. 拟合优度拟合优度 Goodness of Fitiiniiynxbbyyynsyyy1021221 :)2()(11 , (1)由回归方程全部变异 )( :(1)(2) 0)(2)( (1) 0)(2)( 111011011210102niiininiiiniiiiiniiiyxbbyxbbyxbexbbybe由iy 12 , ny yy SSESSRSSTyyyyyyyyyyyyyyyyyyyyyyyyyyyniiiniiniiniiiiiiiiiiiiniin )()()( 0)( )()( )( )()()( )3()( , 12122112121则由于或者离差平方和的分解离差可解释变异可解释变异不可解释变异不可解释变异总变异总变异=+ yyyyyy测定系数测定系数 SSR越大:用回归方程解释 yi 变异的部分越多 SSE越小:观测值yi绕回归线越紧密, 拟合越好 测定系数测定系数 (Coefficient of Determination )Small LargeConst SSE SSR SST R2 的性质的性质: (1) 0 R2 1 (2) 当 R2=1: SSR=SST , or SSE=0 (3) 当 R2=0: SSR=0, or SST=SSE (4) r(X,Y) 的()号与 b1相同; (5) SSTSSE1SSTSSRR22),(RYXr0 R then, 0 if R2122212bssbYX例题:例题: 股价与股利之间的关系 回归方程:9582. 0278.680567.115072. 7 Rthen278.680 ,567.11 ely,Alternativ9582. 05 .61226196.2551SSTSSE1 R6196.255SSE 6122.5,SST5072. 72017.1522222YXiissxy9789. 0),(yxr 1. R2= 0.64, X 与 Y 的相关系数等于 (a) 0.64 (c) 0.32 (b) 0.80 (d) 0.40 2. 指出下面哪一个方程一定是错误的95. 0 38 )(86. 0 9 . 0100 )(75. 0 01. 0500 )(rxyc rxyb rxya 四四. F-检验检验 (检验回归模型的线性关系(检验回归模型的线性关系) 一元线性回归模型一元线性回归模型: F-test 在 X 和 Y之间是否存在线性关系?0: , 0:1110HH,n,ixyiii21 10F-test :在 X 和 Y之间是否存在线性关系? (1) (2)检验统计量 (3) (4) 若F F , 不拒绝H0 (非线性模型或换变量) 若 F F , 拒绝H0 (不能否定线性模型不能否定线性模型)0: , 0:1110HH21210)( ,)()2, 1 (2/1/01iniiniiHyySSEyySSRnFnSSESSRF)2, 1 (05. 0nFFP例题:例题: 股价与股利之间的关系. reject H We32. 567.16032. 5)2, 1 ( 05. 067.160)210/(6 .2555866.9/1 866.95SSR , 6 .255SSE 6122.5,SST5072. 72017.1510005. 0FFnFFxynii0: , 0:1110HH(通过(通过F 检验)检验)拒绝五五. t -检验检验(回归系数的检验)(回归系数的检验) X 对对Y 是否有解释作用是否有解释作用? 如果总体假设成立 而如果 H0 为真,则有0: , 0:1110HH)2(001101ntsbtHb )( 121niiebxxss其中,)2(111ntsbtb t -检验检验 (1) (2)检验统计量: (3) (4) 若 t t/2, 拒绝 H0 ( X 有解释作用有解释作用) 若 t t/2, 不拒绝 H0 (X 没有解释作用)0: , 0:1110HH)2(01101ntsbtHb )( 121niiebxxss其中2/ 05. 0ttP例题例题:Y 每周支出 ($)Xi 每周税后收入 ($) 家庭家庭 收入收入 ($) 支出支出($) ixi yi 1400350 2300250 3350 325 4400370 5200180 6300270 7375330 8380350 9325 300 10400360100150200250300350400150200250300350400450 xyY 每周支出 ($)Xi 每周税后收入 ($) Y 每周支出 ($)Xi 每周税后收入 ($) 解解: b1= 0.9232 b0= -8.1622 9733. 01346.10 046.1072856.367 50.321029232. 01622. 8 22SSTSSERsnSSEsSSESSTxyee 0.054)( 18.82)( 92313. 016217. 810bbssxy.reject H We306. 2)8( 05. 010.17054. 0923213. 0 0: , 0:02/111101tsbtHHb(通过 t 检验)六六. Durbin-Watson检验检验自相关现象(序列相关)自相关现象(序列相关) 总体模型中无序列相关假设: 1. 序列相关的测量序列相关的测量 2. 序列相关现象产生的原因序列相关现象产生的原因 (1)重要的解释变量被遗漏、模型函数形式错误 (3)时间序列自变量: (4)蛛网现象: jiji , 0),Cov( 农产品供应量农产品价格随机误差13 21143 21 - ntnteeeeeeeeeee 2. 自相关现象的后果自相关现象的后果 (1)估计量的误差范围扩大(不再是有效估计量); (2)t-检验和F-检验不再有效; (3)稳健性差:最小二乘估计量对抽样波动变得十分敏感。 3.检查自相关现象:检查自相关现象: (1)图示法(残差图)tet0et0et-1 (2)分析法()分析法(D.W检验)检验) 检验目的:检验目的: 中是否存在自相关现象i4, 1)3(0, 1)2(2, 0) 1 (0 1 -12 )( 0 :222210dddddeeedHnttnttt完全负自相关完全正自相关无自相关存在,所以因为可以证明:统计量: D.W检验表检验表: 检验水平检验水平 样本点容量样本点容量 n =15100 变量个数变量个数 k =15 查表得到d统计量的 最低限dL和最高限du 决策方法:决策方法: (1) du d 4 - du 时,接受Ho假设,线性回归模型通过D.W检验,随机误差项没有自相关现象。没有自相关现象。 (2) 0 d dL,随机误差项存在正自相关现象。 (3) 4 - dL d 4 ,随机误差项存在负自相关现象。 (4) dL d du 或者 4-du d 4 - dL , 不确定。 无自相关4-dudLdu0不确定不确定D-W检验表检验表2负自相关正自相关44-dL例:例:n=16 k=1 =0.05 查表: dL =1.10, du =1.37 (1)若 d = 0.681.10 存在正自相关现象。 (2)若 d = 1.72 du =1.37 1.72 4 - du = 4 - 1.37 = 2.63 不存在正自相关现象。 七七. 残差分析残差分析H0H0:2: (- )iiiey y残差01222211 ( )0 Cov( ,)0 (0,) ( ) Cov( ,)0 10, Var( )(0)2 : iiiiijiiiiiinniiieiiYXEijNDxeeeeesn 用估计定义标准化残差*0 (0,1)iineeeNs*20.9545 ,iiiP ex e散点图标准化残差图:标准化残差图:以xi 横坐标,以ei*为纵坐标,将数据( xi ,ei*)标在平面图上。 (1)若数据点( xi ,ei*),i =1,2,n,在(-2,2)区间内随机分布,则说明对总体模型的假设是正确的,因而推断回归方程的拟合是良好的。 (2)若数据点( xi ,ei*),i =1,2,n, 排列有规律,或其中有许多点落在(-2,2)区间之外,则说明回归方程对数据的拟合不充分,这时随机误差项不再服从 。 原因例如:原因例如:回归方程的形式选择不当(非线性); 缺乏重要的解释变量。), 0(2N(3)异方差现象)异方差现象 总体模型中有“同方差”假设: 截面数据中较容易出现异方差现象,例如: (i)储蓄行为的差异随着收入水平而变化; (ii)不断同熟练程度的打字员,打字错误的可能性和打字错误的类型不同。 后果:后果: 的参数估计方差扩大的参数估计方差扩大;(无偏性,但不再有效) F-检验和检验和 t-检验失效;检验失效; (会低估估计量的方差,得到的t值很高,但并非如此,对 t-检验产生误导。)niNi, 2 , 1 ), 0(2(4)回归模型残差的正态性检验)回归模型残差的正态性检验 绘制残差的直方图绘制残差的直方图(plot- Histogram) 2检验检验, K-S检验检验 P-P Plot (累计概率分布图)(累计概率分布图): X 假设残差服从 , 分布函数为 :F(x) Y 残差的经验分布: S(x) 如果两种分布基本相同,则 P-P plot中的点应围绕在对角线附近。), 0(2NnxXxSi的个数的个数 )(8.6 总体参数的置信区间总体参数的置信区间 如果总体假设为真) ,( )2(1112/12/111bbbstbstbntsbt斜率的置信区间为: )( 121niiebxxss其中, 同样的, 截距的置信区间为 )( where) ,( 22/02/0000 xxnxssstbstbiiebbb例题: Y 每周支出 X 每周税后收入 对于斜率 1,构造置信水平为 90% 的C.I. (0.923-1.8600.054, 0.923+1.8600.054 ) =(0.823,1.023)(0.054) (18.820) 923. 0162. 8xy) ,( 112/12/1bbstbstb860. 1)210(10. 02/t8.7 应用回归模型进行预测应用回归模型进行预测 当 X = xp, 预测 yp 的数值。 Point Estimation: Interval Estimation:ppxbby10 C.I. , (2) C.I. ,)( ) 1 ()()(111222/nxxxxxxnstypniipep 1. 线性回归模型不宜用于长期预测。线性回归模型不宜用于长期预测。 2. 事物发展与历史数据的趋势有过大的差异。事物发展与历史数据的趋势有过大的差异。 例如:航空运量的增长在1996年以前是经济增长的线性趋势。应用回归模型需要的注意问题应用回归模型需要的注意问题19968.8 EXCEL应用应用yi 股票价格 ($) xi 股息 ($) 股票 股息 ($) 股价($) ixi yi 113115 2 4 45 312100 4 5 50 5 6 55 6 8 85 7 3 40 8 4 50 9 5 45 10 7 70EXCEL:工具 数据分析(D) 相关系数,回归 相关系数相关系数回归:回归:iixy5072. 72017.15当P-value 0.05时, t检验通过当 Significance F 0.05时, F检验通过分行分行编号编号不良贷款不良贷款(亿元)(亿元)各项贷款余额各项贷款余额(亿元)(亿元)本年累计应收贷款本年累计应收贷款(亿元)(亿元)贷款项目个数贷款项目个数(个)(个)本年固定资产投资额本年固定资产投资额(亿元)(亿元)10.967.36.8551.921.1111.319.81690.934.8173.07.71773.743.280.87.21014.557.8199.716.51963.262.716.22.212.271.6107.410.71720.2812.5185.427.11843.891.096.11.71055.9102.672.89.11464.3110.364.22.11142.7124.0132.211.22376.7130.858.66.01422.8143.5174.612.726117.11510.2263.515.634146.7163.079.38.91529.9170.214.80.6242.1180.473.55.91125.3191.024.75.0413.4206.8139.47.22864.32111.6368.216.832163.9221.695.73.81044.5231.2109.610.31467.9247.2196.215.81639.7253.2102.212.01097.1综合练习:综合练习: 某商业银行某商业银行25家分行家分行2002年的主要业务数据年的主要业务数据Excel的主要计算内容:1、散点图2、相关系数矩阵3、“不良贷款”对“贷款余额”的一元回归散点图0.02.04.06.08.010.012.014.00.0100.0200.0300.0400.0贷款余额(亿元)不良贷款(亿元)“不良贷款不良贷款”对对“贷款余额贷款余额”的散点图的散点图不良贷款(亿元)各项贷款余额(亿元)本年累计应收贷款(亿元)贷款项目个数(个)本年固定资产投资额(亿元)不良贷款(亿元)1各项贷款余额(亿元) 0.8435711本年累计应收贷款(亿元) 0.731505 0.6787721贷款项目个数(个)0.700281 0.848416 0.5858311本年固定资产投资额(亿元) 0.518518 0.779702 0.472431 0.7466461相关系数矩阵相关系数矩阵SUMMARY OUTPUT回归统计Multiple R 0.843571R Square 0.711613Adjusted R Square0.699074标准误差 1.979948观测值25方差分析dfSSMSF Significance F回归分析1222.486222.486 56.75384 1.18E-07残差23 90.16442 3.920192总计24 312.6504Coefficients 标准误差t StatP-value Lower 95%Upper 95%Intercept-0.82952 0.723043 -1.14726 0.263068 -2.32525 0.666206X Variable 10.0378950.00503 7.533515 1.18E-07 0.0274890.0483“不良贷款不良贷款”对对“贷款余额贷款余额”的一元回归的一元回归X Variable 1 Line Fit Plot-2.00.02.04.06.08.010.012.014.00.0100.0200.0300.0400.0X Variable 1YX Variable 1 Residual Plot-505100.0100.0200.0300.0400.0X Variable 1残差RESIDUAL OUTPUT观测值预测 Y残差标准残差1 1.720793 -0.82079 -0.4234723.38816 -2.28816 -1.180523 5.726264 -0.92626 -0.477884 2.232372 0.967628 0.4992255 6.738052 1.061948 0.5478876 -0.21563 2.9156261.504257 3.240371 -1.64037 -0.846318 6.196158 6.303842 3.2523219 2.812161 -1.81216 -0.9349410 1.929214 0.670786 0.346076111.60332 -1.30332 -0.67242124.18016 -0.18016 -0.0929513 1.391109 -0.59111 -0.3049714 5.786895-2.2869 -1.1798715 9.155735 1.044265 0.538764162.175530.82447 0.42536617 -0.26868 0.468679 0.241804181.95574 -1.55574 -0.8026519 0.106479 0.893521 0.46099220 4.453002 2.346998 1.21087921 13.12331 -1.52331 -0.7859222 2.797003-1.197 -0.6175723 3.323739 -2.12374 -1.0956924 6.605421 0.594579 0.30675925 3.043318 0.156682 0.080836残残差差分分析析计计算算结结果果作业统计学各章练习题10.1 (Excel)10.3 (不用计算“预测区间”)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!