基于R语言的上海房价预测模型

上传人:文*** 文档编号:202572345 上传时间:2023-04-22 格式:DOCX 页数:18 大小:344.02KB
返回 下载 相关 举报
基于R语言的上海房价预测模型_第1页
第1页 / 共18页
基于R语言的上海房价预测模型_第2页
第2页 / 共18页
基于R语言的上海房价预测模型_第3页
第3页 / 共18页
点击查看更多>>
资源描述
基于R语言的上海房价预测模型摘要:利用R语言优秀的统计计算和统计制图特点,对多元统计模型进行分析。本文建立的模型主要是讨论上海商品房房价问题。考虑到商品房经济始于1998年,且可供查找的数据截止到2011年,故本文的数据来源于1998-2011年的上海统计年鉴和国家统计局。在本文中主要讨论影响上海商品房房价的因素及各个因素对于房价的影响作用,考虑到房地产不同于一般的消费品,它不仅提供居住的功能,带来收租收益,发生价值增值,而且对人的行为有重要的影响,因此,在进行预测自由贸易下的房价时,本文主要从人均生产总值、人均可支配收入、商品零售价格指数、常住人口、住房竣工面积、住宅投资总额、居民居住消费价格指数7个方面来考虑对于商品房房价的影响。本文在建模型时,先通过R软件拟合商品房房价与时间的非线性回归模型,再利用7个自变量与因变量商品房价多元线性关系,并进行逐步回归,得到最优回归模型。最后将时间的非线性回归模型与影响因素的多元线性模型预测值进行比较,给出2012、2013、2014年的房屋价格,其中2012年与2013年可与实际进行对比,进而评价模型的好坏。关键词:R语言 非线性回归多元线性回归 价格预测模型 显著性检验第一章 分析软件R语言简介R语言是属于GNG系统的一个自由、免费、源代码开放的软件,是一个用于统计计算和统计制图的优秀工具。主要用于统计分析、绘图的语言和操作环境。R本来是由来自新西兰奥克兰大学的Ross Ihaka和Robert Gentleman开发(也因此称为R),现在由“R开发核心团队”负责开发。R是基于S语言的一个GNU项目,所以也可以当作S语言的一种实现,通常用S语言编写的代码都可以不作修改的在R环境下运行。R的语法是来自Scheme。R的源代码可自由下载使用,亦有已编译的可执行文件版本可以下载,可在多种平台下运行,包括UNIX(也包括FreeBSD和Linux)、Windows和MacOS。R主要是以命令行操作,同时有人开发了几种图形用户界面。R的功能能够通过由用户撰写的套件增强。增加的功能有特殊的统计技术、绘图功能,以及编程介面和数据输出/输入功能。这些软件包是由R语言、LaTeX、Java及最常用C语言和Fortran撰写。下载的执行档版本会连同一批核心功能的软件包,而根据CRAN纪录有过千种不同的软件包。其中有几款较为常用,例如用于经济计量、财经分析、人文科学研究以及人工智能。第二章 商品房房价与时间的非线性模型2.1 数据准备本文从研究影响房地产价格的因素入手,鉴于国家在1998年出台停止福利分房,进而促进了的商品房的自由贸易,故数据始于1998年,且上海统计年鉴可查的到2011年年鉴,故通过综合国家统计局及上海市年鉴1998年2011年的房地产相关数据,最后筛选出如下可能影响未来房地产价格走势的变量,本文取定七个因素:人均生产总值;:人均可支配收入;:商品零售价格指数;:常住人口;:住房竣工面积;:住宅投资总额;:居民居住消费价格指数;: 上海商品房房产均价数据如下:tyx1x2x3x4x5x6x71998302125206877341521527.001963.51404.96113.619993176270711093240401567.001731.55378.82105.920003326300471171838951608.601724.02443.90103.320013659317991288338401668.331743.9466.71102.320024007339581325037901712.971880.5584.51100.020034989384861486737541765.842280.79694.30101.120046385448391668337881834.983270.43922.61101.620056698496481864537671890.262819.35936.36102.920068237548582066837741964.112746.8854.15102.9200710292620402362338652063.582843.62853.13104.5200813411669322667540712140.651899.4871.52102.5200915800691652883840482210.281522.07922.8196.6201019276760743183841172302.661415.441232.96103.5201124595825603623042842347.461581.031403.13105.42.2 建立非线性模型首先对y画出关于时间t的散点图,对应的R语言程序为:X=read.csv(E:2.csv)attach(X)plot(t,y)得到图一:由散点图可知,初步认为与成指数关系,利用R语言进行拟合检验。对指数函数两边取自然对数得:,令则可将其化为一元线性函数对取对数并进行一元线性回归的R语言程序为:y1=log(ym)a1=log(a)reg=lm(y1t)summary(reg)得到结果如下:则可知常数项=-3.281e+02 变量系数= 1.681e-01得到回归方程如下:将得到的值为3.220924e-143,得到关于的指数方程为:将得到的曲线与原散点图进行对比,R语言程序为:a1= -3.281e+02 a=exp(a1) b= 1.681e-01 yy=a*exp(b*t) plot(t,ym) lines(t,yy)得到如图:2.3 回归方程的检验对系数进行显著性检验,由结果可知,的均方误差为6.608e-12,的均方误差为3.296e-15,而和的P值均小于0.05,拒绝原假设,即认为与之间存在指数关系。对方程进行检验,残差的标准差为4.972e-14,而相关系数1,P值小于0.05,效果明显,故拒绝原假设,即认为与之间存在指数关系。第三章 影响房价的多因素的多元线性回归模型3.1 模型的建立: 上海商品房房产均价;:人均生产总值;:人均可支配收入;:商品零售价格指数;:常住人口;:住房竣工面积;:住宅投资总额;:居民居住消费价格指数;则建立这7个变量关于的多元线性回归模型:式中: 为未知参数,为随机误差,且认为服从的分布。对于式中未知参数的估计采用最小二乘法,求相关系数,并做显著性检验,通过二者表明模型建立的是正确的。3.2 模型的求解为了确定商品房销售价格与各变量之间的关系,分别作出与的散点图,R语言的程序如下:plot(X)得到散点图如下:利用程序cor(X)得到相关矩阵并整理得:y t 0.9195056y 1.0000000x1 0.9533447x2 0.9792964x3 0.6385694x4 0.9490735 x5 -0.3246709 x6 0.9005302 x7 -0.1598100并分别对与的相关性进行检验,检验的程序为attach(X)下列对象被屏蔽了from X (position 3): t, x1, x2, x3, x4, x5, x6, x7, ymcor.test(ym,x1) cor.test(ym,x2) cor.test(ym,x3) cor.test(ym,x4) cor.test(ym,x5) cor.test(ym,x6) cor.test(ym,x7) 得到如下的七个结果: 综合以上的结果,可知,在的条件下,和的与的相关性较差,其他五个变量与的相关性较好,故进行多元线性回归时,可考虑将和两个因素排除在外。首先对七个变量建立多元回归方程的R语言程序为:reg1=lm(ymx1+x2+x3+x4+x5+x6+x7) summary(reg1)得到如下结果:将结果整理得:估计值标准差t值P值0-4.725e+041.975e+04-2.3930.053841-4.246e-012.239e-01-1.8970.1066521.259e+003.204e-013.928 0.00773 *35.876e+002.104e+002.792 0.03148 *49.312e+001.086e+010.8570.4241351.630e-016.739e-010.2420.8169163.758e+001.788e+002.1020.0803178.121e+018.101e+011.0030.35479对系数进行显著性检验,由结果可知,在条件下,均拒绝原假设,认为具有很好的效果,但是的P值均大于0.05,故不能拒绝原假设,认为这些变量效果不明显,可以认为这些系数为零。对方程进行检验,残差的标准差为420,而相关系数= 0.9962,P值小于0.05,效果明显,故拒绝原假设,即认为与各个变量之间存在线性关系。根据P值,选择剔除一个变量,对回归模型进行优化,故剔除,则reg2=lm(ymx1+x2+x3+x4+x6+x7) summary(reg2)得到如下结果: 对系数进行显著性检验,由结果可知,剔除后,变的效果显著,要保留,分析原因,可能是因为数据偏差太大,对回归方程造成影响偏差过大。但是变量的P值均大于0.05,故不能拒绝原假设,认为这些个的影响效果不明显,可以认为这些系数为零。 对方程进行检验,残差的标准差为390.7,而相关系数= 0.9967,P值小于0.05,效果明显,且效果要好于上一次回归的结果。故拒绝原假设,即认为与剔除后的变量之间存在线性关系。根据P值的大小,选择剔除变量,继续对回归模型进行优化则R语言程序:reg3=lm(ymx1+x2+x3+x6+x7) summary(reg3)得到如下结果: 继续剔除,Reg4=lm(ymx1+x2+x3+x6) summary(reg4)得到如下结果:对结果整理得:估计值标准差T值P值0-3.136e+043.535e+03-8.8739.59e-06 *1-2.538e-015.395e-02-4.7050.00111 *21.126e+001.287e-018.7501.07e-05 *36.916e+008.896e-017.7742.78e-05 *64.538e+009.577e-014.7380.00106 *对系数进行显著性检验,由结果可知,在条件下,均拒绝原假设,认为具有很好的效果。对方程进行检验,残差的标准差为375.7而相关系数= 0.9969,P值小于0.05,效果明显,故拒绝原假设,即认为与各个变量之间存在多元线性回归关系。3.3模型的总结通过三次逐步回归,则最终得到最优的多元线性模型为:从该模型分析可知,在所选的因素中,:人均生产总值;:人均可支配收入;:商品零售价格指数; :住宅投资总额等因素被保留了下来,而:常住人口;:住房竣工面积; :居民居住消费价格指数被剔除,特别是和本应该对房价产生直接影响,通过分析可知,上海市住房竣工面积并不是逐年增加或减少等的规律性变化,呈现无规律性,这导致它在作为影响因素发挥的作用大大减小,而为何也被剔除,在我的能力范围内,分析认为可能是因为其随时间变化缓慢造成的。第四章 房价预测及模型的对比评价4.1指数方程预测房价故本文共得到两个预测模型及其预测值为:关于的指数方程为:对进行预测的R语言程序为:tt=2012:2014yy=a*exp(b*tt)yy三年的预测值为:20122013201424765.3329298.7534662.034.2多元线性回归预测房价关于影响因素的多元线性回归模型: 在国家不出台政策的条件下,我们假设7个自变量按照符合实际的增长率增长,依次求出未来三年的各项数据。自变量增长率2012年2013年2014年人均生产总值10%9081699897.6109887.4人均可支配收入10%3985343838.348222.1商品零售价格指数2%4369.74457.14546.2住宅投资总额7%1501.351606.441718,89带入回归方程,则可得多元线性方程预测的三年房价的值为:20122013201427499.3530763.2434245.124.3 预测模型的对比评价通过收集实际数据,与两个预测模型进行对比,可对预测的结果进行评价得到结果如下:两个模型预测房价与实际房价的对比:201220132014实际房价2569129537(截止到5月)无时间指数模型预测值24765.3329298.7534662.03与实际的偏差比例3.6%6.6%无多因素回归模型预测值27499.3530763.2434245.12与实际的偏差比例6.5%4.2%无则可知,指数模型和多因素线性回归模型均得到较好的预测值,预测偏差均非常小。根据房价时间模型,房价将随着时间呈指数增长之势,因此必须出台相关政策,有效抑制房价增长。根据多元线性模型,房价与各个自变量的正负相关性就是各个变量前系数的正负。要抑制房价的增长,可以通过使系数为正的自变量增长率减少,系数为负的自变量增长率增加来达到目的。比如可以通过中央人民银行对于贷款利率的增加,减少投资者的过度投机行为,使土地拍卖价格降低,直接降低房屋成本,同时贷款利率的增加减少了房地产商的贷款,使房地产商资金面收紧,迫使其降价卖出现有房屋,已达到回笼资金偿还原来贷款的目的。总 结 学习的心得是:学习一个软件,并将其应用于实践,可以快速提高软件的应用能力和对软件的理解。本文从用R语言读入数据表,到做初步的相关分析和一元非线性和多元线性回归,各个步骤的实施,对R语言基本操作和软件包有了一个更深入的了解和认识,为进一步的学习打下了基础。另外,在学习的时候,要从资料中进行学习和归纳,将各个方法用R语言去实践,多多使用,只有日积月累才能日渐精深。另外,作为应用统计专业出身,不仅要学会R语言的命令语句,还要掌握其背后的理论公式及其实现过程和方法。 对于模型的建立方面:在自变量的选择上虽然查找了相关的资料,但是考虑可能仍然有所欠缺,而且从其相关分析图可知,7个自变量并不是相互独立的,这使得最后得出房价与各自变量的正负相关性有误差。但是从最后的预测效果来看,虽然存在误差,但是不失为一种合理的方法。除了数据分析中会产生一定的误差,由于某些数据的缺少,有些数据从网上搜索得到,可能会存在不准确的情况,与现实数据可能有所差异。因此,给出的预测的模型,能够对如何对房价进行控制给出一些建议。参考文献1. 王斌会.多元统计分析及R语言建模M.广州:暨南大学出版社,20102. 美菲尔斯佩克特.R语言数据操作M.西安:西安交通大学出版社,20113. 英阿兰F祖尔,英埃琳娜N耶诺.R语言初学者指南M.西安:西安交通大学出版社,20114. 王彬.房地产价格影响因素分析D:硕士学位论文.北京:北京交通大学,20075. 初蕾.中国房地产价格影响因素分析D:硕士学位论文.辽宁:辽宁大学,2009- 18 -
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸设计 > 毕设全套


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!