回归大作业-基于多元线性回归的期权价格预测模型[资料教育]

上传人:8** 文档编号:196887172 上传时间:2023-04-01 格式:DOC 页数:22 大小:4.17MB
返回 下载 相关 举报
回归大作业-基于多元线性回归的期权价格预测模型[资料教育]_第1页
第1页 / 共22页
回归大作业-基于多元线性回归的期权价格预测模型[资料教育]_第2页
第2页 / 共22页
回归大作业-基于多元线性回归的期权价格预测模型[资料教育]_第3页
第3页 / 共22页
亲,该文档总共22页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
基于多元线性回归的期权价格预测模型王某某(北京航空航天大学 计算机学院 北京 100191)作者简介:王某某,北京航空航天大学研究生 邮箱:bnuwjx。摘 要:期权是国际市场成熟、普遍的金融衍生品,是金融市场极为重要的金融工具。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权上证50ETF期权,翻开了境内场内期权市场的新篇章。50ETF期权上市以来,市场规模逐步扩大,其发展情况境外期权产品相同时期。本文以此为研究背景,以“50ETF购12月1.95”这支期权为研究对象,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。本次研究以多元线性回归的全模型(模型1)为出发点,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,结果表明因变量与解释变量之间存在强烈的线性相关关系,且主成分回归和逐步回归相比全模型有更好的预测能力。关键词:期权价格 多元线性回归 50ETF 多重共线性 因子分析一、引言期权(option)是依据合约形态划分的一种衍生品,指赋予其购买方在规定期限内按买卖双方约定的价格(即协议价格或行权价格)购买或者出售一定数量某种金融资产(即标的资产)的权利的合约。期权购买方为了获得这个权利,必须支付给期权出售方一定的费用,称为权利金或期权价格1。2015年2月9日,上海证券交易所正式推出了我国首支场内交易期权上证50ETF,翻开了境内场内期权市场的新篇章。期权是与期货并列的基础衍生产品,是金融市场极为重要的金融工具之一。自50ETF上市以来,市场规模逐步扩大。2015年2月日均合约成交面值为5.45亿元,12月就达到了47.69亿元,增长了7.75倍;2月日均合约成交量为2.33万张,12月就达到了19.81万张,增长了7.5倍;2月权利金总成交额为2.48亿元,12月就达到了35.98亿元,增长了13.51倍1。我国股票市场有上亿的个人投资者,是一个较为典型的散户市场1。相较于专业投资机构讲,散户缺乏时间,精力以及专业分析,投资具有很大的投机行为。对于这些投资者来说,期权价格的变动则是他们最为关注的问题,其变化直接影响到自身的收益。在实际情况中,影响股票价格的因素很多,涉及到金融政策、利率政策以及国际市场等因素,其作用机制也相当复杂2。因此,对于期权价格预测的研究,则可以降低投资者的投资风险,及时调整投资结构,从而保障自身的收益。本文选择“50ETF购12月1.95(期权代码:10000629)”这支期权作为研究对象,根据过去一个月内期权的交易数据,以今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,通过多元线性回归模型,预测该期权的明日收盘价。下文由如下几部分构成:第二部分介绍了本次研究的数据集,包括数据来源、和数据字段;第三部分重点介绍了各个多元线性回归模型,包括全模型及异方差检验,残差的独立性检验、误差的正太分布检验和多种共线性检验,在第4小节和第5小节分别采用主成分回归和逐步回归对模型加以改善;第四部分运用第三部分建立的各个模型对期权价格进行了预测;第五部分对本文研究进行了总结并未来的研究加以展望。二、数据说明本次研究的数据来源于Wind资讯金融终端,从上面获取了“50ETF购12月1.95”这支期权自2016年10月24日至2016年11月24日(只包含工作日)共计24日的交易数据。经过整理后得到最终的数据字段,见表1。表 1 期权交易数据字段收盘价开盘价最高价最低价结算价成交额成交量持仓量涨停价跌停价 期权交易数据见附录1。三、建模1 符号说明 各个变量及其符号说明见表2。表 2 各个变量及其符号说明变量符号明日收盘价今日开盘价今日收盘价今日最高价今日最低价今日结算价今日成交额今日成交量今日持仓量今日涨停价今日跌停价2 解释变量与指标变量的散点图在建立模型之前,首先利用MATLAB绘制各个解释变量与指标变量(明日收盘价)之间的散点图,观察各个解释变量与指标变量之间的关系,散点图结果见图1。图 1 各个解释变量与指标变量(明日收盘价)的散点图通过图一中的散点图可以看出,明日收盘价与今日收盘价、今日开盘价、今日最高价、今日最低价、今日结算价、今日持仓量、今日涨停价以及今日跌停价之间有较为明显的线性关系;而与今日成交额以及今日成交量之间的线性关系并不明显。3 全模型 通过散点图我们观察到指标变量与各个解释变量之间大致上为线性关系,所以考虑多元线性回归模型进行建模。3.1 模型建立与求解首先建立各个解释变量与指标变量的全模型,即考虑如下模型:式中,都是与解释变量无关的未知参数,其中,称为回归系数。在MATLAB中使用regress函数即可求解此多元线性回归模型,求解结果见表3.表 3 MATLAB求解全模型结果回归系数回归系数的估计值回归系数置信区间0.1555-0.1938 0.50491.8288-0.9212 4.57870.0586-1.5671 1.68430.6199-0.4249 1.6647-1.0532-1.9703 -0.1362-1.2208-3.8759 1.43420.0000-0.0000 0.0000-0.0000-0.0001 0.0000-0.0000-0.0000 0.00000.3233-1.0317 1.678300 0 = 0.9489 = 26.7989 0.0001 = 0.0001从上表容易看出模型(1)成立,此时指标变量与解释变量满足的回归模型为: (模型1)在MATLAB中画出模型1的残差分布,见图2。图 2 模型1的残差分布除第12个数据外其余残差的置信区间均包含零点,因此第12个点应当视为异常点,将其剔除后重新计算,得到模型2: (模型2)模型2的 = 0.9736, = 49.1655, 0.0001, = 0.0001。但同时我们发现,各个回归系数的置信区间仍然均包含零点。画出模型2的残差分布,发现又出现了异常点,按照上面的方法剔除异常点直至没有异常点产生。最终一共去掉了5个异常点(分别是2,12,15,22以及23),最终得到模型3: (模型3)模型3的 = 0.9969, = 281.6079, 0.0001, 0.0001。可见模型2相当显著,各个回归系数的置信区间均不包含零点;但是去除的数据点有5个(总共23个),去除的异常点比较多,容易去除有用信息,所以我们只把模型3作为后期预测的一个对比模型,在之后的分析中,我们只考虑去除第12个异常点的数据。接下来进行异方差检验,残差的独立性检验以及多重共线性检验。3.2 异方差检验图 3 残差对预测值的散点图通过SPSS画出残差对预测值的散点图,见图3。根据图3可以认为数据基本不存在异方差性,即认为随机误差具有相同的方差。3.3 残差的独立性检验通过SPSS的Durbin-watson检验得到DW值为2.545,模型2中解释变量数量k(包括常数项)为7,样本数量n 为22,查DW分布表得到相应的0.510, 2.015。由于,认为随机误差之间无自相关3。3.4 误差的正态分布检验通过SPSS画出正态P-P图以及回归标准化残差频率分布直方图,见图4。图 4 误差的正太分布检验图从上图可以认为误差服从均值为0的正态分布。3.5 多重共线性检验多元线性回归模型的基本假设中要求设计矩阵X的列向量之间不存在密切的线性关系3,如果存在,就称它们之间存在多重共线性。表 4 多重共线性诊断结果通过SPSS进行多重共线性诊断,结果如下表。从上表可以看出绝大部分变量的VIF值远远大于10,说明严重存在多重共线性,针对多重共线性的问题,接下来用主成分分析加以处理。4 主成分回归利用MATLAB对这个十个解释变量进行主成分分析,分析过程如下。1)对原始数据进行标准化处理即每个元素的值减去该列的均值,然后除以这一列的方差。2)计算相关系数矩阵R,结果见表表 5 解释变量的相关系数1.000.920.980.961.000.610.50-0.880.920.920.921.000.900.960.910.430.31-0.880.990.990.980.901.000.940.980.680.58-0.880.910.910.960.960.941.000.950.460.34-0.840.960.961.000.910.980.951.000.640.54-0.880.910.910.610.430.680.460.641.000.99-0.540.460.460.500.310.580.340.540.991.00-0.450.340.34-0.88-0.88-0.88-0.84-0.88-0.54-0.451.00-0.86-0.860.920.990.910.960.910.460.34-0.861.001.000.920.990.910.960.910.460.34-0.861.001.003)计算特征值和累计贡献率见表6表 6 各个解释变量的特征根和累计贡献率变量特征根累计贡献率8.103081.03%1.501196.04%0.187897.92%0.155399.47%0.024099.71%0.017399.89%0.007499.96%0.002899.99%0.0013100.0%0.0000100.0%可以看出,前两个特征根的累计贡献率就达到了90%以上,主成分分析效果很好。下面选择前四个主成分(累计贡献率99.47%)进行综合分析。4)前四个特征根对应的特征向量见表7表 7 前四个特征根对应的特征向量第1个特征向量0.34 0.33 0.35 0.34 0.35 0.23 0.19 -0.32 0.34 0.34 第2个特征向量-0.03 -0.22 0.05 -0.18 0.01 0.61 0.68 0.05 -0.20 -0.20 第3个特征向量0.07 0.04 0.09 0.26 0.06 0.10 0.01 0.93 0.14 0.14 第4个特征向量0.45 -0.36 0.27 0.18 0.43 -0.14 -0.18 0.01 -0.40 -0.40 5)主成分回归模型求得的主成分回归模型如下: (模型4)5 逐步回归主成分回归求出的主成分是原始变量的线性组合,表示新的综合变量。接下来使用逐步回归的方法来筛选变量。在逐步回归中,决定一个变量时候有必要进入模型或者从模型中剔除时,常用的方法是偏F检验3,关于偏F检验这里不做赘述。图 5 逐步回归结果在MATLAB中使用stepwise函数进行逐步回归4,运行结果如图5求得的逐步回归模型如下: (模型5)四、预测接下来我们利用上面求得的模型来进行期权价格预测。利用模型1、模型2、模型3、模型4和模型5分别预测了11月25日至12月10日的期权价格,11月25日至12月20日的真实期权以及预测结果如表8。表 8 各个模型的预测结果日期真实数据模型1模型2模型3模型4模型52016-11-250.50410.52290.51350.10100.49400.52232016-11-280.53250.53810.53150.14800.51640.52292016-11-290.51410.59320.58070.04920.52930.55702016-11-300.52560.58200.56770.01570.54310.54582016-12-010.50790.55170.54250.18280.53190.53972016-12-020.46210.54730.53610.20310.52670.53772016-12-050.46230.49510.48910.38880.48960.49812016-12-060.46600.46060.46150.45790.46910.46822016-12-070.46690.46530.46450.41790.46810.47492016-12-080.49890.45990.46110.40660.47380.47202016-12-090.47570.52780.52400.28200.49330.51792016-12-120.46600.53190.52650.28170.50410.51192016-12-130.45550.48120.47980.41310.47770.48442016-12-140.40030.47120.47410.43950.47050.46552016-12-150.39260.47000.46830.21020.44900.43672016-12-160.38120.41400.42320.45520.40920.39072016-12-190.36330.40550.41440.38920.40030.38292016-12-200.39040.40040.40890.31030.39190.3757各个模型的平均误差以及误差百分比见表9。表 9 各个模型预测结果评价真实数据模型1模型2模型3模型4模型5平均误差0.04140.03850.18840.02640.0301平均误差百分比9.18%8.71%38.84%6.02%6.66%从表8和表9可以看出,模型4(主成分回归)和模型5(逐步回归)的结果最好,而模型3由于去掉了较多的异常点反而导致预测结果不好。接下来不考虑模型3,画出其余4个模型的预测结果与真实数据的折线图,见图6在图图 6 4个模型预测结果与真实数据的折线图4中,横坐标表示数据的序号,分别与各个日期对应,其中前面24个数据来自训练集,故而各个模型的预测结果与实际结果接近;后面的数据则来自测试集,可以看出各个模型的预测结果与实际数据存在一定差异,不过总体趋势与实际数据比较匹配。其中模型4和模型5的预测结果最好。五、结论本文从以期权今日开盘价、收盘价、最高价、最低价、结算价、成交量、成交额、持仓量、涨停价和跌停价为解释变量,期权明日收盘价为指标变量,建立了多元线性回归模型1,通过异方差检验、残差的独立性检验、误差的正太分布检验以及多重共线性检验,说明该模型不违反回归的基本假设条件。进而通过主成分回归(模型4)和逐步回归(模型5)进行降维,通过预测结果与真实数据的差异比较了各个模型的预测效果,结果表明主成分回归以及逐步回归相比全模型有更好的预测能力。实际情况中,该期权的当日价格波动一般不会超过15%,而普遍真是情况是8%以内,可见模型4和模型5的预测效果并不理想,今后的研究可以在以下两个方面进行改进:不断向模型加入得到的最新数据;运用时间序列模型进行研究。参考文献1 吴清. 期权交易策略十讲M. 上海人民出版社, 20162 李珺. 基于因子分析的多元线性回归方法及其在股价预测中的应用D. 南京大学, 20143 孙海燕, 周梦, 李卫国, 冯伟. 数理统计M. 北京航空航天大学出版社, 20164 司守奎. 数学建模算法与应用(第2版)M. 国防工业出版社, 2015Option price forecasting model based on multiple linear regressionWang MoumouSchool of Computer Science, BeiHang University, Beijing 100191Abstract: Option is one kind of universal financial derivatives with a mature international market, and it is extremely important financial instrument. On February 9, 2015, the Shanghai Stock Exchange officially launched Chinas first floor trading options - SSE 50ETF options, opened a new chapter in the domestic market options market. 50ETF options since listing, the market gradually expanded, the development of offshore options products the same period. In this paper, the background of this study, 50ETF purchase December 1.95 this option for the study to todays opening, closing price, the highest price, lowest price, settlement price, volume, turnover, open interest, price and the limit price for the explanatory variables, through multiple linear regression model, the option of the closing price of tomorrow. In this study, the heterogeneity test, residual independence test, error positive distribution test and multicollinearity test were taken as the starting point of the whole model (model 1) of multivariate linear regression to show that the model did not violate the basic assumptions of regression. The results show that there is a strong linear correlation between the dependent variable and the explanatory variable, and the principal component regression and the stepwise regression are better than the whole regression model (step 4) and stepwise regression (model 5). The results show that there is a strong linear correlation between the dependent variable and the explanatory variable, and the principal component regression and stepwise regression have better prediction ability than the whole model.Keywords: Option price, Multiple linear regression, Multicollinearity, Factor analysis附录1 期权交易数据日期收盘价开盘价最高价最低价结算价2016-11-240.46130.45100.47020.45060.47502016-11-230.45280.44550.46800.44540.46502016-11-220.44650.43500.44820.43500.45802016-11-210.43040.40690.44300.40450.44002016-11-180.40690.40970.42130.40370.41302016-11-170.41130.41100.41300.39620.41902016-11-160.40770.41060.41500.40500.41102016-11-150.41070.41400.41630.40710.41602016-11-140.41170.40000.43290.40000.42402016-11-110.40740.38310.40930.38250.41302016-11-100.38690.37290.39660.36750.39402016-11-090.35970.38100.38100.33780.37002016-11-080.38050.37580.39140.37320.38802016-11-070.36860.36600.37380.36170.38002016-11-040.36500.36920.37870.36250.37402016-11-030.36670.34300.37830.34000.37702016-11-020.34580.35880.35880.34380.35002016-11-010.35880.34870.36250.34530.36602016-10-310.34700.35220.36100.33040.35502016-10-280.35100.35210.37490.35060.35702016-10-270.35070.35470.35470.34350.35502016-10-260.35450.36120.36560.35220.36102016-10-250.36100.36730.36850.36040.36902016-10-240.36440.33180.38040.33180.3740日期成交额成交量持仓量涨停价跌停价2016-11-2417112188371666120.70650.22352016-11-2319898950434665840.69880.21722016-11-2217045461384370570.67900.20102016-11-2119558817453470750.64930.17672016-11-184298215104277350.65590.18212016-11-175832606144177450.64710.17492016-11-166049251147879460.65260.17942016-11-155531596134682380.66140.18662016-11-1413203368315583060.64930.17672016-11-117859153196787000.62840.15962016-11-104360858112185840.60200.13802016-11-0910792543298387930.62180.15422016-11-084837797127187900.61300.14702016-11-07149527940689940.60640.14162016-11-047671017206989940.60970.14432016-11-0316388572449295130.58000.12002016-11-022902438829108840.59760.13442016-11-0144398041245108310.58550.12452016-10-3150893301490109050.58770.12632016-10-2882775722275112710.58550.12452016-10-273084967886113740.59210.12992016-10-262286543637116040.60090.13712016-10-252214451609117740.60640.14162016-10-24112462143107118980.57450.115522作业c类
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!