资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,贝叶斯正则化神经网络对股票价格的预测,神经网络是一种运算模型,由大量的节点(或称神经元)和之间相互联接构成。每个节点代表一种特定的输出函数,称为,激励函数,(,activation function,)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和,激励函数,的不同而不同。而网络自身通常都是对,自然界,某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。,a1an,为输入向量的各个分量,w1wn,为神经元各个突触的权值,b,为偏置,f,为传递函数,通常为非线性函数,t,为神经元输出,数学表示,t=f(WA+b),W,为权向量,A,为输入向量,,A,为,A,向量的转置,可见,一个神经元的功能是求得输入向量与权向量的内积后,经一个非线性传递函数得到一个标量结果。,贝叶斯正则化神经网络提出了一个新颖的方法来预测金融市场行为。利用日常的市场价格和金融技术指标作为输入来预测未来的一天的收盘价。预测股票价格通常被认为是一个具有挑战性的活动和重要的任务。准确的预测股票价格的波动可能会发挥重要作用,可以帮助投资者提高股票的回报。预测这种趋势的复杂性在于分析固有噪声和波动在日常股票价格的运动。贝叶斯正则化的网络分配是一个概率性质的网络权值。该方法减少了潜在的过度拟合和。,为减少潜在的过度拟合,贝叶斯正则化将非线性系统开发成,“,well posed”,问题,.,贝叶斯正则化的思想:,方程,:,F,是总误差函数,E,D,是误差的平方和,E,w,是权重平方和,,,,目标函数的参数,是超参数,我们主要是控制着超参数,(,权值及阈值,),的分布形式。超参数的大小决定着神经网络的训练目标,若,则侧重于减小训练误差,但可能过拟合,;,若,则侧重于限制网络权值规模,但可能误差较大。,在实际应用中,需要折中考虑,极小化目标函数是为了减少网络训练误差的同时,降低网络结构的复杂性。对于正则化方法而言,难点在于超参数的确定,.,在贝叶斯理论的框架下,网络的参数,W,被认为是随机变量,给定样本数据下,由贝叶斯规则,参数的分布函数为,:,式中,p(D|W,H),为似然函数,p(D|,H),是归一化因子,p(W|,H),是先验密度,表示在没有数据样本下的参数,W(,权向量,),的先验知识,.,如何已知样本总体的分布函数,那么似然函数和先验函数可以求出,正则化神经网络的计算步骤,股票预测模型:,模型由一个输入层、隐藏层和输出层组成,神经网络的输入数值包括每天的股票数据,(,低价格,高价格,开盘价,),和六个财务指标,用,9,个神经元代表输入层。网络的输出数据是第二天所择股票的收盘价格。隐层的神经元个数是通过经验调节神经元的数量,直到有效数量的参数达到一个恒定值。,神经网络的传递函数,f(.),(,Sigmoid,函数)在接近,-1,和,1,的时候,曲线比较平缓,变化速度非常缓慢。为了减少网络学习时间,将输入及输出数据变换到,-1,1,之间,由于,Sigmoid,函数在该区间内变化梯度比较大,网络收敛速度可大大加快。这称为样本数据的归一化处理,可按如下公式进行:,仿真实验:,我们收集高盛集团,(GS),和微软,(MSFT),公司的股票价作为样本。样品的总数量为,734,个交易日,从,2010,年,1,月,4,日至,2012,年,12,月,31,日。每个样本包含的信息包括股票的最低价格,最高价格,开盘价,收盘价格,和交易量。样本的前,80%,作为训练集,其余,20%,作为测试集。神经网络模型被用来预测未来某一天股票的价格。所有可用的数据被用来估计适当大小的网络,不断增加隐层神经元的数量,直到有效数量的参数聚合到一个恒定值,.,用以上介绍的方法逐步建立模型,实验,2,:,这个实验,收集苹果公司,(AAPL),与,(IBM),公司的数据对。样品的总数量为,492,个交易日。从,2003,年,2,月,10,到,2005,年,1,月,21,日。对这个实验的训练集包括交易日从,2003,年,2,月,10,日到,2004,年,9,月,10,日,而测试数据包括,91,个交易日从,2004,年,9,月,13,日到,2005,年,1,月,21,日。这些交易和测试时间要确保实验条件对两种模型的一致性。,计算准确率,MAPE,的值,r,是交易日的总数,,y,i,是第,i,天实际股票价格,p,i,是预测第,i,天股票价格,结果表明:,在一个完整周期的股票市场中,贝叶斯正规化神经网络提供了平均,98%,的对未来股票的预测能力。科技股和银行股的选择的不同,使得行业市场行为和波动。微软股价剧烈波动,该模型能够处理这种噪声和波动而没有过度拟合,从数据中可以看出模型适合测试数据。这个结果表明,该模型能处理大型数据集中有明显噪音和波动的数据。,
展开阅读全文