资源描述
非平稳序列的确定性分析,本章结构,5.1确定性因素分解,因素分解方法(Time Series Decomposition)由英国统计学家W.M. Persons于1919年在他的论文“商业环境的指标(Indices of Business Conditions)”一文中首次使用。因素分解方法认为所有的序列波动都可以归纳为受到如下四大类因素的综合影响:长期趋势(Trend)。序列呈现出明显的长期递增或递减的变化趋势。循环波动(Circle)。序列呈现出从低到高再由高到低的反复循环波动。循环周期可长可短,不一定是固定的。季节性变化(Season)。序列呈现出和季节变化相关的稳定周期波动。随机波动(Immediate)。除了长期趋势、循环波动和季节性变化之外,其他不能用确定性因素解释的序列波动,都属于随机波动。,因素分解模型,统计学家在进行确定性时间序列分析时,假定序列会受到这四个因素中的全部或部分的影响,导致序列呈现出不同的波动特征。换言之,任何一个时间序列都可以用这四个因素的某个函数进行拟合常用模型加法模型:乘法模型:,因素分解模型遇到的问题,如果观察时期不是足够长,那么循环因素和趋势因素的影响很难准确区分。比如很多经济或社会现象确实有“上行峰顶下行谷底”周而复始的循环周期。但是这个周期通常很长而且周期长度不是固定的。比如前面提到的太阳黑子序列,就有9-13年长度不等的周期。在经济学领域更是如此。1913年美国经济学家韦斯利.米歇尔出版了经济周期一书,他提出经济周期的持续时间从超过1年到10年或12年不等,它们会重复发生,但不定期。后来不同的经济学家研究不同的经济问题,一再证明经济周期的存在和周期的不确定,比如基钦周期(平均周期长度为40个月左右),朱格拉周期(平均周期长度为10年左右),库兹涅茨周期)平均长度为20年左右),康德拉季耶夫周期(平均周期长度为53.3年)。如果观察值序列不是足够长,没有包含几个周期的话,那么周期的一部分会和趋势重合,无法准确完整地提取周期影响。,因素分解遇到的问题,有些社会现象和经济现象显示出某些特殊日期是一个很显著的影响因素,但是在传统因素分解模型中,它却没有被纳入研究。比如研究股票交易序列,成交量、开盘价、收盘价会明显受到交易日的影响,同一只股票每周一和每周五的波动情况可能有显著的不同。超市销售情况更是明显受到特殊日期的影响,工作日、周末、重大假日的销售特征相差很大。春节、端午节、中秋节、儿童节、圣诞节等不同的节日对零售业、旅游业、运输业等多个行业都有显著影响。,因素分解改进模型,如果观察时期不是足够长,人们将循环因素(Circle)改为特殊交易日因素(Day)。新的四大因素为:趋势(T),季节(S),交易日(D)和随机波动(I)。加法模型:乘法模型:伪加法模型:对数加法模型:,确定性时序分析的目的,一是克服其他因素的干扰,单纯测度出某个确定性因素(诸如季节,趋势,交易日)对序列的影响。二是根据序列呈现的确定性特征,选择适当的方法对序列进行综合预测。,本章结构,5.2 X-11季节调整模型,X11模型是二战以后,美国国情普查局委托统计学家进行基于计算机自动计算的时间序列因素分解模型。这个模型之所以叫季节调整模型,是因为国家经济序列通常具有明显的季节波动,季节性会遮盖或扰乱人们对经济发展趋势的正确判断。因此,在进行国家经济发展观察和研究时,首先需要进行因素分解,然后剔除季节波动的影响,得到国家经济发展变量的趋势特征,这就是季节调整模型的构造起因。1954年,第一个基于计算机计算的时间序列因素分解程序的测试版本问世,随后经过十多年的发展,不断完善计算方法,陆续推出新的测试版本X-1,X-10。1965年,美国国情普查局颁布了比较完整的测试版本X-11。该版本由统计学家Shiskin,Young和Musgrave共同研发,它采用三种不同的移动平均方法,通过三个阶段的因素分解,实现了计算机程序化操作,拟合效果良好的时间序列季节调整程序。从此以后,X-11季节调整模型成为全球统计机构和商业机构进行因素分解时最爱使用的标准方法。后来加拿大统计局开发了X-11-ARIMA模型,美国又开发了X-12与X-12-ARIMA模型,但它们的核心依然是X-11。,移动平均方法,移动平均方法是一种常用的修匀方法。它最早于1870年由法国数学家De Forest提出,19世纪晚期已经广泛应用于商业和保险精算行业。商人使用移动平均方法,消除随机波动和季节性影响,得到商品的价格变动趋势。精算师采用移动平均方法来修匀死亡率,得到消除随机波动的生命表。现在股市中普遍采用的5日均线,10日均线,30日均线,60日均线等指标,实际上都是移动平均估计值。 称为序列 的 期移动平均函数 称为移动平均系数或移动平均算子,X-11中用到的移动平均方法,对移动平均系数增加不同的约束条件,就可以得到不同的移动平均方法。在X-11程序中使用了如下三种移动平均方法,以实现对各种序列的准确分解简单中心移动平均Henderson加权移动平均Musgrave非对称移动平均,简单中心移动平均,对移动平均函数增加系数相等且系数和为1的约束条件,该移动平均称为n期简单移动平均如果再增加一个约束条件,要求系数对称 ,该移动平均称为n期简单中心移动平均,简单中心移动平均,奇数期 简单中心移动平均偶数期 简单中心移动平均:需要进行两次偶数期的简单移动平均,才能实现系数中心化对称。两次移动平均称为复合移动平均,简记为,简单中心移动平均的优良属性,简单中心移动平均是X-11模型首先采用的移动平均方法,它具有如下四个优良属性简单中心移动平均能有效消除季节效应简单中心移动平均能有效提取低阶趋势简单中心移动平均能实现拟合方差最小简单移动平均比值能有效提取季节效应,简单中心移动平均能有效消除季节效应,对于有稳定季节周期的序列进行周期长度的移动平均可以消除季节波动。例:1981-1990年澳大利亚政府季度消费支出序列,原序列为季度数据,有显著的季节特征,每年为一个周期,即周期长度为4期。对原序列先进行4期简单移动平均,再对序列进行两期移动平均,得到复合移动平均值,平滑效果图,简单中心移动平均能有效提取低阶趋势,假如序列有线性趋势,即那么它的2k+1期中心移动平均函数为,参数约束,我们希望一个好的移动平均能尽量消除随机波动的影响,还能维持线性趋势不变,即推导出移动平均系数要满足如下条件简单中心移动平均系数取值对称且系数总和为1,必然满足如上两个约束条件,所以简单中心移动平均函数能保持线性趋势不变。,简单中心移动平滑对二阶趋势的提取,对于一元二次函数 ,简单中心移动平均也可以充分提取二阶趋势信息但此时 不再是一元二次函数的无偏估计了,案例5.1,我国1949-2008年化肥产量序列呈现出二次函数特征,使用五期简单中心移动平均对序列进行拟合,拟合效果图如下图所示,案例5.1,误差序列是一个均值为-6.38821的无趋势特征序列,简单中心移动平均能实现拟合方差最小,移动平均估计值的方差为因为 ,所以推导出拟合序列方差小于原序列方差在 的约束下,使 达到最小的系数值能实现方差最小,且移动平均期数越多,方差越小,修匀效果越好。,案例5.3,使用三期移动平均拟合序列,求在 的约束下,使拟合序列方差最小的移动平均系数值。三期移动平均在约束条件下,意味着 ,且 ,推导出则移动平均拟合序列的方差为这个一元二次函数最小值在 达到,即,简单移动平均比值能有效提取季节效应,在日常生活中,我们可以见到许多有季节效应的时间序列,比如:四季的气温、每个月的商品零售额、某自然景点每季度的旅游人数等等。它们都会呈现出明显的季节变动规律。季节效应的提取是确定性因素分析的重要工作之一。,案例5.4,以北京市1995年2000年月平均气温序列为例,介绍季节效应分析的基本思想和具体操作步骤。(1)绘制时序图,案例5.4,(2)构造季节偏差或季节指数模型季节偏差就是用简单移动平均方法计算的各期序列移动平均值和年度均值之间的差值,主要应用于加法模型的季节特征描述,此时序列可以表示为所谓季节指数就是各期序列移动平均值和年度均值之间的相对数。主要应用于乘法模型的季节性特征描述,此时序列可以表示为,季节效应的计算,第一步:对原序列使用短期复合移动平均计算当期移动平均估计值,消除随机因素对当期序列值得影响对短期复合移动平均序列使用周期复合移动平均计算当期移动平均估计值,消除周期效应对当期序列值得影响 ,m为周期长度加法模型计算季节偏差,乘法模型计算季节指数,案例5.4,案例5.4,季节偏差图,季节指数图,Henderson加权移动平均,简单中心移动平均具有很多优良属性,使它成为实务中最常用的一种移动平均方法,但是它也有不足。在提取趋势信息的时候,它能很好地提取一次函数和二次函数的信息,但是对于2次以上曲线,它的趋势信息提取不充分。Henderson是一位20世纪早期的保险精算统计学家,他最初提出Henderson加权移动平均是为了解决生命表的修匀问题。X11过程使用Henderson加权移动平均,在简单中心移动平均的基础上进一步精确提取序列趋势信息,案例5.5,使用五期简单中心移动平均对一元三次函数 进行拟合,并考察拟合误差项的性质。五期中心移动平均拟合效果图,案例5.5,拟合误差序列图,可以看到误差序列依然残存显著的趋势信息,Henderson加权移动平均,在 的约束下,使得 达到最小的系数即为Henderson加权移动平均系数。其中S等于移动平均系数的三阶差分的平方和,这等价于把某个三次多项式作为光滑度的一个指标,要求达到最小,就是力求修匀值接近一条三次曲线。理论上也可以要求逼近更高次数的多项式曲线,比如四次或五次,这时只需要调整函数中的差分阶数。但阶数越高,计算越复杂,所以使用最多的还是3阶差分光滑度要求。,Henderson加权移动平均系数,目前人们已经计算出了3阶差分光滑度下,使达到最小的5期,7期,9期,13期和23期的移动平均系数。,Henderson加权移动平均,对于例5.5给出的一元三次函数,五期Henderson加权移动平均可以做到误差恒为零拟合。对其他曲线趋势拟合,Henderson加权移动平均通常也能取得精度很高的拟合效果。,Musgrave非对称移动平均,前面两种移动平均方法可以很好地消除趋势,提取线性或非线性趋势信息,但是它们都有一个明显的缺点:因为是中心移动平均,假如移动平均期数为2k+1,那么序列最前面的k期和最后面的k期经过移动平均拟合后,信息就缺失了。这是严重的信息损失,尤其是最后几期的信息可能正是我们最关心的信息。1964年,统计学家Musgrave针对这个问题构造了Musgrave非对称移动平均方法,专门对最后k期数据进行补充平滑拟合。,Musgrave非对称移动平均,Musgrave非对称移动平均的构造思想是,已知一组中心移动平均系数,满足 ,方差最小,光滑度最优等前提约束。现在需要另外寻找一组非中心移动平均系数,也满足和为1的约束 ,且它的拟合值能无限接近中心移动平均的拟合值,即对中心移动平均现有估计值做出的修正最小其中d为补充平滑的项数,Musgrave非对称移动平均,在这个指导思想下,Musgrave首先构造了噪声-信号比率R(noise to signal ratio)的概念,并给出了不同期数的Henderson加权移动平均比率R的估计值其中: 是序列不规则部分 的绝对差分 的样本均值 是序列趋势-循环部分 绝对差分 的样本均值。,Musgrave非对称移动平均所使用的比率值,Musgrave移动平均计算公式,然后基于比率R和中心移动平均系数,Musgrave给出了非对称移动平均系数的计算公式其中利用该公式我们可以得到最后若干项缺失的平滑估计值。,Musgrave移动平均系数,案例5.6,分别使用Henderson5期加权移动平均和Musgrave非对称移动平均对一元三次函数进行拟合Henderson5期加权移动平均公式为:相应的Musgrave非对称移动平均公式为:,拟合计算结果,案例5.7,对1993年2000年中国社会消费品零售总额序列基于X11季节调整模型,进行确定性因素分解第一步:绘制时序图,并根据时序图显示的特征选择适当的确定性因素模型。,案例5.7,案例5.7,X-11季节调整过程,通过上面三次迭代,每一次迭代都提供了趋势项,季节效应和随机波动项的估计,最后得到的是最终的因素分解结果,案例5.7:拟合效果图,本例第7步,第9步和第10步分别得到季节、趋势和随机波动最终拟合值,拟合效果图如下,拟合效果图,拟合效果图,拟合效果图,本章结构,X-12-ARIMA模型的产生,1975年加拿大统计局在Dagum的支持下开发了X-11-ARIMA模型。它是在X-11模型建模之前,首先通过建立ARIMA模型对序列进行向前和向后预测,扩充数据,这弥补了中心移动平均方法的缺陷,同时也可以取代非对称移动平均的缺失值补齐工作。1998年美国普查局在Findley、Monsell等人的共同努力下开发了X-12-ARIMA模型。X-12-ARIMA模型主要是在X-11-ARIMA模型的基础上加强了对序列的预处理。它可以用回归模型的方式,检测月度长度、季度长度、固定季节因素、工作日因素、交易日因素、闰年因素、特殊节假日等多种因素对序列的影响,并检测该影响的显著性与稳定性。这进一步提高了季节调整模型的准确性和解释性。,X-12-ARIMA模型的操作步骤,第一步:根据序列的特点,考察序列值是否会受到某些确定性的异常值的影响X-12-ARIMA模型经常考察的一些异常因素包括月度长度、季度长度、固定季节因素、工作日因素、交易日因素、闰年因素、特殊节假日(春节、十一假期、双十一购物节)等。如果序列有可能受到这些因素的显著影响,则将这些因素作为自变量,序列作为因变量,建立回归模型。如果回归模型显著成立,则说明该影响因素对序列有显著稳定的影响,第二步:对回归残差序列(如果回归方程显著)或原序列(如果回归方程不显著)拟合ARIMA模型。第三步:构建X-11模型。依然是3阶段10步迭代运算。但是期间系统会使用第二步拟合出来的ARIMA模型,自动向前或向后做序列预测,根据需要扩充数据,以得到更准确的因素分解结果。,例5.7续,对1993年2000年中国社会消费品零售总额序列(数据见附录1-24)基于X-12-ARIMA季节调整模型,进行确定性因素分解。,步骤一:对序列进行异常值调整,考虑月度长度的影响以月度长度为自变量,中国社会消费品零售总额序列为因变量构造回归模型。模型拟合结果显示,该回归方程不能显著成立。也就是说每月的不同长度不是该序列的一个显著的异常影响因素。春节因素的影响将春节影响因子作为自变量和中国社会消费品零售总额序列建立回归模型,模型拟合结果显示,该回归方程不能显著成立。春节效应不是该序列的一个显著的异常影响因素。,步骤二:构建ARIMA模型,该序列一阶12步差分后自相关图,步骤二:构建ARIMA模型,该序列一阶12步差分后偏自相关图,步骤二:构建ARIMA模型,该序列一阶、12步差分后,显示出一阶自相关系数截尾和一阶偏自相关系数截尾属性,所以尝试对差分后序列拟合AR(1)模型,即对原序列拟合ARIMA(1,1,0)(0,1,0)12模型。检验结果显示该拟合模型显著成立,步骤三:拟合X-11模型,因为原序列可以拟合ARIMA(1,1,0)(0,1,0)12模型,这意味着季节和趋势相互独立,所以采用X-11加法模型。经过X-11过程3阶段10步的迭代运算,最后可以得到X-12-ARIMA季节效应、趋势效应和随机波动影响的因素分解结果,也可以考察序列的拟合效果。X-12-ARIMA模型不仅给出拟合值、拟合效果图,还给出了模型拟合的检验统计量,为改进模型和多拟合模型优劣比较提供了基础。,中国社会消费品零售总额序列不同拟合模型的拟合效果比较,X-12-ARIMA模型季节效应图,X-12-ARIMA模型趋势效应图,X-12-ARIMA模型随机波动效应图,X-12-ARIMA模型拟合效果图,本章结构,指数平滑预测模型,确定性因素分析的第二个主要目的是根据序列呈现的确定性特征,选择适当的模型,预测序列未来的发展。根据序列是否具有长期趋势与季节效应,可以把序列分为如下三大类: 第一类:既没有长期趋势有没有季节效应的序列 第二类:只有长期趋势,没有季节效应的序列 第三类:既可以有长期趋势,也可以没有长期趋势,但一定有季节效应的序列在确定性因素分解领域,针对这三类序列,可以采用三种不同的指数平滑模型进行序列预测。,简单移动平均,对于既无长期趋势,又无季节效应的水平平稳序列,可以认为序列在一个比较短的时间间隔内,序列的取值是比较稳定的,序列值之间的差异主要是由随机波动造成的。根据这种假定,我们可以用最近一段时间内的平均值作为未来几期的预测值,该方法称为简单移动平均预测法。假定最后一期的观察值为 ,那么使用简单移动平均模型,向前预测 期,各期的预测值为,简单指数平滑预测模型,简单移动平均法实际上就是用一个简单的加权平均数作为某一期序列值的估计值。实际上也就是假定无论时间的远近,这n期的观察值对预测值的影响力都是一样的。但在实际生活中,我们会发现对大多数随机事件而言,一般都是近期的结果对现在的影响会大些,远期的结果对现在的影响会小些。为了更好地反映这种时间所起的影响作用,我们将考虑到时间间隔对事件发展的影响,各期权重随时间间隔的增大而呈指数衰减。这就是1961年Brown和Meyers提出指数平滑法的构造思想。简单指数平滑模型等价模型,简单指数平滑,简单指数平滑面临一个确定初始值的问题。我们有许多方法可以确定的初始值,最简单的方法是指定 。平滑系数 的值最初由研究人员根据经验给出。一般对于变化缓慢的序列, 常取较小的值,相反对于变化迅速的序列, 常取较大的值。经验值通常介于0.05至0.3之间。从理论上我们可以证明使用简单指数平滑法预测任意期的预测值都为常数。,案例5.8,根据1950-2008年的观察值序列,指定平滑系数为0.2,采用指数平滑法预测2009-2013年我国邮路及农村投递线路每年新增里程数。,Holt两参数指数平滑,Holt 两参数指数平滑适用于对含有线性趋势的序列进行修匀。它的基本思想是假定序列有一个比较固定的线性趋势每期都递增r或递减r,那么第t期的估计值就应该等于第t-1期的观察值加上每期固定的趋势变动值,即但是由于随机因素的影响,使得每期的递增或递减值不会恒定为r,它会随时间变化上下波动,所以趋势序列实际上是一个随机序列,因而,Holt两参数指数平滑,Holt两参数指数平滑公式平滑序列的初始值,最简单的是指定 。趋势序列的初始值,最简单的方法是:任意指定一个区间长度,用这段区间的平均趋势作为趋势初始值 使用Holt 两参数指数平滑法,向前 期的预测值为,案例5.9,对19641999年中国纱年产量序列进行Holt 两参数指数平滑,并预测20002015年中国纱产量序列值,Holt-Winters三参数指数平滑,为了修匀引入季节效应的序列,Winters在1960年在Holt两参数指数平滑的基础上构造了Holt-Winters三参数指数平滑。Holt-Winters三参数指数平滑公式(加法模型),Holt-Winters三参数指数平滑,Holt-Winters三参数指数平滑公式(乘法模型),案例5.10,对19932000年中国社会消费品零售总额序列,使用Holt-Winters三参数指数平滑法进行12期预测。,上机指导,X-11过程X-12过程Forecast过程,谢谢!,
展开阅读全文