资源描述
第二章时间序列的预处理本章结构n平稳性检验n 纯随机性检验nSAS软件基本操作2.1平稳性检验 n特征统计量n平稳时间序列的定义n平稳时间序列的统计性质n平稳时间序列的意义n平稳性的检验 概率分布n概率分布的意义n随机变量族的统计特性完全由它们的联合分布函数或联合密度函数决定 n时间序列概率分布族的定义n局限性 在实际应用中,要得到序列的联合概率分布几乎是不可能的,而且联合概率分布通常涉及非常复杂的数学运算,这些原因使我们很少直接使用联合概率分布进行时间序列分析TtttmmxxxFmmtttm,),2,1(),(2121,21特征统计量n均值 只要满足条件 ,就一定存在某个常数 ,使得随机变量Xt总是围绕在常数值 附近作随机波动,则称 为序列在t时刻的均值函数。)(xxdFEXttt)(xxdFtttt特征统计量n方差n当 时,可以定义时间序列的方差函数用以描述序列值围绕其均值作随机波动时平均的波动程度。)()()(22xdFxXEDXttttt)(xxdFt特征统计量n自协方差n对于时间序列Xt,任取 ,定义 为序列Xt的自协方差函数:)(),(ssttXXEstT,st),(st特征统计量n自相关系数n对于时间序列Xt,任取 ,定义 为序列Xt的自相关系数:T,st),(ststDXDXstst),(),(平稳时间序列的定义n严平稳n严平稳是一种条件比较苛刻的平稳性定义,它认为只有当序列所有的统计性质都不会随着时间的推移而发生变化时,该序列才能被认为平稳。n宽平稳n宽平稳是使用序列的特征统计量来定义的一种平稳性。它认为序列的统计性质主要由它的低阶矩决定,所以只要保证序列低阶矩平稳(二阶),就能保证序列的主要性质近似稳定。平稳时间序列的统计定义 n满足如下条件的序列称为严平稳序列n满足如下条件的序列称为宽平稳序列),(),(21,21,2121mtttmtttxxxFxxxFmm有,正整数,正整数Ttttmm,21TtskksttskkstTtEXTtEXtt且,为常数,,),(),()3,)2,)12严平稳与宽平稳的关系n一般关系n严平稳条件比宽平稳条件苛刻,通常情况下,严平稳(低阶矩存在)能推出宽平稳成立,而宽平稳序列不能反推严平稳成立n特例n不存在低阶矩的严平稳序列不满足宽平稳条件,例如服从柯西分布的严平稳序列就不是宽平稳序列n当序列服从多元正态分布时,宽平稳可以推出严平稳平稳时间序列的统计性质 n常数均值 n自协方差函数和自相关函数只依赖于时间的平移长度而与时间的起止点无关 n延迟k自协方差函数 n延迟k自相关系数)0()(kk为整数kkttk),()(TtEXt,自相关系数的性质n规范性 且n对称性10kk 1kk自相关系数的性质n非负定性 对任意整数m,相关阵 为对称非负定阵n非唯一性 一个平稳时间序列一定唯一决定了它的自相关函数,但一个自相关函数未必唯一对应着一个平稳时间序列。m02-m1-m02-m011-m10m平稳时间序列的意义 n时间序列数据结构的特殊性n可列多个随机变量,而每个变量只有一个样本观察值n平稳性的重大意义n极大地减少了随机变量的个数,并增加了待估变量的样本容量n极大地简化了时序分析的难度,同时也提高了对特征统计量的估计精度平稳性的检验(图检验方法)n时序图检验 n根据平稳时间序列均值、方差为常数的性质,平稳序列的时序图应该显示出该序列始终在一个常数值附近随机波动,而且波动的范围有界、无明显趋势及周期特征n自相关图检验 n平稳序列通常具有短期相关性。该性质用自相关系数来描述就是随着延迟期数的增加,平稳序列的自相关系数会很快地衰减向零例题n例2.1n检验1964年1999年中国纱年产量序列的平稳性例2.1时序图例2.1自相关图例题n例2.2n检验1962年1月1975年12月平均每头奶牛月产奶量序列的平稳性例2.2时序图例2.2 自相关图例题n例2.3n检验1949年1998年北京市每年最高气温序列的平稳性例2.3时序图例2.3自相关图2.2 纯随机性检验 n纯随机序列的定义n纯随机性的性质n纯随机性检验纯随机序列的定义n纯随机序列也称为白噪声序列,它满足如下两条性质 TststststTtEXt,0,),()2(,)1(2标准正态白噪声序列时序图 白噪声序列的性质 n纯随机性 n各序列值之间没有任何相关关系,即为“没有记忆”的序列 n方差齐性 n根据马尔可夫定理,只有方差齐性假定成立时,用最小二乘法得到的未知参数估计值才是准确的、有效的00k(k),)0(2tDX纯随机性检验 n检验原理n假设条件n检验统计量 n判别原则Barlett定理 n如果一个时间序列是纯随机的,得到一个观察期数为 的观察序列,那么该序列的延迟非零期的样本自相关系数将近似服从均值为零,方差为序列观察期数倒数的正态分布0,)1,0(knNkn假设条件n原假设:延迟期数小于或等于 期的序列值之间相互独立n备择假设:延迟期数小于或等于 期的序列值之间有相关性 1,0210mHm:mkmHk,:至少存在某个1,01mm检验统计量nQ统计量(Box和pierce)仅适合大样本场合,对小样本则效果不太精确nLB统计量(Ljung和Box)在各种检验场合普遍采用的Q统计量通常指的是LB统计量)(212mnQmkk)()()2(212mknnnLBmkk判别原则n拒绝原假设n当检验统计量大于 分位点,或该统计量的P值小于 时,则可以以 的置信水平拒绝原假设,认为该序列为非白噪声序列n接受原假设n当检验统计量小于 分位点,或该统计量的P值大于 时,则认为在 的置信水平下无法拒绝原假设,即不能显著拒绝序列为纯随机序列的假定 21()m121()m1例2.4:标准正态白噪声序列纯随机性检验样本自相关图样本自相关图检验结果LBQLBQ延迟统计量检验统计量值P值延迟6期2.360.8838延迟12期5.350.9454例2.5n对1950年1998年北京市城乡居民定期储蓄所占比例序列的平稳性与纯随机性进行检验 例2.5时序图例2.5自相关图例2.5白噪声检验结果延迟阶数LB统计量检验LB检验统计量的值P值675.460.00011282.570.0001表中数据显示该序列数语非白噪声序列。2.3 SAS软件操作 nSAS软件介绍n创建时间序列SAS数据集n时间序列数据集的处理SAS软件介绍 nSAS的全称是Statistical Analysis System,由美国北卡罗来纳州立大学教授(A.J.Barr&J.H.Goodnight)联合开发的软件。具有完备的数据访问、数据管理、数据分析和数据呈现功能的大型集成化软件系统。n在SAS系统中有一个专门进行计量经济与时间序列分析的模块:SAS/ETS。SAS/ETS编程语言简洁,输出功能强大,分析结果精确,是进行时间序列分析与预测的理想的软件n由于SAS系统具有全球一流的数据仓库功能,因此在进行海量数据的时间序列分析时它具有其它统计软件无可比拟的优势 创建时间序列SAS数据集 data(sasuser.)example1_1;命令SAS系统建议一个名字为example1_1的临时数据集 input time monyy7.Price;输入两个变量的数据,一个为时间(7为子符长 度,如jan2005),一个为价格 format time monyy5.;表示时间的输出格式是字符长度为5的数据(如jan05)cards;表示下面开始输入数据行,接着就是数据录入。Jan2005 101 这里数据是以列的方式读取,第一列数据会自动赋值给变量time Feb2005 82 第二列数据会自动赋值给变量price Mar2005 66 Apr2005 35 May2005 31 Jun2005 7 ;表示数据已经输入完毕 run;表示系统程序写好,可以运行了 proc print data=example1_1;表明可以查看数据集example1_1的内容 run;时间序列数据集的处理 间隔函数的使用(间隔函数的使用(intnx)data example1_2;命令SAS系统建议一个名字为example1_2的临时数据集 input Price;输入一个为价格的数据 time=intnx(month,01jan2005d,_n_-1);用intnx函数给时间变量time赋值,即 从2005年1月1日开始,以月为间隔每读入一个price数据,就产生一个time数据 format time monyy5.;表示时间的输出格式是字符长度为5的数据(如jan05)cards;表示下面开始输入数据行,接着就是数据录入。3.41 3.45 3.42 3.53 3.45 ;proc print data=example1_2;表明可以查看数据集example1_2的内容 run;时间序列数据集的处理 序列变换序列变换 data example1_3;input Price;logprice=log(price);表明将price的对数函数值赋值为新变量logprice time=intnx(month,01jan2005d,_n_-1);用intnx函数给时间变量time赋值,即 从2005年1月1日开始,以月为间隔每读入一个price数据,就产生一个time数据 format time monyy5.;表示时间的输出格式是字符长度为5的数据(如jan05)cards;表示下面开始输入数据行,接着就是数据录入。3.41 3.45 3.42 3.53 3.45 ;proc print data=example1_3;表明可以查看数据集example1_3的内容 run;时间序列数据集的处理 缺失值插值缺失值插值 data example1_5;input Price;time=intnx(month,01jan2005d,_n_-1);format time date.;表示的输出格式是按照01jan05格式的数据 cards;3.41 3.45 3.53 3.45 ;proc expand data=example1_5 out=example1_6;表明将example1_5种的所有缺 失值用插值的方法补齐,并将补齐后的数据集另存为example1_6 id time;proc print data=example1_5;proc print data=example1_6;run;时间序列数据集的处理 绘制时序图绘制时序图 data example2_2;input freq;用表明数据以行的方式读取 year=intnx(year,1jan1970d,_n_-1);format year year4.;cards;97 154 101 149 221 157 128 215 129 239 155 238 276 204 136 296 176 307 154 227 200 291 233 356 221 309 321 156 234 432 278 356 254 349 322 254 327 432 401 ;proc gplot;下面准备对数据进行绘图 plot freq*year;要求系统以freq为纵坐标,year为横坐标以symbol语句 所规定的格式绘图 symbol v=square c=red i=join;v表示观察值的图形,可选择star(星号),dot(点),circle(圆);diamond(菱形)等形状;c表示颜色;I表示连线方式,可选择join(线性连接),spline(光滑连接)等连线方式。run;时间序列数据集的处理 平稳性检验平稳性检验 data example2_2;input freq;用表明数据以行的方式读取 year=intnx(year,1jan1970d,_n_-1);format year year4.;cards;97 154 101 149 221 157 128 215 129 239 155 238 276 204 136 296 176 307 154 227 200 291 233 356 221 309 321 156 234 432 278 356 254 349 322 254 327 432 401 ;proc arima data=example2_2;表示要对example2_2进行 ARIMA分析 identify var=freq nlag=22;表示对变量freq滞后22期的某些重要性质 进行识别,包括描述性统计、自相关图、偏 自相关图、逆自相关图和纯随机检验结果 run;n9、静夜四无邻,荒居旧业贫。22.9.322.9.3Saturday,September 03,2022n10、雨中黄叶树,灯下白头人。0:04:140:04:140:049/3/2022 12:04:14 AMn11、以我独沈久,愧君相见频。22.9.30:04:140:04Sep-223-Sep-22n12、故人江海别,几度隔山川。0:04:140:04:140:04Saturday,September 03,2022n13、乍见翻疑梦,相悲各问年。22.9.322.9.30:04:140:04:14September 3,2022n14、他乡生白发,旧国见青山。2022年9月3日星期六上午12时4分14秒0:04:1422.9.3n15、比不了得就不比,得不到的就不要。2022年9月上午12时4分22.9.30:04September 3,2022n16、行动出成果,工作出财富。2022年9月3日星期六0时04分14秒0:04:143 September 2022n17、做前,能够环视四周;做时,你只能或者最好沿着以脚为起点的射线向前。上午12时4分14秒上午12时4分0:04:1422.9.3n9、没有失败,只有暂时停止成功!。22.9.322.9.3Saturday,September 03,2022n10、很多事情努力了未必有结果,但是不努力却什么改变也没有。0:04:140:04:140:049/3/2022 12:04:14 AMn11、成功就是日复一日那一点点小小努力的积累。22.9.30:04:140:04Sep-223-Sep-22n12、世间成事,不求其绝对圆满,留一份不足,可得无限完美。0:04:140:04:140:04Saturday,September 03,2022n13、不知香积寺,数里入云峰。22.9.322.9.30:04:140:04:14September 3,2022n14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。2022年9月3日星期六上午12时4分14秒0:04:1422.9.3n15、楚塞三湘接,荆门九派通。2022年9月上午12时4分22.9.30:04September 3,2022n16、少年十五二十时,步行夺得胡马骑。2022年9月3日星期六0时04分14秒0:04:143 September 2022n17、空山新雨后,天气晚来秋。上午12时4分14秒上午12时4分0:04:1422.9.3n9、杨柳散和风,青山澹吾虑。22.9.322.9.3Saturday,September 03,2022n10、阅读一切好书如同和过去最杰出的人谈话。0:04:140:04:140:049/3/2022 12:04:14 AMn11、越是没有本领的就越加自命不凡。22.9.30:04:140:04Sep-223-Sep-22n12、越是无能的人,越喜欢挑剔别人的错儿。0:04:140:04:140:04Saturday,September 03,2022n13、知人者智,自知者明。胜人者有力,自胜者强。22.9.322.9.30:04:140:04:14September 3,2022n14、意志坚强的人能把世界放在手中像泥块一样任意揉捏。2022年9月3日星期六上午12时4分14秒0:04:1422.9.3n15、最具挑战性的挑战莫过于提升自我。2022年9月上午12时4分22.9.30:04September 3,2022n16、业余生活要有意义,不要越轨。2022年9月3日星期六0时04分14秒0:04:143 September 2022n17、一个人即使已登上顶峰,也仍要自强不息。上午12时4分14秒上午12时4分0:04:1422.9.3MOMODA POWERPOINTLorem ipsum dolor sit amet,consectetur adipiscing elit.Fusce id urna blandit,eleifend nulla ac,fringilla purus.Nulla iaculis tempor felis ut cursus.感 谢 您 的 下 载 观 看感 谢 您 的 下 载 观 看专家告诉
展开阅读全文