统计学(复习)_装配图网

资源描述

第1章统计和统计数据1 统计学的定义：是收集、处理、分析、解释数据并从数据中得出结论的科学描述统计与推断统计的含义、内容、目的.描述统计: 是研究数据收集，处理和描述的统计学方法。其内容包括如何取得研究所需要的数据，如何用图表形式对数据进行处理和展示，如何通过对数据的综合,概括与分析，得出所关心的数据特征。推断统计：是研究如何利用样本数据来推断总体特征的统计学方法，内容包括两大类：参数估计: 是利用样本信息推断所关心的总体特征.假设体验：是利用样本信息判断对总体的某个假设是否成立.2、变量与数据:不同数据类型的含义，会判断已有数据的类型.变量：它们的特点是从一次观察到下一次观察会出现不同结果。Ex：企业销售额，上涨股票的家数, 生活费支出,投掷一枚骰子观察其出现的点数数据：把观察到的结果记录下来。总体: 包含所研究的全部个体（数据)的集合样本: 从总体中抽取的一部分元素的集合样本量: 构成样本的元素的数目定量变量或数值变量：定量变量的观察结果称为定量数据或数值型数据。可以用阿拉伯数据来记录其观察结果 .如“企业销售额、“上涨股票的家数”、“生活费支出”、“投掷一枚骰子出现的点数”定性变量：分类变量和顺序变量统称为定性变量分类变量 : 表现为不同的类别 . 如“性别”、“企业所属的行业”、“学生所在的学院” 等 . 分类变量的观察结果就是分类数据顺序变量或有序分类变量: 具有一定顺序的类别变量。如考试成绩按等级，一个人对事物的态度。顺序变量的观察结果就是顺序数据或有序分类数据离散型变量：只能取有限个值得随机变量连续型变量：可以取一个或多个区间中任何值得随机变量3、获得数据的概率抽样方法有哪些？根据一个已知的概率来抽取样本单位，也称随机抽样-简单随机抽样: 从总体 N 个单位(元素)中随机地抽取 n 个单位作为样本,使得总体中每一个元素都有相同的机会(概率）被抽中。抽取元素的具体方法有重复抽样是抽取一个个体记录下数据后，再把这个个体放回到原来的总体中参加下一次抽选。不重复抽样抽中的个体不再放回，再从所剩下的个体中抽取第二个元素，直到抽取 n 个个为止。- 分层抽样或分类抽样:它是在抽样之前先将总体的元素划分为若干层（类)，然后从各个层中抽取一定数量的元素组成一个样本。-系统抽样或等距抽样：它是想将总体个元素按某个顺序排列，并按某种规则确定一个随机起点，然后，每隔一定的间隔抽取一个元素，直至抽取 n 个元素组成一个样本。-整群抽样：是先将总体划分成若干群，然后以群作为抽样单元从中抽取部分群组成一个样本，再对抽中的每个群中包含的所有元素进行观察.第二章. 用图表展示数据频数: 落在各类别中的数据个数比例: 某一类别数据个数占全部数据个数的比值百分比: 将对比的基数作为 100 而计算的比值比率：不同类别数值个数的比值频数分布表: 频数分布表中落在某一特定类别数据.频数分布包含了很多有用的信息，通过它可以观察不同类型数据的分布状况。什么是条形图: 是用宽度相同的条形来表示数据多少的图形用于观察不同类别数据的多少或分布状况。帕累托图: 是按各类别数据出现的频数多少排序后绘制的条形图饼图: 是用圆形及圆内扇形的角度来表示数值大小的图形,它主要用于表示一个样本(或总体)中各组成部分道德数据占全部数据的比例，对于研究结构性问题十分有用。环形图: 只能显示一个样本各部分所占的比例数据分组：是根据统计研究的需要,将原始数据按照某种标准化分成不同的组别。1。下限（lower limit) ：一个组的最小值2。上限(upper limit） :一个组的最大值3。组距(class width）：上限与下限之差4。组中值（class midpoint）：下限与上限之间的中点值组中值=下限值+上限值/2直方图与条形图的区别。1. 条形图中的每一矩形表示一个类别，其宽度没有意义，而直方图的宽度则表示各组的组距2. 由于分组数据具有连续性，直方图的各矩形通常是连续排列，而条形图则是分开排列3. 条形图主要用于展示定性数据，而直方图则主要用于展示定量数据茎叶图：是反映原始数据分布的图形。它由茎和叶两部分构成，其图形是由数据组成的.通过茎叶图,可以看出数据的分布形状及数据的离散状况,比如:分布是否对称，数据是否集中,是否有离群点。等等箱线图:是由一组数据的最大值，最小值,中位数,两个四分位数.这五个特征值绘制而成的，它主要用于反映原始数据分布的特征，还可以进行多组数据分布特征的比较.雷达图：是显示多个变量的常用图示方法.1. 从一个点出发，用每一条射线代表一个变量，多个变量的数据点连接成线，即围成一个区域，多个样本围成多个区域,就是雷达图2. 可用于研究多个样本在多个变量上的相似程度3. 当多个变量的取值相差较大或量纲不同时，可进行变换处理后再做图.第三章. 用统计量描述数据1、水平的度量描述数据水平的统计两主要有：平均数,中位数，分位数以及众数等.平均数.平均数的计算：1. 也称为均值，常用的统计量之一2. 消除了观测值的随机波动3. 易受极端值的影响4. 根据总体数据计算的，称为平均数，记为m；根据样本数据计算的,称为样本平均数，记为x中位数：是一组数据排序后处于中间位置上数值,用 M 表示。e四分位数：也称四分位点,它是一组数据排序后处于 25和 75位置上的值众数、中位数和平均数的关系*i i 2、差异的度量极差:1. 一组数据的最大值与最小值之差2. 离散程度的最简单测度值3. 易受极端值影响4. 未考虑数据的分布5. 计算公式为：R = max（x ) - min（x )四分位差1. 也称为内距或四分间距2. 上四分位数与下四分位数之差：Q = Q Qd U L3. 反映了中间 50数据的离散程度4. 不受极端值的影响5. 用于衡量中位数的代表性样本方差和标准差（会计算)1. 数据离散程度的最常用测度值2. 反映各变量值与均值的平均差异3. 根据总体数据计算的，称为总体方差（标准差），记为s2（s)；根据样本数据计算的,称为样本方差(标准差），记为 s2 4. 样本方差（s)假设其中是一个样本，则样本方差的计算公式为：是样本均值。例如，一样本取值为 3,4,4，5，4，则样本均值= ，样本方差=据变异程度或分散程度大小的指标。样本方差是常用的统计量之一，是描述一组数样本标准差S 称为样本标准差.如在上例中，S=0.7071。称(S/ X) 100%为样本变异系数。由于 S 与 X 都是从同一个样本资料中求得，两者的单位相同,故变异系数为一纯数。当两种样本资料所用的单位不同时，只要计算出变异系数,就可以比较它们的变异程度。标准分数: 可以计算一组数据中每个数值的标准分数,以测度每个数值在该组数据中的相对位置，并可以用它来判断一组数据是否有离群点离散系数（变异系数 ) 是一组数据的标准差与其相应的平均数据之比 , 它消除了数据绝对值大小和计量单位对标准差大小的影响.分布形状的度量偏态:是指数据分布的不对称性. 侧度数据分布不对称性的统计量称为（偏态系数)峰态：是指数据分布峰值的高低。测度峰态的统计量是（峰态系数）弄清偏态系数的取值含义，会判断左偏、右偏和对称情形弄清峰态系数的取值含义，会判断尖峰、扁平和正常情形第四章.概率分布概率：概率是对事件发生的可能性大小的度量随机变量：是用数值来描述特定试验一切可能出现的结果，它的取值事先不能确定，具有随机性连续性随机变量：只能取一个或多个区间中任何值得随机变量离散型随机变量：只能取有限个值得随机变量随机变量的概括性度量：期望值和方差的计算:描述随机变量集中程度的统计量称为（期望值）离散型概率分布:是用表格的形式表现出来,就是离散型随机变量的概率分布二项分布: 二项分布是建立在伯努利试验基础上的。N 重伯努利1. 贝努里试验满足下列条件n 一次试验只有两个可能结果，即“成功”和“失败”l “成功”是指我们感兴趣的某种特征n 一次试验“成功”的概率为 p ，失败的概率为 q =1 p,且概率 p 对每次试验都是相同的 n 试验是相互独立的，并可以重复进行 n 次n 在 n 次试验中，“成功的次数对应一个离散型随机变量 X泊松分布：1. 1837 年法国数学家泊松(D。Poisson，1781-1840）首次提出2. 用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布3. 泊松分布的例子n 一定时间段内，某航空公司接到的订票电话数n 一定时间内，到车站等候公共汽车的人数n 一定路段内，路面出现大损坏的次数n 一定时间段内，放射性物质放射的粒子数n 一匹布上发现的疵点个数n 一定页数的书刊上出现的错别字个数超几何分布的应用背景1. 采用不重复抽样,各次试验并不独立，成功的概率也互不相等2. 总体元素的数目 N 很小，或样本容量 n 相对于 N 来说较大时，样本中“成功”的次数则服从超几何概率分布3. 概率分布函数为连续型概率分布：正态分布：1. 由 C.F.高斯（Carl Friedrich Gauss，17771855）作为描述误差相对频数分布的模型而提出 2. 描述连续型随机变量的最重要的分布3. 许多现象都可以由正态分布来描述4. 可用于近似离散型随机变量的分布n 例如: 二项分布5. 经典统计推断的基础标准正态分布1. 随机变量具有均值为 0，标准差为 1 的正态分布2. 任何一个一般的正态分布，可通过下面的线性变换转化为标准正态分布3. 标准正态分布的概率密度函数4. 标准正态分布的分布函数数据的正态性评估：QQ 图和 PP 图的应用1.对数据画出频数分布的直方图或茎叶图n 若数据近似服从正态分布，则图形的形状与上面给出的正态曲线应该相似3. 绘制正态概率图。有时也称为分位数分位数图或称 QQ 图或称为 PP 图n 用于考察观测数据是否符合某一理论分布,如正态分布、指数分布、t 分布等等n n n PP 图是根据观测数据的累积概率与理论分布(如正态分布)的累积概率的符合程度绘制的 n Q-Q 图则是根据观测值的实际分位数与理论分布（如正态分布)的分位数绘制的4. 使用非参数检验中的 KolmogorovSmirnov 检验（K-S 检验）由正态分布导出的几个重要分布：c2 分布、t 分布、F 分布的特点c2分布：1. 由阿贝(Abbe) 于 1863 年首先给出,后来由海尔墨特(Hermert)和卡皮尔逊（KPearson) 分别于 1875 年和 1900 年推导出来2. 设X N (m,s2，)则X -mz = N ( 0,1) s3. 令Y =z2，则 y服从自由度为 1 的c2分布，即Y c 2 (1)4. 对于 n 个正态随机变量 y ,y ，y ，则随机变量1 2 n5. c22= y22ii称为具有 n 个自由度的c2分布，记为 c c2ii=1性质和特点1. 分布的变量值始终为正2. 分布的形状取决于其自由度 n 的大小，通常为不对称的正偏分布，但随着自由度的增大逐渐趋于对称 3. 期望为：E(c2)=n，方差为：D(c2)=2n（n 为自由度)4. 可加性：若 U 和 V 为两个独立的c2分布随机变量，Uc2(n )，Vc2(n ）,则 U+V 这一随机变量服从1 2自由度为 n +n 的c2 1 2t 分布：分布1. 提出者是 William Gosset，也被称为学生分布（students t)2.t分布是类似正态分布的一种对称分布,通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数.随着自由度的增大，分布也逐渐趋于正态分布 F 分布：1. 为纪念统计学家费希尔(R.A.Fisher) 以其姓氏的第一个字母来命名则2. 设若 U 为服从自由度为 n 的c21分布，即 Uc2(n ），V 为服从自由度为 n 的c21 2分布,即 Vc2(n )，且2U 和 V 相互独立，则FF=UUVVnnnn1122称 F 为服从自由度 n 和 n 的 F 分布，记为1 2F F ( n , n ) 11 2统计量：n 用来描述样本特征的概括性数字度量，它是根据样本数据计算出来的一些量，是样本的函数n 一个总体参数推断时的统计量：样本均值（x）、样本标准差(s）、样本比例（p）等两个总体参数推断时的统计量：（x -x1 2)、(p p ）、(s /s 1 2 1 2）n 样本统计量通常用小写英文字母来表示参数:n 描述总体特征的概括性数字度量，是研究者想要了解的总体的某种特征值n 一个总体的参数：总体均值（m)、标准差（s)、总体比例(p）；两个总体参数：(m1m2)、（p-p）、（ s/s）1 2 1 2n 总体参数通常用希腊字母表示抽样分布的概念:1. 样本统计量的概率分布，是一种理论分布n 在重复选取容量为 n 的样本时，由该统计量的所有可能取值形成的相对频数分布2. 随机变量是样本统计量n 样本均值, 样本比例,样本方差等3. 结果来自容量相同的所有可能样本4. 提供了样本统计量长远而稳定的信息，是进行推断的理论基础，也是抽样推断科学性的重要依据样本均值的抽样分布：1. 在重复选取容量为 n 的样本时，由样本均值的所有可能取值形成的相对频数分布2. 一种理论概率分布3. 推断总体均值m的理论基础中心极限定理：从均值为m，方差为s2 的一个任意总体中抽取容量为 n 的样本,当 n 充分大时,样本均值的抽样分布近似服从均值为、方差为 2/n 的正态分布其他统计量的分布:1. 总体(或样本）中具有某种属性的单位与全部单位总数之比n 不同性别的人与全部人数之比n 合格品（或不合格品) 与全部产品总数之比 2. 总体比例可表示为p=N0N或 1 -p=N1N3. 样本比例可表示为p =n0n或 1 -p =n1n样本比例的分布1. 在重复选取容量为 n 的样本时，由样本比例的所有可能取值形成的相对频数分布 2. 一种理论概率分布3. 当样本容量很大时，样本比例的抽样分布可用正态分布近似，即样本方差的分布1. 在重复选取容量为 n 的样本时,由样本方差的所有可能取值形成的相对频数分布 2. 对于来自正态总体的简单随机样本，则比值的抽样分布服从自由度为 ( 统计量的标准误差n 1）的c2分布1. 样本统计量的抽样分布的标准差，称为统计量的标准误，也称为标准误差2. 衡量统计量的离散程度，测度了用样本统计量估计总体参数的精确程度 3. 样本均值和样本比例的标准误差分别第五章参数估计1、参数估计的基本原理参数估计：就是用样本统计量去估计总体的参数估计量:用于估计总体参数的统计量的名称n 如样本均值，样本比例,样本方差等n 例如: 样本均值就是总体均值 m 的一个估计量估计值：估计参数时计算出来的统计量的具体值n 如果样本均值 x=80,则 80 就是q的估计值点估计1. 用样本的估计量的某个取值直接作为总体参数的估计值例如：用样本均值直接作为总体均值的估计；用两个样本均值之差直接作为总体均值之差的估计2. 无法给出估计值接近总体参数程度的信息n 由于样本是随机的,抽出一个具体的样本得到的估计值很可能不同于总体真值n 一个点估计量的可靠性是由它的抽样标准误差来衡量的,这表明一个具体的点估计值无法给出估计的可靠性的度量区间估计：1. 在点估计的基础上，给出总体参数估计的一个估计区间，该区间由样本统计量加减估计误差而得到 2. 根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量n 比如，某班级平均分数在 7585 之间，置信水平是 95%置信度：一般地，如果将构造置信区间的步骤重复多次，置信区间中包含总体参数真值得次数所占的比例称为, 也称为置信度或置信系数置信水平：1. 将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例，也称置信度2. 表示为（1 - a） n a 为是总体参数未在区间内的比例3. 常用的置信水平值有 99, 95, 90n 相应的 a 为 0。01,0.05，0。10置信区间1. 由样本估计量构造出的总体参数在一定置信水平下的估计区间2. 统计学家在某种程度上确信这个区间会包含真正的总体参数，所以给它取名为置信区间x za a a 23. 如果用某种方法构造的所有区间中有 95%的区间包含总体参数的真值，5%的区间不包含总体参数的真值,那么，用该方法构造的区间称为置信水平为 95的置信区间。同样，其他置信水平的区间也可以用类似的方式进行表述4. 总体参数的真值是固定的,而用样本构造的区间则是不固定的，因此置信区间是一个随机区间，它会因样本的不同而变化，而且不是所有的区间都包含总体参数5. 实际估计时往往只抽取一个样本，此时所构造的是与该样本相联系的一定置信水平(比如 95%）下的置信区间.我们只能希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个6. 当抽取了一个具体的样本，用该样本所构造的区间是一个特定的常数区间，我们无法知道这个样本所产生的区间是否包含总体参数的真值，因为它可能是包含总体均值的区间中的一个，也可能是未包含总体均值的那一个7. 一个特定的区间总是“包含”或“绝对不包含”参数的真值，不存在“以多大的概率包含总体参数” 的问题8. 置信水平只是告诉我们在多次估计得到的区间中大概有多少个区间包含了参数的真值,而不是针对所抽取的这个样本所构建的区间而言的2、一个总体参数的区间估计1个总体均值区间估计的计算(两种情形）A大样本的估计1。定条件n 总体服从正态分布,且方差（s) 已知n 如果不是正态分布，可由正态分布来近似 (n 30）x - m2。用正态分布统计量 z z = N ( 0 ,1)s n3.总体均值 m在 1a置信水平下的置信区间为22s s或 x zn n(s未知)B小样本的估计1假定条件n 总体服从正态分布，但方差（s) 未知n 小样本 (n 30)2. 使用 t 分布统计量x taa22ssnnt =x -ms n t ( n -1)0 0 0 3. 总体均值 m在 1-a置信水平下的置信区间为评价估计量好坏的标准：对于同一个未知参数,不同的方法得到的估计量可能不同，于是提出问题: 1. 应该选用哪一种估计量？2. 用什么标准来评价一个估计量的好坏?第六章假设检验1、假设检验的基本原理原假设:1. 又称“0 假设”,研究者想收集证据予以反对的假设，用 H 表示02. 所表达的含义总是指参数没有变化或变量之间没有关系3. 最初被假设是成立的,之后根据样本数据确定是否有足够的证据拒绝它 4. 总是有符号 =, 或 n H ： m = 某一数值n H ： m 某一数值n H ： m 某一数值l 例如,H :0m = 10cm备择假设：1. 也称“研究假设”，研究者想收集证据予以支持的假设，用 H 或 H 表示1 a2. 所表达的含义是总体参数发生了变化或变量之间有某种关系3. 备择假设通常用于表达研究者自己倾向于支持的看法,然后就是想办法收集证据拒绝原假设,以支持备择假设4. 总是有符号， 1 1 1 n H ：m 某一数值n H ：m 某一数值n H ：m ”或“的假设检验，称为单侧检验或单尾检验(one- tailed test)n 备择假设的方向为“”，称为右侧检验两类错误与显著性水平1. 研究者总是希望能做出正确的决策，但由于决策是建立在样本信息的基础之上,而样本又是随机的，因而就有可能犯错误2. 原假设和备择假设不能同时成立，决策的结果要么拒绝 H ,要么不拒绝 H 。决策时总是希望当原假设0 0正确时没有拒绝它，当原假设不正确时拒绝它,但实际上很难保证不犯错误3. 第类错误（a 错误)n 原假设为正确时拒绝原假设n 第类错误的概率记为 a,被称为显著性水平2。第类错误（b 错误）n 原假设为错误时未拒绝原假设第类错误的概率记为 b （Beta)利用统计量进行检验时的决策准则1. 根据样本观测结果计算出对原假设和备择假设做出决策某个样本统计量 2. 对样本估计量的标准化结果n 原假设 H0 为真n 点估计量的抽样分布a a/2a a/20 0 0 3.标准化的检验统计量标准化检验统计量点估计量假设值点估计量的抽样标准差统计量决策规则1. 给定显著性水平 a，查表得出相应的临界值 z 或 z2. 将检验统计量的值与 a 水平的临界值进行比较 3. 作出决策n 双侧检验:I 统计量 I 临界值，拒绝 Hn 左侧检验:统计量临界值,拒绝 Hn 右侧检验：统计量临界值,拒绝 H利用 P 值进行决策的准则，t 或 t1. 如果原假设为真，所得到的样本结果会像实际观测结果那么极端或更极端的概率 P 值告诉我们:如果原假设是正确的话,我们得到得到目前这个样本数据的可能性有多大，如果这个可能性很小，就应该拒绝原假设2. 被称为观察到的（或实测的)显著性水平3. 决策规则:若 p 值a，拒绝 H02、一个总体参数的假设检验一个总体均值双侧检验的计算（两种情形）1. 总体方差_ 已知或未知.在_已知的条件下，由抽样分布理论可知，样本统计量服从 z 分布;而在_ 未知的条件下，样本统计服从 t 分布。故当_已知时，可以使用 z 体验；当_ 未知时，可以使用 t 体验。2 n（n1,n2) 较大或 n 较小。当样本量 n1，n2 都较大时，如果总体方差 _ 和_位置，可以用样本方差_, _替代,这时，杨本统计量近似服从 z 分布,采用 z 作为体验统计量也是可行的，但是当 n 或 n1，n2 部大时,如果_，_未知，就应该采用 t 作为统计量。第八章一元线性回归1、变量间的关系相关关系的含义，与函数关系的区别函数关系1. 是一一对应的确定关系2. 设有两个变量 x 和 y ，变量 y 随变量 x 一起变化，并完全依赖于 x ，当变量 x 取某个数值时, y 依确定的关系取相应的值,则称 y是 x的函数,记为 y = f（x),其中 x称为自变量，y称为因变量3. 各观测点落在一条线上相关系数1. 一个变量的取值不能由另一个变量唯一确定2. 当变量 x取某个值时，变量 y的取值对应着一个分布3. 各观测点分布在直线周围相关关系的分类相关关系的描述及测度1. 度量变量之间线性关系强度的一个统计量n n n 0 0 n nn n 2 2 n 若相关系数是根据总体全部数据计算的，称为总体相关系数，记为rn 若是根据样本数据计算的，则称为样本相关系数，简称为相关系数，记为 rl 也称为 Pearson 相关系数（Pearsons correlation coefficient)2. 样本相关系数的计算公式r =( x -x )( y -y ) ( x -x ) 2 (y -y )22散点图:散点图可以判断两个变量之间有无相关关系,并对关系形态作出大致描述，但要准确度量变量间的关系强度，则需要计算相关关系。简单相关系数的取值特点及相关含义：简单相关系数又称皮尔逊相关系数或 “ 皮尔逊积矩相关系数，它一般用字母 r 表示。它是用来度量定量变量间的线性相关关系。计算公式为：2 、一元线性回归因变量：被预测或被解释的变量 , 用 y 表示自变量 : 用来预测因变量的一个或多个变量，用 x 表示回归模型各个部分的解释参数：因变量 y 的取值是不同的， y 取值的这种波动称为（变差） .参数最小二乘估计的基本思想1. 德国科学家 Karl Gauss(1777 1855) 提出用最小化图中垂直方向的误差平方和来估计参数2. 使因变量的观察值与估计值之间的误差平方和达到最小来求得和的方法。即ii=1( y - y ) 2 = iii =1( y - b - b x ) 2 = 最小 i 0 1 i3. 用最小二乘法拟合的直线来代表 x与 y之间的关系与实际数据的误差比其他任何直线都小(b和 b00 1的计算公式 )根据最小二乘法，可得求解 b和 b00 1的公式如下QbQb11bb=b 00 0bb=b11 1=-2(y -b-bx ) 2 =0ii 0 1 iii=1=-2x ( y -b-bx ) 2 =0ii i 0 1 iii=1b =11nn n n n x y - x y ii i i iii=1 i =1 i =1nn n n x 2 - x ii iii=1 i =1b =y -bx 00 12 判定系数的含义及计算公式的解释：1. 回归平方和占总误差平方和的比例 2. 反映回归直线的拟合程度3. 取值范围在 0 ， 1 之间4.R2 1 ，说明回归方程拟合的越好； R 0 ，说明回归方程拟合的越差5. 决定系数平方根等于相关系数第十章时间序列预测1 、时间序列组成要素时间序列：是同一现象在不同时间上的相继观察值排列而成的序列平稳序列：是基本上不存在趋势的序列非平稳序列：是包含趋势，季节性或周期性的序列，它可能只含有其中的一种成分，也可能是几种成分的组合。因此，非平稳序列又可以分为趋势的序列。趋势：是时间序列在长时期内呈现出来的持续向下的变动季节变动：是时间序列在一年内重复出现的周期性波动循环波变动：是时间序列呈现出的非固定长度的周期性波动不规则波动：是时间序列中除去趋势，季节变动和周期性波动之后的随机波动2 、时间序列预测的程序1. 确定时间序列所包含的成分2. 找出适合此类时间序列的预测方法，并对可能的预测方法进行评估，以确定最佳预测方案3. 利用最佳预测方案进行预测3 、平滑法预测1. 适合于只含有随机成分平稳序列2. 通过对时间序列进行平滑以消除其随机波动，因而也称为平滑法3. 主要有移动平均法（ moving average ）和指数平滑法（ exponential smoothing) 等，这些方法是4. 平滑法既可用于短期预测 , 也可以用于对时间序列进行平滑以描述序列的趋势（包括线性趋势和非线性趋势）移动平均法和指数平滑法的适用条件移动平均法：1. 选择一定长度的移动间隔，对序列逐期移动求得平均数作为下一期的预测值2. 将最近 k期数据平均作为下一期的预测值3. 设移动间隔为 k(1 k t), 则 t+1 期的移动平均预测值为F =Y =tt +1 tY tt -k+1+Y tt -k+2+ +Y +Y tt -1 ttk4. 预测误差用均方误差（ MSE）来衡量MSE =误误差平方方和和误差个数=ni =1( Y -F ) i in24 、了解趋势预测和自回归模型预测趋势预测：1. 根据时间序列变化的趋势选择适当的模型进行预测2. 主要适合于含有趋势的序列3. 趋势序列的预测方法主要有线性趋势 (linear trend ）预测、非线性趋势 (non linear trend) 预测和自回归（ autoregression ）模型预测等自回归模型预测：1. 序列包含多种成分自回归是解决自相关序列的有效预测方法之一2. 它是利用观测值与以前时期的观测值之间的关系来预测值的一种多元回归方法3. 因变量是观测值 Y ，自变量是因变量的滞后值 Y ， Y ， Y ，。看上去就像自己同自己回归 ,t t-1 t 2 t-3故名自回归5 、多成分序列的预测 : 3 3 1 4 442 4 4 431. 序列包含多种成分2. 预测方法有n 季节多元回归模型预测n 季节自回归模型模型预测 n 分解预测等分解预测是先将时间序列的各个成分依次分解出来，尔后再进行预测虚拟变量和季节指数1. 用虚拟变量表示季节的多元回归预测方法2. 若数据是按季度记录的，需要引入 3 个虚拟变量；按月记录的，则需要引入 11 个虚拟变量Q =1110第一季度其他季度Q =221 第二季度 0 其他季度1 第三季度 Q =0 其他季度3. 季度数据的季节性多元回归模型可表示为Y = b + b t + b Q + b Q + b Q 0 1 2 1 3 2 4趋势季节成分

展开阅读全文

统计学(复习)

最新文档