资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第3章 数据的采集与统计分析,第3章 数据的采集与统计分析,1,主要内容,3.1 数据的采集,3.2 分布的识别,3.3 参数估计,3.4 拟合度检验,3.5 随机变量的生成,主要内容3.1 数据的采集,2,输入数据是模拟实验的动力,系统名称,典型的输入数据,排队系统,顾客到达的间隔时间,顾客被服务时间的分布,库存系统,需求顾客的分布,顾客需求量的分布,物料订货的提前期分布,生产系统,作业到达的间隔时间,作业类型的概率,每种作业每道工序服务时间的分布,可靠性系统,生产无故障作业时间,系统的模拟依靠这些原型系统的运行数据,缺乏这些数据的实验和实验值的提取,模拟也就毫无意义。,引言,输入数据是模拟实验的动力系统名称典型的输入数据排队系统 顾,3,收集原始数据,基本统计分布的辨识,参 数 估 计,拟合度检验,可信否?,否,是,是输入数据分析的基础,需要分析的经验,对收集的方法、数据需要做预先的设计和估算。因此这是一个关键的、细致的工作。,通过统计的数学手段(计数统计、频率分析、直方图制作等),得出统计分布的假设函数(如:正态分布、负指数分布、,Erlang,分布等),根据统计特征,计算确定系统的假设分布参数。,运用统计分布的检验方法,对假设的分布函数进行可信度检验。通常采用的是,2,检验。,输入数据模型确定的 基本方法,正确输入数据,引言,收集原始数据基本统计分布的辨识 参 数 估 计拟合度检验 可,4,常用随机分布,离散,两点分布,二项式分布,泊松分布,产品合格/不合格,批量产品中合格品数量与次品的数量,单位时间内道路上通过的车辆数、顾客到达数、交换机单位时间内呼叫数,引言,常用随机分布引言,5,常用随机分布,连续,均匀分布,指数分布,正态分布,韦伯分布,可用于随机变量的生成,电话系统中用户的通话时间;机器设备发生故障的时间间隔,测量误差;某个地区劳动者的收入,零部件或设备的寿命;完成某项任务所需要的时间,引言,常用随机分布引言,6,3.1 数据的采集,数据采集是针对实际问题,经过系统分析或经验的总结,以系统的特征为目标,收集与此有关的资料、数据、信息等反映特征的相关数据。,数据的,采集是一项工作量很大的工作,也是在模拟中最重要、最困难的问题。即使一个模型结构是正确的,但若收集的输入数据数据不正确,或数据分析不对,或这些数据不能代表实际情况,那么利用这样的数据作为决策的依据必将导致错误,造成损失和浪费。,数据,采集工作应该具有科学的态度、忠于现实的工作作风。应该将数据收集工作、模拟工作的意义让参与者明确,得到参与者的支持和理解。,什么是数据采集?,数据采集的意义?,数据采集的基本态度?,3.1 数据的采集数据采集是针对实际问题,经过系统分析或经验,7,做好模拟计划,详细规划模拟所需要收集的数据,确定应该收集些什么样的数据、何时进行采集以及以什么样的方式进行采集。,数据采集的类型应该尽量广泛,而不应该仅仅局限于实际建模时要用到的数据类型。,例如,在采集工人使用机床加工零件的时间时,如果除了采集工人加工一个零件所使用的时间外,同时再采集一些诸如工人的性别、年龄、身体状况等辅助数据,这样在以后的数据分析中如发现某些数据与其它数据有明显差异,就可利用辅助数据,判别数据是否具有合理性与代表性,或者指导我们对所采集数据进行合理的修正。,数据采集的时间应有一定的跨度,以免所采集的样本数据带有某种片面性。,为了对某个交通道口的堵车情况进行模拟,采集车流数据的时间不能只是在一天中的某一段时间,如早晨,也不能只是在一个星期中的某一天,3.1 数据的采集-,技巧,做好模拟计划,详细规划模拟所需要收集的数据3.1 数据的采集,8,3.1 数据的采集-,过程监控,由于数据的采集工作可能并不是进行一次就能完成的,而是可能历时几天、几个星期甚至几个月。,一般讲,系统在不同时间所处的环境不同,而在不同环境下采集的数据会有一定的统计差异性。,我们要知道在数据采集过程中,所采集的数据是否具有统计上的一致性,或者说在采集过程中系统的特征是否发生了变化。,可以运用,控制图,对数据的采集过程进行监控。,3.1 数据的采集-过程监控 由于数据的采集工作可能并不是进,9,主要对数据样本的均值与极差进行监控,先确定一个数据采集的初始阶段,在这阶段中采集到的数据用于建立控制图,为以后的采集过程的监控提供依据。,假设在初始阶段我们已采集到了N个数据,将这N个数据按采集的顺序分成k批,每批n(一般取n=5或6为好)个数据。,记第i批第j个数据为x,ij,,则我们可以计算出每批的均值,极差,3.1 数据的采集-,过程监控,主要对数据样本的均值与极差进行监控 3.1 数据的采集-过程,10,3.1 数据的采集-过程监控,批均值的平均值和极差的平均值,的控制限为,R的控制限为,3.1 数据的采集-过程监控批均值的平均值和极差的平均值,11,3.2 分布的识别-,数据特征分析,数据特征分析的目的是帮助我们用一些简单的统计特征指标来描述大样本数据,从而揭示样本数据的一些基本特征。,样本均值、中位数、方差、偏差系数、莱克塞斯比率、偏斜系数,3.2 分布的识别-数据特征分析,12,3.2 分布的识别-,直方图,直方图构筑方法,取,值,区,间,划,分,水,平 区,坐 间,标 标,轴 注,的,计 区,算 间,确 内,定 的,每 发,一 生,数,垂,直 标,坐 注,标 频,轴 数,上,绘 上,制 的,各 发,个 生,区 频,间 数,绘,制,直,方,图,对于离散系统的统计分析中,一般用频率统计的分析方法来计算分布函数。其图形描述用的就是直方图。,3.2 分布的识别-直方图直方图构筑方法取水计 区垂绘 上绘,13,分组区间的组数依赖于观察次数以及数据的分散或散布的程度。,一般分组区间组数近似等于样本量的平方根。即:,如果区间太宽(m太小),则直方图太粗或呈短粗状,这样,它的形状不能良好地显示出来。,如果区间太窄,则直方图显得凹凸不平不好平滑,合适的区间选择(m值)是直方图制作,分布函数分析的基础。,3.2 分布的识别-,直方图分组区间数量的选取,分组区间的组数依赖于观察次数以及数据的分散或散布的程度。如果,14,合适的区间选择(m值)是直方图制作,分布函数分析的基础。,对直方图进行曲线拟合,拟合所得到的曲线应该就是该随机变量的概率或密度函数。密度函数是一个一般概率函数。通常,我们通过标准函数的假设,将概率分布假设成标准分布函数形式。如:负指数分布、泊桑分布等。,3.2 分布的识别-,直方图分组区间数量的选取,合适的区间选择(m值)是直方图制作,分布函数分析的基础。对直,15,通过对随机过程的样本值的直方图分析,我们已经得到了随机过程的分布假设,即假设随机过程的概率分布符合某一种标准随机分布。这是一种定性分析的结果。,在给定了一种随机分布函数后,需要进一步获取这一分布函数的特征参数,在收集到的实际系统随机变量的实际数据基础上,对分布类型重点未知总体参数进行估计的过程称为,参数估计,3.3 参数估计-,作用,通过对随机过程的样本值的直方图分析,我们已经得到了随机过程的,16,位置参数,确定分布函数取值的范围,当,变化时,分布函数仅仅在坐标系上的位置发生变化,比例参数,用于确定在分布范围内取值的大小比例,的改变只压缩或扩张分布函数,不改变其基本形状,形状参数,是决定分布函数基本形状,从而改变分布函数性质的参数,3.3 参数估计-,分布参数的类型,位置参数3.3 参数估计-分布参数的类型,17,矩估计法、极大似然法、最小二乘拟合估计,模拟中常用的一些分布参数建议值,分 布,参 数,建议使用的估计量,泊松,指数,在(0,b)上的均匀分布,正态,,,3.3 参数估计-,方法,矩估计法、极大似然法、最小二乘拟合估计分 布参 数建议使,18,3.4 拟合度检验,为了测试随机样本量为,n,的随机变量,X,服从某一特定分布形式的假设,常用,2,拟合度检验。,这种检验方法首先是把,n,个观察值分成,k,个分组区间或单元。检验的统计量由下式给出(,k,为分布的阶数),式中,,N,i,是在第,i,个分组区间的观察频数。,N,i,=,n,i,/,n,k,=6,这里的,p,i,是理论值,是对应第,i,个分组区间的假设概率。,3.4 拟合度检验 为了测试随机样本量为n的随机变量X,19,可以证明:,0,2,近似服从具有自由度,f,=,k,-,s,-,1的,2,分布。,这里,s,表示由采样统计量所估计的假设分布的参数个数。,假设检验作零假设:,H,0,:观察值Xi是一组属于分组分布函数F的独立相同分布的随机变量。,若,2,太大则拒绝,H,0,,若拟合是好的,则期望值,2,很小。,首先划分区间,定义k值,计算各组的观察频数,计算,0,查阅,2,表,得到,该值反映的是假设分布的拟合程度。,拟合度检验步骤,3.4拟合度检验-,拟合程度的判定,可以证明:02近似服从具有自由度 f=k-s-1的2,20,我们可以根据拟合度检验的要求,设定一个拟合度的显著性指数,,根据设定的,显著性指数,以及,2,分布的自由度数,f,=,k,-,s,-,1,可以查,2,表得到,,f,2,。,如果 则检验未通过,,H,0,不成立。,如果 则检验通过,,H,0,成立。,3.4 拟合度检验-,指定拟合度的检验,3.4 拟合度检验-指定拟合度的检验,21,概述,随机数的生成,随机数的检验,随机变量的生成,3.5 随机变量的生成,概述3.5 随机变量的生成,22,在大量的模拟模型中,特别是在离散事件模拟模型中,都需要进行随机抽样,或者说产生服从一定分布的随机变量,以使模拟模型能够模拟实际系统中所具有的一些随机现象,随机变量:,设某一次试验产生的样本空间为,,,X,是定义在,上的实函数,即对于任一样本点,,,X()为一实数,则称X为一个随机变量,随机数,就是指服从0,1均匀分布的随机变量。其他类型的分布,都可以用某种方法通过对0,1均匀分布进行转换来实现,3.5.1 概述-,随机变量,在大量的模拟模型中,特别是在离散事件模拟模型中,都需要进行随,23,随机性,具有独立性、均匀性,并且与真实随机数具有相同的数字特征,如期望、方差,长周期,发生器都是基于准确无误、决定性的公式而设计的,产生的随机数最终会回到它的起点,并重复以前出现过的序列;,无重复随机数序列的长度称为周期,可再现性,调试、校正仿真系统的参数,即要能生成同样的随机数序列;又要能生成不同以往的随机序列,计算效率要高,3.5.1 概述-,随机数发生器,随机性3.5.1 概述-随机数发生器,24,随机数的生成方法一般可以分作两类,即物理方法与数值方法。物理方法是通过一些物理设备,如电子噪声发生器、放射源计数器获得随机数。,现在使用的比较广泛而又有效的方法是数值方法,即按照一定的算法利用计算机程序来产生随机数。一般称由这样的方法产生的随机数为,伪随机数,。,伪随机数满足一定的随机性准则,但它们的产生总是以某个称之为种子的确定的初始值开始,并且是一个完全确定的、重复的过程。,3.5.1 概述-,随机数的生成,随机数的生成方法一般可以分作两类,即物理方法与数值方法。物理,25,线性同余法在1951年由菜默尔(Lehmer)首先提出。目前大多数随机数发生器都采用这种方法。在这个算法中,随机序列中的数由如下的递推关系产生,初始值x,0,称为种子,常数a称为乘子,常数c称为增量,而常数m称为模数。,当,a,=1时,加同余法;,当,c,=0时,乘同余法;,当,a,1、,c,0时,混合同余法。,3.5.2 随机数的生成-,线性同余法,线性同余法在1951年由菜默尔(Lehmer)首先提出。目前,26,取m=2,b,,b为计算机系统的位数。一般为32位,去掉一位符号位,b=31,一方面,满足了模数取值尽可能大的要求,另一方面,可以利用整型溢出的特性,避免直接进行除法运算,对于b位的计算机系统,整型数据最多可保留(2,b,-1),对于一个
展开阅读全文