资源描述
数学建模中一些常见类型原始数据的处理方法(),主讲:戴永红,一维随机数据的处理戴永红,“自动化车床管理”问题注:本题是1999创维杯全国大学生数学建模竞赛A题一道工序用自动化车床连续加工某种零件,由于刀具损坏等原因该工序会出现故障,其中刀具损坏故障占95%,其它故障仅占5%。工序出现故障是完全随机的,假定在生产任一零件时出现故障的机会均相同。工作人员通过检查零件来确定工序是否出现故障。现积累有100次刀具故障记录,故障出现时该刀具完成的零件数如附表。现计划在刀具加工一定件数后定期更换新刀具。已知生产工序的费用参数如下:故障时产出的零件损失费用f=200元/件;进行检查的费用t=10元/次;发现故障进行调节使恢复正常的平均费用d=3000元/次(包括刀具费);未发现故障时更换一把新刀具的费用k=1000元/次。1)假定工序故障时产出的零件均为不合格品,正常时产出的零件均为合格品,试对该工序设计效益最好的检查间隔(生产多少零件检查一次)和刀具更换策略。2)如果该工序正常时产出的零件不全是合格品,有2%为不合格品;而工序故障时产出的零件有40%为合格品,60%为不合格品。工序正常而误认有故障仃机产生的损失费用为1500元/次。对该工序设计效益最好的检查间隔和刀具更换策略。3)在2)的情况,可否改进检查方式获得更高的效益。,附:100次刀具故障记录(完成的零件数)4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851,数据形式,注:这里只讨论简单随机样本,数据是来自于总体的样本观察值,具体形式为:,处理目标,数据是来自某一总体的样本观察值,因此,处理目标就是通过对样本观察值的分析,推断出总体的分布情况。,符号说明,样本观察值,样本第i个观察值,样本均值,总体均值,总体标准差,样本容量,表示随机变量取值小于x的概率为p,处理步骤,具体处理步骤如下:,第一步:剔除异常数据,第二步:计算数字特征,第三步:作出总体分布的假设,第四步:假设检验,第一步剔除异常数据,在数据的测定和读取过程中,不可避免的存在误差。,误差通常可以分为三类:系统误差、偶然误差和过失误差。,处理数据时异常数据必须剔除。,带有过失误差的数据就是异常数据。,第一步剔除异常数据,常用的剔除异常数据的方法:,准则,肖维纳(Chauvenet)准则,格拉贝斯(Grubbs)准则,第一步剔除异常数据,根据偶然误差正态分布理论,误差大于的数据出现的概率为0.0027。因此,当数据的误差大于时认为它是异常数据。通常用样本标准差s代替,用剩余误差代替偶然误差。,准则:,第一步剔除异常数据,肖格纳(Chauvenet)准则:,由统计理论知,大误差出现的概率很小,于是建立以下准则:在n次观测中,某数据的剩余误差可能出现的次数小于半次时,认为这个数据是异常数据。,第一步剔除异常数据,可以通过查询专门的表得到。,其中,若某一个测量数据满足下式时,则认为数据为异常数据而把它剔除:。,格拉贝斯(Grubbs)准则:,Grubbs导出了统计量的分布。取显著水平,可以得到临界值,使得:。,第一步剔除异常数据,部分表:,第一步剔除异常数据,注意事项:,第一步剔除异常数据,例题一:剔除下列数据中的异常数据。,第一步剔除异常数据,解题过程:(采用Grubbs准则),取显著水平,查表的,得到两个异常数据18和435,所以剔除异常数据435,1、计算得到,第一步剔除异常数据,注:由于表不完整,2、3步中的由线性插值得到,2、重新计算得到,取显著水平,查表的,得到一个异常数据18,所以剔除异常数据18,第一步剔除异常数据,3、重新计算得到,取显著水平,查表的,计算知:已没有异常数据,此时异常数据剔除完毕,第一步剔除异常数据,编程实现的具体算法:,第二步计算数字特征,设是来自某个总体X的样本观察值,将它们按数值由小到大记为。这就是次序统计量。,次序统计量,预备知识:,第二步计算数字特征,样本的数字特征,样本标准差:,样本均值:,样本偏度:,第二步计算数字特征,中位数与均值相比更加稳定。当数据中有异常数据时,均值会有明显的变化,而中位数不会有明显的变化。,偏度描述数据的对称性。关于均值对称的数据,其偏度为零,右侧更分散的数据偏度大于零,反之偏度小于零。,这样,对于偏度接近于零的数据,可以用均值和中位数的差值,近似判断数据中是否有异常数据。,第二步计算数字特征,总体均值:总体标准差:,定理:设是来自某个总体X的样本观察值,无论X服从什么分布,都有:如果总体均值存在,则样本均值是总体均值的最小方差线性无偏估计;如果总体方差存在,则样本方差是总体方差的无偏估计。,因此,取,,总体的数字特征,第二步计算数字特征,编程实现的具体算法:,第三步作出总体分布的假设,对于一般总体分布,可以用经验分布函数来估计总体分布函数。设来自某个总体分布X的样本观察值的次序统计量为,则经验分布函数为:,第三步作出总体分布的假设,正态分布、指数分布、均匀分布、威布尔分布,泊松分布、二项分布、两点分布,对于离散总体:,常见的总体分布,对于连续总体:,第三步作出总体分布的假设,常见分布出现场合:,第三步作出总体分布的假设,编程实现的具体算法:,第四步假设检验,假设是已知的分布函数,是未知的总体分布函数的一个较优的估计。取检验统计量若样本数据服从指定分布,即,则D的观测值应当较小。若D的观测值较大,则样本数据不服从指定分布,即。,检验方法:,第四步假设检验,q-q图用样本数据的分位数与指定分布的分位数之间的关系曲线来检验数据的分布。若样本数据服从指定分布,则图中数据点大致呈现直线关系,否则为曲线关系。,检验方法:,第四步假设检验,编程实现的具体算法:,程序简介,调试程序使用的是Matlab6.1版本的软件。,程序由8个Matlab语言编写的m文件组成。其中datamain.m和datainput.m为m脚本文件,datatrait.m、datahist.m、datajudgement.m、datacdf.m、abnorfigure.m和stdplot.m为m函数文件。,其中,datamain.m文件是主函数部分,datainput.m文件完成数据的输入。,程序补充说明,程序使用举例,例题二:完成下列一维随机数据的分析。4593626245425095844337488155056124524349826407425657065936809266531644877346084281153593844527552513781474388824538862659775859755649697515628954771609402960885610292837473677358638699634555570844166061062484120447654564339280246687539790581621724531512577496468499544645764558378765666763217715310851,例题处理步骤,STEP1:将本部分程序的8个m文件复制到Matlab默认工作路径下的work文件夹中(work文件夹的默认路径是:/matlab6.1/work)。,STEP2:打开datainput.m文件,变量data中的数据替换成所要处理的数据。如图2-1所示(其中“”是续行符)。,图2-1,返回,例题处理步骤,STEP3:在命令窗口中键入datamain,并按回车键,此时命令窗口如图2-2所示。,STEP4:键入1,并按回车键,此时跳出图形窗口如图2-3所示,命令窗口如图2-4所示。,图2-2,返回,图2-3,返回,图2-4,返回,例题处理步骤,STEP5:若要改变直方图组距,即需改变直方图区间数m,键入改变后的m值(笔者键入8),并按回车键,此时图形窗口如图2-5所示,命令窗口如图2-6所示。若直方图组距已经比较合适,键入0,并按回车键,跳出两个图形窗口,分别如图2-7、2-8所示,此时命令窗口如图2-9所示。,图2-5,返回,图2-6,返回,图2-7,返回,图2-8,返回,图2-9,返回,例题处理步骤,STEP6:通过对图形的观察比较,推断总体分布。键入代表指定总体的数字(笔者键入4,数据显然不是均匀分布,此处键入4只是为了说明程序使用方法),并按回车键,跳出图形窗口如图2-10所示,此时命令窗口如图2-11所示。键入1,并按回车键,命令窗口如图2-12所示。键入其他分布进行检验(笔者键入1),并按回车键,跳出图形窗口如图2-13所示,此时命令窗口如图2-14所示。,图2-10,返回,图2-11,返回,图2-12,返回,图2-13,返回,图2-14,返回,abnorfigure.m,下一页,返回,abnorfigure.m,上一页,返回,返回,datafcdf.m,datahist.m,返回,datainput.m,返回,datajudgement.m,下一页,返回,datajudgement.m,下一页,返回,上一页,datajudgement.m,返回,上一页,返回,datamain.m,下一页,返回,datamain.m,上一页,datatrait.m,返回,返回,stdplot.m,下一页,返回,stdplot.m,上一页,课后练习试推断下列连续型随机样本所服从的分布类型,给出详细解答过程2.03162.10950.06421.10172.107636.559578.23650.01240.26520.00020.22260.33010.00230.13362.03380.03140.002830.35410.02830.45490.00310.16250.02020.30330.839891.78642.2977,
展开阅读全文