误差分析-精 (2)

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据处理,把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来，有助于推断统计得出正确分析结论。,1,：异常数据取舍,2,：未检出值和,/,或缺失值估算,采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可小视。,异常数据,单个异常值：是指单个样本观测数据组内隐含的个别异常数据。同义词有：可疑值、异常值、极端值、端值、离群值、逸出值、奇异值、超限值、粗值,异常均数：三个以上（,k3,）样本多均数要作统计分析比较时，无疑也要检查其中是否隐含可疑均数。,研究者对7例糖尿病患者给某种药物后，测量其血中胰岛素,(,/ml,X1,),和血糖,(,mg%,X2,),作者采用直线相关分析,结论,：,血液中胰岛素与血糖两者含量,之间,无直线相关,患者编号,1,2,3,4,5,6,7,胰岛素（,X1,）,24,17,18,12,15,121,10,血糖（,X2,）,142,170,194,213,214,238,249,剔出第,6,对数据前后的,Pearson,相关系数，前者是,0.314,，后者是,-0.936,，显示有相关性！,异常数据,的,判别法,物理判别法,：,根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中随时判断，随时剔除,统计判别法：给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除,能用物理判别法判定异常数据有时不易做到，此时只能用统计判别法,统计判别法,拉依达准则,肖维勒准则,格拉布斯准则,狄克逊准则,t,检验（罗马诺夫斯基准则）,极差法,统计判断对,异常数据,的区分,异常数据,有两种情况：,1.,异常值不属于该总体，抽样抽错了，从另外一个总体抽出一个,(,一些,),数据，其值与总体平均值相差较大；,2.,异常值虽属于该总体，但可能是该总体固有随机变异性的极端表现，比如说超过,3,的数据，出现的概率很小。,犯错误,1,：将本来属于该总体的、出现的概率小的、第二种情况的异常值判断出来舍去，就会犯错误。,-,去真,犯错误,2,：不属于该总体但数值又和该总体平均值接近的数据被抽样抽出来，统计检验方法判断不出它是异常值，就会犯另外一种错误。,-,存伪,统计判别法,之,一,：,拉依达准则,如果实验数据的总体,x,是服从正态分布的，则,根据上式对于大于,+3,或小于,-3,的实验数据作为异常数据，予以剔除。,剔除后，对余下的各测量值重新计算偏差和标准偏差，并继续审查，直到各个偏差均小于,3,为止。,无需查表，使用简便,对某一长度,L,测量,10,次，其数据如下：,试用拉依达准则剔除坏值。,解：,20.33,不能用拉依达准则剔除,例：,次数,1,2,3,4,5,6,7,8,9,10,L(cm,),10.35,10.38,10.3,10.32,10.35,10.33,10.37,10.31,10.34,20.33,对某一长度,L,测量,10,次，其数据如下：,试用拉依达准则剔除坏值。,解：,20.33,用拉依达准则剔除,例：,次数,1,2,3,4,5,6,7,8,9,10,11,L(cm,),10.35,10.38,10.3,10.32,10.35,10.33,10.37,10.31,10.34,20.33,10.37,对于服从正态分布的测量结果，其偏差出现在,3,附近的概率已经很小，如果测量次数不多，偏差超过,3,几乎不可能，因而，用拉依达判据剔除疏失误差时，往往有些疏失误差剔除不掉。,另外，仅仅根据少量的测量值来计算,，这本身就存在不小的误差。,因此拉依达准则不能检验样本量较小的情况。（显著性水平为,0.1,时，,n,必须大于,10,）,统计判别法,之,二,：,肖维勒准则,肖维勒准则又称为等概率原则，以正态分布为前提,假设多次重复测量所得,n,个测量值中,某个测量值的残余误差,|vi|=,Zc,则剔除此数据。,实用中,Zc,3,所以在一定程度上弥补了,3,准则的不足，另外考虑了测量次数的因素，在一定程度上比,拉依达准则更合理。,Zc,是一个与测量次数相关的系数，可以查表获取。,肖维勒准则,可用于,n,T,，则判断此值中含有粗大误差,应予剔除。,T,值与重复测量次数,n,和置信概率,均有关，因此,格拉布斯准则是比较好的判定准则。,格拉布斯准则理论较严密，概率意义明确，可用于严格要求的场合,当,n=20-100,时，判别效果较好。,T,值通过查表获得。,T,0,(,n,),值表,采用格拉布斯方法判定异常数据的过程如下：,1.,选定危险率,是一个较小的百分数，例如,1%,，,2.5%,，,5%,，它是采用格拉布斯方法判定异常数据出现误判的几率。,2.,计算,T,值,如果,x,(n,),是可疑数据，则令,3.,根据,n,及,，查表得到,T,0,(,n,),值,4.,如果,T T,0,(,n,),则所怀疑的数据是异常数据，应予剔除。如果,T,0,(,n,),，则所怀疑的数据不是异常数据，不能剔除。,5.,余下数据重复操作至无异常数据,格拉布斯准则可以检验较少的数据,狄克逊准则,亦称,Q,检验法，狄克逊准则是通过极差比判定和剔除异常数据。,该准则认为异常数据应该是最大数据和最小数据，因此该其基本方法是将数据按大小排队，检验最大数据和最小数据是否异常数据。,将实验数据,x,i,按值的大小排成顺序统计量,x(1),x(2),x(3),x(n,),计算,f,0,值,或,根据,狄克逊系数表,将,f,0,与,f(n,),进行比较,如果,f,0,f(n,),，说明,x(n,),离群远，,则判定该数据为异常数据，予以剔除。,狄克逊系数,f(n,a,),与,f,0,的计算公式,t,检验准则（罗马诺夫斯基准则）,t,检验准则与狄克逊准则相似，也是检验最大实验数据和最小实验数据。首先将实验数据按大小排列,x(1),x(2),x(3),x(n,),对最小数据和最大数据分别进行检验，如果,或,则,x(1),或,x(n,),是异常数据，应予剔除,式中及分别为不包括,x,(1),或,x,(n),的,n-1,个数据的均值和标准差。,t,检验中的,K(n,),应注意的问题：,所有的检验法都是人为主观拟定的，至今无统一的规定。以数据按正态分布为前提的，当偏离正态分布和测量次数少时检验不一定可靠。,若有多个可疑数据同时超过检验所定置信区间，应逐个剔除，重新计算，再行判别。若有两个相同数据超出范围时，应逐个剔除。,在一组测量数据中，可疑数据应很少。反之，说明系统工作不正常。,为了减少犯错误的概率，可以将,3,种以上统计检验法结合使用，根据多数方法的判断结果，确定可疑值是否为异常值,拉依达准则不能检验样本量较小的情况，格拉布斯准则则可以检验较少的数据。在国际上，常推荐格拉布斯准则和狄克逊准则。,但对于异常数据一定要慎重，不能任意的抛弃和修改。往往通过对异常数据的观察，可以发现引起系统误差的原因，进而改进过程和试验。,SPSS,实现,研究者对7例糖尿病患者给某种药物后，测量其血中胰岛素,(,/ml,X1,),和血糖,(,mg%,X2,),作者采用直线相关分析,结论,：,血液中胰岛素与血糖两者含量,之间,无直线相关,患者编号,1,2,3,4,5,6,7,胰岛素（,X1,）,24,17,18,12,15,121,10,血糖（,X2,）,142,170,194,213,214,238,249,SPSS,实现,本例为小样本，单击,Analyze,，后单击,Descriptive statistics,选择,Explore,主对话框中，再单击,Plots,选项进入,Explore,：,Plots,对话框：在,Boxplots,项下点选,Dependents Together,，在,Descriptive,项下勾选,Stem-and-leaf,，其余各项可以不要勾选和点选；单击,Continue,返回,Explore,对话框，单击,OK,SPSS,运行、输出结果,Frequency Stem&Leaf,2.00 1.0,3.00 1.78,1.00 2.4,1.00,Extremes,(,=121,),Stem width:10,Each leaf:1,case(s,),胰岛素检出离群值,121,叶茎图和箱须图提示有极端值（,121,）,缺失数据的处理,数据缺失的机制,将数据集中不含缺失值的变量（属性）称为完全变量，数据集中含有缺失值的变量称为不完全变量，,Little,和,Rubin,定义了以下三种不同的数据缺失机制：,1,）完全随机缺失：数据的缺失与不完全变量以及完全变量都是无关的。,2,）随机缺失：数据的缺失仅仅依赖于完全变量。,3,）非随机、不可忽略缺失：不完全变量中数据的缺失依赖于不完全变量本身，,这种缺失是不可忽略的。,缺失数据预处理思想,1.,直接丢弃含缺失数据的记录,2.,补缺,A.,用平均值来代替所有缺失数据,B.K-,最近距离邻居法：先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的,K,个样本，将这,K,个值加权平均来估计该样本的缺失数据。,C.,用预测模型来预测每一个缺失数据：该方法最大限度地利用已知的相关数据，是比较流行的缺失数据处理技术。,（一）个案剔除法,(,Listwise,Deletion),最常见、最简单的处理缺失数据的方法，也是很多统计软件（如,SPSS,）默认的缺失值处理方法。,如果缺失值所占比例比较小，这一方法十分有效。至于具体多大的缺失比例算是“小”比例，专家们意见也存在较大的差距。有学者认为应在,5%,以下，也有学者认为,20%,以下即可。,这种方法却有很大的局限性。它是以减少样本量来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。当缺失数据所占比例较大，特别是当缺数据非随机分布时，这种方法可能导致数据发生偏离，从而得出错误的结论。,（二）均值替换法,(Mean Imputation),缺失值是数值型的：平均值来填充该缺失的变量值,缺失值是非数值型的，众数来补齐该缺失的变量值。,均值替换法也是一种简便、快速的缺失数据处理方法。使用均值替换法插补缺失数据，对该变量的均值估计不会产生影响。但这种方法是建立在完全随机缺失（,MCAR,）的假设之上的，而且会造成变量的方差和标准差变小。,（三）热卡填充法（,Hotdecking,）,在数据库中找到一个与最相似的对象，然后用这个相似对象的值来进行填充。,不同的问题可能会选用不同的标准来对相似进行判定。,变量,Y,与变量,X,相似，把所有个案按,Y,的取值大小进行排序。那么变量,X,的缺失值就可以用排在缺失值前的那个个案的数据来代替了。,与均值替换法相比，利用热卡填充法插补数据后，其变量的标准差与插补前比较接近。但在回归方程中，使用热卡填充法容易使得回归方程的误差增大，参数估计变得不稳定，而且这种方法使用不便，比较耗时。,（四）回归替换法,(Regression Imputation),回归替换法首先需要选择若干个预测缺失值的自变量，然后建立回归方程估计缺失值，即用缺失数据的条件期望值对缺失值进行替换。,该方法也有诸多弊端，第一，容易忽视随机误差，低估标准差和其他未知性质的测量值，而且这一问题会随着缺失信息的增多而变得更加严重。第二，研究者必须假设存在缺失值所在的变量与其他变量存在线性关系，很多时候这种关系是不存在的。,（五）多重替代法,(Multiple Imputation),由,Rubin,等人于,1987,年建立起来的作为简单估算的改进产物。,首先，用一系列可能的值来替换每一个缺失值，以反映被替换的缺失数据的不确定性。,然后，用标准的统计分析过程对多次替换后产生的若干个数据集进行分析。,最后，把来自于各个数据集的统计结果进行综合，得到总体参数的估计值。,SPSS,实现,1,、,listwise,deletion,法,在,SPSS,的统计

展开阅读全文

误差分析-精 (2)

最新文档