统计学数据预处理PPT资料

资源描述

Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,11/7/2009,#,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,统计学数据(shj)预处理,第一页，共45页。,（优选）统计学数据(shj)预处理,第二页，共45页。,数据(shj)预处理,把混在原始数据中的“异常数据”排除、把真正有用的“信息”提取出来，有助于推断统计得出正确分析结论。,1：异常数据取舍,2：未检出值和/或缺失值估算,采用异常数据进行推断统计得到的结论误导带给科研与统计控制判断出错的隐患不可(bk)小视。,第三页，共45页。,拉依达准则不能检验样本量较小的情况(qngkung)，格拉布斯准则则可以检验较少的数据。,结论：血液中胰岛素与血糖两者含量之间无直线相关,另外，仅仅根据少量的测量值来计算，这本身就存在不小的误差。,（四）回归(hugu)替换法(Regression Imputation),缺失值是数值型的：平均值来填充该缺失的变量值,它的方法是把有同样缺失的样本放在同一组,计算它的协方差矩阵（covariance matrix）,然后再根据每组的样本数来校正它对整个样本的权重(weight),从这里再重新填补每个缺失值，这重方法算是现在比较精确的缺失值填补的方法。,将实验数据xi按值的大小排成顺序统计(tngj)量,至于具体多大的缺失比例算是“小”比例，专家们意见也存在较大的差距。,在SPSS 的统计分析程序中,打开options 按钮,便会出现缺失值的处理栏(missing values),可分别选择下列选项:exclude cases analysis by analysis(剔除(tch)正在分析的变量中带缺失值的观察单位);exclude case list wise(剔除(tch)所有分析变量中带缺失值的观察单位),异常数据(shj)的判别法,SPSS实现(shxin),t检验（罗马诺夫斯基准则）,缺失数据(shj)预处理思想,变量Y与变量X相似，把所有个案按Y的取值大小进行排序。,叶茎图和箱须图提示(tsh)有极端值（121）,对最小数据和最大数据分别进行检验，如果,异常(ychng)数据,单个异常值：是指单个样本观测数据组内隐含的个别异常数据。同义词有：可疑值、异常值、极端(jdun)值、端值、离群值、逸出值、奇异值、超限值、粗值,异常均数：三个以上（k3）样本多均数要作统计分析比较时，无疑也要检查其中是否隐含可疑均数。,第四页，共45页。,研究者对7例糖尿病患者给某种药物后，测量其血中胰岛素(/ml,X1)和血糖(mg%,X2),作者采用(ciyng)直线相关分析,结论：血液中胰岛素与血糖两者含量之间无直线相关,患者编号,1,2,3,4,5,6,7,胰岛素（,X1,）,24,17,18,12,15,121,10,血糖（,X2,）,142,170,194,213,214,238,249,第五页，共45页。,剔出第6对数据(shj)前后的Pearson 相关系数，前者是0.314，后者是-0.936，显示有相关性！,第六页，共45页。,异常数据(shj)的判别法,物理判别法：根据人们对客观事物已有的认识，判别由于外界干扰、人为误差等原因造成实测数据偏离正常结果，在实验过程中随时判断，随时剔除(tch),统计判别法：给定一个置信概率，并确定一个置信限，凡超过此限的误差，就认为它不属于随机误差范围，将其视为异常数据剔除(tch),能用物理判别法判定异常数据有时不易做到，此时只能用统计判别法,第七页，共45页。,统计(tngj)判别法,拉依达准则,肖维勒准则,格拉(l)布斯准则,狄克逊准则,t检验（罗马诺夫斯基准则）,极差法,第八页，共45页。,统计判断对异常(ychng)数据的区分,异常数据有两种情况：,1.异常值不属于该总体，抽样抽错了，从另外一个总体抽出一个(一些)数据，其值与总体平均值相差较大；,2.异常值虽属于该总体，但可能(knng)是该总体固有随机变异性的极端表现，比如说超过3的数据，出现的概率很小。,第九页，共45页。,犯错误1：将本来属于(shy)该总体的、出现的概率小的、第二种情况的异常值判断出来舍去，就会犯错误。-去真,犯错误2：不属于(shy)该总体但数值又和该总体平均值接近的数据被抽样抽出来，统计检验方法判断不出它是异常值，就会犯另外一种错误。-存伪,第十页，共45页。,统计判别(pnbi)法之一：拉依达准则,如果实验数据的总体x是服从正态分布的，则,根据上式对于大于+3或小于-3的实验数据作为异常数据，予以剔除。,剔除后，对余下的各测量值重新计算偏差和标准偏差，并继续审查，直到(zhdo)各个偏差均小于3为止。,无需查表，使用简便,第十一页，共45页。,对某一长度L测量(cling)10次，其数据如下：,试用拉依达准则(zhnz)剔除坏值。,解：,20.33不能用拉依达准则(zhnz)剔除,例：,次数,1,2,3,4,5,6,7,8,9,10,L(cm),10.35,10.38,10.3,10.32,10.35,10.33,10.37,10.31,10.34,20.33,第十二页，共45页。,对某一长度L测量(cling)10次，其数据如下：,试用拉依达准则(zhnz)剔除坏值。,解：,20.33用拉依达准则(zhnz)剔除,例：,次数,1,2,3,4,5,6,7,8,9,10,11,L(cm),10.35,10.38,10.3,10.32,10.35,10.33,10.37,10.31,10.34,20.33,10.37,第十三页，共45页。,对于服从正态分布的测量结果，其偏差出现在3附近的概率已经很小，如果测量次数不多，偏差超过3几乎不可能，因而，用拉依达判据剔除(tch)疏失误差时，往往有些疏失误差剔除(tch)不掉。,另外，仅仅根据少量的测量值来计算，这本身就存在不小的误差。,因此拉依达准则不能检验样本量较小的情况。（显著性水平为0.1时，n必须大于10）,第十四页，共45页。,统计判别(pnbi)法之二：肖维勒准则,肖维勒准则(zhnz)又称为等概率原则，以正态分布为前提,假设多次重复测量所得n个测量值中,某个测量值的残余误差|vi|=Zc,则剔除此数据。,实用中Zc3,所以在一定程度上弥补了3准则(zhnz)的不足，另外考虑了测量次数的因素，在一定程度上比拉依达准则(zhnz)更合理。,Zc是一个与测量次数相关的系数，可以查表获取。,肖维勒准则(zhnz)可用于n T，则判断此值中含有(hn yu)粗大误差,应予剔除。,T值与重复测量次数n和置信概率均有关，因此格拉布斯准则是比较好的判定准则。,格拉布斯准则理论较严密，概率意义明确，可用于严格要求的场合,当n=20-100时，判别效果较好。,T值通过查表获得。,第十七页，共45页。,T,0,(,n,),值表,第十八页，共45页。,采用格拉布斯方法判定异常数据的过程(guchng)如下：,1.选定危险率,是一个较小的百分数，例如1%，2.5%，5%，它是采用格拉布斯方法判定异常数据出现误判的几率。,2.计算T值,如果x(n)是可疑数据，则令,第十九页，共45页。,3.根据n及，查表得到T0(n,)值,4.如果T T0(n,),则所怀疑的数据(shj)是异常数据(shj)，应予剔除。如果T0(n,)，则所怀疑的数据(shj)不是异常数据(shj)，不能剔除。,5.余下数据(shj)重复操作至无异常数据(shj),格拉布斯准则可以检验较少的数据(shj),第二十页，共45页。,狄克逊准则(zhnz),亦称Q检验法，狄克逊准则是通过极差比判定和剔除异常数据。,该准则认为(rnwi)异常数据应该是最大数据和最小数据，因此该其基本方法是将数据按大小排队，检验最大数据和最小数据是否异常数据。,第二十一页，共45页。,将实验数据xi按值的大小排成顺序统计(tngj)量,x(1),x(2),x(3),x(n),计算f0值,或,根据狄克逊系数表将f0与f(n,)进行比较,如果f0 f(n,)，说明x(n)离群远，则判定该数据为异常数据，予以剔除。,第二十二页，共45页。,狄克逊系数(xsh)f(n,a)与f0的计算公式,第二十三页，共45页。,t检验(jinyn)准则（罗马诺夫斯基准则）,t检验准则与狄克逊准则相似，也是检验最大实验数据和最小实验数据。首先将实验数据按大小(dxio)排列,x(1),x(2),x(3),x(n),对最小数据和最大数据分别进行检验，如果,或,则x(1)或x(n)是异常数据，应予剔除,式中及分别为不包括x(1)或x(n)的n-1个数据的均值和标准差。,第二十四页，共45页。,t检验(jinyn)中的K(n,),第二十五页，共45页。,应注意的问题：,所有的检验法都是人为主观拟定的，至今无统一的规定。以数据按正态分布为前提的，当偏离正态分布和测量次数少时检验不一定可靠(kko)。,若有多个可疑数据同时超过检验所定置信区间，应逐个剔除，重新计算，再行判别。若有两个相同数据超出范围时，应逐个剔除。,在一组测量数据中，可疑数据应很少。反之，说明系统工作不正常。,为了减少犯错误的概率，可以将3种以上统计检验法结合使用，根据多数方法的判断结果，确定可疑值是否为异常值,第二十六页，共45页。,拉依达准则不能检验样本量较小的情况(qngkung)，格拉布斯准则则可以检验较少的数据。在国际上，常推荐格拉布斯准则和狄克逊准则。,但对于异常数据一定要慎重，不能任意的抛弃和修改。往往通过对异常数据的观察，可以发现引起系统误差的原因，进而改进过程和试验。,第二十七页，共45页。,SPSS实现(shxin),研究者对7例糖尿病患者给某种药物(yow)后，测量其血中胰岛素(/ml,X1)和血糖(mg%,X2),作者采用直线相关分析,结论：血液中胰岛素与血糖两者含量之间无直线相关,患者编号,1,2,3,4,5,6,7,胰岛素（,X1,）,24,17,18,12,15,121,10,血糖（,X2,）,142,170,194,213,214,238,249,第二十八页，共45页。,SPSS实现(shxin),本例为小样本，单击Analyze，后单击Descriptive statistics选择 Explore主对话框中，再单击Plots选项进入 Explore：Plots 对话框：在Boxplots项下点选Dependents Together，在Descriptive项下勾选Stem-and-leaf，其余(qy)各项可以不要勾选和点选；单击Continue返回Explore对话框，单击OK,SPSS 运行、输出结果,第二十九页，共45页。,第三十页，共45页。,Frequency Stem&Leaf,2.00 1.0,3.00 1.78,1.00 2.4,1.00,Extremes,(,=121,),Stem width:10,Each leaf:1 case(s),胰岛素检出离群值,121,叶茎图和箱须图提示(tsh)有极端值（121）,第三十一页，共45页。,缺失(qu sh)数据的处理,第三十二页，共45页。,数据

展开阅读全文

统计学数据预处理PPT资料

最新文档