非参数统计讲义二单样本模型通用课件

上传人:嘀**** 文档编号:253080308 上传时间:2024-11-28 格式:PPT 页数:116 大小:1.84MB
返回 下载 相关 举报
非参数统计讲义二单样本模型通用课件_第1页
第1页 / 共116页
非参数统计讲义二单样本模型通用课件_第2页
第2页 / 共116页
非参数统计讲义二单样本模型通用课件_第3页
第3页 / 共116页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,非参数统计,第二章,单样本模型,符号检验法,符号秩检验,随机游程检验,卡方拟合检验,主要内容,符号检验的现实背 景,现实中很多问题可以化成投掷硬币模型分析,正面(头象,heads,)为正,反面(币值,tails,)为负。,例如:用于确定人们驾车是否超限速,抽样车超速用“正号”;不超速用“负号”。,例如:比较两个品牌产品,顾客只需求说出或标出所偏好的品牌用“正号”,否则为“负号”。,符号检验法,Sign test,符号检验是一种在只能得到定类数据时确认两个总体间差异的非参数统计方法。,1,、以对定类数据的分析为基础,,2,、用于判断两总体间的差异。,检验假设:,如果根据样本得到的正负号数有很大差异 ,就有理由拒绝,H0,,认为两个样本的数据有显著差异。,在小样本的情况下,,n,个样本出现,K,个“,+”,的概率服从二项分布。,(,1,)在双侧检验中,假设为,无论出现过多的“,+”,或过少的“,-”,号都 能导致拒绝,H0,。,EXCEL,中用,binomdist(k,n,p,1),求累计概率,(,2,)在单侧检验中,假设为,则出现过少的“,+”,号将 能导致拒绝,H0,。,K,这“,+”,的数目。,(,3,)在单侧检验中,假设为,则出现过少的“,-”,号将能导致拒绝,H0,。些时检验统计量,K,为“,-”,号的数目。,例:两种品牌桔汁,让,12,个人品尝未加标签的样本,在品尝后说出在两个品牌中偏好那一个品牌。研究目的是确定两种品牌中消费者是否偏好某一个。,假设,H0:P,1/2, H1:P1/2,若无法拒绝,H0,,则没有证据表明两种品牌桔汁的偏好有明显差异。,若拒绝,H0,,则认为消费者对两种品牌存在差异。,如何用符号检验的小样本形式来检验假设。,为了记录参与这项研究的确切个人的偏好数据,若用加号表示偏好,A,品牌,用减号表示偏好,B,品牌。,大多数消费者选出的品牌是认为最受欢迎的。,由于数据用加,减号记录所以称符号检验,个人号,符号,1,-,-1,2,-,-1,3,-,-1,4,-,-1,5,-,-1,6,-,-1,7,-,-1,8,+,1,9,+,1,10,-,-1,11,-,-1,12,-,-1,正号的个数为,2,,,概率小于,0.05,。,说明顾客偏好存在差异,,B,比,A,好,(要除去相等(相同)的样本。),概率,加号个数,BINOMDIST(B3,12,0.5,0),0,0.000244,1,0.00293,2,0.016113,3,0.053711,4,0.12085,5,0.193359,6,0.225586,7,0.193359,8,0.12085,9,0.053711,10,0.016113,11,0.00293,12,0.000244,显著性水平,0.05,,加号个数大于,10,的概率(等于小于,2,的概率),0.003418,,小于,0.05,, 认为有显著差异。,Data exa1;,Input x ;,Datalines;,-1 -1 -1 -1,-1 -1 -1 1,1 -1 -1 -1,;,proc univariate data=exa1;,var x;,run;,UNIVARIATE,过程,变量,: x,矩,N 12,权重总和,12,均值,-0.6666667,观测总和,-8,标准偏差,0.77849894,方差,0.60606061,偏度,2.05523721,峰度,2.64,未校平方和,12,校正平方和,6.66666667,变异系数,-116.77484,标准误差均值,0.22473329,基本统计测度,位置 变异性,均值,-0.66667,标准偏差,0.77850,中位数,-1.00000,方差,0.60606,众数,-1.00000,极差,2.00000,四分位极差,0,位置检验,: Mu0=0,检验,-,统计量,- -P,值,-,学生,t t -2.96648 Pr |t| 0.0128,符号,M -4 Pr = |M| 0.0386,符号秩,S -26 Pr = |S| 0.0386,In a sample of 100 butteries, we found 35 males and 65 females. Can we conclude that,there are, in general, more males than females?,The number of female butteries in a samples if 100 animals follows a binimial distribution,B(100,p) and we want to test the null hypothesis H0: “p=0.5” against the alternative,hypothesis H1: “p dierent from 0.5”.,binom.test(35, 100, .5),R,软件计算二项分布,R,语言程序,n,次试验,成功小于等于,y,次,,p=0.5,pbinom(y,n,.5,),x1=c(-1, -1, -1, -1,-1, -1, -1 , 1,1 ,-1 ,-1, -1),n=length(x1);m=sum(x1.005),pbinom(m,n,.5),summary(x),binom.test(m, n, .5),正态近似,R,程序,N=100,p=0.5,k=45,正态参数,U=0.5*100=50,D=0.5*0.5*100=25,y=1-pnorm(45,50,25),y,在比较两个有联系的样本的差异时,如果样本数据的计量水平至少为顺序水平时,可以用符号检验。,设两个有联系的样本,(X1,X2,Xn),与,(Y1,Y2,Yn),,它们的计量水平为顺序水平,因而我们能比较出每一对,Xi,与,Yi,的大小,如果,XiYi,则记作“,+”,;如果,Xi x1) .,EXECUTE .,X1,X2,4,1,3.2,1,3.8,1,1.8,1,3,1,5.3,1,5.7,1,3,1,2.7,1,2.8,1,1.8,1,2.6,1,3.1,2,3,2,3.5,2,1,2,1.8,2,3.9,2,2.2,2,2.1,2,1.4,2,2.6,2,1.4,2,2.7,2,用,T,检验分析;,w=read.table(D:/r1.txt,header=T),w,x-w1:12,1,y20(n25),,可以对二项分布用正态分布近似计算,在计算,K,值时,当,Kn/2,时取,K-0.5,。,期望,np=0.5n;,方差,=np(1-p)=0.5*0.5*n,EXCEL,函数,NORMSDIST(Z),得到概率,二项分布,SAS,程序,二项分布,R,程序,解:男女比例应该差不多,H0,:,P=0.5,H10.5,n=40,p=0.5,u=np=20,d=0.5*0.5*40,10,正态近似计算。,data,tj0;,x=probbnml(,0.5,40,12,);,put x= x;,run,;,binom.test(12, 40, .5),例:有一种提高学生某种素质的训练,有人说它是无效的,有人说它是有效的,那么真实情况究竟应该是怎样的呢?随机地选取,15,名学生作为试验样本,在训练开始前做了一次测验,每个学生的素质按,优、良、中、及、差,打分,经过三个月训练后,再做一次测试对每个学生打分。数据见下表所示。我们将素质提高用正号表示,反之用负号表示,没有变化用,0,表示。显著性水平取,0.05,。,学生编号,训练之前,训练之后,差异符号,1,中,优,2,及,良,3,良,中,4,差,中,5,良,良,0,6,中,优,7,差,及,8,良,优,9,中,差,10,差,中,11,中,优,12,及,良,13,中,及,14,中,优,15,差,中,假设检验为:,即,H0:p0.5,训练之后学生素质有提高。,从表,1,中,15,名学生训练前后的差异分析可得出:有,14,名学生有差异,其中,S+=11,,,S-=3,。,1,名学生无差异(学生编号为,5,),应该从分析中去掉,所以,n=15,1=14,。,由于试验的结果只有两种可能,正号或负号,对每一个学生试验出现正号的假定概率为,p=0.5,,负号为,1-p=0.5,,这样整个试验的概率是相同的,并且每一个试验是相互独立的。,因此在,n=14,次独立的试验中,正号出现的次数服从二项分布,B(14,0.5),,,正号出现的次数,正号出现的概率,累计概率,0,0.0001,0.0001,1,0.0009,0.0009,2,0.0056,0.0065,3,0.0222,0.0287,4,0.0611,0.0898,5,0.1222,0.2120,6,0.1833,0.3953,7,0.2095,0.6047,8,0.1833,0.7880,9,0.1222,0.9102,10,0.0611,0.9713,11,0.0222,0.9935,12,0.0056,0.9991,13,0.0009,0.9999,14,0.0001,1.0000,从表中的累计概率列中我们看到,正号出现的次数大于,10,的概率为,1,0.9713=,0.0287,,或者换一种方法计算为,0.0001+0.0009+0.0056+0.0222=,0.0287,,二者的微小差异是因为小数点后舍入问题造成的。,而试验的结果:正号出现的次数为,11,,大于,10,,出现的概率不会超过,0.0287,,我们开始设定的显著性水平为,0.05,,由于,0.028740000=0.5,H1: Pme40000 0.5,SPSS,计算,大于,40000,的人数,11,人,拒绝原假设,有显著差异,例:假设房价中位数为,130000,元,调查,62,所住宅的样本房价,有,34,所高于,130000,有,26,所低于,130000,有两所恰好等于,130000,元。,解:,H0,:,ME=130000, h1:ME130000,N=62-2=60,均值,U=0.5*N=0.5*60=30,标准差,SS,(,0.25*60,),3.87,X=s=34,Z=(x-u)/ss=(34-30)/3.87,SAS,计算检验,P,值,p=0.8493364667,大于,0.05,说明不能拒绝零假设。,例:某汽车质量要求从加速到,100,公里的秒数不超过,8,秒,随机抽样,10,部车,,结果如下表,产品质量是否合格?,1,8.5,2,9.4,3,7.8,4,7.4,5,7.7,6,9.9,7,7.9,8,9.1,9,8.7,10,8.6,检验数据正态性;用,T,检验和符号检验两种检验,比较结果,数据基本呈正态性,在,10%,显著性水平下拒绝,H0,,,4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,6720,习题:在某保险公司的某保险各类中,一次关于,1998,年的索赔额(单位:元)的随机抽样结果如下表:已知,1997,年中位数为,5064,元,是否有变化?,x-c(4632,4728,5052,5064,5484,6972,7596,9480,14760,15012,18720,21240,22836,52788,6720),n=length(x),n,me=median(x),me1=5064,m=sum(x x ks.test( rnorm(5.6,1.2), x ),Two-sample Kolmogorov-Smirnov test,data: rnorm(5.6, 1.2) and x,D = 1, p-value = 0.001720,alternative hypothesis: two-sided,Warning message:,In ks.test(rnorm(5.6, 1.2), x) :,在有连结的情况下无法正确計算,p,值,对称中心是原点的检验,称号检验只用到了符号是正与负,没有用到样本数值的大小的信息。,需要进行改进,引入了威尔科克斯(,WILCOXON,)符号秩和检验。,用到了样本数值的大小的信息。,Wilcoxon,秩和检验,如果两个样本相关,则不能用,U,检验,处理相关数据的检验方法是,Wilcoxon,配对符号秩检验(,Wilcoxon matched-pairs signed rank test),由,Frank Wilcoxon,于,1945,年提出,应用于一组数据与另一组数据相关的情况下。,例:同一组人在不同条件下进行的测量研究。,例:对双胞胎的研究,Wilcoxon,符号秩检验,基本概念及性质,对称分布的中心一定是中位数,在对称分布情况下,中位数不唯一,研究对称中心比中位数更有意义。,例:下面的数据中,,O,是对称中心吗?,0,符号检验时,,P,0.5,,符号数各占一半,但数据值不对称,假设数据为不,0,对样本数据取绝对值,设对称中心,为原点。如果数据对称,则均值与中位数相等。符号秩和应该相差不大,,X,sign(x),abs(x),rank(abs(x),sign(x)*rank(abs(x),符号秩和,-5,-1.00,5,7,-7,-4,-1.00,4,5,-5,-3,-1.00,3,3,-3,-18,-2,-1.00,2,2,-2,-1,-1.00,1,1,-1,3,1.00,3,3,3,4,1.00,4,5,5,5,1.00,5,7,7,34,8,1.00,8,9,9,9,1.00,9,10,10,用符号检验结果,出现的比例,P=0.5,WILCOXON,检验,W=min(18,34)=18W(0.05)=11,不能拒绝,H0,,可以认为基本对称,Wilcoxon Rank Sum and Signed Rank Tests,x50,时近似正态分布,Wilcoxon,符号秩统计量分布,在小样本情况下可以计算,Wilcoxon,符号秩统计量的精确分布。,在大样本情况下可以使用正态近似:,计算出,Z,值以后,查正态分布表对应的,p-,值,如果,p-,值很小,则拒绝零假设。,在小样本情况下,用连续性修正公式:,例:,亚洲十国新生儿死亡率(单位:千分之一),33 36 31 15 9 6 4 65 77 88,中位数是,34,,检验是否对称?,Wilcoxon,符号秩检验导出,Hodges-Lemmann,估计性质及运用,定义,:简单随机样本 ,计算其中任意两个数的平均,称为,Walsh,平均,即,定理,:,Wilcoxon,符号秩统计量 可表示为:,定义,:假设 独立同分布于 , 当,F,对称时,定义,Walsh,平均中位数:,作为 的,Hodges-Lemmann,估计。,正态计分检验,检验原理以及计算,:,基本思想是把升幂排列的秩 用对应的正态分位,点替代,为了保证秩为正的,用变化的式子:,其中 就是第 个数据的正态记分。,计算步骤,对假设检验问题: 对单边或者双边。,1.,将的 秩按升幂排列, 并加上 对应的 符号,也就是构造符号秩,.,2,.,用正态记分代替符号秩:,记 ,构造统计量:,3. T,有近似的正态分布,当,T,大的时候,考虑拒绝零假设。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!