资源描述
用SPSS作,定序数据分析,定序数,据分析,引例9,好礼来蛋糕店老板研制出一种新型口味的生日蛋糕。为确认市场需求情况,老板专门组织研究人员做了一个试验:随机抽取了6位顾客,请其中3位品尝新型口味蛋糕,请另外3 位品尝传统口味蛋糕。6位顾客被告知,品尝结束后根据自己的感觉按下列标准给蛋糕打分:,打分结果汇总如下:,得分:,60,50,40,30,20,10,感觉:,非常好,相当好,较好,一般,较差,非常差,新型口味蛋糕打分(样本1),30,40,20,传统口味蛋糕打分(样本2),10,60,50,对于定序数据,均值不再是确定位置的合适的统计量。此外,均值比较方法的应用,在小样本的情况下,前提条件是总体服从正态分布,在此问题中,我们对两个打分总体的分布状况一无所知。,威尔科克森秩和检验,符号检验,威尔科克森符号秩和检验,总体1与总体2位置相同,总体1在总体2左侧,传统口味打分总体2,新型口味打分总体1,新口味与传统口味打分总体,问题的实质是:无论打分情况在总体中是何种分布,只要两个总体分布的位置相同,就表明两种口味的蛋糕的受欢迎程度相当;如果新型口味蛋糕打分总体的位置在传统口味的左侧,则表明传统口味蛋糕更受欢迎。,两个总体位置相同,总体1位置在左侧,针对新型口味打分总体与传统口味打分总体的位置比较问题,可以提出检验假设:,样本1,样本2,30,40,20,10,60,50,总体1,总体2,样本1,样本2,30,40,20,10,60,50,新型口味蛋糕与传统口味蛋糕打分结果赋秩,如果两个总体位置相同的原假设成立,那么两个样本的秩和 与 就应当非常接近。与 之间的差距越大就越是拒绝原假设的证据。,任意选定 为检验统计量 ,则较小的 意味着大部分较小的观测值在样本1之中。越小,就越是拒绝原假设的证据。,问题归结为:要确定一个标准,以衡量 “足够小”。这个标准要从秩和 的抽样分布中寻找和确定。,对两个样本中的6个观测值进行排序,最小的记为1,最大的记为6。通常将这种排序的结果称作秩,2,3,4,5,6,1,秩,秩,9,12,秩和,秩和,样本1的秩,秩和,样本2的秩,秩和,1,2,3,1,2,4,1,2,5,1,2,6,1,3,4,1,3,5,1,3,6,1,4,5,1,4,6,1,5,6,2,3,4,2,3,5,2,3,6,2,4,5,2,4,6,2,5,6,3,4,5,3,4,6,3,5,6,4,5,6,6,7,8,9,8,9,10,10,11,12,9,10,11,11,12,13,12,13,14,15,4,5,6,3,5,6,3,4,6,3,4,5,2,5,6,2,4,6,2,4,5,2,3,6,2,3,5,2,3,4,1,5,6,1,4,6,1,4,5,1,3,6,1,3,5,1,3,4,1,2,6,1,2,5,1,2,4,1,2,3,15,14,13,12,13,12,11,11,10,9,12,11,10,10,9,8,9,8,7,6,样本容量为3时,两个样本的所有可能的排序方式,存在20种排序的可能性,每一种排序出现的概率是相等的,即1/20。其中秩和9、10、11、12各出现3次;秩和为8、13各出现2次;秩和为6、7、14、15各出现一次。,T的抽样分布,T,P(T),6,7,8,9,10,11,12,13,14,15,1/20,1/20,2/20,3/20,3/20,3/20,3/20,2/20,1/20,1/20,总计,1,0.05,0.10,0.15,0.00,6,8,9,10,11,7,12,14,15,13,T,P(T),样本容量为3时,T的抽样分布,给定显著性水平=0.05,则有:,,于是可在此抽样分布下确定拒绝域为T6。,因为 ,所以没有理由拒绝原假设。最终结论为,两个总体的位置相同。,两种口味的蛋糕的受欢迎程度相当。,不同样本容量下的检验统计量T的抽样分布是不同的,本例中两个样本容量都是3,这是最简单的一种情况。统计学家已经完成了不同样本容量下的T的抽样分布表计算和编制,供使用时查阅。,3,4,5,6,7,8,9,10,3,4,5,6,7,8,9,10,6,7,7,8,9,9,10,22,15,17,20,22,24,27,29,31,11,12,13,14,15,16,17,18,21,24,27,30,33,36,49,42,16,18,19,20,22,24,25,26,29,32,26,40,43,46,50,54,23,25,26,28,30,32,33,35,37,41,46,50,54,58,63,67,31,33,35,37,39,41,43,46,46,51,56,61,66,71,76,80,39,42,45,47,49,52,54,57,57,62,67,73,79,84,90,95,49,52,55,57,60,63,66,69,68,74,80,87,93,99,105,111,60,63,66,69,73,76,79,83,801,87,94,101,107,114,121,127,威尔科克森秩和检验的临界值(=0.05时的单尾检验;=0.10时的双尾检验),其中 和 的取值使得:,理论上可以得出任何样本容量下的检验统计量的抽样分布,但这一过程过于繁琐。统计学家已经证明,当样本容量大于10时,检验统计量T服从均值为E(T),标准差为 的正态分布:,标准化的检验统计量,某大学经济学院为配合全校经济学课程的教学改革,打算引进一本新版教材。为确认新版教材的优劣,负责教师做了一个试验:随机抽取30名学生,利用假期给其中15名学生研读新版教材,另外15名学生研读传统教材。30名学生被告知,研读教材完成后,根据自己的感受,按照下列标准给教材打分:,5=非常好;4=相当好;3=一般;2=较差;1=非常差。,开学后,30名学生的反馈结果如表所示,。问:在5%的显著性水平下,是否可以认为,新版本教材的学生评价要高于传统教材,。,新版教材(,样本1),传统教材(,样本2),3,5,4,3,2,5,1,4,5,3,3,5,5,5,4,4,1,3,2,4,1,3,4,2,2,2,4,3,4,5,比较两个总体位置。定序数据。样本是相互独立的。适合采用威尔科克森秩和检验。,两个容量为15的样本数据,:两个总体位置相同。,:总体1 在总体2 的右侧,新版教材(样本1),传统教材(样本2),3,5,4,3,2,5,1,4,5,3,3,5,5,5,4,4,1,3,2,4,1,3,4,2,2,2,4,3,4,5,威尔科克森秩和检验计算表,拒绝原假设。结论:,新版本教材的学生评价要高于传统教材,。,如果观测值有相等的情况,应以几个秩的均值赋给每一个观测值。,秩,12,27,19.5,12,6,27,2,19.5,27,12,12,27,27,27,19.5,秩,19.5,2,12,6,19.5,2,12,19.5,6,6,6,19.5,12,19.5,27,276.5,188.5,威尔科克森秩和检验应用条件,1.问题的目标:比较两个总体的位置。,2.数 据 类 型:定序数据或非正态分布的数值型数据。,3.样 本 特 性:独立样本。,4.比较的两个总体除了位置不同外,其它方面的特征没有差异。,某体育用品公司设计出一种新款式的旅游鞋,在一项试验中,研究人员想确定新款式的旅游鞋与旧款式的哪一种穿起来更舒服一些。为此,随机抽选了12位顾客,让他们分别试穿两种旅游鞋,然后,让每位顾客按照下列标准来评价两种旅游鞋的舒服程度:,得 分:,5,4,3,2,1,舒服感觉:,非常舒服,比较舒服,没有感觉,不太舒服,很不舒服,试穿后所得评价结果如下表所示:,新旧两种款式旅游鞋试穿打分结果,试穿顾客,旧款式,新款式,1,2,3,4,5,6,7,8,9,10,11,12,4,2,4,1,2,1,1,2,4,1,3,3,5,3,3,2,4,3,4,5,3,2,4,5,-1,-1,+1,-1,-2,-2,-3,-3,+1,-1,-1,-2,差值,差值符号,-+-+-,匹配样本数据不可进行混合排序,不适合威尔科克森秩和检验。可考虑针对每对匹配的观测值计算其差值。当某一对观测值的差值符号为正时,表明该顾客更为偏好旧款旅游鞋;当某一对观测值的差值符号为负时,表明该顾客更为偏好新款旅游鞋。,将正号在样本容量中所占的比率记作 。,以正号个数做为检验统计量,记作 。,:两种款式旅游鞋舒服程度打分总体位置相同,:两种款式旅游鞋舒服程度打分总体位置不同,问题中的原假设为:,问题中的原假设也可表述为:,原假设为真时,正号个数,的抽样分布为,二项比率,的二项分布。,时正号个数,的抽样分布服从二项分布,正号个数,概率,正号个数,概率,0,1,2,3,4,5,6,0.0002,0.0029,0.0161,0.0537,0.1208,0.1934,0.2256,7,8,9,10,11,12,-,0.1934,0.1208,0.0537,0.0161,0.0029,0.0002,-,12,0.10,0.20,11,10,9,8,7,6,5,4,3,2,1,0,接受域,拒绝域,拒绝域,拒绝准则:。,,落入拒绝域。所以,拒绝两种款式旅游鞋舒服程度打分总体位置相同的愿望设。结论:顾客更为偏好新款旅游鞋,做出这一推断的把握程度为95%。,在一个试验中,研究人员想确定人们认为乘坐两款车中的哪一种更舒服。挑选了25个人分别乘坐在欧洲豪华车和北美中型车的后座,让每个人按照如下方式来评价乘坐的舒适程度:1=非常不舒适;2=不太舒适;3=模棱两可;4=比较舒适;5=非常舒适。得如表数据。,在5%的显著性水平下,能否从这些数据中推断出欧洲豪华型车比北美中型车更舒适?,被调查者,欧洲车型(样本1),北美车型(样本2),1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,1,2,5,3,2,5,1,4,4,2,3,4,2,3,2,4,2,4,5,3,4,3,3,5,2,2,1,4,2,1,3,3,2,2,2,2,3,1,4,1,3,1,3,4,1,2,3,4,2,3,对舒适度的评价,被调查者,欧洲车型,北美车型,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,1,2,5,3,2,5,1,4,4,2,3,4,2,3,2,4,2,4,5,3,4,3,3,5,2,2,1,4,2,1,3,3,2,2,2,2,3,1,4,1,3,1,3,4,1,2,3,4,2,3,配对数据差值符号计算表,5个差值中,18个正值、5个负值、2个零。如果原假设成立,正号与负号都应近似等于样本容量的一半。选择正号个数为检验统计量并记为x。x服从二项分布。若原假设成立,二项比例为p=0.5。由二项分布的性质我们知道:当n足够大时,x近似服从均值为 、标准差为 的正态分布。标准化后可得服从标准正态分布的检验统计量:,问题中:x=18、n=25-2=23、p=0.5,统计量值:,拒绝原假设。结论:人们认为乘坐欧洲l轿车比乘坐北美轿车更舒适。,差值,-1,+1,+1,+1,+1,+2,-2,+2,+2,0,+1,+1,+1,-1,+1,+1,+1,+1,+1,+2,+2,0,-1,+3,-1,-,+,+,+,+,+,-,+,+,0,+,+,+,-,+,+,+,+,+,+,+,0,-,+,-,符号,原假设:两种车型同样舒适。,符号检验应用条件,1.问题的目标:比较两个总体,的位置,。,2.数 据 类 型:定序数据。,3.样 本 特 性:匹配样本。,为研究长跑运动对增强普通高校学生的心功能效果,对某校15名男生进行测试,经过5个月的长跑锻炼后看其晨脉是否减少。锻炼前后的晨脉数据如下表所示。我们想知道长跑锻炼前后学生的晨脉有无显著的差异。,锻炼前,70,76,56,63,63,56,58,60,65,65,75,66,56,59,70,锻炼后,48,54,6
展开阅读全文