SPSS软件及统计分析教程(假设检验概念和方法)

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第 6章假设检验,1,假设检验的基本问题,2,一个正态总体参数的检验,3,两个正态总体参数的检验,4,假设检验中的其他问题,假设检验在统计方法中的地位,统计方法,描述统计,推断统计,参数估计,假设检验,学习目标,了解假设检验的基本思想,掌握假设检验的步骤,对实际问题作假设检验,利用置信区间进行假设检验,利用,P,-,值进行假设检验,6.1,假设检验的基本问题,假设问题的提出,假设的表达式,两类错误,假设检验中的值,假设检验的另一种方法,单侧检验,让我们先看一个例子.,基本概念,生产流水线上罐装可乐不断地封装，然后装箱外运. 怎么知道,这批罐装可乐的容量是否合格,呢？,罐装可乐的容量按标准应为,355毫升.,基本概念,每隔一定时间，抽查若干罐 .,如每隔1小时，抽查5罐，得5个容量的值,X,1,，,X,5,，根据这些值来判断生产是否正常.,通常的办法是进行抽样检查.,基本概念,根据样本的信息检验关于总体的某个命题是否正确.,这类问题称作,假设检验,问题 .,基本概念,什么是假设?,(,hypothesis,),对总体参数的的数值所作的一种陈述,总体参数包括,总体均值,、,比例,、,方差,等,分析,之前,必需陈述,我认为该地区新生婴儿的平均体重为3190克!,什么是假设检验?,(,hypothesis testing,),事先对总体参数或分布形式作出某种假设，然后利用样本信息来判断原假设是否成立,有参数假设检验和,非,参数假设检验,采用逻辑上的反证法，依据统计上的小概率原理,假设检验的基本思想,. 因此我们拒绝假设,= 50,. 如果这是总体的真实均值,样本均值,m,= 50,抽样分布,H,0,这个值不像我们应该得到的样本均值 .,20,总体,假设检验的过程,抽取随机样本,均值,X,= 20,我认为人口的平均年龄是50岁,提出假设,拒绝假设!,别无选择.,作出决策,假设检验的步骤,提出假设,确定适当的检验统计量,规定显著性水平,计算检验统计量的值,作出统计决策,提出原假设和备择假设,什么是原假设？(null hypothesis),待检验的假设，又称“,0,假设”,研究者想收集证据予以反对的假设,3.,总是有等号,或,4.,表示为,H,0,H,0,：,某一数值,指定为,=,号，即,或,例如, H,0,：,3190,（,克）,为什么叫0假设?,为什么叫 0 假设？,之所以用零来修饰原假设，其原因是原假设的内容总是没有差异或没有改变，或变量间没有关系等等,零假设总是一个与总体参数有关的问题，所以总是用希腊字母表示。关于样本统计量如样本均值或样本均值之差的零假设是没有意义的，因为样本统计量是已知的，当然能说出它们等于几或是否相等,什么是备择假设？(alternative hypothesis),与原假设对立的假设，也称“研究假设”,研究,者想收集证据予以支持的假设,总是有不等号,:,或,表示为,H,1,H,1,：,某一数值，或,某一数值,例如, H,1,：,不拒绝,H,0,若,p-,值,/2,不拒绝,H,0,若,p-,值,/2,拒绝,H,0,双侧检验与单侧检验,(假设的形式),假设,研究的问题,双侧检验,左侧检验,右侧检验,H,0,m,=,m,0,m,m,0,m,m,0,H,1,m,m,0,m,m,0,双侧检验,(原假设与备择假设的确定),属于,决策中的假设检验,不论是拒绝,H,0,还是不拒绝,H,0,，,都必需采取相应的行动措施,例如，某种零件的尺寸，要求其平均长度为,10cm,，,大于或小于,10cm,均属于不合格,我们想要证明,(,检验,),大于或小于这两种可能性中的任何一种是否成立,建立的原假设与备择假设应为,H,0,:,=,10 H,1,:,10,双侧检验,(显著性水平与拒绝域 ),抽样分布,H,0,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,1 -,置信水平,双侧检验,(显著性水平与拒绝域),H,0,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,抽样分布,1 -,置信水平,双侧检验,(显著性水平与拒绝域),H,0,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,抽样分布,1 -,置信水平,双侧检验,(显著性水平与拒绝域),H,0,值,临界值,临界值,a,/2,a,/2,样本统计量,拒绝域,拒绝域,抽样分布,1 -,置信水平,单侧检验,(原假设与备择假设的确定),将研究者想收集证据予以支持的假设作为备择假设,H,1,例如,一个研究者总是想证明自己的研究结论是正确的,一个销售商总是想正确供货商的说法是不正确的,备择假设的方向与想要证明其正确性的方向一致,将研究者想收集证据证明其不正确的假设作为原假设,H,0,先确立备择假设,H,1,单侧检验,(原假设与备择假设的确定),一项研究表明，采用新技术生产后，将会使产品的使用寿命明显延长到,1500,小时以上。检验这一结论是否成立,研究者总是想证明自己的研究结论,(,寿命延长,),是正确的,备择假设的方向为“,”(,寿命延长,),建立的原假设与备择假设应为,H,0,:,1500 H,1,:,1500,单侧检验,(原假设与备择假设的确定),一项研究表明，改进生产工艺后，会使产品的废品率降低到,2%,以下。检验这一结论是否成立,研究者总是想证明自己的研究结论,(,废品率降低,),是正确的,备择假设的方向为“,”(,废品率降低,),建立的原假设与备择假设应为,H,0,:,2% H,1,:,2%,单侧检验,(原假设与备择假设的确定),某灯泡制造商声称，该企业所生产的灯泡的平均使用寿命在,1000,小时以上。如果你准备进一批货，怎样进行检验,检验权在销售商一方,作为销售商，你总是想收集证据证明生产商的说法,(,寿命在,1000,小时以上,),是不是正确的,备择假设的方向为“,”(,寿命不足,1000,小时,),建立的原假设与备择假设应为,H,0,:,1000 H,1,:, 1020,n,=,16,临界值(s):,检验统计量:,在,的水平上拒绝H,0,有证据表明这批灯泡的使用寿命有显著提高,决策:,结论:,Z,0,拒绝域,0.05,1.645,2,未知大样本均值的检验,(例题分析),【例】,某电子元件批量生产的质量标准为平均使用寿命,1200,小时。某厂宣称他们采用一种新工艺生产的元件质量大大超过规定标准。为了进行验证，随机抽取了,100,件作为样本，测得平均使用寿命,1245,小时，标准差,300,小时。能否说该厂生产的电子元件质量显著地高于规定标准？ (,0.05),单侧检验,2,未知大样本均值的检验,(例题分析),H,0,:,1200,H,1,:,1200,=,n,=,100,临界值(s):,检验统计量:,在,的水平上不拒绝H,0,不能认为该厂生产的元件寿命显著地高于1200小时,决策:,结论:,Z,0,拒绝域,0.05,1.645,总体均值的检验,(,2,未知小样本),1.假定条件,总体为正态分布,2,未知，且小样本,2.使用,t,统计量,2,未知小样本均值的检验,(例题分析),【例】,某机器制造出的肥皂厚度为,5cm,，今欲了解机器性能是否良好，随机抽取,10,块肥皂为样本，测得平均厚度为，标准差为，试以的显著性水平检验机器性能良好的假设。,双侧检验,2,未知小样本均值的检验,(例题分析),H,0,:,= 5,H,1,:,5,df = 10 - 1 = 9,临界值(s):,检验统计量:,在,的水平上拒绝H,0,说明该机器的性能不好,决策：,结论：,t,0,2.262,-2.262,.,025,拒绝 H,0,拒绝 H,0,.,025,2,未知小样本均值的检验,(,P,值的计算与应用),第1步：进入,Excel,表格界面，选择“插入”下拉菜单,第,2,步：选择“函数”点击,，并,在函数分类中点击“统,计” ，然后，在函数名的菜单中选择字符,“,TDIST,”，确定,第,3,步：在弹出的,X,栏中录入计算出的,t,值,3.16,在自由度(,Deg-freedom,)栏中录入,9,在,Tails,栏中录入,2,，表明是双侧检验(单测,检验则在该栏内录入,1,),P,值的结果为,，,拒绝H,0,2,未知小样本均值的检验,(例题分析),【例】,一个汽车轮胎制造商声称，某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里，对一个由20个轮胎组成的随机样本作了试验，测得平均值为41000公里，标准差为5000公里。已知轮胎寿命的公里数服从正态分布，我们能否根据这些数据作出结论，该制造商的产品同他所说的标准相符？(,= 0.05),单侧检验！,均值的单尾 t 检验,(计算结果),H,0,:,40000,H,1,:, 40000,df =,20 - 1 = 19,临界值(s):,检验统计量:,在,的水平上不拒绝H,0,不能认为制造商的产品同他所说的标准不相符,决策:,结论:,-1.7291,t,0,拒绝域,.05,总体比例的检验,(,Z,检验),适用的数据类型,离散数据,连续数据,数值型数据,数据,品质数据,一个总体比例检验,假定条件,有两类结果,总体服从二项分布,可用正态分布来近似,比例检验的,Z,统计量,0,为假设的总体比例,一个总体比例的检验,(例题分析),【例】,一项统计结果声称，某市老年人口（年龄在,65,岁以上）的比重为,14.7%,，该市老年人口研究会为了检验该项统计是否可靠，随机抽选了,400,名居民，发现其中有,57,人年龄在,65,岁以上。调查结果是否支持该市老年人口比重为,14.7%,的看法？(,= ),双侧检验,一个总体比例的检验,(例题分析),H,0,:,= 14.7%,H,1,:,14.7%,n,=,400,临界值(s):,检验统计量:,在,的水平上不拒绝H,0,该市老年人口比重为,14.7%,决策:,结论:,Z,0,1.96,-1.96,.025,拒绝 H,0,拒绝 H,0,.025,方差的卡方 (,2,) 检验,检验一个总体的方差或标准差,假设总体近似服从正态分布,检验统计量,样本方差,假设的总体方差,方差的卡方 (,2,) 检验,(例题分析),【例】,某厂商生产出一种新型的饮料装瓶机器，按设计要求，该机器装一瓶一升(,1000cm,3,)的饮料误差上下不超过,1cm,3,。如果达到设计要求，表明机器的稳定性非常好。现从该机器装完的产品中随机抽取,25,瓶，分别进行测定(用样本减,1000cm,3,)，得到如下结果。检验该机器的性能是否达到设计要求 (,),0.3,-0.4,-0.7,1.4,-0.6,-0.3,-1.5,0.6,-0.9,1.3,-1.3,0.7,1,-0.5,0,-0.6,0.7,-1.5,-0.2,-1.9,-0.5,1,-0.2,-0.6,1.1,双侧检验,方差的卡方 (,2,) 检验,(例题分析),H,0,:,2,= 1,H,1,:,2,1,df =,25 - 1 = 24,临界值(s):,统计量:,在,的水平上不拒绝H,0,不能认为该机器的性能未达到设计要求,2,0,39.36,12.40,/2 =.05,决策:,结论:,6.3,两个正态总体参数的检验,检验统计量的确定,两个总体均值之差的检验,两个总体比例之差的检验,两个总体方差比的检验,检验中的匹配样本,两个正态总体参数的检验,两个总体的检验,Z,检验,(大样本),t,检验,(小样本),t,检验,(小样本),Z,检验,F,检验,独立样本,配对样本,均值,比例,方差,独立样本总体均值之差的检验,两个独立样本之差的抽样分布,m,1,s,1,总体1,s,2,m,2,总体2,抽取简单随机样样本容量 n,1,计算X,1,抽取简单随机样样本容量 n,2,计算X,2,计算每一对样本,的X,1,-X,2,所有可能样本,的X,1,-X,2,m,1-,m,2,抽样分布,两个总体均值之差的检验,(,1,2,、,2,2,已知),1.假定条件,两个样本是独立的随机样本,两个,总体都是正态分布,若不是正态分布, 可以用正态分布来近似(,n,1,30和,n,2,30),检验统计量为,两个总体均值之差的检验,(假设的形式),假设,研究的问题,没有差异,有差异,均值,1,均值,2,均值,1,均值,2,H,0,1,2,= 0,1,2,0,1,2,0,H,1,1,2,0,1,2, 0,两个总体均值之差的检验,(例题分析),双侧检验！,【例】,有两种方法可用于制造某种以抗拉强度为重要特征的产品。根据以往的资料得知，第一种方法生产出的产品其抗拉强度的标准差为,8,公斤，第二种方法的标准差为,10,公斤。从两种方法生产的产品中各抽取一个随机样本，样本容量分别为,n,1,=32,，,n,2,=40,，测得,x,2,=,50,公斤，,x,1,=,44,公斤。问这两种方法生产的产品平均抗拉强度是否有显著差别？,(,= 0.05),两个总体均值之差的检验,(例题分析),H,0,:,1,-,2,= 0,H,1,:,1,-,2,0,n,1,= 32，,n,2,=,40,临界值(s):,检验统计量:,决策:,结论:,在,的水平上拒绝H,0,有证据表明两种方法生产的产品其抗拉强度有显著差异,Z,0,1.96,-1.96,.025,拒绝 H,0,拒绝 H,0,.025,两个总体均值之差的检验,(,1,2,、,2,2,未知且不相等,小样本),检验具有不等方差的两个总体的均值,假定条件,两个样本是独立的随机样本,两个,总体都是正态分布,两个总体方差未知且不相等,1,2,2,2,检验统计量,其中：,两个总体均值之差的检验,(,1,2,、,2,2,未知但相等,小样本),检验具有等方差的两个总体的均值,假定条件,两个样本是独立的随机样本,两个,总体都是正态分布,两个总体方差未知但相等,1,2,= ,2,2,检验统计量,两个总体均值之差的检验,(例题分析),单侧检验,【例】 “多吃谷物，将有助于减肥。”为了验证这个假设，随机抽取了,35,人，询问他们早餐和午餐的通常食谱，根据他们的食谱，将其分为二类，一类为经常的谷类食用者(总体,1,)，一类为非经常谷类食用者(总体,2,)。然后测度每人午餐的大卡摄取量。经过一段时间的实验，得到如下结果：检验该假设 (,= 0.05),两个总体均值之差的检验,(例题分析用统计量进行检验),H,0,:,1,-,2,0,H,1,:,1,-,2, 0,=,n,1,= 15，,n,2,=,20,临界值(s):,检验统计量:,决策:,结论:,在,的水平上拒绝H,0,没有证据表明多吃谷物将有助于减肥,-1.694,t,0,拒绝域,.05,两个总体均值之差的检验,(例题分析用R进行检验),第1步：选择“工具”下拉菜单,，并,选择“数据分析”选项,第2步：选择“,t,检验，双样本异方差假设,”,第,3,步：当出现对话框后,在“变量,1,的区域”方框内键入,数据区域,在“变量,2,的区域”方框内键入,数据区域,在“假设平均差”的方框内键入,0,在“”框内键入,在“输出选项”中选择输出区域,选择确定,用R进行检验,两个总体均值之差的检验,(匹配样本的,t,检验),1.检验两个总体的均值,配对或匹配,重复测量 (前/后),2.假定条件,两个总体都服从正态分布,如果不服从正态分布，可用正态分布来近似 (,n,1,30 ,n,2,30 ),匹配样本的,t,检验,(假设的形式),假设,研究的问题,没有差异,有差异,总体,1,总体,2,总体,1,总体,2,H,0,m,D,= 0,m,D,0,m,D,0,H,1,m,D,0,m,D, 0,注：,D,i,=,X,1,i,-,X,2,i,，对第,i,对观察值,匹配样本的,t,检验,(数据形式),观察序号,样本1,样本2,差值,1,x,11,x,21,D,1,=,x,11,-,x,21,2,x,12,x,22,D,1,=,x,12,-,x,22,M,M,M,M,i,x,1i,x,2i,D,1,=,x,1i,-,x,2i,M,M,M,M,n,x,1n,x,2n,D,1,=,x,1n,-,x,2n,匹配样本的,t,检验,(检验统计量),样本差值均值,样本差值标准差,自由度,df,n,D,- 1,统计量,D,0,：假设的差值,【例】,一个以减肥为主要目标的健美俱乐部声称，参加其训练班至少可以使减肥者平均体重减重kg以上。为了验证该宣称是否可信，调查人员随机抽取了,10,名参加者，得到他们的体重记录如下表：,匹配样本的,t,检验,(例题分析),在,的显著性水平下，调查结果是否支持该俱乐部的声称？,训练前,94.5,101,110,103.5,97,88.5,96.5,101,104,116.5,训练后,85,89.5,101.5,96,86,80.5,87,93.5,93,102,单侧检验,样本差值计算表,训练前,训练后,差值,D,i,94.5,101,110,103.5,97,88.5,96.5,101,104,116.5,85,89.5,101.5,96,86,80.5,87,93.5,93,102,9.5,11.5,8.5,7.5,11,8,9.5,7.5,11,14.5,合计,98.5,配对样本的,t,检验,(例题分析),配对样本的,t,检验,(例题分析),差值均值,差值标准差,H,0,:,m,1,m,2,H,1,:,m,1,m,2,a,df =,10 - 1 = 9,临界值(s):,检验统计量:,决策:,结论:,在,的水平上不拒绝H,0,不能认为该俱乐部的宣称不可信,配对样本的,t,检验,(例题分析),-1.833,t,0,拒绝域,.05,配对样本的,t,检验,(例题分析用R进行检验),第,1,步：,选择“工具”,第,2,步：,选择“数据分析”选项,第,3,步：,在分析工具中选择“,t,检验：平均值的成对二样本分析”,第,4,步：,当出现对话框后,在“变量,1,的区域”方框内键入,数据区域,在“变量,2,的区域”方框内键入,数据区域,在“假设平均差”方框内键入,显著性水平保持默认值,用R进行检验,两个总体比例之差的检验,1.假定条件,两个总体是独立的,两个,总体都服从二项分布,可以用正态分布来近似,检验统计量,两个总体比例之差的Z检验,两个总体比例之差的检验,(假设的形式),假设,研究的问题,没有差异,有差异,比例,1,比例,2,比例,1,比例,2,H,0,P,1,P,2,= 0,P,1,P,2,0,P,1,P,2,0,H,1,P,1,P,2,0,P,1,P,2,0,两个总体比例之差的Z检验,(例题分析),单侧检验,【例】,对两个大型企业青年工人参加技术培训的情况进行调查，调查结果如下：甲厂：调查,60,人，,18,人参加技术培训。乙厂调查,40,人，,14,人参加技术培训。能否根据以上调查结果认为乙厂工人参加技术培训的人数比例高于甲厂？(,),两个总体比例之差的Z检验,(例题分析),H,0,:,1,-,2,0,H,1,:,1,-,2, 0,=,n,1,= 60，,n,2,=,40,临界值(s):,检验统计量:,决策:,结论:,在,的水平上不拒绝H,0,没有证据表明乙厂工人参加技术培训的人数比例高于甲厂,-1.645,Z,0,拒绝域,两个总体方差比的检验,(,F,检验),假定条件,两个总体都服从正态分布，且方差相等,两个独立的随机样本,假定形式,H,0,：,s,1,2,=,s,2,2,或,H,0,：,s,1,2,s,2,2,(,或,),H,1,：,s,1,2,s,2,2,H,1,：,s,1,2,),检验统计量,F,=,S,1,2,/,S,2,2,F,(,n,1, 1 ,n,2, 1),两个总体方差的,F,检验,(临界值),0,不能拒绝H,0,F,拒绝H,0,a,/2,a,/2,拒绝 H,0,两个总体方差的,F,检验,(例题分析),H,0,:,1,2,=,2,2,H,1,:,1,2,2,2,n,1,= 15，,n,2,= 20,临界值(s):,检验统计量:,决策:,结论:,在,的水平上不拒绝H,0,不能认为这两个总体的方差有显著差异,0,F,F,0.0975,=0.352,.025,拒绝 H,0,拒绝 H,0,.025,F,0.025,=2.62,6.4,假设检验中的其他问题,用置信区间进行检验,单侧检验中假设的建立,用置信区间进行检验,(双侧检验),求出双侧检验均值的置信区间,2,已知时：,2,未知时：,若总体的假设值,0,在置信区间外，拒绝,H,0,用置信区间进行检验,(单侧检验),左侧检验：求出单边置信下限,若总体的假设值,0,小于单边置信下限，拒绝,H,0,右侧检验：求出单边置信上限,若总体的假设值,0,大于单边置信上限，拒绝,H,0,用置信区间进行检验,(例题分析),【例】,一种袋装食品每包的标准重量应为,1000,克。现从生产的一批产品中随机抽取,16,袋，测得其平均重量为,991,克。已知这种产品重量服从标准差为,50,克的正态分布。试确定这批产品的包装重量是否合格？(,),双侧检验！,用置信区间进行检验,(例题分析),H,0,:,=,1000,H,1,:,1000,=,n,= 49,临界值(s):,置信区间为,决策:,结论:,假设的,0,=1000在置信区间内，不拒绝H,0,不能认为这批产品的包装重量不合格,Z,0,1.96,-1.96,.025,拒绝 H,0,拒绝 H,0,.025,本章小节,1.假设检验的概念和类型,2.假设检验的过程,基于一个样本的假设检验问题,4.,基于两个样本的假设检验问题,5.,用置信区间进行检验,6.,利用,p,-,值进行检验,

展开阅读全文

SPSS软件及统计分析教程(假设检验概念和方法)

最新文档