SAS软件应用之 t检验

上传人:e****s 文档编号:243653781 上传时间:2024-09-28 格式:PPT 页数:57 大小:330.50KB
返回 下载 相关 举报
SAS软件应用之 t检验_第1页
第1页 / 共57页
SAS软件应用之 t检验_第2页
第2页 / 共57页
SAS软件应用之 t检验_第3页
第3页 / 共57页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第7章 t检验,学习目标,掌握单样本t检验的基础理论及其SAS分析程序;,掌握配对设计资料t检验的基础理论及其SAS分析程序;,掌握两独立样本t检验的基础理论及其SAS分析程序;,熟悉无原始数据t检验的方法。,概述,简而言之,t检验和u检验就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t分布),当x为未知分布时应采用秩和检验。,单样本t检验的基础理论,单样本t检验实际上是推断该样本来自的总体均数与已知的某一总体均数,0,(常为理论值或标准值) 有无差别。其检验统计量按下式计算,例题,根据大量调查得知,健康成年男子脉搏均数为72次/分,某医生在某山区随机抽查健康成年男子25人,其脉搏均数为74.2次/分,标准差为6.5次/分。根据这个资料能否认为某山区健康成年男子的脉搏数与一般健康成年男子的不同?,例题,在医学领域中有一些公认的生理常数如本例提到的健康成人平均脉搏次数72次/分,一般可看作为总体均数。已知在总体均数和总体标准差已知的情况下可以预测样本均数分布情况,现缺总体标准差,则需用样本标准差来估计它,那么样本均数围绕总体均数散布的情况服从t分布(尤其当样本含量n较小时,)。,下面回答本例提出的问题而进行假设检验。按一般步骤:,例题,提出检验假设H,0,与备择假设H,1,:,H,0,:=,0,=72次/分,某山区成年男子的脉搏均数与一般成年男子的相等;,H,1,:,0,=72次/分,即某山区成年男子的脉搏均数与一般成年男子不相等(这是双侧检验,如果事先已肯定山区人的脉搏不可能低于一般人,只检验它是否高于一般人,则应用单侧检验,H,1,为,0,)。,定显著性水准,并查出临界t值。现令=0.05,,本例自由度=n-1=25-1=24、查附表得t0.05,24=2.064。若从观察资料中求出的t值小于此数,我们就接受H,00,而接受H,1,。,例题,计算检验统计量t:,现已知n=25,=74.2次/分,S=6.5次/分,0,=72次/分。按公式(7-1),确定,P,值,作出推断结论:因t0.50,所以检验假设H,0,得以接受,无统计学意义。尚不能认为阿卡波糖胶囊组与拜唐苹胶囊组空腹血糖下降效果不同。,本章小节,介绍了单样本t检验的基础理论,并列举了单样本t检验分析实例means、univariate过程。以MEANS过程实现对单变量分布位置的t检验,只需在PROC MEANS语句后添加t和probt两个选项,SAS即给出样本均数与0比较的t检验值和t分布曲线下该t值对应的双侧尾部面积。UNIVARIATE过程在默认状态下即可给出单变量分布位置的t检验结果。,本章小节,介绍了配对设计资料t检验的基础理论,并列举了配对t检验分析实例means、univariate、ttest过程。,最后,本章介绍了两独立样本t检验的基础理论,并列举了独立样本t检验分析实例ttest过程应用。,本章重点强调了t检验的应用条件(正态分布和方差齐性),大家在采用t检验进行数据分析之前,应首先判断数据是否满足t检验的条件,然后再进行统计分析。,第,8,章 方差分析,学习目标,掌握方差分析基本思想、应用条件以及计算方法;,掌握完全随机设计资料的特征以及,SAS,分析程序;,掌握随机区组设计资料的特征及其,SAS,分析程序;,掌握拉丁方设计资料的特征及其,SAS,分析程序;,掌握析因设计资料的特征及其,SAS,分析程序;,掌握正交试验设计资料的特征及其,SAS,分析程序;,掌握重复测量资料的特征及其,SAS,分析程序;,掌握协方差分析治疗的特征及其,SAS,分析程序;,方差分析概述,t,检验和,u,检验适用于两个样本均数的比较,对于,k,个样本均数的比较,如果仍用,t,检验或,u,检验,犯第一类错误的概率就会增加。,因而,t,检验和,u,检验不适用于多个样本均数的比较。用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析,(analysis of variance,ANOVA),由英国统计学家首先提出,以,F,命名其统计量,故方差分析又称,F,检验。,方差分析概述,下面结合单个处理因素的情况介绍方差分析的基本统计思想。将,N,个受试对象随机分为,k,(,k2,)组,分别接受不同的处理,第,i,组的样本量为,n,i,,第,i,处理组的第,j,个测量值用,X,ij,表示。方差分析的目的就是在,H,0,:,成立的条件下,通过分析各处理组均数 之间差别大小,推断,k,个总体均数间有无差别,从而说明处理因素的效果是否存在。,总离均差平方和及自由度,总变异的离均差平方和为各变量值与总均数差值的平方和,离均差平方和和自由度为,总自由度,=,N,-1,组间离均差平方和、自由度和均方,组间离均差平方和为各组样本均数与总均数差值的平方和,组内离均差平方和、自由度和均方,组内离均差平方和为各处理组内部观察值与其均数差值的平方和之和,数理统计证明,总离均差平方和等于各部分离均差平方和之和,三种变异的关系,总自由度,=,N,-1=,三种变异的关系,可见,完全随机设计的单因素方差分析时,总的离均差平方和(,SS,总,)可分解为组间离均差平方和(,SS,组间,)与组内离均差平方和(,SS,组内,)两部分;相应的总自由度也分解为组间自由度和组内自由度两部分。,方差分析的统计量,方差分析应用,方差分析的应用条件为:各样本须是相互独立的随机样本;各样本来自正态分布总体;各总体方差相等,即方差齐性。,方差分析的用途很广,包括:两个或多个样本均数间的比较;分析两个或多个因素间的交互作用;回归方程的线性假设检验;多元线性回归分析中偏回归系数的假设检验;两样本的方差齐性检验等。,方差分析的基本思想,根据研究目的和设计类型,将总变异中的离均差平方和及其自由度分别分解成相应的若干部分,然后求各相应部分的变异;再用各部分的变异与组内(或误差)变异进行比较,得出统计量,F,值;最后根据,F,值的大小确定,P,值,作出统计推断。,完全随机设计资料的方差分析,单因子方差分析介绍,变异来源,自由度,SS,MS,F,总变异,N-1,组间,g-1,组内,N-g,方差分析的,SAS,程序,方差分析,解决问题的思路是:从所有观测值的总变差中分析出,系统,误差和随机误差,并用数量表示。在一定意义下比较系统误差和随机误差。两者差别不大,说明试验条件的变化,(,因素水平的不同,),对试验结果影响不大;如果两者相差较大,且系统误差大的多,说明系统条件变化引出的误差不可忽视。,方差分析的,SAS,程序,在,SAS,系统中一般利用,PROC ANOVA,过程和,PROC GLM,过程进行方差分析。而,PROC ANOVA,过程一般只能用于平衡数据的方差分析。所谓平衡数据指的是所有效应因子的交叉水平上,样本数相同,否则称为非平衡数据。它比,PROC GLM,过程的运行速度要快,要求的存贮空间也要小一些。,PROC GLM,过程可用于平衡和非平衡数据的各种方差分析、协方差分析以及广义线性模型分析。现对两个过程分别予以介绍。,PROC ANOVA,PROC ANOVA,过程的格式为:,PROC ANOVA ;,CLASS variables ;,MODEL dependents=effects ;,BY variables ;,MEANS effects ;,TEST E=effect ;,REPEATED effects;,PROC ANOVA,CLASS,语句指定分类变量,指定模型中的效应因子变量;,MODEL,定义拟合模型,给出模型中的因变量和效应变量的模型结构,并且通过特定的表达式规定自变量的作用方式;如果没有指定任何自变量,则模型中仅包含常数项,此时检验的内容是应变量的均数是否为零;,MODEL,语句中指定的自变量必须是,CLASS,语句中声明过的分类变量,,ANOVA,过程不允许自变量中有连续型变量(数值变量),而应变量则必须是数值型变量。,BY,语句指定分组变量;,PROC ANOVA,MEANS,语句计算和比较均值,指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值,或几个效应变量交叉水平对应的因变量的均值,并且可以检验比较各个水平对应的均值之间的两两差异;,TEST,语句指定效应平方和和误差项,构建检验,裂区设计数据处理时需要;,REPEATED,语句指定模型中的重复测量因子(,MODEL,语句中存在有相同试验单位的重复测量的独立变量时),已检验相关因子效应,其中的变量名代表重复测量因素(如测量时间等),其后水平数代表重复测量的次数,如果需指定重复测量各次的具体标识,可在其后按顺序列出,并用圆括号括起来。,PROC GLM,PROC GLM,过程的格式为:,PROC GLM ;,CLASS variables ;,MODEL dependents=effects ;,BY variables ;,MEANS effects ;,LSMEANS effects ;,CONTRAST effects ;,ESTIMATE effects ;,TEST E=effect ;,REPEATED effects;,PROC GLM,CLASS,语句指定分类变量,指定模型中的效应因子变量;,MODEL,定义拟合模型,给出模型中的因变量和效应变量的模型结构;,BY,语句指定分组变量;,MEANS,语句计算和比较均值,指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值,或几个效应变量交叉水平对应的因变量的均值,并且可以检验比较各个水平对应的均值之间的两两差异;,PROC GLM,LSMEANS,语句是,GLM,过程步特有的语句,它的功能和,MEANS,语句类似,指令系统输出这个语句中给出的每一个效应变量各个水平对应的因变量的均值,或几个效应变量交叉水平对应的因变量的均值,并且可以检验比较各个水平对应的均值之间的两两差异,但,LSMEANS,语句输出的均值不是算术均值,而是最小二乘均值;,PROC GLM,CONTRAST,语句使你可以用自定义的方式进行假设检验,它必须出现在,MODEL,语句之后,如果用到,MANOVA,语句、,REPEATED,语句、,RANDOM,语句或,TEST,语句,,CONTRAST,语句必须出现在这些语句之前;标记用来标识所进行的检验,用以标识的文字或符号需用单引号括起来;效应表达式用以指定假设检验的因素(组合),这些因素(组合)必须是,MODEL,语句中出现过的;效应表达式后的常数向量用以指定相应因素(组合)各水平的值,在指定各水平的情况下进行相关因素的分析;,PROC GLM,ESTIMATE,语句可实现对线性方程的估计,它也必须出现在,MODEL,语句之后,使用的规则和,CONTRAST,语句基本相同。其中的语句元素的含义和用法也与,CONTRAST,语句相同。,TEST,语句指定效应平方和和误差项,构建检验,裂区设计数据处理时需要;,REPEATED,语句指定模型中的重复测量因子(,MODEL,语句中存在有相同试验单位的重复测量的独立变量时),已检验相关因子效应。,随机区组设计资料的方差分析,随机区组设计是根据“局部控制”和“随机排列”原理进行的,将试验地按肥力程度等性质不同划分为等于重复次数的区组,使区组内环境差异最小而区组间环境允许存在差异,每个区组即为一次完整的重复,区组内各处理都独立地随机排列。这是随机排列设计中最常用、最基本的设计。,随机区组设计资料的方差分析,随机区组设计的优点是:设计简单,容易掌握;富于伸缩性,单因素、复因素以及综合试验等都可应用;能提供无偏的误差估计,在大区域试验中能有效地降低非处理因素等试验条件的单向差异,降低误差;对试验地的地形要求不严,只对每个区组内的非处理因素等试验条件要求尽量一致。因此,不同区组可分散设置在不同地段上。缺点是:这种设计方法不允许处理数太多。因为处理多,区组必然增大,局部控制的效率降低,所以,处理数一般不要超过,20,个,最好在,10,个左右。,随机区组设计资料的方差分析,随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。,随机区组设计资料的方差分析表,变异来源,离均差平方和,SS,自由度,均方差,MS,F,总变异,N,-1,处理间,k,-1,区组间,b,-1,误差,拉丁方设计资料的方差分析,完全随机设计只涉及到一个处理因素。随机区组设计涉及一个处理因素、一个区组因素(或称为配伍因素)。倘若实验研究涉及一个处理因素和两个控制因素,每个因素的类别数或水平数相等,此时可采用拉丁方设计来安排实验,将两个控制因素分别安排在拉丁方设计的行和列上。,拉丁方设计资料的方差分析,将,k,个不同符号排成,k,列,使得每一个符号在每一行、每一列都只出现一次的方阵,叫做,k,k,拉丁方。应用拉丁方设计(,latin square design,)就是将处理从纵横二个方向排列为区组,(,或重复,),,使每个处理在每一列和每一行中出现的次数相等(通常一次),即在行和列两个方向都进行局部控制。所以它是比随机区组多一个方向局部控制的随机排列的设计,因而具有较高的精确性。,拉丁方设计的特点是处理数、重复数、行数、列数都相等。它的每一行和每一列都是一个区组或一次重复,而每一个处理在每一行或每一列都只出现一次,因此,它的处理数、重复数、行数、列数都相等。,析因设计资料的方差分析,前四节介绍的单因素方差分析只涉及一个处理因素,该因素至少有两个水平,只是根据实验对象的属性和控制实验误差的需要,采用的实验设计方法有所不同。如比较注射,4,种不同剂量的雌激素对白鼠子宫体重增加量的影响,处理因素是注射不同剂量的雌激素,有,4,个水平。完全随机设计是将,n,只白鼠随机分,4,组,随机区组设计是将,n,只白鼠按出生体重相近的原则,,4,只一组配成区组后,每个区组内随机分配处理(注射,4,种不同剂量的雌激素)。拉丁方设计则是在随机区组设计基础上增加了一个列区组,如白鼠有甲、乙、丙、丁四个种系(行区组),每个种系的,4,只白鼠按体重大小分,、,、,、,4,个级别(列区组),,A,、,B,、,C,、,D4,个拉丁字母代表处理(不同剂量的雌激素)。,拉丁方设计资料的方差分析,可以看出,完全随机设计、随机区组设计和拉丁方设计的处理因素没有变化,都是比较注射,4,种不同剂量的雌激素的差别,只是改变了设计方法。在同样的实验条件下,通过改进实验设计方法可以大大提高实验效率。如上述实验,白鼠按体重配成区组后再施加处理(随机区组设计),试验的误差均方通常小于完全随机分组设计。,拉丁方设计资料的方差分析,在此之前介绍的各种试验设计方法,严格地说,它们仅适用于只有,1,个试验,(,或处理,),因素的试验问题之中,其他因素都属于区组因数,即与试验因素无交互作用。如果试验所涉及的处理因素的个数,2,,当各因素在试验中所处的地位基本平等,而且因素之间存在,1,级,(,即,2,因素之间,),、,2,级,(,即,3,因素之间,),乃至更复杂的交互作用时,需选用析因设计。本节介绍以析因试验为主要内容的多因素试验的方差分析方法。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 幼儿教育


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!