资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物统计学总复习,2015-06-29,生物统计学总复习2015-06-29,1,一、什么是统计学,Statistics,?,统计学是收集、分析、表述和解释统计数据的科学。统计学是关于数据的科学。,资料的,收集,就是取得统计数据。,数据整理,是将数据分组、归纳和汇总并将其用图表的形式表达出来。,数据分析,是通过统计方法研究数据,并结合实际背景阐述实际问题的特征的过程。,数据解释,是对分析结果进行说明。,统计学分为,描述统计学,和,推断统计学,。,一、什么是统计学Statistics?统计学是收集、分析、表,2,反映客观现象的数据,总体内在的数量规律性,推断统计,(利用样本信息和概率论对总体的数量特征进行估计和检验等),概率论,(包括分布理论、大数定律和中心极限定理等),描述统计,(统计数据的搜集、整理、显示和分析等),总体数据,样本数据,描述统计与推断统计的关系,反映客观现象的数据 总体内在的数量规律性推断统计 概率论 描,3,几个基本概念,总体,(population),、个体(,individual,)与样本,(sample),总体(,N,),:一个统计问题所研究对象的全体,有限总体,:一个班级学生的身高,无限总体,:临床试验中来推断某一药品疗效高、某一棉田棉铃虫的头数,个体,:组成总体的每一基本单元,样本(,n,),:从总体中抽取的部分个体,用于对总体进行推断(,n,30,,小样本;,n30,,大样本),通过某事物的一部分(样本),来估计事物的全部(总体)特征,几个基本概念总体(population)、个体(indivi,4,J,J,J,J,J,J,J,JJJJJJJ,5,几个基本概念(续),几个基本概念(续),6,几个基本概念(续),变量,(variable),与观测值,(observation),变量(变数),:相同性质的事物表现差异性的,某种特征,,其表现随个体而异,身高、体重、叶绿素含量、叶片形状,随机变量:变量取值的变化是不可预测的,变量通常记为:,x,,,y,,,z,,,观测值,:对变量进行测量或观察所获得的数值,观测值也称为:变量值,(,value of variables,)、,资料,/,数据,(,data,),几个基本概念(续)变量(variable)与观测值(obse,7,二、均值和方差,:第,i,个观察值或变数,n,:观察值或变数的个数,:求和符号(,sigma,),计算公式:,二、均值和方差 :第i个观察值或变数计算公式:,8,标准差和方差,总体方差和总体标准差,样本方差和样本标准差,标准差和方差总体方差和总体标准差样本方差和样本标准差,9,三、概率与概率分布,概率分布,-,几个概念,概率函数,(probability function),随机变量取某一特定值的概率函数(离散型随机变量),二项分布(对立事件)和泊松分布,(,出现概率较小,样本容量大,),概率密度函数,(probability density function),随机变量取某一特定值的密度函数(连续型随机变量),概率分布函数,(probability distribution function),随机变量取值小于或等于某特定值的概率,三、概率与概率分布概率分布-几个概念概率函数(probabi,10,离散型随机变量的概率分布,概率分布图,离散型随机变量的概率分布概率分布图,11,概率分布函数,累积函数,密度函数,连续型随机变量的密度函数及概率分布函数,x=,某一特定值时,,P=0,概率分布函数密度函数连续型随机变量的密度函数及概率分布函数x,12,若,n,,二项分布连接线表现为一个光滑的曲线。,这一曲线称之为,正态分布曲线,或,正态概率曲线,。其概率密度函数为:,记做:,N,(,2,),13,若n,二项分布连接线表现为一个光滑的曲线。记做:N(,由于正态曲线受,和,的制约,曲线随这两个参数的变化而改变。,构造一个新变数,这个变数要消去,和,的影响。假定新变数用,u,来表示,则:,标准正态分布的概率密度函数,u,变换,标准正态分布,u,服从均数为,0,、标准差为,1,的正态分布,14,由于正态曲线受和的制约,曲线随这两个参数的变化而改变。标,生物统计学复习课课件,15,原总体,样本,1,样本,2,样本,n,新总体,n,统计量,如果从容量为,N,的总体抽样(放回),若每次抽取容量为,n,的样本,那么一共可以得到,N,n,个样本。,每个样本可以计算一个平均数,如果将这些平均数集合起来便构成一个新总体。,由于每次随机抽样所得的平均数可能会存在差异,所以由平均数构成的新总体也应该有其分布,这种分布称为,平均数的抽样分布,。,样本均值的抽样分布,16,原总体样本1样本2样本n新总体n 统计量如果从,1,、样本平均数的期望值,由于不同的样本可得到不同的样本均值,因此,考察样本均值的期望就显得非常重要。,用 表示样本均值的期望值,表示总体均值,可证明在简单随机抽样中。,2.,样本平均数的标准差,称为,标准误,。,1、样本平均数的期望值 2.样本平均数的标准差称为标准误。,17,t,分布,当总体标准差,未知时,且样本数小于,30,时,以样本标准差,S,代替,所得到的统计量 记为,t,。在计算时,由于采用,S,来代替,,使得,t,变量不再服从标准正态分布,而是服从,t,分布,服从自由度为,n,-1,的,t,分布,t分布 当总体标准差未知时,且样本数小于30时,以,18,2,、,t,分布密度曲线以纵轴为对称轴,左右对称,且在,t,0,时,分布密度函数取得最大值,3,、与标准正态分布曲线相比,t,分布曲线顶部略低,两尾部稍高而平,.,df,越小这种趋势越明显,.,df,越大,,t,分布越趋近于标准正态分布,.,当,n,30,时,,t,分布与标准正态分布的区别很小;,n,100,时,,t,分布基本与标准正态分布相同;,n,时,,t,分布与标准正态分布完全一致,正态分布曲线与,t,分布曲线的比较,t,分布的特征,1,、,t,分布受自由度,df=n-1,的制约,每一个自由度都有一条,t,分布密度曲线,2、t分布密度曲线以纵轴为对称轴,左右对称,且在t0时,分,19,分布,设从一正态总体 中随机抽取样本容量为,n,,,m,的两个独立样本,其样本的方差为 ,则定义 两者的比值为,F,:,服从自由度为,n-1,m-1,的,F,分布,分布 设从一正态总体,20,F,分布特征,1)F,分布的平均数,1,,,F,的取值区间为,0,,,+),2)F,分布曲线的形状仅决定于,df,1,和,df,2,.,在,df,1,l,或,2,时,F,分布曲线呈严重倾斜的反向,J,型,当,df1=3,时转为左偏曲线,(,在平均值的左边,),不同自由度下的,F,分布曲线,F分布特征不同自由度下的F分布曲线,21,四、统计推断,统,计,推,断,由一个样,本或一糸,列样本所,得的结果,来推断总,体的特征,假设检验,参数估计,原理:概率很小的事件在,一次,抽样试验,中实际是几乎不可能发生的。,=0.05/0.01,四、统计推断统由一个样假设检验参数估计原理:概率很小的事件在,22,假设检验(,Hypothesis,),如何进行检验:,样本,平均数,总体,均数,推断,样本,随机抽样,总体,假设检验(Hypothesis)如何进行检验:样本总体推断样,23,1,、提出假设,无效假设,/,零假设,/,检验假设,备择假设,/,对应假设,0,0,误差,效应,处理,效应,H,0,H,A,1 、提出假设无效假设备择假设0 0 ,24,2,、确定显著水平,0.05,显著水平,*,极显著水平,*,能否定,H,0,的,人为,规定的,概率,标准称为显著水平,记作,。,统计学中,一般认为概率小于,0.05,或,0.01,的事件为小概率事件,所以在小概率原理基础上建立的假设检验也常取,=0.05,和,=0.01,两个显著水平,。,P1.581)=20.0571=0.1142,根据研究设计的类型和统计推断的目的选择使用不同的检验方法。,本例:服从,N(,x,x,2,),分布。,例:,3、选定检验方法,计算检验统计量,确定概率值u=x-,26,4,、作出推断结论:是否接受假设,P,PP30,时,可用样本方差,s,2,来代替,总体方差,2,,仍用,u,检验法。,3,、总体方差,2,未知,且,n30,且,n,2,30,时,用,u,检验法。,2,、两个总体方差,1,2,和,2,2,未知,且两个样本都是小样本,即,n,1,30,且,n,2,30,时,用,t,检验法,。,成组数据平均数的比较,-,应用情景,成对数据平均数的比较,略,1、两个总体方差12 和22已知,或12 和22未知,32,所谓方差的同质性,就是指各个总体的方差是相同的。,方差的同质性检验就是要从各样本的方差来推断其总体方差是否相同,方差的同质性检验,所谓方差的同质性,就是指各个总体的方差是相同的。方差的同质性,33,五、方差分析,t,检验可以判断两组数据平均数间的差异显著性,对多个处理进行平均数差异显著性检验时,采用,t,检验法的缺点:,方差:又叫均方,是标准差的平方,是表示变异的量。,五、方差分析t 检验可以判断两组数据平均数间的差异显著性对,34,确定各种原因在总变异中所占的重要程度。,处理效应,试验误差,相差不大,说明试验处理对指标影响不大。,相差较大,即处理效应比试验误差大得多,说明试验处理影响是很大的,不可忽视。,x,ij,=,+,i,+,ij,(i=1,2,3,k,;,j=1,2,3,n),总体平均数,i,处理效应,ij,试验误差,x,ij,是在第,i,次处理下的第,j,次观测值,确定各种原因在总变异中所占的重要程度。处理效应试验误差相差不,35,多重比较(,multiple comparisons,),要明确,不同处理平均数两两间差异的显著性,,每个处理的平均数都要与其他的处理进行比较,这种差异显著性的检验就叫,多重比较,。,即:统计上把多个平均数两两间的相互比较称为多重比较。,概念,五、多重比较,多重比较(multiple comparisons),36,多重比较方法较多(,multiple comparisons,),多重比较方法较多(multiple comparisons),37,不同离子,对木聚糖,酶活性,的影响,(mg/ml),0.00,0.25,0.50,0.75,1.00,1.25,0.00,0.06,0.12,0.18,0.24,0.30,0.00,0.40,0.80,1.20,1.60,2.00,0.00,0.40,0.60,0.80,1.00,1.20,Na,+,K,+,Cu,2+,Mn,2+,水平,实验指标,因素,*,对,多因素试验,而言,,处理就是指水平与水平的组合,不同离子对木聚糖酶活性的影响(mg/ml)0.000.000,38,定义,:是指对,试验指标,同时受到两个试验,因素,作用的试验资料的方差分析。,二因素都是固定因素,二因素均为随机因素,固定模型,随机模型,混合模型,一个因素是固定因素,一个因素是随机因素,二因素方差分析,三种模型在计算上类似,但在对待检验及结果解释时有所不同,。,定义:是指对试验指标同时受到两个试验因素作用的试验资料的方差,39,主效应和互作,主效应,(,main effect,),:,各试验因素的相对独立作用(不同饲料的增重差异,不同品种玉米产量不同),互作、交互,(,interaction,),:,某一因素在另一因素的不同水平上所产生的效应不同。,主效应和互作主效应(main effect):互作、交互(i,40,方差分析的基本假定,正态性,可加性,方差同质性,方差分析的基本假定正态性可加性方差同质性,41,二因素方差
展开阅读全文