1.统计数据的收集与整理

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物统计学,泰山学院生物科学与技术系,林贞贤,电话：,13954892494,E-mail:,What is,Biostatistics?,生物统计学,是数理统计在生物学研究中的应用，它是应用数理统计的原理，运用,统计方法来认识、分析、推断和解释生命过程中的各种现象和试验调查资料的科学,。属于生物数学的范畴。,生的,物基,统本,计内,学容,试验设计,统计分析,基本原则,方案制定,常用试验设计方法,资料的搜集和整理,数据特征数的计算,统计推断,方差分析,回归和相关分析,协方差分析,主成分分析,聚类分析,对比设计,随机区组设计,裂区设计,拉丁方设计,正交设计,常用统计学术语,试验资料的性质与分类,频数分布表,平均数,变异数,生物统计基础,一、总体与样本,具有相同性质或属性的个体所组成的集合称为,总体,(population),，它是指研究对象的全体；,组成总体的基本单元称为,个体,(individual),；,总体又分为有限总体和无限总体：,常用统计学术语,例如：计算总体平均数,这个公式十分简单，把总体中所有观察值相加，再除以观察值个数就行了，但由于,N,，我们无法完成计算。,样本,（,Sample):,是总体的一部分。其容量用,n,表示，样本容量,n,一般都不是很大，因而，可以计算出样本的平均数：,因此统计学的重要任务之一，就是用,样本,的结果去,推断,总体,的结果。,一、总体与样本,构成样本的每个个体称为样本单位；样本中所包含的个体数目叫,样本容量,或样本大小,(sample size),，,样本容量常记为,n,。,一般在生物学研究中，通常把,n30,的样本叫小样本,，,n 30,的样本叫大样本。对于小样本和大样本，在一些统计数的计算和分析检验上是不一样的。,研究的目的是要了解总体，然而能观测到的却是样本，,通过样本来推断总体是统计分析的基本特点。,一、总体与样本,常用统计学术语,二、变量与常量,变量，或变数，,指相同性质的事物间表现差异性或差异特征的数据。,常数，,表示能代表事物特征和性质的数值，通常由变量计算而来，在一定过程中是不变的。,常用统计学术语,为了表示总体和样本的数量特征，需要计算出几个特征数，包括,平均数和变异数（极差、方差、标准差等）,。,描述总体特征的数量称为参数,(parameter),，也称参量。常用希腊字母表示参数，例如用,表示总体平均数，用,表示总体标准差；,描述,样本特征的数量称为统计数,(staistic),，也称统计量。常用拉丁字母表示统计数，例如用表示样本平均数，用,s,表示样本标准差。,三、参数与统计数,常用统计学术语,四、效应与互作,通过施加试验处理，引起试验差异的作用称为,效应,。效应是一个相对量，而非绝对量，表现为施加处理前后的差异。效应有,正效应,与,负效应,之分。,互作,，又叫连应，是指两个或两个以上处理因素间相互作用产生的效应。互作也有,正效应（协同作用）,与,负效应（拮抗作用）,之分。,常用统计学术语,五、随机误差与系统误差,变异,效应,误差,随机误差,系统误差,常用统计学术语,例,1.2,试验配方,1(x),和配方,2(y),两种不同饲料配方对鸡增重的影响,饲养,5,周后,增重如下,(,教材出错丢失,1,个数,):,增重,配方,1(x),1.49,1.36,1.50,1.65,1.27,1.45,1.38,1.52,1.40,配方,2(y),1.25,1.50,1.33,1.45,1.27,1.32,1.60,1.41,1.30,1.52,例,1.3,如果上例中结果变成下表的数据,:,增重,配方,1(,x),1.40,1.42,1.50,1.39,1.46,1.45,1.51,1.44,1.41,1.38,配方,2(,y),1.38,1.41,1.35,1.50,1.36,1.33,1.42,1.38,1.37,1.41,是否说配方,1,比配方,2,好呢,?,随机误差，,也叫,抽样误差,(sampling error),。这是由于试验中无法控制的内在和外在的偶然因素所造成。,如试验动物的初始条件、饲养条件、管理措施等尽管在试验中力求一致，但也不可能达到绝对一致，所以随机误差带有偶然性质，在试验中，即使十分小心也,是不可避免的,。,如果通过良好的试验设计、正确的试验操作，增加抽样或试验次数，随机误差可能减小，但不可能完全消灭。,统计上的试验误差一般都指随机误差。,随机误差越小，试验精确性越高。,常用统计学术语,系统误差，,也叫,片面误差,(lopsided error),。这是由于试验条件控制不一致、测量仪器不准、试剂配制不当、试验人员粗心大意使称量、观测、记载、抄录、计算中出现错误等人为因素而引起的。,系统误差影响试验的准确性。,只要以认真负责的态度和细心的工作作风,是完全可以避免的。,常用统计学术语,六、准确性与精确性,准确性,(accuracy),，也叫准确度,，,指在调查或试验中某一试验指标或性状的观测值与其真值接近的程度。,设某一试验指标或性状的真值为,，观测值为,x,，若,x,与,相差的绝对值,|,x,|,越小，则观测值,x,的准确性越高；反之则低。,精确性,(precision),，也叫精确度，指调查或试验中同一试验指标或性状的重复观测值彼此接近的程度。,若观测值彼此接近，即任意二个观测值,x,i,、,x,j,相差的绝对值,|,x,i,x,j,|,越小，则观测值精确性越高；反之则低。,常用统计学术语,试验,资料的性质与分类,数量性状,的度量有计数与量测两种方式。,离散型数据（计数数据）,：指用计数方法获得的数据。,连续型数据（度量数据）,：指称量、度量或测量方法得到的数据。,质量性状,指能观察而不能量测的性状。,统计次数法,给予每类性状以相对数量的方法,一、数量性状与,质量性状,频数分布,表,例：调查每天出生的,10,名新生儿中，体重超过,3kg,的人数，共调查,120,天。每天的,10,名新生儿中，体重超过,3kg,的人数，可能有,11,种情况：,1,名也没有，有,1,名，有,2,名，,，,10,名都是，如表第一列所示，这一组称为组值。,每,10,名新生儿体重超过,3kg,的人数频数,(,率,),表,频数分布图,1,、每,10,名新生儿体重超过,3kg,的人数频数,(,率,),图,连续性变数资料的整理,以下表,1.3,的,100,株小麦株高资料为例,155,159,150,159,157,161,158,148,164,158,153,158,150,161,149,159,155,163,155,166,159,153,160,156,153,161,153,156,156,154,155,153,156,141,153,156,151,163,158,154,150,144,160,156,155,162,157,154,164,157,159,156,155,145,162,151,156,158,148,167,157,150,160,156,154,152,153,152,164,157,159,157,151,153,152,154,147,163,154,159,151,160,157,158,162,157,158,158,157,170,152,150,155,161,155,162,155,154,165,158,连续性变数资料的整理,以表,1.3,的,100,株小麦株高资料为例（,P4,）,1,、数据排序,(sort),2,、求极差,(range),R=Max,(1,n),Min,(1,n),本例中：,R,170-141=29cm,3,、确定组数和组距,(class interval),组距,R/,组数,因而必须先确定组数,，美国统计学家斯特吉斯提出分组数公式：n=1+3.322lgN（式中为样本数）。,表,1-3,“,三尺三,”,株高频数（率）表,下限,上限,中值,频数,累积频数,141,143,142,1,1,144,146,145,2,3,147,149,148,4,7,150,152,151,13,20,153,155,154,24,44,156,158,157,27,71,159,161,160,15,86,162,164,163,10,96,165,167,166,3,99,168,170,169,1,100,属性变数资料的整理,把资料按,各种质量性状进行分类,，分类数等于组数，然后根据各个体在质量属性上的具体表现，分别归入相应的组中，即可得到属性分布的规律性认识。下表是某水稻杂种二代植株米粒的分离情况：,次数,(,f,),属性分组,(,y,),红米非糯,红米糯稻,白米非糯,白米糯稻,96,37,31,15,合计,(,n,),179,直方图,直方图,(histogram),适用于表示连续性变数的次数分布。,图,1,“,三尺三,”,株高直方,图,频数分布图,多边形图,多边形图,(polygon),以每组中点值为横坐标，以次数为纵坐标。,图,2,“,三尺三,”,株高多边形,图（不适用多边形图）,频数分布图,条形图,条形图适用于间断性变数和属性变数资料。一般横坐标表示间断的中点值或分类性状，纵坐标表示次数。,频数分布图,饼图,饼图适用于,间断性和属性资料,，用以表示这些变数中各种属性或各种间断性数据观察值在总观察值个数中的百分比。,频数分布图,累积频数图,累积频数图用以表示某一中值以下的有多少株，以及一定数量的植株在哪一高度之下。,图,4,“,三尺三,”,株高累积频数,图,频数分布图,平均数,平均数的意义,平均数,(average),是数据的代表性，,表示资料中观察值的中心位置，,并且可以资料的代表而于另一组资料相比较，借以明确两者之间相差的情况。,平均数的种类,1,、,算术平均数,(arithmetic mean),：一个数量资料中各个观察值的总和除以观察值的个数所得的商，记作,2,、,中数,(median),：,将资料内所有观察值从大到小排列，居中间位置的观察值称为中数，记作,M,d,例如：,1,、,2,、,3,、,4,、,5,中数是,3,1,、,2,、,3,、,4,、,5,、,6,中数是：,(3+4)/2=3.5,3,、,众数,(mode),：,资料中最常见的一数，或次数最多一组的中点值，称为众数，记为,M,o,。,例如：在资料,23,、,24,、,23,、,22,、,23,、,25,、,20,、,23,、中,M,o,23,4,、,几何平均数,(geometric mean),：,n,个观察值，其乘积开,n,次方，即为几何平均数，用,G,代表。,算术平均数的计算方法,1,、直接以观察值进行计算,2,、若样本较大，且已分组，可采用加权法计算算术平均数，即以组中值代表该组出现的观察值以计算平均数。,利用每,10,名新生儿体重超过,3kg,的人数计算,平均每,10,个新生儿中，大约有,7,个体重超过,3kg,。,利用,“,三尺三,”,株高频数分布计算,算术平均数的重要特性,1,、样本各观察值与其平均数的差数（简称,离均差,，,deviation from mean),的总和为,0,。即：,2,、样本各观察值与其平均数的差数平方总和，较各个观察值与任意其它数值的差数平方的总和为小，亦即,离均差平方的总和最小,。,总体平均数,总体平均数用,来表示，其计算公式为：,从公式中可以看出，除非是,有限总体,，否则总体平均数是无法通过计算得到的。,变异数,常用的变异数有：极差、方差、标准差、变异系数等。,极差,极差,(range),又称全距，记为,R,，是资料中最大值与最小值之差。,极差的计算简单，但是它只是两个极端数据决定的，没有地方充分利用资料的全部信息，而且,易于受到资料中不正常的极端值的影响,。所以用它来代表整个样本的变异度是有缺陷的。,变异数,方差,由于算术平均数的可信度比较高，我们设想,用观察值与算术平

展开阅读全文

1.统计数据的收集与整理

最新文档