Accuracy准确度与精确度.ppt

资源描述

基本概念（BasicConcepts）,总体（population）:具有共同性质的个体所组成的集团。分为有限总体和无限总体。样本（Sample）：从总体中抽出的若干个个体组成样本。观察值（ObservedValue）：每一个体的某一性状、特性的测定数值。变数（Variable）：凡表现出变异的观察值称为变数。参数（Parameter）：由总体的全部观察值而计算得到的总体特征数，如总体平均数等。统计数（Statistic）：测定样本中的各个体而得到的特征数，如样本平均数等。,7.随机样本（RandomSample）：从总体中随机抽取的样本。水平（Level）：因素内设置的不同处理级别。处理（Treatment）：几个因素不同水平的组合。准确度（Accuracy）：同一处理的观察值与其真实值的接近程度。精确度（Precision）：同一处理的重复观察值间彼此接近程度。试验单元（ExperimentalUnit）：是指接受某种处理的最小的一个独立的试验材料单位。如一张叶片、一个果实、一个枝条、一个植株等。,13.误差（Error）：观察值与处理真实值间的偏离程度。14.系统误差（SystematicError）：观察值与处理真实值间出现有一定方向的系统偏离，如供试材料的遗传背景、仪器等方面存在的可辨识的差别所造成的误差。随机误差（RandomError）：观察值与处理真实值间出现的大小、方向不同的微小差异。如在试验单元、管理方法、操作方法等方面存在的不可辨识的差别所造成的误差。样本含量（SampleSize/Capacity）：样本中所包含的个体数目。,第一节试验设计experimentdesign,试验和实验,试验是在人为控制条件下有目的地进行的一种实践活动。一、试验类型（一）田间试验温室试验实验室试验皿内试验人工气候室内试验等等,二、试验的基本要求：目的明确结果可靠试验条件有代表性试验结果能够重复,精确度,准确度,即准确又精确,准确而不精确,即不准确又不精确,精确而不准确,试验模型,供试体,输入,处理,输出,试验指标,随机干扰,Fig.1Generalmodelofexperiment,U,x,Fig.1Mathematicalmodelofexperiment,离散的测定几个点，采用统计学的方法经验的估计xf（U）（如上图所示），显然观测点未必都在曲线上。如果估计出了xf（U），我们就掌握了x随U而变化的规律，就可以进行预测和控制。,三、处理设计,田间试验按试验小区大小、试验年份、试验地点等可分为若干类，但最基本的是根据试验因素可将田间试验分为：单因素试验（Singlefactorexperiment）仅研究某一个问题，如施肥对产量的影响，可以包含肥料的不同等级。优点：试验简单，容易分析、但是不能了解各因素之间的关系。多因素试验（Multiple-factorexperiment）中包含了不同因素及不同水平的组合。优点：便于了解各因素之间的相互关系，试验复杂，设计不妥时不便于分析。综合试验（Comprehensiveexperiment）是在进行多因素研究之后，将重要因素重新组合，进行试验分析，各因素的水平不需要构成平衡处理。,四、试验单元的排列方式,试验设计的目的是避免系统误差，缩小随机误差，以保证试验的准确度和精确度。试验设计的三个基本原理：重复（Replication）：重复的作用（1）若试验中没有系统误差存在，只有随机误差，则可用处理多次重复观察值间的参差不弃程度来估计随机误差。只有1次重复就无法估计随机误差（2）同一处理多次观察值的平均值是处理真值的最好估计。随机化（Randomization）：通过试验单元的随机化排列来消除试验单元间的系统误差。局部控制（Localcontrol）：将整个试验空间分成若干个各自相对均匀的局部（区组），所以的区组构成区组因素。作用（1）可将系统误差分离出来增加准确度；（2）区组内保证试验单元的一致性，增加精确度。,随机化排列,重复I重复II,b,c,d,e,f,g,ck2,ck,ck,h,e,a,b,c,f,g,d,a,a,b,c,d,e,f,g,h,ck,1、田间试验设计,ck,a,b,c,g,e,d,f,利用查表或产生随机数的方法进行设计,ck2,五、局部控制,1、田间试验设计,a,b,c,d,e,f,ck,试验类型（二）试验设计可以归纳为全面实施试验和部分实施试验两种类型。全面实施试验分为顺序排列的试验设计和随机排列的试验设计两大类。前者常用在处理数量大、精确度要求不高、不须作统计推断的预备试验，容易发生系统误差；后者强调有合理的试验误差估计，常用于对精确度要求较高的试验。,全面实施试验（全因子试验）,一、顺序排列的试验设计,对比法设计（contrastdesign）常用于少数处理试验及示范性试验，其试验单元排列特点是处理单元直接排列在对照区旁边，使每一小区可与其邻旁的对照区直接比较。,I,II,III,1,CK,2,3,CK,4,5,6,7,8,CK,CK,7,CK,8,1,CK,2,3,4,5,6,CK,CK,5,CK,6,7,CK,8,1,2,3,4,CK,CK,2.间比法设计（intervalcontrastdesign）常用处理试验单元较多的试验，要求不高，但用随机区组排列有困难的试验。其试验单元排列特点是第一个小区和末尾小区一定是对照，每二个对照之间排列相同数目的处理小区，通常是4或9个，重复24次。,CK,CK,CK,CK,1,2,3,4,5,6,7,8,9,10,11,12,12个小麦品种的间比法排列,二、随机排列的试验设计,完全随机设计（completelyrandomdesign）将各个处理随机分配到各个试验单元（或小区）中，每一个处理的重复数可以相等或不相等。这种设计灵活机动，单因素和多因素均可使用。,2.随机区组设计（randomizedblocksdesign）亦称完全随机区组设计（randomcompleteblockdesign）根据局部控制的原则将试验地划分为等于重复次数的区组，一个区组安排一个重复，区组内各处理都独立随机排列。主要特点（1）简单；（2）适应性广；（3）能提供无偏的误差估计，降低误差；（4）对试验地形要求不严格；（5）试验的处理数目一般不要超过20。,I,II,III,IV,肥力梯度：,8个品种4次重复的随机区组排列,3.拉丁方设计（latinsquaredesign）将各个处理从纵横两个方向排列为区组（或重复），使每一个处理在每一列和每一行中出现的次数相等（通常一次）。所以它比随机区组多一个方向进行局部控制的随机排列设计。拉丁方设计具有双向控制土壤差异的作用，有较高的精确度，但缺乏伸缩性，适应于48个处理的试验设计。,4.裂区设计（split-plotdesign）是多因素试验的一种设计形式。先按一个因素设计主处理小区（mainplot），然后在这个主处理小区内引进第二个因素的各个处理的小区（副区或裂区，split-plot）。,高,低,中,低,中,高,高,中,低,I,II,III,再裂区设计（split-splitplotdesign）若在裂区试验中需要引进第三个因素时，可以进一步裂区，将第三个因素的各个处理随机排列在裂区内。条区设计（stripblocksdesign）条区设计是裂区设计的一种衍生设计，当要研究的两个因素都需要较大的小区面积，且为了便于观察和管理，将每个区组划分为纵向长条形小区，安排第一个因素的各个处理，再将各个区组划分为若干个横向长条形小区，安排第二个因素的各个处理。,部分实施试验（部分因子试验）,正交设计（orthogonaldesign）：,两个重要的特点：（1）每列中因素各水平数字出现的次数相等，即整齐可比性；（2）任两列放在一起，他们的行构成一个有序数对，这样的数对出现的次数也相等。或者说任两列之间的所有可能的水平组合都出现，且出现的次数均等。即均衡分散性。具有这样特点的数表称为正交表。正交表是正交拉丁方的推广。一般用LN（mk）表示正交表，N为试验次数；k为所能容纳的最多因素数；m为每个因素的水平数。如L8（27）。,假设我们要做一个三因素二水平的试验，若已知不需要考虑任何交互作用，可以用L4（23）表，但在这种情况下，误差项Sse分离不出来，无法作统计检验，只能直观比较哪个水平好。若存在交互作用，就会迭加在其它列上，从而得到错误的结果。因此，若不能排除存在交互作用的可能，则应利用L8（27）表。,表头设计：首先将A、B放在第1，2列上，查交互作用表，他们的交互作用AB在第3列，因此，C因素不能放在第3列上，应放在第4列上，AC放在第5列上，BC放在第6列上，ABC放在第7列上,真正安排时只用1，2，4列。若ABC不存在，则第7列可作为误差e，这样就得到了表头设计如下：,第二节描述性统计,一、试验资料的性质与分类,1.数量性状资料（quantitativetrait）采用计数和量测两种方式所得到的数据。,间断性变数Discontinuousordiscretevariable,连续性变数continuousvariable,小麦基本苗数、菌落数、穗数、分孽数等等,病斑长度、作物产量、株高、土壤水分含量等等,2.质量性状资料（qualitativetrait）观察而不能量测性状，如菌落的颜色、麦穗有无芒等等。,统计次数法,给分法,统计具有某个性状的个体数目及具有不同性状的个体数目，按类别计其次数或相对次数,给予每类性状以相对数量的方法，如小麦籽粒有红白两种颜色，可用0表示白色，用1表示红色,二、次数分布表,将试验所得到的大量未加整理的数据，按观察值大小或数据类别进行分组，制成关于观察值不同组别或不同分类单位的次数分布表，就可以看出资料中不同表现的观察值与其频率间的规律性，从而对资料有一个初步概念。,间断性资料的整理参见P13例2。2.连续性资料的整理参加P14例3。3.属性变数资料的整理在整理前，将资料按各种质量性状进行分类，分类数等于组数，然后根据各个体在质量属性上的具体表现，分别归入相应的组中，即可以得到属性分布的规律性认识。,三、次数分图,条形图（bardiagram）,适合于间断性变数和属性资料,条形图（bardiagram）,适合于间断性变数和属性资料,多边形图（polygon）,适合于连续性变数资料,方柱形图（histogram）,适合于连续性变数资料,饼图（piediagram）,适合于间断性变数和属性资料,饼图（piediagram）,适合于间断性变数和属性资料,四、平均数,算术平均数（arithmeticmean）,Mean中数（median）Md众数（mode）,Mo几何平均数（geometricmean）,G,算术平均数的两个重要特性：（1）离均差之和等于零。,（2）离均差平方和最小。,设a为任意数，但a不等于x的平均数，则,（为一定量，但）,样本平均数一般用表示。n为观察值的个数。总体平均数一般用表示。N为有限总体中观察值的个数。,五、变异数,极差（Range）R=Xmax-Xmin，当n10时，常采用R来表示资料的变异度。例如两个小麦品种的每穗小穗数见下表。,说明甲品种级差较乙品种的大，其变异范围较大，平均数的代表较差；乙品种的极差较小，其变异幅度较小，平均数的代表性较好。极差只是两个极端数据所决定的，没有充分利用资料的全部信息，所以用它代表整个样本的变异度是有缺陷的。,方差或均方（Variance）用观察值数目除离均差平方和（简称平方和）。样本均方（S2）,总体方差（2）,方差是根据全部观察值来度量资料的变异度的，是能够正确反映资料的变异度的度量方法。,标准差（StandardDeviation）是方差的正根值，可以很好的表示资料的变异度，其单位与观察值的度量单位相同。样本标准差（S）总体标准差（）,自由度（degreeoffreedom，所写为DF）,解释之一：对于一个具有n个观察值的样本，每个x与其平均数比较时，虽然具有n个离均差，但因受到离均差之和等于0的限制，所以只能有n1个是自由的。例如：有5个观察值，其4个的离均差为3，2，3，6，则第5个离均差必定为8，才能保证离均差之和等于0。所以，在估计其他统计数时，如果该统计数受K个条件限制，则其自由度应该为nK。在应用上，小样本一定要用自由度来估算标准差；若为大样本，因n和n1相差较小，可直接用n作除数，但大样本的界限没有统一规定，一般以30以上为大样本。,比较以上两式可以发现，样本标准差不以样本容量n而以n1作为除数。这是因为通常我们只能掌握样本资料，不知道总体平均数的数值，不得不用样本平均数代替总体平均数。但由于离均差平方和最小，即,解释之二：,因此，采用,计算出的标准差将失之过小。将分母用n1代替，可以避免偏小的弊病，可以做到对总体标准差的较好的估计。,4.变异系数（CoefficientofVariation，缩写为CV）样本标准差对平均数的百分数。它是一个不带单位的纯数，表示单位量的变异。,例如：两个小麦品种主茎高度的测量结果分析如下表。,若两个样本的单位不同或均数不同，不能用标准差直接比较。在采用变异系数表示样本的变异程度是，宜同时列举平均数和标准差，否则可能引起误解。,例：下面是金枪鱼两个样本的体重，请比较两个样本的差异。,表1金枪鱼体重,可以看出，两个样本的样本容量相同，平均数相同。对每一个样本的观察值进行排序，结果发现它们的中数都为9.9（详见下表）。,表各个样本观察值排序结果,表1金枪鱼体重,

展开阅读全文