资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,试验设计及优化,-,统计学基础,试验设计与数据处理概述,定义,狭义的试验设计主要是指试验单位,(,试验单元,),的选取、重复数目的确定、试验单位的分组和试验处理的安排。,合理的试验设计能控制和降低试验误差,提高试验的精确性,为统计分析获得试验处理效应和试验误差的无偏估计提供必要的数据。,数据处理,:,研究试验测量或观察值的分析计算处理方法,.,承认并尽量排除偶然因素的干扰,将处理间是否存在本质差异揭示出来,.,可以揭示出试验指标或性状间的内在联系,试验设计与数据处理概述,发展,20,世纪,20,年代,费歇(英国)提出方差分析,并应用于生物学、农业、遗传学等领域,使得试验设计成为统计学的一个分支。,20,世纪,50,年代,田口玄一(日本)深入浅出的解说了正交试验表格,使其广泛使用。,我国:华罗庚,-,积极倡导和普及优选法,王元和方开泰,-,提出均匀设计,近年,出现了各种应用软件:,SAS,(统计分析系统)、,SPSS,(社会科学统计包)、,Matlab Origin,、,Excel,试验设计与数据处理概述,意义,实验,变化规律,实用目的,实验目的、影响因素、,-,选择方法,科学安排实验,误差分析,可靠性,确定因素主次,抓住主要矛盾,因素与结果间的函数关系,预测实验结果,实验因素对实验结果的影响规律,确定最优实验方案,本课程主要框架,统计学基础,(,讲课,4,学时,),数据的统计检验,(,讲课,4,学时,),方差分析,(,讲课,4,学时,上机,2,学时,),回归分析,(,讲课,4,学时,上机,2,学时,),正交试验设计,(,讲课,4,学时,上机,2,学时,),均匀设计,(,讲课,4,学时,上机,2,学时,),统计学基础,(,一,),统计学中的常用术语,误差的表示法及分类,随机误差的正态分布及标准正态分布,统计学中的常用术语,总体与样本,总体:根据研究目的确定的研究对象的全体,个体:总体中的每一个研究单位,样本:依据一定方法由总体中抽取部分个体所组 成的集合,有限总体:含有有限个个体的总体,无限总体:包含有无限多个个体的总体,样本容量:样本中所包含的个体数目,频率,:,在,n,次测定中,随机事件,A,出现了,n,A,次,则,F(A)=n,A,/n,称为随机事件,A,在,n,次实验中出现的频率,.,统计学基础,(,一,),统计学中的常用术语,概率,:,随机事件,A,发生的可能性大小,P(A).,频率的极限为概率,.,必然事件,P=1;,不可能事件,P=0;,随机事件,0P1,试验研究的目的:了解总体,然而能观测到的却是样本,通过样本来推断总体是统计分析的基本特点。,随机抽取,:,是指总体中的每一个个体都有同等的机会被抽取到样本中,统计分析的特点,-,有很大的可靠性但有一定的错误率,真值,:,某量的客观值或实际值,统计学基础,(,一,),统计学中的常用术语,平均值,算术平均值,:,观察值的总和除,以其个数,.,代表性较高,统计学基础,(,一,),若没有系统误差,则总体平均值,就是真实值,总体平均值,:,加权平均值,P3:,为了增加结果的可靠性,对出现频率大或误差较小的测量值乘以一个与频率或误差相关的较大的数,对出现频率小或误差较大的数乘以一个与频率或误差相关的较小的数,.,这个数就叫权,.P4,P41-1,统计学中的常用术语,平均值,统计学基础,(,一,),中位值,:,是将一系列测定数据按大小顺序排列是中间的,那个数值,(,奇数次测定,),。如测定次数为偶数次,则中位,值为正中两个值的平均值,其优点是求法简便而又直观。,例:求下列数据的平均值和中位值。,20.06,20.10,20.08,20.20,。,误差的表示法,绝对误差,:,实验值与真值之差,x=x-x,t,(,P5,P41-2,),相对误差,:E,R,=x/x,t,x/x(P7,:,例,1-3,1-4,.),统计学基础,(,一,),例:有一已知含糖量为,24.36%,的奶粉,进行数次测定所得的平均值为,24.31%,,计算这个平均值的绝对误差和相对误差。,精密度,(Precision),是指在相同条件下,对同一量进行多次重复测定时,测定值的离散程度。表达测定数据的重现性,它是反映随机误差大小的一个量,测定值越集中,测定精密度越高。精密度通常用偏差来量度。,偏差是用测定值与一系列测定数据的平均值之差来表示。,精密度和准确度,统计学基础,(,一,),二者均好,精密度好,二者皆不好,?,甲,乙,丙,真值,24.05%24.15%24.25%24.35%24.45%,丁,误差的表示法,偏差,:,d,i,=,x,i,-,x,平均偏差,:,统计学基础,(,一,),标准偏差,:,特点,:,简单,;,但大偏差得不到应有反映。,误差的分类,统计学基础,(,一,),系统误差,系统误差是由较确定的原因引起的,可校正和消除。,(,正确度,),随机误差,随机误差是由不确定原因引起的,不可避免和消除。,(,精密度,:,极差,标准差,方差,),过失误差,过失误差是指一种显然与事实不符的误差,必须避免和剔除,。,准确度,:,正确度,+,精密度,随机误差是由一些偶然因素造成的误差,其大小、方向都不固定,,难以预计,不能测量也无法消除。,它的出现似乎很不规律,但实质上,它的出现和分布服从统计规律,减小误差,-,提高准确度,1.,选择合适的分析方法(根据被测物含量、共存元素的干扰情况)。,2.,减少分析过程的误差。,A.,减小测量误差。,B.,增加平行测定的次数,减小随机误差。,C.,消除测量中的系统误差。,统计学基础,(,一,),随机误差的正态(高斯)分布,N(,2,),统计学基础,(,一,),正态分布的数学表达式,:,随机误差的分布规律,:,1),偏差大小相等、符号相反的测定值出现的概率大致相等,2),偏差小的测定值比偏差较大的测定值出现的概率大,偏差很大的测定值出现的概率极小,趋近于,0,3),大多数测定值集中在,的附近,所以为最可信赖值或最佳值,有界性,单峰性,对称性,补偿性,概率密度函数,y,随机误差的标准正态分布,N(0,,,1),统计学基础,(,一,),标准正态分布的数学表达式,:,令,则,又,则,随机误差的标准正态分布,统计学基础,(,一,),所以分析化学中以误差,2,作为允许的最大误差,大于,2,出现的机会不到,5%,,同时误差在,3,以内的测定有,99.74%,的机会出现,即误差大于,3,的测定只有,0.26%,(,1000,次测定才不到,3,次)。,从计算结果可知,,95,以上的测量值都会落在范围内,随机误差,x-,超过 的大误差,(,或测量值,),出现的概率,20,已很接近,),预测分析数据和置信度,根据统计学的理论,可以期望使真值以指定的概率落在测定平均值附近的一个界限内,这个界限被称为置信界限。如,测定某食品中水的含量,报告为:,%H,2,O,(,95%,),=71.380.22%,这个报告能比较明确地说明数据的合理性,既不绝对化而又很明确地回答问题。,统计学基础,(,二,),预测分析数据和置信度,测定的平均值为,71.38%,。,有,95%,的把握认为试样的含水量落在,71.380.22%,这个范围内。,要求有,95%,的把握,这称之为置信水平,表示对可靠性要求的准则。在分析化学中常按,95%,的置信水平来要求。,0.22%,称之为置信区间,其大小取决于测定的总体标准偏差,和,置信水平的选择,平均值的置信区间还与测定次数有关。,另外,=1-95%=5%.,显著性水平,统计学基础,(,二,),总体平均值的区间估计,在一定置信度上,根据 (样本)估计,(总体平均值)可能存在的区间,当 ,显然做不到,少数测量得到的总带有一定的不确定性,所以只能在一定置信度上,根据 对,可能存在的区间作出估计,由,t,分布式,这表示在一定置信度下,以平均值 为中心,包括总体平均值,范围,就叫平均值的置信区间。,统计学基础,(,二,),总体平均值的区间估计,例:已知,=35.21%,,,S=0.06%,,,n=4,,求,P=0.95,,,0.99,时,平均值的置信区间,解:,P,0.95,,,t,0.025,,,3,3.18,统计学基础,(,二,),理解为:在区间 中包括总体平均值,的把握(概率)有,95,。,P,0.99 t0.005,,,3,?,总体平均值的区间估计,统计学基础,(,二,),置信度越高,,t,曲线下面积越大,置信区间就越大,即所估计的区间包括真值的可能性也就越大。但,P,100,,则意味着区间无限大,肯定会包括,这样的区间毫无意义;分析中通常将,P,定在,95,或,90,。,例,1,测某铁矿样中的含量,得:,37.45%,,,37.30,,,37.20,,,37.50,,,37.25,,报告分析结果,(P=95%),例,2,测定结果,47.64%,、,47.69%,、,47.52%,、,47.55%,,计算置信度为,90%,、,95%,、,99%,时总体平均值,的置信区间?,测定结果不确定度和分析结果的表达,统计学基础,(,二,),一般分析结果的统计表示法,多次重复测定得到一系列测定值,在报告分析结果时,要反映出数据的集中趋势和分散性,一般采用下列四项值,,x,是总体,的最佳估计值,反映数据的集中趋势。,S,是,的估计值,反映数据的离散程度。测定次数,n,用于求自由度,f,,反映数据的可靠程度。置信区间。,有效数字的取舍,记录一个测量值时,数据中只应保留一位不确定的数字,.,有效数字,:,包括全部可靠数字及一位不确定数字在内的所有数字,运算中采取四舍六入五成双的原则舍去多于数字,几个数相加减时,有效数字的位数决定于绝对误差最大的一个数,.,几个数相乘除时,以有效数字位数最少,(,相对误差最大,),的为标准,.,在乘,除,开方,乘方时,若第一位有效数字等于,8,或大于,8,时,则有效数字可多记一位,(,如,8.01ml,可计为四位,),常数可认为无限位,.,对数如,pH=2.00,统计学基础,(,二,),有效数字的取舍,正确记录有效数值,(,万分之一天平,50ml,移液管,),正确计算和表达分析结果,(,先计算,后修约,;,先修约,后计算,),0.0124+20.12+1.236+3.245+4.255=?,0.0124*20.14*1.2364=?,P41-11,统计学基础,(,二,),误差的传递,一、系统误差的传递规律,1.,加减法:设,R,为计算结果,,A,、,B,、,C,为三个测量数据,它们的绝对系统误差为,E,A,、,E,B,、,E,C,,对分析结果的绝对系统误差为,E,R,,其计算关系式为:,结果的绝对误差是各步骤,绝对误差,的代数和,统计学基础,(,二,),若,则,若,则,误差的传递,一、系统误差的传递规律,统计学基础,(,二,),2.,乘除法:设,R,为计算结果,,A,、,B,、,C,为三个测量数据,它们的系统误差为,EA,、,EB,、,EC,,对分析结果的系统误差为,ER,,其计算关系式为:,结果的相对误差是各步骤,相对误差,的代数和。,注意:如分析结果计算公式中同时有四则运算,先计算加减后计算乘除!,误差的传递,例:,X=(A-C)/G,已知:,E,A,=E,C,=0.1 E,G,=0.001,A=80.0 C=1.0 G=1.0,求,X,,,E,X,,,X,校正,各为多少?,解:,X=79.0,E,A-C,=E,A,-E,C,=0,统计学基础,(,二,),误差的传递,一、系统误差的传递规律,统计学基础,(,二,),3.,指数关系,4.,对数关系,误差的传递,一、偶然误差的传递规律,统计学基础,(,二,),1.,加减法,结果的,标准偏差,的平方是各测量值标准偏差的平方总和,2.,乘除法,结果的,相对标准偏差,的平方是各测量值相对标准偏差的平方总和,3.,指数关系,4.,对数关系,例,
展开阅读全文