资源描述
数据处理,1,数据处理, 测量结果的统计检验,在测量中,由于多种因素影响,使得一组测定值内各个测定值之间,或一组测定值与另一组测定值之间存在差异。这种差异是由测定过程中的随机因素影响造成的,还是由于固定因素的作用结果,实验者可借助统计检验进行区分、判断。, 显著性水平、置信度和置信区间,统计检验是由样本测定值来推断总体的特征。 统计检验的可靠程度用显著性水平 和置信度P表示,P = 1。如有一系列等精度测定值,从中任意抽取一数据,该数据的值落在 1.96 区间区间的概率为 95%。,2,为了对有限次数测量结果的平均值作出估计,英国化学家和统计学家W. S. Gosset提出用统计量 t 来进行检验, t 的定义为,此时随机误差不服从正态分布而服从 t 分布,t 值不仅随概率而异,还与自由度 f ( f = n - 1)有关。,3,在有限次测定中,只能得到 和 ,即只能用 和 分别估计 、 ,这样会引入附加的不确定性。表示置信区间的 前的系数(置信系数)1.96和3等必须改用 t 分布表中的临界值 (t分布置信系数)。用 代表置信系数后,测定结果可用下列通式表示。,已知自由度 f = n-1 和 (一般取 =0.05),由 t 分布表查得 t 值(见实验教材),再计算出 ,最后表示出如以上通式的测量结果。,4,在一组测定值中,常发现其中某个测定值明显地比其余的测定值大得多或小得多。对于这个测定值首先必须设法探寻其出现的原因。在判明其是否合理之前,既不能轻意保留,亦不能随意舍弃,必要时需做重复实验。由于各种原因(如粗心大意等),若不能找出这个测定值的确切来源,可借助统计检验来决定取舍。, 异常数据的剔除,5, “4 ”检验,6, 3 准则,3,3,7,合理误差范围的选择: 因为误差服从正态分布,所以大误差出现的概率小, 小误差出现的概率大。从这一点出发, 我们可以定出一个概率的最小范围, 凡误差出现的概率超出这个范围的, 就可以认为它不属于随机误差。目前大部分选择 3 作为合理的误差范围。从下述积分可知,8,随机误差的绝对值 3 的概率为99.73 % , 而 3 的概率仅为0.27 %。这相当于在370 次测量中, 误差3 的机会(可能性) 只有一次。平时试验中, 测量次数一般不会超过20 次,因此误差 3 的机会可以忽略不计。于是, 凡观测值误差 3 时, 可以推断, 这种误差已不属于随机误差, 很可能有系统误差或过失误差在起作用。因此, 凡是真误差(或残差) 其绝对值 3 的x i 均应舍弃。,9,10,试验得到15 个观测值为(按由小到大次序) : -1.40, -0.44, -0.30, -0.24, -0.22, -0.13, -0.05, 0.06, 0.10, 0.18 , 0.20 , 0.39 , 0.48 , 0. 63 , 1.01 。试判断x1 = -1. 40 和x15 = 1. 01 是否为异常数据。,示例:,解: 计算,计算| x1 - | = | -1.40 - 0.018| = 1.418 , | x15- | = | 1.01 - 0.018| = 0. 992 ; 计算 3 = 30.551 = 1.653 ; 判断:因为1.418 和0.992 均小于 3 = 1.653 , 所以x1 和x15均应保留, 它们不是异常数据。,11,注意,3 准则较简单,但当测量次数 n 10时,即使存在过失误差也可能判别不出来,因此当测量次数叫少时,几乎不适用,当 n 30 时较为适宜。,12, Grubbs 方法,Grubbs方法的理论推导严密,是国家标准GB4883-85推荐的较好的判别过失误差的准则。,13,示例:,14, t 检验,t 检验法用于测定平均值和标准值相比较,或用于不同实验者、不同实验方法测定的平均值之间的比较。 从统计观点看,同一总体中抽出的样本,由有限次测定值组成一组数据,每组数据的平均值,尽管在数值上并不一定相等,但彼此之间的差异在给定的显著性水平下,应该是不显著的。,15,对于一组测量结果的平均值与标准值(或其他文献报道的公认值)的比较,如果t 检验得出的计算统计量 t 大于相应自由度和显著性水平的临界值 t(f) , 这表明在自由度 f 下没有满足平均值属于同一总体时P|t| t(f) P的假设,亦即此组测量结果的平均值是不可接受的。换言之,把平均值看成属于同一总体的假设是不正确的。引起平均值之间的差异不能仅仅归于随机误差,还必有某个固定因素起作用,此时实验者需对实验进行重新审视,应从实验方法、所用仪器和试剂、实验环境和实验操作等方面找原因,重做实验。,16, 实验数据的表达,实验结果的表达方法主要有三种:列表法、图解法和数学方程式法。, 列表法,制作表格时,应注意以下几点。,(1)表格名称和序号:每一表格均应有一完整而又简明的名称,并加以编号,便于查阅。 (2)行名与量纲:将表格分成若干行或列,每一变量应占表格一行,每行的第一列写上该行变量的名称及量纲,并把二者表示为相除的形式,如 p/Pa、c/molL-1、H/kJmol-1、k/s-1等。因为物理量的符号本身是带有量纲的,物理量的符号除以其量纲,即等于表中的纯数字。,17,(3)有效数字:每一行所记数据,应注意其有效数字位数,并将小数点对齐。 (4)表中的数据应化为最简单的形式表示,公共的乘方因子应在第一栏的名称下注明。例如,用指数来表示数据中小数点的位置,可将指数放在行名旁,但此时指数上的正负号应异号。如HAc的电离常数1.75105,则该行名可写成:电离常数105。 (5)原始数据可与处理结果并列在一张表上,而将处理方法和计算公式在表下注明。 (6)自变量的选择:自变量的选择有时有一定的伸缩性,通常选择简单的,例如:温度、时间、距离等,自变量值最好是均匀地等间隔地增加的。 (7)表中某一项或全表需作特别说明时,可采用表注。,18,19,Table 2. Self-diffusion coefficients of -humulene in 1010 m2s1 p/MPa T/K 0.1 5 10 30 50 75 100 372 7.95 7.34 6.85 5.56 4.36 3.31 2.53 324 3.38 3.04 2.82 2.22 1.64 1.18 0.837 297 1.58 1.46 1.30 0.956 0.699 0.415 0.256 274 0.681 0.625 0.558 0.364 0.222 0.158 -,有效数字,20,表格示例:,表1 醇类水溶液的表面张力(mNm1) 浓度/%(质量) 物质 t/C 5 10 20 40 60 80 100 20 62.7 59.0 50.4 38.2 33.0 27.3 22.6 甲醇 30 61.7 57.3 46.0 36.1 32.3 26.5 21.6 50 57.0 55.0 47.2 35.5 30.8 25.0 19.5 25 55.3 47.3 37.9 29.6 25.1 23.6 22.0 乙醇 40 54.9 48.2 38.1 30.3 26.2 23.4 21.4* 50 53.4 46.8 36.9 29.6 25.5 22.6 20.4*,* 浓度为96%。,21,The above Table was taken from: Liqin Cao, Liuping Chen, Xiaojuan Chen, Lihua Zuo, Zhiwei Li. Synthesis of smart core-shell polymer in supercritical carbon dioxide. Polymer, 2006, 47: 4588-4595,Table 1. Polymerization conditions for varying the initiator concentration AIBNa Entry AIBN/% Yield/% /mLg 1 1 0.5 - - 2 1.0 97 920 3 2.0 97 280 4 3.8 96 200 5 8.0 96 150,a Reaction performed at 150 bar and 343 K with a reaction time of 10 h, NIPAM: 16. g, AA: 1.0g.,22, 图解法,图解法可使实验测得的各数据间的相互关系表现得更为直观,便于看出数据中的最高点和最低点、转折点、周期性、变化速率以及两个变量之间的其他特点。利用图形,可以进行积分、微分、内插或外推,从而求得所需数据。例如,借蒸气密度的测定,外推至压力等于零以求物质的相对摩尔质量。利用图形决定某些常数和物理量,例如,测定不同温度T下某物质的蒸气压 p,根据 lg(p/Pa) (1/T)关系图,可决定方程式 lg(p/Pa) = A/T + B 中的常数A 和 B,从还可以得出物质的摩尔蒸发焓vapHm。又如,对不同组成的二元金属体系进行热分析,可获得二元金属相图,再根据相图图形可判断某些合金的形式、性质和晶形转变等等。,23,作图时应注意以下技术要点。 (1)工具和坐标纸:在处理化学实验数据时,作图所需的工具主要有铅笔、直尺、曲线尺、曲线板和圆规等。坐标纸用得最多的是直角坐标纸,在表达三组分体系相图时,则常用三角坐标纸,有时也用到半对数或对数坐标纸。 (2)纵、横坐标的选择:习惯上取自变量为横坐标,因变量为纵坐标,如某物质的蒸气压p和T的关系,以蒸气压为纵坐标,温度为横坐标。但有时自变量和因变量不是绝对的,如蒸气压与温度的关系,从另一角度来看,也是沸点T与压力p的关系,此时,沸点 T为纵坐标,压力 p为横坐标。,24,(3)坐标范围的选择 须恰能包括全部测量数据的有效数字或稍有余地,例如,从手册中查得水在不同温度下的黏度如下表所示。,25,26,甲烷在戊烷中的蒸气分压与其组成的关系(37.8),由上一张幻灯片所示数据绘制的图,p/p,27, 每小格所代表的数值,应为1,2,或5,或者是1,2,5的10n (n为正或负整数),因为这些数值容易描点和读出。在任何情况下,都不能用3,6,7和9这样的数值及其10n,因为这些数值不易描点和读出,极易造成错误。, 纵、横坐标的长短,一般来说,要调节至曲线的大部分不太垂直或水平,这只有使纵向长度和横向长度相差不太远,则曲线自然就不太垂直或水平了。,28,(4)图的精密度:作图时,也会产生误差,所以当将所得的实验数据绘成曲线时应考虑到作图的误差,使它不损害实验数据的精密度。因此,图中的代表点应反映测量数据的准确度和精密度。纵轴和横轴上两测量值的精密度相近时,可用点圆符号()作为代表点,圆心小点表示测得数据的正确值,圆的半径表示精密度值。若同一图上有几组不同的测量值,则各组测量值应用其他符号(如,等)表示代表点。 (5)曲线:曲线不需通过全部数据点,只要使各点均匀分布在曲线两侧即可,这样所有代表点离开曲线距离的平方和为最小,此即最小二乘法原理。,29,乙醇的蒸气压与温度的关系(20100),(6)图题及图坐标的标注:每个图应有序号和简明的标题(即图题),必要时应在图的下方对实验条件等作出说明。,30,The above Figure was taken from: Liuping Chen, Thomas Gro, and Hans-Dietrich Ldemann. Studies on Self-Diffusion of Main Components of Hop Oils. Chin. J. Chem. 2001. 19(5). 453-456,31,The above Figure was taken from: Liuping Chen, Thomas Gro, and Hans-Dietrich Ldemann. Studies on Self-Diffusion of Main Components of Hop Oils. Chin. J. Chem. 2001. 19(5). 453-456,32,Figure 4. Effect of pressure on intrinsic viscosity for the copolymerization of AA and PNIPAm (see Table 3 for experimental conditions).,The above Figure was taken from: Liqin Cao, Liuping Chen, Xiaojuan Chen, Lihua Zuo, Zhiwei Li. Synthesis of smart core-shell polymer in supercritical carbon dioxide. Polymer, 2006, 47: 4588-4595,33, 数学方程式法,将实验中各变量间的关系用函数关系式来表达。如 p = f (T),纯物质的蒸气压与温度的关系;G=f (T, p),物质的Gibbs 自由能G与温度T 和压力 p 的关系,等等。 这种表达方式简单,便于微分、积分和内插值。得到的函数关系式常称为经验方程式。经验方程式是客观规律的一种近似描述,是理论探讨的线索和根据。经验方程式中的系数往往与某一物理量相对应。如,在一定温度范围内液体的饱和蒸气压 p 和 T 之间有下列函数关系。,34,直线的斜率 = vapHm/2.303R,由此可求出物质的摩尔蒸发焓vapHm。对于乙醇的p-T数据,其lg(p/kPa) 103K/T图为一直线(第30张幻灯片的图),拟合实验数据,得直线的斜率= 4.981K,截距 = 18.78,因此乙醇在20100之间的平均蒸发焓为 vapHm= (4.981K)8.314JK1mol1103 = 41.41kJmol1,35,将一组实验数据拟合成经验方程式的步骤如下。 (1)用实验数据作图,绘出曲线。 (2)根据经验和解析几何原理,初步判断经验公式应有的形式(通常将所得曲线形状与已知函数的曲线形状比较而得出)。须指出,有时不同的数学公式能得出相似的图形,因此通过比较,选择适当的公式时,不仅要注意图形形状,而且必须注意公式的物理意义以及是否适用于所讨论的问题。 (3)通过图形比较,选择一种或几种类型的经验公式后,可进行以下拟合:,36,通常用作图法、平均值法和最小二乘法等三种方法来求经验方程式中的系数 a, b, c,a0, a1, a2, 。 但前两种方法用得不多,下面介绍最小二乘法。,37,最小二乘法的基本假设是残差的平方和为最小,即所有数据点与计算得到的曲线之间偏差的平方和为最小。通常,为了数学处理方便,假定误差只出现在因变量y ,且假定所有数据点都同样可靠。,38,但 Q = min 时便可求得常数 a 和 b。,由以上二式,可得,39,40,F 检验:,F 值与相关系数 R 有关。F 服从自由度为(1, n-2)的 F 分布。在给定的显著性水平 下,从 F 分布表查得 F(1, n-2)。 若F F0.01(1, n-2),则称 x 与y 之间有十分显著的线性关系。后两种情况说明,y 的变化主要是由于x的变化造成的。,41,从 R2 的表达式可看出,当 y 与 x 之间存在严格的函数关系时,所有实验点均应落在回归线上,则 , , 。,42,若 x 没有误差或 x 的误差比 y 的误差小很多,则剩余标准误差(均方根误差) 为,值越小,拟合直线的精度越高。而a 和b 的均方根误差分别为,43,应用 t 分布,可进一步求得 a 和 b 的置信区间,分别为,44,于是,由实验数据拟合得到的方程为:,其显著性水平为。,须注意,作为数据处理结果报告时,除了写出拟合方程外,还应写明相关系数、剩余标准误差 和显著性水平为 ,以表明拟合方程的显著性。,45,下表给出了某电极相对于饱和甘汞电极的电位 E,该电位是浓度 c 的函数。,示例:,试确定-lg(c/molL-1)与E之间的函数关系。,46,解:作-log(c/molL-1) - E图,得一直线,于是设,取P=95%,应用计算软件可求得,查t 分布表,得 ,于是得,47,电位与浓度之间的关系,48,因此,最佳拟合方程为,49,示例:,溶质在某种溶剂中的溶解度与溶质分子本身的特性和结构有关,取决于溶液中粒子间的相互作用力。溶质分子的特性可用一些参数来描述。如M. H. Abraham等人提出一组分子描述符(molecular descriptors)R,*,Vx来表征分子的特性。,以下的实例数据和结果来自文献。,Mortimer J. Kamlet, Ruth M. Doherty,* Michael H. Abraham, Peter W. Carr, Robert F. Doherty, and Robert W. Taft. Linear Solvation Energy Relationships. 41. Important Differences between Aqueous Solubility Relationships for Aliphatic and Aromatic Solutes. J. Phys. Chem. 1987, 91, 1996-2004,LSER=Linear Solvation Energy Relationship,50,51,a Values in parentheses are estimated from corresponding values for closely related compounds or by a set of parameter estimation rules which we shall publish in a forthcoming paper. b 0.10 is added to /100 of aromatic compounds. c Experimental minus calculated. d A single asterisk denotes difference of more than one standard deviation. e Taken as twice the value for the corresponding benzoic acid ester. Hydrogen bonding effects are assumed to be additive. f Estimated from dipole moment; differs from earlier estimated value.,52,The coefficient of * has the “proper” sign in eq 1, but is not statistically significant according to Students t-test, and there is no deterioration in statistical goodness of fit when the term is omitted as in,The LSER is given by,AR=芳烃,SW=水中的溶解度(25C),KgW=溶质气体/水分配系数(25C),Sg=溶质饱和蒸气中溶质的摩尔浓度(25C)。,* 不重要,不必进入方程。问题得以简化。,53,对于多元线性和非线性拟合,根据最小二乘法原理可导出方程中各变量系数及其置信区间、复相关系数R、F 检验值、剩余标准误差的计算公式,详细内容可参阅有关数理统计和回归分析的专著。 采用回归分析的计算软件,如MATLAB、SPSS、Origin等,可方便地由实验数据拟合得到各种形式方程的参数,并给出相关统计量和图表。同学们可以通过实验教材后的习题自行学习、掌握这些软件在数据处理中的应用。,54,示例:,某种产品的得率 y 与反应温度 x1,反应时间表 x2 及某反应物的浓度 x3有关,现得如下表所示的实验结果,设y 与x1,x2 及x3 之间成线性关系,试求它们之间的三元线性回归方程,并判断三因素的主次。,55,解:,应用Microcal Origin 软件,可得回归方程为,整个方程的F 检验值为: F=180.3。 偏回归系数F1=54.3,对应变量x1;F2=92.9.3,对应变量x2; F3=393.7,对应变量x3。y 的剩余标准误差(方差)为0.035。 查表得:F0.01(3,4)=16.69, F0.01(1,4)=21.20。F F0.01(3,4), Fj均大于F0.01(1,4)。可见三个因素的主次顺序为:x3 x2 x1,即反应物浓度 反应时间 反应温度。 注意: Fj值越大,对应的因素越重要。,56,
展开阅读全文