分析化学中的数据处理

上传人:美*** 文档编号:243005975 上传时间:2024-09-13 格式:PPT 页数:58 大小:2.13MB
返回 下载 相关 举报
分析化学中的数据处理_第1页
第1页 / 共58页
分析化学中的数据处理_第2页
第2页 / 共58页
分析化学中的数据处理_第3页
第3页 / 共58页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第,7,章 分析化学中的数据处理,7.1,标准偏差,(标准差或均方误差),7.2,随机误差的正态分布,7.3,少量数据的统计处理,7.4,误差的传递,7.5,回归分析,7.6,提高分析结果准确度的方法,几个概念(术语),1,、总体(母体),所研究对象的某特性值的全体。,2,、个体,总体中的每一个单元,指全体中的一个单位或某一次测定。,3,、样本(子样),从总体中随机抽出的一组测量值或指总体的一个部分。,4,、样本容量(样本大小),指样本中个体的数目,或样本中测量值数目。,总体、个体、样本、样本容量间的关系,当,n,时:,又,n,20,次,,有限次,测量,且无系统误差,当,n,时:,n,20,次,,无限次,测量,且无系统误差,个体,样本平均值,样本容量,总体平均值,样本平均偏差,总体平均偏差,7.1,标准偏差,(标准差或均方误差),7.1.1,总体标准偏差,当,n,时:,测量值,x,对总体平均值,的偏离用,表示。,(,此式应用于,n,,,=,x,T,;,无系统误差,),式中:,差方和,(它能更好地说明数据的分散程度),7.1.2,样本标准偏差,S,(,n,为有限值,一般,20,且无系统误差),同样:,式中,差方和,(即偏差的平方和),S,与,比较:,(,1,)用 代替了,;(,2,)用,n,1,代替了,n,。,式中:,n,-,1 = f,自由度,标准偏差的计算:,(等效式,可直接利用测量数据计算),7.1.3,相对标准偏差,(变异系数或变动系数),相对标准偏差,=,(或,1000,),7.1.4,标准偏差,(或,s,),与平均偏差,(,或,),的异同点,1,、不必考虑偏差的正负号,2,、,(或,s,),增强了大偏差数据的作用,如,P,243,-,二组数据:,可见:,S,3,、,与,的关系,统计学证明:,当,n,时,,= 0.8,(即,),,或,4=3,(,但有的书中也有,= 0.8 S,或,4 = 3S,)。,X,min,X,max,S,数据1,-,0.4,+0.4,0.24,0.28,数据2,-0.7,+0.5,0.24,0.33,7.1.5,平均值的标准偏差,统计学上证明:,(无限次测量),或:,(有限次测量),可见:,(,1,) 且是,S,的 倍,即:平均值的误差按测定次数的比例减小;,(,2,)上式的意义:,(,3,)增加测定次数,n,,,可以提高测定结果的精密度,但事实上增加,n,所取得的效果是有限制的。,即:,4次测量时: 是,S,的1/2倍,9次测量时: 是,S,的1/3倍,酬答依次减小,25次测量时: 是,S,的1/5倍,同理:,单次测量的 (,),与平均值的 间也有:,(无限次测量),(有限次测量),7.2,随机误差的正态分布,7.2.1,频数分布,频数(,n,i,),每组中出现的数据个数,相对频数(或频率),频率密度,以频数(或频率密度) 组值范围,作图,得频数(或频率密度)分布,直方图。,(见,P,245,-,图7-1),7.2.2,正态分布,(高斯,G.F.Gauss,分布),对上述分析数据进行整理时,数据具有以下特性,:,向某中心值集中的趋势;,偏离此中心值的倾向。,为明确表达数据的特性,我们通常用两个特性参数来表征一组数据:,(,1,),数据的集中趋势,(,2,),数据的离散倾向,1,、正态分布曲线,式中:,y,相当于测量值,x,出现的频率密度 (或概率密度),相当于总体平均值,相当于曲线最高点对应的横坐标值,表征数据的集中趋势,总体标准差,相当于,到曲线两拐点之一的距离,表征数据的分散程度,x,(,自变量),个别测量值,x-,代表测量值对,的偏离,(表征随机误差),随机误差有以下规律,:,(,1,)单峰性,当,x=,时,(,无系统误差时,=,x,T,),,,y,max,体现了测量值的集中趋势,或,( ),是最佳值或最可信赖值,;,(,2,),对称性,曲线以,x=,为对称轴,呈,钟形对称,,说明,正负误差出现的机率相等,;,(,3,)有界性,当,x,+,或,x,时,曲线以,x,轴为渐近线,即:,大误差出现机率小,小误差出现机率大,;,(,4,)当,x=,时,概率密度,测量值落在,dx,范围内的概率,当,时,数据分散,分布曲线平坦,(矮胖),;当,时,数据集中,分布曲线尖锐,(高瘦),。,当,相同,,不同时,,曲线形状一致,而位置发生左(或右)移,,所以,的大小代表数据集中于何处。,(,5,),所以只要,、,确定之后,分布曲线便确定下来,,这种分布曲线,记作:,2,、标准正态分布曲线,为一方便求出某区间的概率,将横坐标进行变量代换,。,定义:,(即:以,为单位来表征随机误差),则:,概率,即,这样的曲线称之,标准正态分布曲线,,,记作,N,(,0,,,1,),标准正态分布曲线的特征是,:,(,1,)当,X=,时,,y,有极值,当,=1,时,(,2,)正负误差出现的机会均等;,(,3,)大误差出现的概率小,小误差出现的概率大。,7.2.3,随机误差的区间概率,实际分析工作中,对误差有两类问题需回答:,(,1,)某一给定范围的测定,这些测定出现的机会是多少?,(,2,)为保证测定有一定把握,这些测定的误差可以要求在什么范围内?,以上,这些问题的回答都要知道,误差的区间概率,,,(即概率密度的积分),正态分布曲线,y,与横轴所夹面积表示全部数据出现的概率的总和,显然:,曲线与横轴间所夹面积,=,正态分布密度函数在,x,+,区间的积分值,,它代表了各种大小偏差的本样值出现概率的总和。,或:,某范围内测量值出现的,概率,=,该部分面积,/,总面积,或:取不同,u,值对 积分得到。,P,248,-,表,7-2,为:,的,积分值即,概率,单边值。,注意:,(,1,)表中积分值的上下限为,0,u,(,单边),若考虑,|,u,|,时,应将积分值,2,(双边),,同样:,若考虑,|,u,|,以外的概率,=1,2P,(,双边) 或,u,的概率,=0.5,P,。,(,2,),由此表可,计算,随机误差或测量值出现在某区间内(或外)的概率。,(,3,)此表的另一个应用:,可以从概率倒过来找误差界限(范围),可见:,随机误差超过,3,的测量值出现的概率很小(仅,0.3%,),,一般这样的极端值可舍弃(所以常将,3,称之随机误差的极限值)。,随机误差出现的区间(双边),测量值(,x=,u,),出现的区间(双边),概,率,=,1,x=,1,0.34132=0.6826,=,1.96,x=,1.96,0.95,=,2,x=,2,0.4773,2=0.955,=,2.58,x=,2.58,0.99,=,3,x=,3,0.4987,2=0.997,例,1,:,某年全国参加高考的学生化学成绩平均值为,=75,分,,=10,分,若满分为,100,分,总分为,120,分,计算:高于,100,分和不及格(低于,60,分)学生的概率。,解:,x,=,u,x,=100,时:,x,=60,时:,查,P248-,表,7-2,知:,|,u,|=2.5,时,,P=0.4938,|,u,|=1.5,时,,P=0.4332,。,高于,100,分学生概率为:,0.5000-0.4938=0.062,低于,60,分学生概率为:,0.5000-0.4332=0.0668,例,2,:,求测量值落在区间(,-,0.7,,,+0.7,),的概率。,解:,,,x,=,u,当,u,=0.7,时,,查,P248-,表,7-2,知,:,P=0.2580,求得其概率,P =,0.2580,2=0.5160=51.6%,例,3,:,求测量值落在(,-,0.4,,,+1.0,),区间的概率,解:,|,u,1,|=0.4,时,,查,P,248,-,表,7-2,知,:,P=0.1554 |,u,2,|=1.0,时,,查,P,248,-,表,7-2,知,:,P=0.3413,求得其概率,P =,0.1554+0.3413=0.4967,(,49.67%,),可见:当两区间宽度相等时,测量值落在对称区间的概率大于不对称区间的概率,这种现象对正态分布来说是普遍的。,例,4,:,某班学生,117,个数据基本遵从正态分布,N,(,66.62,(,0.21,),2,),,,求测量值落在(,66.15,67.04,)中的概率。,解:,=66.62,,,=0.21,,,而,当,x,1,=67.04,时,,,查得,P,1,=0.4773,当,x,2,=66.15,时,,,查,得,P,2,=0.4861, P,=0.4773+0.4861=0.9634,(,96.34%,),同理:落在,66.15,67.04,以外的概率,=1,-,96.34%=3.66%,(,4%,),理论上约有,117,3.66%=4.28=4,个数据落在上述范围以外,(事实也如此),,故:这批数据的确符合正态分布。,7.3,少量数据的统计处理,只有当,n,时, ,这时才能准确无误地找到,,,显然,这是做不到的,实际工作中,涉及的测量数据通常不多,此时得到的 总带有一定的不确定性,由于,x,T,不知,所以,是算不出来的。若以 代替,x,T,,以,S,代替,,,而又按理论上的正态分布来处理实际问题,是不合理的,甚至可能得到错误的判断。,为了解决用统计方法处理有限次测量数据,并能合理的地推断总体的特性问题,,英国统计学家兼化学家戈塞特(,W.S.Gosset,),以笔名“,student”,发表了其研究工作,提出,在统计处理少量实验数据时,为了补偿以,S,代替,带来的误差,可以根据测量数据的多少,用另一数值“,t”,代替“,u,”,,,这一代替和补偿的办法称之,“,t,分布”或“学生氏,t”,法。,7.3.1 t,分布曲线,在进行有限次测量时,用,S,代替,所带来的误差,用一新的量“,t”,来补偿。,t,值的定义为:,(对应 ),注:有些书中定义:,在,t,分布曲线中: 纵坐标,概率密度,横坐标,t,值。,0.4,可见:,当,n,时,,t,分布,正态分布。同理:,t,分布曲线下某区间的面积也表示随机误差在该区间内的概率。,t,分布中,,t,值随概率和,f,值变化。,(不同概率和,f,值对应的,t,值,见,P,250,-,表,7-3,),注意:,(,1,)表中:,P,置信度,(置信概率),,它表示在某,t,值时,测量值,x,落在,ts,范围内的概率,(或代表我们相信测量值,x,的误差不超过,ts,的把握);,(,2,),显著性水准,(危险率),:它表示测量值,x,落在,ts,以外的概率,显然:,=1,P,;,(,3,)当,f,时,,tu,(当,f=20,时,,t,与,u,已很接近),。,7.3.2,平均值的置信区间,分析测量结果可表示为:,(或:,=,xts,),=,x,ts,或,=x,u,表示,:,在一定置信度时,以测量值,x,为中心的,包括总体平均值在内的可靠性范围,置信区间,。,而 或 表示:,在一定置信度下,以样本平均值为中心的,包括总体平均值在内的可靠性范围,平均值的置信区间,。,以上关系式也表明了平均值(或,x,T,),与总体平均值的关系,即:说明了平均值的可靠性。,例,1,:,钢中铬百分含量的测定,先测两次:,1.12,,,1.15,,再测三次:,1.11,,,1.16,,,1.12,。试计算按两次和五次测定的数据来表示平均值的置信区间(,=0.05,)。,解:,两次测定:,=1.14,(,%,),,S=0.021,(,%,),,,三次测定:,=1.13,(,%,),,S=0.022,(,%,),,,可见:,同一置信度下,n,(,f,),,置信区间,;,S,,,置信区间,,平均值的可靠性,。,例,2,:,P,251,-,例,5,。,解:,P=0.90,时,,=(47.600.09)%,P=0.95,时,,=(47.600.13)%,可见,P,,,置信区间,P=0.99,时,,=(47.600.23)%,所以置信概率越高,置信区间就越宽,判断失误的机会就越小。反之,则判断失误的可能性上升。,统计意义上的推断通常不把,P,定为,100%,,而,通常将,P,定为,95%,或,90%,。,注意:,对平均值的置信区间必须正确理解,如例,1,中,:(1.130.03)%,表示“在此区间中包括总体平均值的把握为,95%”,,,若理解为“在未来测定中,实验平均值有,95%,落在(,1.130.03,),%,区间内”是错误的。,7.3.3,显著性检验,在定量分析中,当我们取得一系列数据后,必须对这些数据进行正确的评价,要肯定地回答这些数据是否全部有效,是否存在系统误差,对于比较两种分析方法或两实验室的分析结果,或进行各种测定条件下试验等实验结果作出合理的判断。所谓“,显著性检验,”就是利用统计的方法来检验被处理的问题是否存在统计上的显著性差异即:,“假设检验”,。,1,、,t,检验法,(,1,)平均值与标准值的比较,方法:,如一批数据:,n,, ,,S,,,f = n,1,,,并已知标准值,。,计算: ;,查,P,250,-,表,7-3,得 ;,比较:若 ,则,有显著性差异,(存在系统误差);,若 ,则,无显著性差异,(不存在系统误差),此类,t,检验法可应用于以下几个方面:,已知,(如标样的标准值),;,已知其理论值,且误差是正态分布的,所以此,理论值视为,;,常规分析中,产品规格所定的值视作,;,已作过一组,n,20,的数据,其 可视作,,,则另一,组,n,值较少的数据可与之比较。,例:,某厂生产复合维生素丸,要求每,50g,维生素丸中含,Fe2400mg,,,从某次生产中随机抽取部分试样测定五次,得铁含量如:,2372,,,2409,,,2395,,,2399,,,2411,,问此产品是否合格?,解,:,n,=5,,,f,=4,,,查,P,250,-,表,7-3,知,: ,,无显著性差异,故此产品合格。,(,2,)两组平均值的比较,方法:,先进行,F,检验,,,证明两组数据的精密度间无显著性差异;,再用,t,检验,,证明两平均值间无显著性差异。,设:两组测定结果,计算: ;,查,P,253,-,表,7-4,的,F,表,;,比较:,若,F,F,表,,,无显著性差异,,反之,,F,F,表,,,有显著性差异;,用,t,检验法(检验 与 间有无显著性差异):计算,t,值:,式中:,合并标准偏差,比较:,t,与 (,f=n,1,+n,2,2,),:,有显著性差异;,:无显著性差异,( 与 间差别由随机误差引起),2,、,F,检验法,此法通过计算两组数据的方差,S,2,之比来检验它们之间在精密度上是否存在显著性差异。,如:,若 ,则相应地,计算,(,F,值总是大于,1,),比较,F,与,F,表,注意:,(,1,)进行,F,检验时,应确定属于单边或双边检验问题,(表中单边,P=95%,,,双边,P=90%,);,(,2,),任何结论都是相对、有条件的。,例,1,:,为鉴定一分析方法的准确度,取含量为,100mg,的某基准物进行了五次测定:,100.3,,,99.2,,,99.4,,,100.0,,,99.7,如何评价此组数据。,解:,查表,,,无显著性差异。,讨论:, =99.7,100.0,(低,0.3mg,),,但,S =0.45,,,且仅测,5,次,,判断此法不存在负系统误差的证据不足。,(此时,t=1.5P=80%,,,即:随机误差出现的机会有,20%,),例,2,:,在上例基础上又补充五次测定:,99.9,,,99.4,,,100.1,,,99.4,,,99.6,此时结果如何?,解:,存在显著性差异,(即存在系统误差),7.3.4,异常值的取舍,(或可疑值的取舍或过失误差的判断),1,、 法(四倍法),(,1,)原理:,依正态分布,偏差大于,3,的值出现的概率小于,0.3%,,所以认为该偏差属过失误差所致(,属小概率事件,),因为,3=4,,,所以偏差大于,4,的值是属过失误差所致,在有限次测量中,,,4,近似为,4,,,所以偏差大于,4,的值应舍去。,(,2,)方法:,除去可疑值(异常值)后,求其余数据的 及 ;,判断:若 ,则,x,异,应弃去,反之则保留。,2,、,Grubbs,法,方法:,(,1,),将数据由小至大依次排列,:,x,1,x,2,x,n,1,x,n,(,2,),计算,,,S,(,全部数据的),(,3,),计算,(,4,),查表,:,T,n,(,P256-,表,7-5,),(,5,),判断,:当,TT,n,,则,X,异,应舍弃,反之则应保留。,3,、,Q,检验法,(舍弃商法),方法:,(,1,),将数据依小至大排列:,X,1,,,X,2,,,X,n,1,,,X,n,(,2,),计算极差,:,R=,x,max,x,min,,即,R=,x,n,x,1,(,3,),计算舍弃商,Q,:,(,或,),(,4,),查表,:,Q,表,(,P,257,-,表,7-6,),(,5,),判断,:当,QQ,表,,则,X,异,应舍弃,反之应保留。,说明:,(,1,) 法较简单,不需表值,易为人们所接受,但此法数据上不严格,因为在 以内或以外测定出现的机会是多少是不明确的,要找出 的分布也很困难;判断中没有联系,n,值,且先将,X,异,排除在外,然后检验,所以极易将有效数据舍弃(因为可疑限得较低),因此,目前使用不多,仅在要求不高,,n=4,8,次时使用。,(,2,),Q,法符合统计原理,具直观、计算方便的优点,所以常采用,但此法将可疑限订得太高,所以有时会过多保留异常值(仅适于,3,10,次测定)。,(,3,),Grubbs,法是目前最合理,舍取效果最好,使用最普通的方法,但计算麻烦( ,,S,),,当其他方法与,Grubbs,法发生矛盾时,以后者为主。,7.4,误差的传递,7.4.1,系统误差的传递,1.,加减法,和、差的绝对误差,=,各测量值绝对误差的和差,如: 则:,2.,乘除法,积、商的相对误差,=,各测量值相对误差的和差,如: 则:,3.,指数关系,分析结果的相对误差,=,指数倍的测量值的相对误差,如: 则:,4.,对数关系,分析结果的绝对误差,=0.434,系数倍的测量值的相对误差,如: 则:,7.4.2,随机误差的传递,1.,加减法,分析结果的方差,=,各测量值方差的总和,如:,则:,2.,乘除法,分析结果的相对标准差的平方,=,各测量值相对标准差平方的总和,如:,则:,3.,指数关系,分析结果的相对标准偏差,=,指数倍的测量值的相对标准偏差,如: 则:,4.,对数关系,分析结果的相对标准偏差,=0.434,系数倍的测量值的相对标准偏差,如: 则:,7.4.3,极值误差,(极限误差或极差误差法),1.,加减法,如:,则:,(,极值误差),2.,乘除法,如:,则:,例,1,:,用一台停点的标准差为,0.4mg,的,分析天平进行重量分析,称取含银试样,0.2000g,,得,AgCl,沉淀,0.2500g,,,问在求,Ag%,时,由于,称量时观察停点,所带来的,标准差,是多少?,解:,而测定中:试样称量读两次停点;沉淀称量读四次停点(,随机误差传递,),例,2,:,某滴定分析用去标液体积为,25.00ml,,,其体积测量的标准差为,0.05ml,,,称量试样,0.2000g,,,其称量,标准差,为,0.4mg,,,标液,浓度的相对标准偏差,为,0.1%,,试计算,分析结果,的相对标准偏差 。,解:,例,3,:,电位法测定某一价金属离子的活度,若,电势,测定的,标准差,为,10,3,,求分析结果的,S,C,/C,。,解:,(当,a,为氧化态时取,+,,当,a,为还原态时取),7.5,回归分析,7.5.1,一元线性回归方程,如:,一元线性方程,(即回归方程),回归线:,利用最小二乘法确立的最佳直线称之,(,线上所有测量值,y,的偏差平方和最小),回归系数:,a,、,b,1,、,回归系数的确定, x,自变量,(,准确的或可精确测量,严格控制的,),误差较小,y,因变量,(测量值),,总带有误差,设其为,e,(,偏差),回归线模型:,n,次测定后得(,x,i,,,y,i,),,i=1,,,2,,,3n,令:,y,的偏差平方和为,Q,(,总误差),(,1,),回归线是所有直线中差方和,Q,最小的一条直线。,对(,1,)中的,a,、,b,分别求偏微分并令其,=0,。,(,2,),(,3,),求得,由一组(,x,i,,,y,i,),求得的,a,、,b,值称之参数,a,、,b,的估计量(用 表示),它们一旦确定,回归方程便确定,即:,回归直线,(,不是任意直线,),2,、回归直线的特点,(,1,)它必定通过( )点,牢记,(,2,)对所有实验点而言,此线的误差最小(,3,)它也许不过任何一个实验点,(与直尺作图习惯不同),3,、求解回归方程的中应注意的几个问题,(,1,)不要过早修约数字,应在获得,a,、,b,具体值后再合理修约,(,否则 会使有效数字减少很多,);,(,2,),b,的有效数字位数应与,x,相等,,a,与,y,相等,(最多多一位);,(,3,)回归计算较烦易错,所以最好验算:,公式,7.5.2,相关系数,1,、相关系数,定义:,r,的物理意义:,(,1,)当,r=1,时,所以点都在回归直线上,,此时称,y,与,x,完全相关,,实验误差,=0,;,(,2,)当,0,|r|,1,时,(大多如此),,,x,与,y,间有相关关系:,r,0,时正相关;,r,0,时负相关。,|r|,越接近,1,,,y,与,x,相关关系越好,点越靠近直线;,(,3,)当,r=0,时,回归线平行于,x,轴的直线,,此时,b=0,,,y,与,x,无关,即回归直线无意义,(,y,的变化不随,x,而变化)。,注意:,(,1,)在,r,定义式中:分子永远小于分母,所以,r,的取值范围:,0,|r|,1,;,(,2,),r,表示,y,与,x,间的线性相关关系,所以当,r,很小或,r=0,时,并不表示,y,与,x,间不存在其它相关关系。,2,、相关系数的显著性检验,判断变量,x,与,y,间是否存在线性关系或说线性关系好不好是相对的,它也可以借用显著性检验来判断。,在一定置信度下,只有当,r,r,表,时,线性关系才有意义(,P,264,-,表,7-7r,表),7.6,提高分析结果准确度的方法,1,、选择合适的分析方法,2,、减小测量误差,3,、减小随机误差:,适当增加测定次数,4,、消除系统误差:,对照试验;空白试验;仪器校准;结果校正。,天平称量,重量、滴定,:,相对误差,0.1%,即天平称量误差,0.0001,mg,至少应称0.2,g,光度法: 相对误差,=2%,若称取,0.5,g,样,只需称准至,2%,0.5=0.01,g(0.001g),则可。,滴定法,相对误差,0.1%,而读数,0.01,ml,所以至少消耗体积,= 20,30,ml,光度法,A=0.2,0.8,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 小学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!