数理统计在学中应用

上传人:仙*** 文档编号:48587675 上传时间:2022-01-12 格式:PPT 页数:85 大小:1.89MB
返回 下载 相关 举报
数理统计在学中应用_第1页
第1页 / 共85页
数理统计在学中应用_第2页
第2页 / 共85页
数理统计在学中应用_第3页
第3页 / 共85页
点击查看更多>>
资源描述
数理统计在化学中的应用数理统计方法在化学中的应用数理统计方法在化学中的应用李振华复旦大学化学系表面化学实验室李振华制造讲义nhttp:/ 绪论绪论n统计方法是一种用于收集、表示、分析和解释通过观察和实验而得到的基本数据的方法,是人类认识自然和社会的重要手段。上海股票市场收益率分布模型统计研究在运用正态分布假设的GARCH模型来描述金融收益序列的条件分布时,正态分布假设常常被拒绝,人们用一些具有尖峰、厚尾特性的分布,如t分布、GED分 布来替代正态分布假设,从而得到一系列GARCH模型的扩展形式,如GARCH-t模型、GARCH-GED模型等。本文依据严密的统计分析方法选择了 GARCH-t(1,1)模型描述上证综指对数收益率序列的分布。最后,根据各项模型检验结果说明,用GARCH-t(1,1)模型描述上证综指收益率序 列是有充分理由的。统计定价模型与股票投资决策2007年 第15期 ,作者: 高祥宝, 闫惠敏数理统计在化学中的应用3李振华制造韩寒代笔之争http:/www.tieku.org/448946/3.html首先从逻辑角度讲,方舟子应该证明 P( A | F) 大于一个很大的值如95% 。这里 A是方的假设, 比如 “三重门是韩父写的”F是所有可观测的客观事实的集合。这里方可以用两种方法去证明P(A|F) 95%. 第一种是找到一些列的独立证据F1,F2, F3每一个证据 P(A|Fi) 都很大,比如他能找到证人证明什么时间,什么地点由什么证人看到了听说了韩父代写,或者手稿上的字迹能证明是韩父的。这些都是硬的证据,方没有。这没有关系,方可以采用另外一种方法证明,那就是对于某一个事实Fk, 如果 P( Fk|a ) 很小,这里a是A的补集。(也就是a =”三重门是韩寒自己写的“)那么通过贝耶斯公式反推P( A | F),如果P( Fk|a )足够小,那么P( A | F)是可以大于95%的。这种也是方一直在采用的方法,但使用这种方法的问题在于,根据公式,P ( A | F) = P(AF)/P(F) = ( P(F1|A)*P(F2|A)*P(Fn|A)*P(A) ) / (P(F1|A)*P(F2|A)*P(Fn|A)*P(A) + (P(F1|a)*P(F2|a)*P(Fn|a)*P(a) )也就是说,如果F由很多n个独立的事实组成,那么,你如果只找到了个很小的P( Fk|a )是不能推断P( A | F)很大的。也就是说,如果这里有100万个事实,你找到了100个 令人质疑的事实 根本没用,除非你的那些令人质疑的事实的概率极其小 。这也就是我们金融领域常说的金融领域常说的data mining. 也就是,在同一个sample里不停的用各种方法去找股票的规律,最后你总能找到“一些”的规律,比如,“每个月的第一天股价总是上升的”之类的。你用统计方法做假设检验, t-value都好高,但是没用,因为你是先看到了Sample再做的检验。同理,方舟子把韩寒的资料不停的翻,不停的找,总能找出点什么异常的,但是这根本无法证明什么。除非方舟子可以做 out of sample test. 比如,方舟子用他的假设来推断一些事实存在于他还没看过的/不知道的韩寒的书,资料,或者事件,那才能算得上证据。不然的话,今天证明这个,明天证明那个,不过就是一个不过就是一个data mining 的游戏而已的游戏而已。 李振华制造韩寒代笔之争http:/ 【例四】假设有一个要证明韩寒作品有代笔的实验。 零假设:韩寒作品没有代笔 备择假设:韩寒作品有代笔 选择显著性水平=?(且预设检验力1-=?) 选择样本、收集数据,计算p值。 若p,则无法拒绝零假设。李振华制造红楼梦前80回与后40回作者之争n早在 1980 年,在美国威斯康星大学召开的“首届国际红楼梦研讨会”上,该校华裔学者陈炳藻教授首次报告了他在这方面的研究工作(见 4 , 5 ),此后还出版了专著(见 6 )。陈教授将红楼梦 120 回分为三组,每组 40 回,并将儿女英雄传作为对照组进行比较研究。他从每组中任取 8 万字,挑出名词、动词、形容词、副词、虚词这 5 种词,然后运用统计学方法算出各组之间用词的相关程度,结果发现:红楼梦前 80 回与后 40 回所用词汇的相关程度远远超过红楼梦与儿女英雄传所用词汇的相关程度,并由此推断:前 80 回与后 40 回均为曹雪芹一人所作。 李振华制造红楼梦前80回与后40回作者之争n但是,我国华东师范大学陈大康教授得出了迥异的结论 (1987 , 7) 。他也把红楼梦 120 回分成三组,每组 40 回,并统计了其中所含词、字、句等 88 个项目。他发现,这些词在前两组出现的规律相同,而与后 40 回却不一致;关于用字特点和句式规律,前两组也是惊人的吻合,而后 40 回则迥异。由此推断:后 40 回非曹雪芹所作(但含有少量残稿) n本文以数据分析为基础,以统计学中“两个独立二项总体的等价性检验”为基本方法,很清楚明确地证明:红楼梦前 80 回与后 40 回在饮食与花卉的描写上确实存在非常显著的差异;在树木的描写上也存在明显差异。不过,这种差异还不能说明红楼梦前 80 回与后 40 回出自不同的作者。李振华制造数理统计在化学中的应用n统计学是“对令人困惑费解的问题做出数字设想的艺术。” -美国David Freedmann统计学是一门处理数据中变异性的科学和艺术。-John M.LastA Dictionary of Epidemiology 科学与艺术的不同在于不同的人处理相同的问题可能得到不同的结果李振华制造数理统计在化学中的应用实验化学的基础是测量n实验化学学科作为一门实验科学,一直被认为是有着很大欠缺的,那就是欠缺严格性、逻辑性以及精确性的理论。n测量具有随机可变性、不确定性、模糊性。统计学可解决前两种问题.李振华制造数理统计在化学中的应用测量的重要性n在美国芝加哥大学社会科学研究馆的正面,刻有这样一段铭文:“假若你不能测量,你的知识就是贫乏和不能令人满意的。”n实际上,这句话还应该这样来补充:“假如你只懂得测量,那么你对世界的认识将是可怜的。”李振华制造数理统计在化学中的应用不能片面强调测量的精确性n长期以来,我们已习惯于把科学知识看成是许多确实无误的陈述的集合,化学中同样也是这样,充斥着决定论。n片面地追求所谓精确性,其结果只能是将认识过程中的某一部分加以近似化、简单化,最终常会走向形而上学,乃至神秘主义。李振华制造数理统计在化学中的应用二二.统计学的历史及作用统计学的历史及作用n 统计学的历史一般认为开始于十七世纪中叶,最初的统计学出现在德国和英国,被称为古典统计学。统计学的发展史上曾形成过记述学派、政治算术学派、数理学派这三个主要学派。十九世纪中叶,数理学派的代表人物比利时科学家凯特勒(L.A.J. Quetelet)将概率论正式引进到统计学中之后,也就开始了数理统计学的发展时期。李振华制造数理统计在化学中的应用数理统计在科学研究中得到了极其广泛的应用数理统计在科学研究中得到了极其广泛的应用n主要地是由于以下几个原因:1. 窥一斑而知全豹:窥一斑而知全豹:科学实验的研究对象具体地只能是极小一部分样品,研究的最后结果也只能是从这一小部分样品的研究结果出发来作出统计推断,也就是运用数理统计方法推断出研究对象的全体来。2. 归纳规律:归纳规律:科学实验中不可避免地会存在着大量随机误差的问题,要从这些随机现象中去得出准确可靠的研究结果,这只能依赖于数理统计的方法和原理。3. 优化和试验设计:优化和试验设计:科学实验经常要进行各种条件试验,诸如合成路线、配方设计、工艺条件、寿命试验等等,这就需要运用统计的原理和方法来进行优化和实验设计。李振华制造数理统计在化学中的应用数理统计在科学研究中得到了极其广泛的应用数理统计在科学研究中得到了极其广泛的应用4. 函数关系:函数关系:科学实验中总要研究各个变量之间的关系,并进而进行科学的预测和推断,而这些是离不开数理统计方法的应用的。5. 数据处理:数据处理:随着现代科学研究的发展,各种测量仪器的计算机化给我们带来了“数据爆炸”,如何来处理这些大量的数据,并要能从这些数据中获取更多的甚至意想不到的信息,只有数学和统计学技术才能给我们以可靠的保证。李振华制造数理统计在化学中的应用三三.统计方法在化学中应用的意义统计方法在化学中应用的意义n应该说化学这一学科基本上还是一门实验学科,因此化学工作者掌握数理统计的原理及其应用的必要性和实际意义也就显得尤为重要。只有正确地运用数理统计方法,才能够帮助我们在化学实验中,从表面杂乱无章的现象里去寻找出有意义的统计结论来;才能使我们能更有成效地进行各门化学领域中的科学研究,确保科学研究取得可靠、准确的结果并进而得以发现客观规律;才能使我们从大量的实验数据、实验资料中去揭示和获取更多的化学信息。 李振华制造数理统计在化学中的应用第一章第一章 随机变量和分布函数随机变量和分布函数第一节 几个基本的统计学概念1-1 总体和样本1-2 随机现象1-3 随机变量 离散型随机变量 连续型随机变量 李振华制造数理统计在化学中的应用第一章第一章 第一节第一节$1.1 总体和样本n总体:满足指定条件的众多数据的集合n有限总体n无限总体n样本:从总体中抽取一部分实测的个体或单位的集合n容量:样本中含有个体的数目n样品:组成样本的每一单位或个体样本样本总体总体样品样品李振华制造数理统计在化学中的应用第一章第一章 第一节第一节$1.1.1 必然事件与随机事件必然事件:满足一定条件后一定发生或一定不发生的事件随机事件:满足一定条件后不一定发生的事件李振华制造数理统计在化学中的应用$1.1.2频率和概率(几率)频率和概率(几率)频率:频率:( )( )( )AAnf Af ANf A概率:概率:limANnPN0 P 1必然事件: P = 1不可能事件:P = 0李振华制造数理统计在化学中的应用Table 1.1.2.1 硬币投掷实验李振华制造数理统计在化学中的应用第一章第一章 第一节第一节$1.1.3 随机变量实验中所可能出现的结果的量(X)。n离散型随机变量随机变量的取值仅仅是有限个,或是可列的无穷多个。n连续型随机变量随机变量的取值是充满某一区间的,并且落在任一区间的概率也是确定的。n随机变量所取的数值:x李振华制造$1.2 分布函数第二节 分布函数$1.2.1 分布函数的定义、类型和性质$1.2.2 概率密度函数数理统计在化学中的应用李振华制造$1.2 $1.2 分布函数分布函数$1.2.1 分布函数的定义、类型和性质分布函数的定义、类型和性质n累积分布函数累积分布函数(Cumulative Distribution Function, CDF):设设x是一任意实数或事件,是一任意实数或事件,X取得小等于取得小等于x的数值,的数值,的概率为的概率为P(X x), F(x) (= P(X x) )就称为随机变量就称为随机变量X的的累积分布函数累积分布函数,记为:,记为:F(x) = P(X x) 数理统计在化学中的应用李振华制造$1.2 $1.2 分布函数分布函数$1.2.1 分布函数的定义、类型和性质分布函数的定义、类型和性质对于任意实数对于任意实数x1, x2, 且且x1 x1时,时,F(x2) F(x1)F(x)为右连续为右连续李振华制造$1.2 $1.2 分布函数分布函数$1.2.2 概率密度分布函数(Probability Density Function, PDF)对于一维连续实随机变量x,任何一个满足下列条件的函数f(x)都可以被定义为其概率密度函数:数理统计在化学中的应用( )0,( )1f xxf x dx( )()( )xF xP Xxf x dx显然显然( )( )dF xf xdx李振华制造$1.2.3 $1.2.3 概率质量函数概率质量函数n概率质量函数(Probability Mass Function, PMF):是离散随机变量在各特定取值上的概率概率质量函数和概率密度函数不同之处在于:概率密度函数是对连续随机变量定义的,本身不是概率,只有对连续随机变量的取值进行积分后才是概率。离散随机变量概率质量函数的不连续性决定了其累积分布函数也不连续。 数理统计在化学中的应用李振华制造$1.2.4 $1.2.4 平均值,期望值,偏差,方差平均值,期望值,偏差,方差n 均值,期望值均值,期望值平均值数理统计在化学中的应用/iXx nX的期望值的期望值(expectation value),有时用,有时用 来表示来表示()iiE XPx如果如果x是连续型随机变量:是连续型随机变量:()( )E Xf x xdx李振华制造$1.2.3 $1.2.3 量度数据离散程度量度数据离散程度(dispersion)(dispersion)的统计量的统计量n 极差极差一组数据中最大值和最小值之差数理统计在化学中的应用maxminRXXn 平均绝对偏差平均绝对偏差11niidXXnn 方差方差(Variance) 样本方差样本方差22111niiSXXn李振华制造$1.2.3 量度数据离散程度的统计量n方差(Variance)总体方差数理统计在化学中的应用22211()niiE SXn n标准差(Standard Deviation)=标准差方差2= SS2, 样本标准差,总体标准差n相对标准差(Relative Standard Deviation)Rel= /SS X样本方差 S2 是对总体方差2的无偏估计 李振华制造$1.2.3 $1.2.3 量度数据离散程度的统计量量度数据离散程度的统计量n连续性随机变量的标准差连续性随机变量的标准差数理统计在化学中的应用2( )xf x dx李振华制造数理统计在化学中的应用$1.3 化学中常用的分布函数化学中常用的分布函数$1.3.1 二项式分布二项式分布$1.3.2 泊松分布泊松分布$1.3.3 麦克斯威尔分布麦克斯威尔分布李振华制造$1.3.1 二项式分布每次试验只有两种可能结果而不受以前试验结果影响的分布。其中一种事件的概率p,另一种的概率q(1-q)。如果在n次独立试验下,求A出现次数x的概率分布,这一分布的概率质量函数即为: P(x) = Cnx px qn-x (x = 0,1,2 n,0p1 ) 这个概率函数给出的分布就叫做二项式分布,即二项式(p+q)n的展开式。二项分布常用于军事射击和工业检查中,在化学中可用于计算质谱中同位素峰的强度比以及根据塔板理论推导气液色谱的流出曲线。 数理统计在化学中的应用李振华制造二项式分布数理统计在化学中的应用李振华制造例1-2色谱的塔板理论1在柱内一小段高度内组分分配瞬间达平衡(H理论塔板高度)2载气非连续而是间歇式(脉动式)进入色谱柱,每次进气一个塔板体积3样品和载气均加在第0号塔板上,且忽略样品沿柱方向的纵向扩散4分配系数在各塔板上是常数根据塔板理论,待分离组分流出色谱柱时的浓度沿时间呈现二项式分布,当色谱柱的塔板数很高的时候,二项式分布趋于正态分布。杨世钺, 色谱法溶质以二项式展开分布的简明推导, 化学通报, 1989, 02, 47-49.李振华制造例例1-3有一化学药品的混合过程在正常情况下会有有一化学药品的混合过程在正常情况下会有10%的可能混合不的可能混合不合格,今在一批药品中抽验合格,今在一批药品中抽验8个样品,发现有个样品,发现有2个不合要求,检个不合要求,检验员欲拒收整批药品,试问这一决定是否正确?验员欲拒收整批药品,试问这一决定是否正确?数理统计在化学中的应用解:解:P(x=2) = Cnx px qn-x = C82 0.12 0.910-2 = 0.149计算表明,在总体合不格率为计算表明,在总体合不格率为10%的情况下抽检出两个不合格的情况下抽检出两个不合格的概率为的概率为14.9%,因此不应拒收这批药品。,因此不应拒收这批药品。 李振华制造数理统计在化学中的应用$1.3.2 泊松分布泊松分布当某事件出现的概率很低当某事件出现的概率很低(P1)时,二项分布就成为泊松分布。由法国数学家时,二项分布就成为泊松分布。由法国数学家Poisson于于1838年发表。年发表。泊松分布适合于描述单位时间内随机事件发生的次数泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。现的故障数,自然灾害发生的次数等等。 李振华制造泊松分布泊松分布n泊松分布的概率质量函数为:泊松分布的概率质量函数为: (x = 0,1,2, 为参数)为参数) : 单位时间单位时间(或单位面积或单位面积)内随机事件的平均发生数内随机事件的平均发生数n性质:性质:x的期望值等于方差即:的期望值等于方差即: = = 2:数理统计在化学中的应用()!xP Xxex李振华制造数理统计在化学中的应用00.10.20.30.4051015xP=1=2=3= 6PMFCDF李振华制造数理统计在化学中的应用 例例1-4 400ml微生物溶液中含微生物的浓度是微生物溶液中含微生物的浓度是0.5只只/毫升,抽出毫升,抽出1毫升,其中所含微生物的毫升,其中所含微生物的只数只数x服从什么分布?含服从什么分布?含3只及只及3只以上微生物只以上微生物的可能性有多少?的可能性有多少?解:溶液中总共有微生物解:溶液中总共有微生物n = 0.5400 = 200只,只,每一只微生物落入抽检的每一只微生物落入抽检的1毫升溶液中的概率毫升溶液中的概率p = 1/400,不落入的概率,不落入的概率q = 399/400。如看。如看有几只微生物落入抽检的有几只微生物落入抽检的1毫升溶液中就相当毫升溶液中就相当于一个于一个n = 200时的独立试验模型,所以时的独立试验模型,所以x服服从二项分布。从二项分布。 李振华制造数理统计在化学中的应用由于由于 = np = 0.5比较小,可以用泊松分布来近似计算比较小,可以用泊松分布来近似计算。P(n3) = 1 - P(n3) = 1 - P(n=0) - P(n=1) - P(n=2) = 1 e-0.5 0.5e-0.5 0.52e-0.5 /2 = 1 - 0.6065 - 0.3033 - 0.0758 = 0.0144因为概率很小,在因为概率很小,在0.5只只/毫升条件下,抽检毫升条件下,抽检1毫升是不毫升是不大可能发现大可能发现3只或只或3只以上的。如真抽到,就说明并不只以上的。如真抽到,就说明并不是这个浓度,而是大大超过了是这个浓度,而是大大超过了.()!xP Xxex李振华制造数理统计在化学中的应用$1.3.3 麦克斯威尔分布麦克斯威尔分布n直角坐标下速度的概率密度分布直角坐标下速度的概率密度分布222B3/2()2B( )2xyzm vvvk Txyzmf v dv dv dvek Tn球坐标下速度的概率密度分布球坐标下速度的概率密度分布2B3/222B( )sin2mvk Tmf v dvd devk T n速率的概率密度分布速率的概率密度分布2B3/222B( )42mvk Tmf v dvevk T 李振华制造数理统计在化学中的应用n第二章第二章 正态分布正态分布n$2.1 频率和概率频率和概率李振华制造数理统计在化学中的应用李振华制造数理统计在化学中的应用李振华制造数理统计在化学中的应用图图2-1 测量数据的频率密度直方图。测量数据的频率密度直方图。李振华制造数理统计在化学中的应用图图2-1 频率密度分布逐渐接近正态分布示意频率密度分布逐渐接近正态分布示意 李振华制造数理统计在化学中的应用$2.2 正态分布(正态分布( 高斯分布)与正态曲线高斯分布)与正态曲线假设在一定条件下,对某一个量假设在一定条件下,对某一个量x进行无限多次进行无限多次重复的等精度测量,得到一系列数据重复的等精度测量,得到一系列数据x1,x2, xn,则各测量值的频数密度分布将会从锯齿形图(见直方则各测量值的频数密度分布将会从锯齿形图(见直方形图)转变成为一条平滑的曲线,该曲线的分布就称形图)转变成为一条平滑的曲线,该曲线的分布就称为正态分布。因为正态分布。因为随机误差是服从正态分布的,所以为随机误差是服从正态分布的,所以正态分布又常称为(随机)误差分布。正态分布又常称为(随机)误差分布。 李振华制造数理统计在化学中的应用正态分布的历史正态分布的历史正态分布最早是棣莫佛在正态分布最早是棣莫佛在1734年发表的一篇关于二项分布年发表的一篇关于二项分布文章中提出的。拉普拉斯在文章中提出的。拉普拉斯在1812年发表的年发表的分析概率论分析概率论中中对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛对棣莫佛的结论作了扩展。现在这一结论通常被称为棣莫佛拉普拉斯定理。拉普拉斯定理。拉普拉斯在误差分析试验中使用了正态分布。勒让德于拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。了严格的证明。正态分布这个名字还被正态分布这个名字还被Charles S. Peirce, Francis Galton, Wilhelm Lexis在在1875分别独立的使用。这个术语是不幸的,分别独立的使用。这个术语是不幸的,因为它反应和鼓励了一种谬误,即很多概率分布都是正态的因为它反应和鼓励了一种谬误,即很多概率分布都是正态的。这个分布被称为这个分布被称为“正态正态”或者或者“高斯高斯”正好是正好是Stigler名字名字由来法则的一个例子,这个法则说由来法则的一个例子,这个法则说“没有科学发现是以它最没有科学发现是以它最初的发现者命名的初的发现者命名的”。李振华制造数理统计在化学中的应用中心极限定理中心极限定理数学家们对正态分布曲线做了将近有数学家们对正态分布曲线做了将近有300年的研究,年的研究,证明了当每次测量都受到很多微小随机因素的影响时证明了当每次测量都受到很多微小随机因素的影响时,测量的总误差就具有正态分布,当然对于这种断定,测量的总误差就具有正态分布,当然对于这种断定不应在没有证据的情况下就予以接受。不应在没有证据的情况下就予以接受。统计学告诉我们,只要测量的次数统计学告诉我们,只要测量的次数n足够多,样本平足够多,样本平均值的分布总可均值的分布总可服从正态分布,而不论它原来是什么服从正态分布,而不论它原来是什么分布。这就是分布。这就是中心极限定理中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。,其他概率分布可以用正态分布作为近似。 二项式二项式泊松泊松李振华制造数理统计在化学中的应用智商分布曲线IQ test: http:/www.iqtest.dk/main.swf李振华制造IQnRichard Herrnstein and Charles MurrayThe Bell Curve (1994)智商70%左右来源于遗传,和环境关系不大nLeon J. Kamin (1927-)Now: Indiana UniversityChairman (1968): Department of Psychology at Princeton UniversityThe Science and Politics of IQ (1974)李振华制造IQ and RacenIn his 2006 book Race Differences in Intelligence Lynn adopted the ten-category classification scheme of human genetic variation introduced in The History and Geography of Human Genes by Luigi Cavalli-Sforza and colleagues. Lynn argues that mean IQ varies by genetic clusters, or race. According to his calculations, the East Asian cluster (Chinese, Japanese and Koreans) has the highest mean IQ at 105, followed by Europeans (100), Inuit-Eskimos (91), South East Asians (87), Native American Indians (87), Pacific Islanders (85), South Asians & North Africans (84), sub-Saharan Africans (67), Australian Aborigines (62), and Kalahari Bushmen & Congo Pygmies (54).360李振华制造数理统计在化学中的应用-4-2024600.050.10.150.20.250.30.350.4正态分布正态分布: :通常用通常用N( , 2)来表示总体平均值来表示总体平均值(期望值)为为 ,方差为,方差为 2的正态分布。的正态分布。 正态分布概率密度函数正态分布概率密度函数(PDF) f(x)又叫正态分布曲线,又叫正态分布曲线,由下式来表示:由下式来表示:.,22()21( )2xf xex:测定值:总体平均值:总体标准差李振华制造数理统计在化学中的应用n累积概率分布函数累积概率分布函数(CDF)22()21( )( )2xxxF xf x dxedx李振华制造数理统计在化学中的应用$2.2.3 正态分布的性质正态分布的性质从图从图2-3 可以看到,正态曲线的形状是由可以看到,正态曲线的形状是由 决定决定的,而的,而 决定曲线的位置。决定曲线的位置。 -4-202460.00.20.40.60.81.0=2,=2.2=1,=1xf(x)=0,=0.4李振华制造累积分布函数(CDF)李振华制造数理统计在化学中的应用689599 2 3 2 3 f(x)x21李振华制造数理统计在化学中的应用$2.3 标准正态分布和概率的计算标准正态分布和概率的计算讨论正态分布曲线 令u = (x-)/,则 22()21( )2xf xe2/21( )2uf ue记当记当 =0; 2=1时的正态分布,称为标准正态分布,时的正态分布,称为标准正态分布,记为记为李振华制造数理统计在化学中的应用$2.3 标准正态分布和概率的计算标准正态分布和概率的计算因此: 222()2()/2()/1()212xbabuaP axbedxeduu = (x-)/du = dx/2()/21( )( )2xxuF xf x dxedu李振华制造数理统计在化学中的应用正态分布表:2/21( )2uuuf u duedu -3-2-101230.00.10.20.30.4F(u)f(u)uu李振华制造数理统计在化学中的应用第三节第三节 概率的计算概率的计算例例2-2 设随机变量设随机变量X服从服从N( , 2),试计算下列范围中的概率,试计算下列范围中的概率(1) ( - , + ); (2) ( -2 , +2 ); (3) ( -3 , +3 ); 李振华制造数理统计在化学中的应用例例2-3根据资料,根据资料,30-40岁男子血清胆固醇值岁男子血清胆固醇值(mmol/l)极近正态分布极近正态分布N(4.72,0.77),试求:该年龄健康男子血清胆固醇值试求:该年龄健康男子血清胆固醇值(1)大于大于6.20的概的概率;率;(2)大于大于4.00且小于且小于5.50的概率。的概率。 李振华制造数理统计在化学中的应用李振华制造数理统计在化学中的应用n第四节第四节 和正态分布有关的一些样本分布和正态分布有关的一些样本分布李振华制造自由度统计学上的自由度(degree of freedom, df),是指当以样本的统计量来估计总体的参数时, 样本中独立独立或能自由变化或能自由变化的资料的个数,称为该统计量的自由度。这里我们用k或v来表示。例如,在估计总体的平均数时,样本中的k个数全部加起来, 其中任何一个数都和其他资料相独立,从其中抽出任何一个数都不影响其他资料(这也是随机抽样所要求的)。 因此一组资料中每一个资料都是独立的,所以自由度就是估计总体参数时独立资料的数目,而平均数是根据k个独立资料来估计的,因此自由度为k。李振华制造数理统计在化学中的应用学生t-分布(Students t-distribution)实际工作中,难以做到测量无限多的样本。在小实际工作中,难以做到测量无限多的样本。在小样本的情况下,样本的情况下, 未知,如果用测定样本所得到的标未知,如果用测定样本所得到的标准偏差准偏差S来代替,此时测量值及其偏差就不再符合正来代替,此时测量值及其偏差就不再符合正态分布了。态分布了。1908年,英国统计学家年,英国统计学家W.S. Gosset证明了:在未证明了:在未知知 而以样本的标准差而以样本的标准差S去代替时,此时遵守的将是去代替时,此时遵守的将是t-分布。分布。若若x1,x2, xn是由服从正态分布的总体中随机抽是由服从正态分布的总体中随机抽取的样本值,取的样本值,李振华制造数理统计在化学中的应用那么统计量那么统计量 n如果知道总体平均值,即期望值,和标准差,则可定义:/nXTSn/nXZn李振华制造t-分布的几率密度分布函数nv是自由度n注意:对于一个容量是n的样本,其v=n-1。2(1)/2(1)/2)( )(1/ )( /2)vvf ttvvv10( )atate dt李振华制造数理统计在化学中的应用t-分布的概率密度函数(PDF)李振华制造数理统计在化学中的应用t-分布的累积分布函数(CDF)李振华制造数理统计在化学中的应用t-分布的应用分布的应用t检验检验(Students t-test)n学生学生t t分布应用在当对呈正态分布的母群体分布应用在当对呈正态分布的母群体( (总体总体) )的均值进的均值进行估计。它是对两个样本均值差异进行显著性测试的学生行估计。它是对两个样本均值差异进行显著性测试的学生t t检验的基础。检验的基础。t t检验改进了检验改进了Z Z检验检验( (Z Z-test)-test),不论样本数量大,不论样本数量大或小皆可应用。在样本数量大(超过或小皆可应用。在样本数量大(超过120120等)时,可以应用等)时,可以应用Z Z检验,但检验,但Z Z检验用在小的样本会产生很大的误差,因此样检验用在小的样本会产生很大的误差,因此样本很小的情况下得改用学生本很小的情况下得改用学生t t检验。检验。n当当总体的标准差是未知的但却又需要估计时,我们可以运总体的标准差是未知的但却又需要估计时,我们可以运用学生用学生t t分布。分布。t t- -分布有着广泛的应用。从上式可以得到分布有着广泛的应用。从上式可以得到/nXTSnnSXtn 李振华制造t检验临界值表n单侧Ptt(v) = 或 Pt0)n双侧P|t|t(v)=0.10.10.050.050.0250.0250.010.010.0050.0050.00050.0005v 0.20.20.10.10.050.050.020.020.010.010.0010.0011 13.078 3.078 6.314 6.314 12.706 12.706 31.821 31.821 63.657 63.657 636.619 636.619 2 21.886 1.886 2.920 2.920 4.303 4.303 6.965 6.965 9.925 9.925 31.599 31.599 3 31.638 1.638 2.353 2.353 3.182 3.182 4.541 4.541 5.841 5.841 12.924 12.924 4 41.533 1.533 2.132 2.132 2.776 2.776 3.747 3.747 4.604 4.604 8.610 8.610 5 51.476 1.476 2.015 2.015 2.571 2.571 3.365 3.365 4.032 4.032 6.869 6.869 6 61.440 1.440 1.943 1.943 2.447 2.447 3.143 3.143 3.707 3.707 5.959 5.959 李振华制造数理统计在化学中的应用卡方分布(卡方分布(2 -分布)分布)卡方分布是统计学中的一种机率分布,它广泛的运用于检测数学模型是否适合所得的数据,以及数据间的相关性。数据并不需要呈正态分布。如果从一个正态总体中,抽取出随机变量Xi, 则各随机变量Xi与总体均值之差对总体标准差的比值,即Zi = (xi )/ ,也服从正态分布,它们的平方和称为22221()kiix k: 2的自由度李振华制造数理统计在化学中的应用卡方分布:概率密度分布函数卡方分布:概率密度分布函数其中x=2/2 1/2/2( )2( /2)kxkxf xek李振华制造数理统计在化学中的应用卡方分布:累积分布函数卡方分布:累积分布函数其中x=2( /2, /2)( )( /2)kxF xk李振华制造卡方分布的性质和用途卡方分布的性质和用途n自由度为 k 的卡方变量的平均值是 k,方差是 2k。n两个独立的2分布随机变量各自除以自己的自由度之后的比值就是F-分布。n用来测试随机变量之间是否相互独立,也可用来检测统计模型是否符合实际要求,观察值和理论值之间的偏离是否显著nEXCEL: nCHIDIST(x,degrees_freedom) :计算2分布单尾概率的数值 nCHIINV(probability,degrees_freedom) CHIDIST的逆函数李振华制造CHIDIST(x, degree_freedom)n1-F(x)CHIDIST(x, degree_freedom)李振华制造数理统计在化学中的应用F-分布如果有两个总体总体都服从正态分布,从两个总体中抽出两个样本1和2,各自的容量是n1和n2,自由度为v1=n1-1和v2=n2-1,定义F这个比值,即F,它的分布就是一个具有n1-1和n2-1 自由度的F分布。如果两个样本是从同一个总体中抽出,则12211,222/v vvFv2221()kiixX 2222211()()11nniiiixXxXSnn122222111111,2222222222(1)/()/(1)/()/v vnSvSFnSvS2122SFS李振华制造数理统计在化学中的应用F-分布这就是说即使F1,我们也不能认为这两个总体的方差就不等,考虑到随机因素的影响,它应有一个合理的允许范围,必须用统计的方法来处理,这就引出了研究F-分布的问题。F 0F取值越大,越不可能。李振华制造数理统计在化学中的应用F-分布的几率密度分布函数(PDF)112121211212(2)/2/2/212()/21221/2/2(2)/212()/21221()2( )()() ()221(/2,/2) ()vvvvvvvvvvvvFf Fvvvvvv FvvFB vvvv Fv1=1, v2=1v1=2, v2=1v1=5, v2=2v1=100, v2=1v1=100, v2=100李振华制造数理统计在化学中的应用F-分布的累积分布函数(CDF)11212( )(/2,/2)v Fv F vF FIvvv1=1, v2=1v1=2, v2=1v1=5, v2=2v1=100, v2=1v1=100, v2=100I: 不完全Beta函数李振华制造数理统计在化学中的应用F-分布的累积分布函数(CDF)nFDIST(x, v1, v2) = 1 - F(x)nFINV(p, v1, v2): FDIST的逆函数,即如果p = FDIST(x, v1, v2),则x = FINV(p, v1, v2)李振华制造数理统计在化学中的应用李振华制造数理统计在化学中的应用
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!