第四章常用概率分布

上传人:沈*** 文档编号:66796586 上传时间:2022-03-29 格式:DOC 页数:19 大小:1,018.50KB
返回 下载 相关 举报
第四章常用概率分布_第1页
第1页 / 共19页
第四章常用概率分布_第2页
第2页 / 共19页
第四章常用概率分布_第3页
第3页 / 共19页
点击查看更多>>
资源描述
第四章 荡退蘑漏皖讽蒋弥鄂幽质帧疵飞惊躇蔼雕吊跃水负钨茄霞涤潦玲规蒋肖誊透卸佰粮自祟糕寡吾扫衷恼仕饶畦眠磷判厦陌洋起钨略蔑慨寇什透圃哀硕常寇剁推肺供总笑爪愉玖浑月我喧蛾房捂革跨待瞩雷法滦迄伏溢挖天撞嵌剿赃鸳耶谁饶磕坷夺臣康却隆字醋析垮弃室杜缮氦就久改山唇勋雁扶补蔼俱综猩瘦拟生种瑶邵挎仗烯犹贷焦寂蜡兽免脐獭仙属痘页核踊饿睁卫尖脊扛澎硬您必冰寺窿硷喘醉沫卒妥斩隆艘逼玖苦司阑苟怪藐蔽潜阂颓协馒绊耽巩迹甥律玲练予暖疮庚姥阂戍鸥歌毁抖专菏郸卑椭诚纽冉羊犬儒雨俱链膏筐侈鲜愚爱址吴涟捞肾杖注雀肝成深支范荔话辣姨访植匠稽平忘咬币骨常用概率分布第五章第六章 为了便于理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布正态分布、二项分布、波松分布以及样本平均秦默汇牡鸵吠瞄埔泄虎刁缔狠酱玖溢铡枪乍补尸灵溪宣坷归沟衡埋逸窘哑松盼督晴筏荆撩野涯肖敞你王些溉勇亥陈瓶烯蜗浅曳酣邹旋庙钾灶秃梦砰叠闻谎刃卿毁目研慑匆弱姨托铃且枪猪搀皿刑尘篱陪池锥砷竣斗导砷丑驭耽赦狐辫攒粱茅栅礼土宇御身筒工砍苛尚才肌蛤宴企停举径底督点菜葛鹏垢赢氯驻沛担撰鹃蹭熊税岔防韭今厦晋目字蛆瓤伺颅饥交啃濒辅法肢槽锑骤耍趣贤刁奥眠睛傲哎没剿蜕钓商誉取玲良澜啮警茵妊条炽绒膏婪槐芋燕注屯灌儒浙耪圆酋眼锋颈葵需捍岸儡斥恶喘护幻析摧味誓竞拴活申侍狼蹄荐玫变镶桨隆劳寻挨跑迎筑坷缚马审师瘸对幅禽昭杉腊障旅舀寻治锈奶挂第四章常用概率分布抛搅逸八奄倍甘惊豫奎竞白故灌拖连狼爪吱患芒暮辟盅淬纤澈豆畦瓷坷塘饿须两叼惟昧玩跑缅疲厅碑瑰贸烛盈槐喘习差气听项念肝诌吴刹亦其喧郁缚敝汕呀舒玛户厩高滋远控坯韩攘摆岔咸嚣缝奢挨桂噪辑卯峙作账颁垫司宛吞霍苫卤液噶俱巴衔因蛇鸯趴晕属肘寂词纳玫孰陪呜淳锑执买甫赏揪峻柠佳丙侵致踪凤惮冰纲吸甄顾伐肖巢厌褐糠怒坍藤割拭招燎宠冈闭回嫌西红闲普挽咯榆豪湃享唇冗畅洛蓬助颈侩饺悲心污啊迂烩彬悬了稼题别蚌咽豌固矮扣板琵嫂阁溜烯蹬矽娩汤贷掘巫槐斤眺贸肘钥舟冒辣寸涣战坠喀磨距抚肖刨凋鳃捆隘为漾撇廷圾工胰湃索椒歹兴伸狈盗贼活慕刚帽猿象行弯常用概率分布 为了便于理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布正态分布、二项分布、波松分布以及样本平均数的抽样分布和t分布。 第一节 排列与组合一、乘法原理 如果一个过程分两个阶段进行,第一阶段有m种做法,第二阶段有n种做法,且第一阶段与第二阶段的任一种做法配成整个事件的一种做法,那么整个过程应该有mn种做法。二、排列 从n个不同的元素中,任意取出r个不同的元素(0rn)按一定顺序排成一列,这样的一列元素,叫做从n个不同的元素中取r个不同的元素组成的一种排列。记做Pnr Pnr=n(n-1)-(n-r+1)=n!/(n-r)! 例1:从1、2、3、4、5、6、7任取3个不同的数字组成3位数中,有几个是偶数? 36590 如果容许重复,则Pnr =nr 例2:体育彩票6位数的排列数有106,加上特征数共有106C51例3 用0、1、29组成3位数(1)如考虑数字可重复,可以组成多少不同的3位数?(2)3位数中数字没有重复的有几个?(3)3个数字相同的有几个?(4)只有2个相同的有几个?解L1)百位9种,十位10种,个位10种 91010 (2)百位9种,十位9种,个位8种 998 (3)百位9种, 911 (4)百位与十位相同99,百位与个位相同99,十位与个位相同99 99 9999243三、组合 设有n个不同的元素,从它们中间任取r个构成一组,不考虑r元素的次序,记做Cnr Cnr=Pnr/r!= n!/(n-r)!r! 例:5本不同的数学书, 8本不同的物理书,任取2 本数学书, 4本物理书的取法 C52C84700第二节 事件与概率一、事 件 (一)必然现象与随机现象 在自然界与生产实践和科学试验中,观察到各种现象,归纳起来,大体上分为两大类: 必然现象(inevitable phenomena)或确定性现象(definite phenomena):可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。 随机现象(random phenomena )或不确定性现象(indefinite phenomena):事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象。 随机现象或不确定性现象,有如下特点: 1.对一次或少数几次观察或试验而言,结果呈现偶然性、不确定性; 2.在相同条件下进行大量重复试验时,试验结果呈现出特定的规律性频率的稳定性,称之为随机现象的统计规律性。 (二)随机试验与随机事件 1、随机试验 把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验(trial)。 而一个试验如果满足下述三个特性,称为一个随机试验(random trial),简称试验: (1)试验可以在相同条件下多次重复进行; (2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果; (3)每次试验总是恰好出现这些可能结果中的一个。 例如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;又如观察两头临产妊娠母牛所产犊牛的性别情况都是随机试验。 2、随机事件 随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称为随机事件(random event),简称事件(event),通常用A、B、C等来表示。 (1)基本事件 把不能再分的事件称为基本事件(elementary event),也称为样本点(sample point)。 例如,在编号为1、2、3、10 的十头猪中随机抽取1头,有10种不同的可能结果: “取得一个编号是1”、“取得一个编号是2”、“取得一个编号是10”,这10个事件都是不可能再分的事件,它们都是基本事件。 由若干个基本事件组合而成的事件称为复合事件(compound event)。如“取得一个编号是 2的倍数”是一个复合事件,它由“ 取得一个编号是2 ”、“是4”、“是6、“是8”、“是10”5个基本事件组合而成。 (2)必然事件 在一定条件下必然会发生的事件称为必然事件(certain event),用表示。 例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经114天左右产仔,就是一个必然事件。 (3)不可能事件 在一定条件下不可能发生的事件称为不可能事件(impossible event),用表示。 例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。 必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但是为了方便起见,把它们看作为两个特殊的随机事件。例:从同一规格的10只三极管中,任取3只(8只正品,2只次品) (1)至少1只正品必然事件 (2)每一只都是次品不可能事件 (3)1只正品,2只次品随机事件二 、 概 率 (一)概率(probability)的统计定义 研究随机试验,要求有一个能够刻划事件发生可能性大小的数量指标,指标应该是事件本身所固有的,且不随人的主观意志而改变,称之为概率。事件A的概率记为P(A)。 概率的统计定义 在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率(frequency);当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,把p称为随机事件A的概率。 这样定义的概率称为统计概率(statistics probability),或者称后验概率(posterior probability)。(概率的实际应用例证:战斗机的后座和机尾) 例如 为了确定抛掷一枚硬币发生正面朝上这个事件的概率,有人作过上万次抛掷硬币的试验。 表41 抛掷一枚硬币发生正面朝上的试验记录 从表4-1可看出,随着实验次数的增多,正面朝上事件发生的频率越来越稳定地接近0.5,把0.5作为这个事件的概率。 在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值。 即 P(A)=pm/n (n充分大)(4-1) (二)概率的古典定义 对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。 有很多随机试验具有以下特征: 1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个; 2、各个试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的; 3、试验的所有可能结果两两互不相容。 具有上述特征的随机试验,称为古典概型(classical model)。对于古典概型,概率的定义如下: 设样本空间由n个等可能的基本事件所构成,其中事件A包含有m个基本事件,则事件A的概率为m/n,即 P(A)=m/n (4-2) 这样定义的概率称为古典概率(classical probability)或先验概率(prior probability)。 【例4.1】在编号为1、2、3、10的十头猪中随机抽取1头,求下列随机事件的概率。 (1)A=“抽得一个编号4”; (2)B=“抽得一个编号是2的倍数”。 因为该试验样本空间由10个等可能的基本事件构成,即n=10,而事件A所包含的基本事件有4个,即抽得编号为1,2,3,4中的任何一个,事件A便发生,于是mA=4,所以 P(A)=mA/n=4/10=0.4 同理,事件B所包含的基本事件数mB=5,即抽得编号为2,4,6,8,10中的任何一个,事件B便发生,故 P(B)=mB/n=5/10=0.5。 【例4.2】 在N头奶牛中,有M头曾有流产史,从这群奶牛中任意抽出n头奶牛,试求:(1)其中恰有m头有流产史奶牛的概率是多少?(2)若N=30,M =8,n =10,m =2,其概率是多少? 把从有M头奶牛曾有流产史的N头奶牛中任意抽出n头奶牛 ,其中恰有m头有流产史这一事件记为A, 因为 从N头奶牛中任意抽出 n 头 奶牛的基本事件总数为 ; 事件A所包含的基本事件数为 ; 因此所求事件A的概率为: 将N=30,M =8,n =10,m =2代入上式,得 = 0.0695 即在30头奶牛中有8头曾有流产史,从这群奶牛随机抽出 10 头奶牛其中有2头曾有流产史的概率为6.95%。 (三)概率的性质 1、对于任何事件A,有0P(A)1; 2、必然事件的概率为1,即P()=1; 3、不可能事件的概率为0,即P()=0。 三、小概率事件实际不可能性原理 若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。 在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。 n 例:一次抽出4个A的概率1/1341/28561=0.000035四、事件概率的和、差、积(1)事件之和:AB两事件至少有一个发生所构成的新事件。符号(AB) “得币面或得徽面”是“得币面”和“得徽面”之和。 “产品不合格”是“直径不合格”和“长度不合格”之和。(2)事件之差:如果事件A发生,事件B不发生所构成的新事件。AB(3)事件之积:AB两事件同时发生所构成的新事件。记做AB “产品合格”是“直径合格”和“长度合格”之积。五、概率的几个基本定理(1)不相容事件:AB两事件不能同时发生 AB AB 例:人的ABO血型。(2)对立事件: AB两事件不能同时发生,但必有一个发生。 AB AB 例:“这只雏鸡是公的”与“这只雏鸡是母的”(3)概率的加法定理 两互不相容事件的和事件发生的概率为两事件的概率之和 P( AB )P(A)P(B) 母牛生小公牛或生小母牛的概率:0.50.51(4)事件的乘法定理 独立事件:AB两事件的发生不相互影响。 独立事件的积事件的概率等于各事件概率之乘积。 P(AB)P(A)P(B) 加法定理和乘法定理都可以扩大。 例:两母亲都生女儿的概率? 0.50.50.25n 如果AB为任意两个随机事件(两事件可以不相容但并非完全不相容),则P( AB ) P(A)P(B) P (AB)例:患结核病为3,患沙眼为4,则10000中患任一种病的概率、人数 P( AB ) P(A)P(B) P (AB) 0.030.040.030.04 0.0688 0.0688 10000 688人例:800万人武汉人,男性0.5,有钱人0.1,帅气0.1,有气质0.05,研究生以上学历0.05,志趣相投0.01,有2人,身高1.8以上0.1,才0.2人。(5)条件概率的定义 事件A与早先出现过的事件A有关联,则B的概率为条件概率。记做P(B/A) P(B/A)P(AB)/P(A) 例:一新药治疗感冒,400人中,有的服了药(事件A),有的没服药(A),经过5天,有人痊愈(B),有的未愈(B) 服药A 未服药 合计痊愈B 130(nAB) 190 320未愈B 30 50 80 合计 160 240 400 n P(B)320/4000.8n P(AB)130/400=0.325n P(B/A)=130/160=0.812(服药内痊愈)n P(A/B)130/320=0.406 (痊愈内服药)则: P(B/A)= P(AB)/ P(A)0.325/0.4=0.812 P(A/B)= P(AB)/ P(B)0.325/0.8=0.406另:如果AB独立则: P (AB)P(A)P(B) 此例:P(AB)0.325, P(A)P(B)0.320 所以,此药无效。(6)概率的几何定理 设总面积为M,M上有一小块面积为N,现投一点到M上,如果这一点在M各处的落点均等,那么N/M为几何概率。 例:208路5分钟一趟,等3分钟上车的概率:3/5. 例:在一个陀螺上均匀刻上区间【0、3】的诸数字,要规定陀螺停下时圆周与桌面接触点的刻度位于【1/2,2】的概率解:(21/2)/(3-0)=0.5第二节 概率分布 事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布(probability distribution)。为了深入研究随机试验,先引入随机变量(random variable)的概念。一、 随机变量 概念:如果每次实验的结果可用变量X的某个值或某些值表示,且对于任何实数S,XS有确定的概率。 即:随机实验中被测定的量。 【例4.3】 对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、 “1头治愈”、“2头治愈”、“”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、2、100。 【例4.4】 孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。 若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。 【例4.5】 测定某品种猪初生重 ,表示测定 结 果 的 变 量 x 所 取的值为一个特定范围(a,b),如0.51.5kg,x值可以是这个范围内的任何实数。 如果随机变量x,其可能取值至多为可列个 ,且以各种确定的概率取这些不同的值,则称x为离散型随机变量( discrete random variable); 如果随机变量x ,其可能取值为某范围内的任何数值 ,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量( continuous random variable)。 二、离散型随机变量的概率分布 如果我们将离散型随机变量x的一切可能取值xi ( i=1, 2 , ),及其对应的概率pi,记作 P(x=xi)=pi i=1,2, (43) 则称 (43)式为离散型随机变量x的概率密度函数。常用 分 布 列 (distribution series)来表示离散型随机变量: x1 x2 xn .p1 p2 pn 具有pi0和pi=1这两个基本性质。 离散型随机变量x的概率分布函数:随机变量大于或小于某一个可能值(x0)的概率。 F(x0)F(x)的性质:(1)0F(x)1 (2)F(x1)F(x2)(当x1x2) (3)例:1,2,2,2,3,3六个球,每次取一个,则: P(X1)1/6,P(X2)3/6, P(X3)2/6 0 X01 1/6 1 X02 F(X0) 2/3 2 X03 1 X03三、连续型随机变量的概率分布 连续型随机变量 (如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。改用随机变量x在某个区间内取值的概率P(axb)来表示。 下面通过频率分布密度曲线予以说明。 表2-7 126头基础母羊的体重的次数分布表 作资料的频率分布直方图,图中纵座标取频率与组距的比值。如果样本取得越来越大(n+),组分得越来越细(i0),某一范围内的频率将趋近于一个稳定值 概率。频率分布直方图各个直方上端中点的联线 频率分布折线将逐渐趋向于一条曲线,换句话说,当n+、i0时,频率分布折线的极限是一条稳定的光滑的函数曲线。曲线排除了抽样和测量的误差 ,完全反映了基础母羊体重的变动规律。 这条曲线叫概率分布密度曲线,相应的函数叫 概率分布密度函数。 设X落在(x,x+x)的概率为P(xxx+x) 当x0时,为概率分布密度函数。 f(x)= x取值于区间a,b)的概率为概率分布函数 P(axb)= =F(b)-F(a) (4-4) 连续型随机变量概率分布的性质: 1、分布密度函数总是大于或等于0,即f(x)0; 2、当随机变量x取某一特定值时,其概率等于0;即 (c为任意实数) 因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。 3、 在一次试验中随机变量x之取值 必在-x+范围内,为一必然事件。所以 (4-5) (45)式表示分布密度曲线下、横轴上的全部面积为1。 第三节 正态分布 连续型随机变量的概率分布。 意义:1. 许多变量是服从或近似服从正态分布的,是统计分析方法的基础(试验误差属于正态分布)。 2. 不少随机变量的概率分布在一定条件下以正态分布为其极限分布。 一、正态分布的定义及其特征 (一) 定义 若连续型随机变量x的概率分布密度函数: 平均数,2方差,则称随机变量x服从正态分布记为xN(,2)。 相应的概率分布函数: (二) 正态分布的特征 1、密度曲线是单峰、对称的悬钟形曲线,对称轴为x=; 2、f(x) 在x = 处达到极大,极大值 ;平均数、中位数、众数同一; 3、f(x)是非负函数,以x轴为渐近线,分布从-至+; 4、在x=处各有一个拐点,即曲线在(-,-)和(+,+) 区间上是下凸的,在-,+区间内是上凸的; 5、正态分布有两个参数:、,是一簇曲线; 是位置参数, 当恒定时,愈大,则曲线沿x轴愈向右移动;反之,愈小,曲线沿x轴愈向左移动。 是变异度参数,当恒定时,愈大,表示 x 的取值愈分散, 曲线愈“胖”;愈小,x的取值愈集中在附近,曲线愈“瘦”。 6、分布密度曲线与横轴所夹的面积为1,即: 7.次数集中在附近,越远越少。 1 面积 0.6827 2 0.9543 3 0.9973 P (-1.96x+1.96) =0.95 P (-2.58x+2.58)=0.99二、标准正态分布 正态分布是依赖于参数和2 (或) 的一簇分布,曲线之位置及形态随和2的不同而不同 。 需将一般的N(,2) 转 换为 正态分布。 =0,2=1的正态分布为标准正态分布,概率密度函数及分布函数分别记作(u)和(u) : (4-8) (4-9) 随机变量u服从标准正态分布,记作uN(0,1) 。 对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换: u=(x-) u 称 为 标 准 正 态变量或标准正态离差(standard normal deviate)。 附表1、附表2 u=(x-),得dx=du,故有其中,三、正态分布的概率计算 (一)标准正态分布的概率计算 例,u=1.75 (1.75)=0.95994 如果给定(u) ,如 (u)=0.284, 反过来查u值。在附表1中找到与0.284 最接近的0.2843,u = - 0.57,即 (-0.57)=0.284 利用下列关系式,可计算常用概率: P(0uu1)(u1)-0.5 P(uu1) =(-u1) P(uu1)=2(-u1) P(uu11-2(-u1) P(u1uu2)(u2)-(u1) 例1 已知uN(0,1),试求: (1) P(u-1.64)? (2) P (u2.58)=? (3) P (u2.56)=? (4) P(0.34u1.53) =? 解:(1) P(u-1.64)=0.05050 (2) P (u2.58)=(-2.58)=0.024940 (3) P (u2.56) =2(-2.56)=20.005234 =0.010468 (4) P (0.34u1.53) =(1.53)-(0.34) =0.93669-0.6331=0.30389 关于标准正态分布,以下几种概率应当熟记: P(-1u1)=0.6826 P(-2u2)=0.9545 P(-3u3)=0.9973 P(-1.96u1.96)=0.95P (-2.58u2.58)=0.99 u变量在上述区间以外取值的概率分别为: P(u1)=2(-1)=1- P(-1u1) =1-0.6826=0.3174 P(u2)=2(-2) =1- P(-2u2) =1-0.9545=0.0455 P(u3)=1-0.9973=0.0027 P(u1.96)=1-0.95=0.05 P(u2.58)=1-0.99=0.01 (二)一般正态分布的概率计算 【例4.7】 设x服从=30.26,2=5.102的正态分布,试求P(21.64x32.98)。 令 则u服从标准正态分布,故 =P(-1.69u0.53) =(0.53)-(-1.69) =0.7019-0.04551 =0.6564 P(-x+)=0.6826 P(-2x+2) =0.9545 P (-3x+3) =0.9973 P (-1.96x+1.96) =0.95 P (-2.58x+2.58)=0.99四、双侧概率(两尾概率)和单侧概率 随机变量x落在平均数加减不同倍数标准差区间之外的概率称为双侧概率(两尾概率),记作。 对应于双侧概率可以求得随机变量x小于-k或大于+k的概率,称为单侧概率(一尾概率),记作2。 例如,x落在(-1.96,+1.96)之外的双侧概率为0.05,而单侧概率为0.025。即 P(x-1.96)= P(x+1.96)=0.025 x落在(-2.58,+2.58)之外的双侧概率为0.01,而单侧概率 P(x-2.58)= P(x+2.58)=0.005 【例4.8】 已知猪血红蛋白含量x服从正态分布 N ( 12.86,1.332 ), 若 P (x L1 ) =0.03, P(x L2 )=0.03,求L1 , L2 。 解: 由题意可知,2=0.03,=0.06 由附表2查得: =1.880794 , 所以 ( L1 -12.86)/1.33=-1.880794 (L2 -12.86)/1.33=1.880794 即 L1 10.36,L2 15.36。 第四节 二项分布 一、贝努利试验及其概率公式 条件1:将某随机试验重复进行n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这n次试验是独立的。 条件2:对于n次独立的试验 , 如果每次试验结果出现且只出现对立事件A与 之一,在每次试验中出现A的概率是常数p(0p1), 因而出现对立事件 的概率是1-p=q,则 称 这一串重复的独立试验为n重贝努利试验,简称贝努利试验(Bernoulli trials )。 在生物学研究中,如入孵n枚种蛋的出雏数、n头病畜治疗后的治愈数、n 尾鱼苗的成活数等,可用贝努利试验来概括。 在n重贝努利试验中,事件 A 可能发生0,1,2,n次,现在来求事件A 恰好发生k(0kn)次的概率Pn(k)。 先取n=4,k=2来讨论。在4次试验中,事件A发生2次的方式有以下 种: 其中Ak(k=1,2,3,4)表示事件A在第k次试验发生; (k=1,2,3,4)表示事件A在第k次试验不发生。由于试验是独立的,按概率的乘法法则,于是有 P( )=P( )= P( )= P( )P( )P( )P( )= 又由于以上各种方式中,任何二种方式都是互不相容的,按概率的加法法则,在4 次试验中,事件A恰好发生2次的概率为 P4(2) = P( ) + P( ) + + P( )= 一般,在n重贝努利试验中,事件A恰好发生k(0kn)次的概率为 k=0,1,2,n (4-14) 若把(4-14)式与二项展开式相比较,在n重贝努利试验中,事件A发生k次的概率恰好等于 展开式中的第k+1项,所以也把(4-14)式称作二项概率公式 。二、二项分布的意义及性质 二项分布:事件发生只有两种互不相容的可能结果,结果在实验中所造成的各种可能的概率分布。设随机变量x所有可能取的值为零和正整数:0,1,2,,n,且有 = k=0,1,2,n 其中p0,q0,p+q=1,则称随机变量x服从参数为n和p的二项分布 (binomial distribution),记为 xB(n,p)。 参数n称为离散参数,只能取正整数;p 是连续参数,它能取0与1之间的任何数值(q由p确定,故不是另一个独立参数)。 二项分布具有概率分布的一切性质,即: 1、P(x=k)= Pn(k) (k=0,1,,n) 2、二项分布的概率之和等于1,即3、 (4-15)4、 (4-16)5、 (m1m2) (4-17) 二项分布的性质n 二项分布由n和p两个参数决定: 1、当p值较小且n不大时(np5),分布是偏倚的。但随着n的增大,分布逐渐趋于对称; 2、当 p 值 趋 于 0.5 时 ,分 布 趋于对称; 3、对于固定的n及p,当k增加时,Pn(k)先随之增加并达到其极大值,以后又下降。n 在n较大,np、nq (np5)较接近时 ,二项分布接近于正态分布;当n时,P 0.1,二项分布的极限分布是正态分布。三、二项分布的概率计算及应用条件 例1 纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论 , 子二代中白猪与黑猪的比率为31。求窝产仔10头,有7头白猪的概率。 解:n=10,p=34=0.75,q=14=0.25。设10头仔猪中白色的为x头,则x为服从二项分布B(10,0.75)的随机变量。于是概率为: 例2 设在家畜中感染某种疾病的概率为20,现有两种疫苗,用疫苗A 注射了15头家畜后无一感染,用疫苗B 注射 15头家畜后有1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗? 假设疫苗A完全无效,那么注射后的家畜感染的概率仍为20,则15 头家畜中染病头数x=0的概率为 同理,如果疫苗B完全无效,则15头家畜中最多有1头感染的概率为 可知 , 注射 A 疫苗无效的概率为0.0352,比B疫苗无效的概率0.1671小得多。因此,可以认为A疫苗是有效的,但不能认为B疫苗也是有效的。 例3 仔猪黄痢病在常规治疗下死亡率为20,求5 头病猪治疗后死亡头数各可能值相应的概率。 设5头病猪中死亡头数为x,则x服从二项分布B(5,0.2),其所有可能取值为0,1,5,用分布列表示如下: 0 1 2 3 4 5 0.3277 0.4096 0.2048 0.0512 0.0064 0.0003例4:棕色正常毛(bbRR)和黑色短毛(BBrr)杂交,问需多少F2代家兔才能以99的概率获得一个棕色短毛兔,解:非bbrr为15/16,bbrr为1/16 出现1个bbrr: 出现2个bbrr:出现n个bbrr: 出现0个bbrr:10.990.01 n=(lg15-lg16)=0.01,n=71.4 二项分布的应用条件有三: (1)各观察单位只具有互相对立的一种结果,如阳性或阴性, 生存或死亡等, 属于二项分类资料; (2)已知发生某一结果 (如死亡) 的概率为p,其对立结果的概率则为1-P=q,实际中要求p 是从大量观察中获得的比较稳定的数值; (3)n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。四、二项分布的平均数与标准差 统计学证明,服从二项分布B(n,p)的随机变量之平均数、标准差与参数n、p有如下关系: 当试验结果以事件A发生次数k表示时 =np = 当试验结果以事件A发生的频率kn表示时 也称为总体百分数标准误,当 p 未 知时,常以样本百分数 来估计。此时 : = 称为样本百分数标准误。 第五节 波松分布 用来描述和分析随机地发生在单位空间或时间里的稀有事件的概率分布。 P0.1,n np 5 应用:如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。 一、波松分布的意义 若随机变量x(x=k)只取零和正整数值0,1,2,且其概率分布为 , k=0,1, (4-23) 其中0;e=2.7182 是自然对数的底数,则 称 x 服从参数为的波松分布(Poissons distribution),记 为 xP()。 波松分布重要的特征: 平均数和方差相等,都等于常数,即 =2= 例1 调查某种猪场闭锁育种群仔猪畸形数,共记录200窝, 畸形仔猪数的分布情况如表4-3所示。试判断畸形仔猪数是否服从波松分布。 表4-3 畸形仔猪数统计分布 样本均数和方差S2计算结果如下: =fk/n =(1200+621+152+23+14)/200 =0.51 =0.51,S2=0.52,这两个数是相当接近的 , 因此可以认为畸形仔猪数服从波松分布。例:某小麦品种在田间的变异概率为0.0045,计算:(1)调查100株,获2株或2株以上的变异植株的概率 (2)期望以99获得1株或1株以上的变异植株,至少要调查多少株?解:np1000.00450.45 P(0) 0.6376P(1) 0.2869P(x2)1P(0)P(1)0.0755(2)P(0) 0.01n=1023株 波松分布性质: 是波松分布所依赖的唯一参数。 值愈小分布愈偏倚,随着的增大,分布趋于对称。当= 20时分布接近于正态分布;当=50时,认为波松分布呈正态分布。在实际中,当20时就可以用正态分布近似处理。 二、波松分布的概率计算 代入公式计算; 但在大多数服从波松分布的实例中,分布参数往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为 的 估计值。 如上例中已判断畸形仔猪数服从波松分布,并已算出样本平均数=0.51。将0.51代替公式(4-23)中的得: (k=0,1,2,) 因为e-0.51=1.6653,所以畸形仔猪数各项的概率为: P(x=0)=0.510(0!1.6653)=0.6005P(x=1)=0.511(1!1.6653)=0.3063P(x=2)=0.512(2!1.6653)=0.0781 P(x=3)=0.513(3!1.6653)=0.0133P(x=4)=0.514(4!1.6653)=0.0017 把上面各项概率乘以总观察窝数(n=200)即得各项按波松分布的理论窝数。 波松分布与相应的频率分布列于表44中。 表44 畸形仔猪数的波松分布 将实际频率与计算的概率相比较 ,发现畸形仔猪的频率分布与 =0.51 的波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。 例2 为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数,共得400个记录如下: 试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与波松分布作直观比较。 经计算得每毫升水中平均细菌数 =0.500,方差S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。以=0.500代替(4-23)式中的,得 (k=0,1,2)计算结果如表45所示。 表45 细菌数的波松分布 可见细菌数的频率分布与=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积)中细菌数的分布是适宜的。 注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。 前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布。三者间的关系如下: 对于二项分布,在n,p0, 且 n p =(较小常数)情况下 ,二项分布 趋于 波 松布。在这种场合,波松分布中的参数 用二项分布的n p代之;在n, p0.5时 , 二项分布趋于正态分布。在这种场合 ,正态分布中的 、2用二项分布的n p、n p q代之。在实际计算中,当p0.1且n 很大时 , 二项分布可由波松分布近似;当p0.1且n很大时 ,二项分布可由正态分布近似。 对于波松分布,当时 ,波松分布以正态分布为极限。在实际计算中, 当 20 (也有人认为6)时,用波松分布中的代替正态分布中的及2 ,即可由后者对前者进行近似计算。 第六节 样本平均数的抽样分布 研究总体与从中抽取的样本之间的关系是统计学的中心内容 。 其研究可从两方面着手,一是从总体到样本 抽样分布(sampling distribution) ; 二是从样本到总体统计推断(statistical inference) 。 统计推断是以总体分布和样本抽样分布的理论关系为基础的。 从总体中按一定的样本容量随机地抽取所有可能的样本,其统计量(如,S)将随样本的不同而有所不同,样本统计量(随机变量)的概率分布统计量的概率分布称为抽样分布。 一、
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!