资源描述
第四章 概率分布 在自然界或人类社会中发生的各种现象通常可划分为两类: 确定性现象(definite peoena)-一定条件下必然发生的现象; 随机现象(rndompheomena)-一定条件下可能发生、但结果不止一个、哪个结果发生预先并不知道的。比如,抛掷一枚硬币. 随机现象的统计规律-随机现象虽然表现为不确定性,但在大量重复试验观测下,其结果会呈现出某种特定的规律,称作随机现象的统计规律.如:掷一枚硬币,正面朝上的频率接近0。5。 概率分布就是描述随机现象的统计规律。 本章主要介绍:事件和概率 二项分布和泊松分布 正态分布 抽样分布 第一节 事件和概率 一、事件 1、随机试验 满足下述三个条件的试验称为随机试验(an experien): 试验可在相同条件下重复进行; 试验的所有可能结果是明确可知的,并且不止一个; 每次试验总是恰好出现这些可能结果中的一个,但在试验之前却不能肯定会出现哪一个结果. 在统计学里随机试验可简称为试验。 、事件 (evnt)试验中所观察到的结果。 3、 基本事件 随机试验的每一个可能结果,称为基本事件(eementary et)或简单事件(simple evnt),不可再分。 4、复合事件 由若干个基本事件组合而成的事件,称复合事件(cmpound event),也称作复杂事件 、必然事件每次试验中一定发生的结果称作必然事件(erai evnt) ,用表示。 、不可能性事件在任何一次试验中都不可能发生的结果称作不可能事件(impoibe ven).用表示. 7、随机事件每次试验中可能发生也可能不发生的结果称作随机事件(radom vet)。用A、B、C等表示。二、 事件之间的关系和运算 1、包含 若事件A的发生必导致事件B发生,则称事件B包含事件, 。 2、相等 则称事件A等于事件B,记作=B。 3、和 若事件A与事件至少一个发生某事件就发生,则某事件称作A与的和事件,简称为和,记作 (读作A并B),或A+(读作加B). 推广到n个事件的和: 4、积 若事件与事件同时发生某事件才发生,则称某事件为A与B的积事件,简称为积,记作 ,读作A交)或AB(读作A乘B)。 推广到个n个事件的积: 5、差 称事件发生但事件B不发生的事件为A减B的差事件,简称为差,记为A-B. 6、互斥 若事件与事件不能同时发生,则称与互斥或互不相容。互斥包括非此即彼的情形,但互斥不一定是非此即彼,事件关系满足 。 、对立 称事件A不发生就发生的事件为A的对立事件,记为 。事件的发生非此即彼,显然 、独立 若事件发生的概率不影响事件B发生的概率,则称事件与事件相互独立,反之亦然,A与B是一对彼此独立的事件。 注意独立与互斥、对立的区别,互斥指两事件不能同时发生,满足 ;独立指一事件发生的概率与另一事件发生的概率无关 ,对立事件互斥但不独立,因为它们满足 9、完备事件系若个A1、 A2、 An事件两两互斥,且满足下式: 则称该个事件为一个完备事件系。注意,概率之和等于1并且两两互斥的事件系才是完备事件系,两个条件缺一不可。 例4.1用“集合图”描述事件之间的关系和运算,并理解和掌握它们的实际意义。 图4.1 事件之间的关系和运算三、概率 用于度量事件发生可能性大小的数值称作事件的概率(probabity)。通常用()、P(B)等表示。事件的概率具有下述性质: 设A为任一事件,则 P() 1; 必然事件的概率为,(W)1; 不可能事件的概率为0,P(F)=0 . 2、概率的统计定义 若在相同条件下将试验重复n 次,且事件A出现了A次,则事件的频率(fruency)定义为 如果随着试验重复次数n的增大,事件A的频率越来越稳定地在某一常数附近摆动,则称常数为事件A的概率(probal),即 这就是统计意义上的概率定义(statistal prbbili)。 历史上曾有几个著名的抛一枚均质硬币试验 (见教材) 许多情况下p很难准确获得.通常以n充分大时事件A出现的频率作为它的概率的估计值,即: 四、概率计算法则 1、对立事件和互斥事件的加法公式 若A和 为对立事件: 若和B为互斥事件:P(A+B) =P(A)+ P() 、独立事件的乘法若、为相互独立事件:P(AB) P(B)P(A) 若A、 A2、 An为独立事件系: P(、 2、An)=P(1)( A2) (A)第二节 随机变量及其分布 一、 随机变量 在随机试验中,被测定的量是可取不同值的变量,且其取值具有随机性,这样的变量称为随机变量,用表示. X的某次取值记作小写的,此时就称作随机变量(randm vriable),就称作随机变量的一个观察值(served value)或简称观测(obseatn)。 间断性(internal vrial )或称为离散(dcrte arib)随机变量如果随机变数只有有限个可能的取值,并在试验中以确定的概率来取这些数值,就称它为间断性(或离散)随机变量。质量性状和计数的数量性状的试验结果常常是间断性随机变量。 连续性随机变量(contiuo riab )-如果随机变数可能的取值充满一个区间,并且试验结果落在任意区间内的概率是确定的,就称它为连续性随机变量。计量性状的试验结果通常是连续性随机变量。 二、 随机变量的概率分布 随机变数可能的取值或取值区间的概率反映了随机变数的统计规律性,称为概率分布。 1、离散(间断性)随机变量的概率分布 所谓离散随机变量的概率分布,就是指概率函数(x)和分布函数(x)两个基本函数,它们提供了概率分布规律的完整信息。 概率函数(proabiliy fion) (x) 设随机变数X可能的取值为x1,2,,k,每个取值对应的概率P(X=xi)为p1,p2,,k, 为离散(间断性)随机变量的概率函数表4.1 间断性随机变量的概率分布列 例4。2转基因桑树植株抗病性检验(邱健德,20),参试植株分两组,即转基因组和一般桑树组,将病级分为,,2,,,级,观测发病的植株数。由于观测数量足够多,故发病的概率近似等于频率,试以此概率为基础求解随机变量的概率函数和分布函数。表42 桑树植株发病级的概率函数和分布函数、连续随机变量的分布 连续性随机变量一般用分布函数F(x)和概率密度函数f() 来表示其概率分布规律 分布函数(概率累积函数) F(X)若X为一连续随机变量, x (-,+)为任意实数,则的分布函数或概率累积函数为:F(X)=P(x) 分布函数F(x)的直观意义就是随机点X落在区间(,x上的概率。概率密度函数(x) 如果存在非负函数f() ,使则称f(x)为连续随机变量的概率密度函数,简称概率密度(prbabiliy density),亦称密度函数(desy unction)或分布密度(istiution deiy)。 连续随机变量在给定区间取值的概率 对于连续随机变量x,若已知它的分布函数F(X),则x的观察值属于任一区间(x,x2的概率可由下式求得:三、大数定律及小概率事件原理 1、大数定律 相同条件下大量重复的试验,事件发生的频率随试验次数的无限增大而趋于事件的概率,这是最早的一个大数定律(l of lrgenumber).一般的大数定律,研究随机变量n次观测的平均数随n无限增大是否趋向某定值的问题,称作平均数的稳定性。如果“无限增大平均数就趋于一个定值”,此时称平均数具有稳定性。 大数定律是许多统计方法赖以成立的理论依据. 称其为统计估计。“大数”就是所谓的“足够多. 2、小概率事件原理 依据大数定律,概率很小的事件其频率也很小,若只做一次试验,该事件实际上应当不会发生。因此,人们常常认为那些概率很小的事件实际上是不可能发生的,此原理称之为“小概率事件的实际不可能原理”,简称作“小概率事件原理 一般认为概率小于0.或小于001的事件为小概率事件,。0和001称为小概率事件的临界概率.对于其它特殊场合,规定的临界概率值可根据事件的性质合理确定。 第三节 二项分布和泊松分布 一、 0-1分布(二项总体分布) 有些总体的各个个体的某种性状,只能发生非此即彼两种结果,“此”和“彼”是对立事件,如,种子的发芽和不发芽等,这种由非此即彼事件构成的总体,叫做二项总体。 为便 于研究,将这类的试验结果数量化,“此”事件设为1,具概率p ,“彼”事件设为0,具概率q,因而,二项总体又称为01总体,其概率关系显然为: + q = 1 = 1p 表3 二项总体的概率分布列 (0-1分布)图4。 0分布的概率函数 例4。3以某试验地的株蔬菜为总体调查蚜虫为害情况。令x=1代表受害,x0代表未受害,5株的观察结果为,1,0,0。试求危害率的数学期望m和方差s2. 说明该试验地蚜虫的平均危害率为0.4,危害率变异的方差为02。此例也说明了二项总体的平均数为m = ,方差为 s2 = 二、二项分布 从二项总体中,每次以样本容量抽样,将会有n+1种可能的结果,这n+1种可能的结果有它各自的概率而组成一种分布,就叫二项概率分布,简称二项分布(binomial dtibuti) 。又称贝努利分布。v 二项展开式三、计算二项分布概率的方法 例4在一批发芽率为。9的种子里取5粒进行发芽试验。以x为发芽粒数,试做出试验结果X的概率分布列。v 四、二项分布的形状和参数u 图45表示表4.的概率分布列。这是一个偏态的概率分布,因为其pq且较小。u 如果q则二项分布是对称的,见图。6。u 理论分析和实践结果都表明当n很大时,即使pq的二项分布其图形也接近对称,见图.。 图4.5 表4.的概率分布图例4.5 某玉米种子发芽率为06,今按设计株距穴播,若每穴播4粒,预计田间保苗率是多少? 首先考虑,这里的田间保苗率实际上是每穴有种子发芽的概率,这是一个和事件,可计算为可知此时,田间预计保苗率为97.4 v 例4。6在已往大规模田间播种作业中,已观测到种子的出苗概率为。若每穴播10粒,试确定播种作业的穴粒数分布,求出在此出苗概率(0。6)下,田间保苗率95的最少穴粒数。v 解:设出苗种子数为随机变量,服从二项分布。其概率函数为 表. 田间播种作业穴粒数的概率函数和分布函数(103) 设:田间保苗率大于5时,最少穴粒数为每穴n粒。 与上题相同,田间保苗率实际上是每穴有种子发芽的概率,因此:至少一粒种子出苗的概率如下: 由此可见,穴粒数达4粒以上就可基本保证每穴必出苗,最佳穴粒数定为4。五、泊松分布 当n较大,p或q较小,np或n5时,二项分布将为泊松分布(Possn stribtion)所接近。令lp,则泊松分布的概率分布为v 记作p(l)。泊松分布的概率函数仅含一个参数,意味着只要获知l ,概率函数就被完全确定。v 泊松分布的期望和方差相等且均为l,这是泊松分布所特有的性质。如果试验次数很大,某事件出现的次数很小,那么此事件的出现次数将服从泊松分布。 v 泊松分布的概率函数图形见图4。11。图49 泊松分布的概率函数v 例411为考察果树品种A和B的幼苗在某栽植地区的抗寒力及分布,设置20个面积相等且足够大的抽样小区,观测小区寒害株数(小区内遭受寒害的株数),观测结果为0,1,2,3,4和5.统计寒害株数相同的小区数(小区寒害次数),计算小区寒害率(小区寒害次数与观测小区总数之比),结果见表。6。试用泊松分布预测小区寒害率并与观测结果比较,同时考察两品种抗寒力的差异。表. 两果树品种的小区寒害株数、次数和寒害率的观测结果v 品种A:v 品种B: v 品种A的泊松分布概率函数v 品种的泊松分布概率函数v 图4。11 品种B小区寒害率的观察值与泊松预测值v 一批种子中不合格种子占00,从中抽取800粒,试求其中不合格种子恰有1粒和不多于5粒的概率。v 因为80,p=0。005,p5,所以可按泊松分布来计算。v 后者也可以在泊松分布累积函数表中查出。 第四节 正态分布v 正态分布是田间试验与统计分析中最重要的一种分布:v 生物科学的许多随机变量均服从正态分布,比如产量、株高、生物量等; v n趋于无穷大,任意分布平均数的分布均趋于正态分布,这意味着n足够大时可用正态分布近似平均数的分布; v n趋于无穷大,二项分布、泊松分布等许多分布都趋于正态分布,这意味着n足够大时可用正态分布近似这些分布; v 三大抽样分布t、c2和F均源于正态分布总体的抽样,而它们又是形成统计方法的基础。一、正态总体分布 随机变数X服从正态分布记为X(m,s)s2) 正态分布的概率密度函数为 正态分布的概率累积函数为二、正态分布曲线的性质、正态分布曲线以总体平均数m为中心,向左右两侧对称分布.2、正态分布曲线是一单峰曲线,总体平均m对应的概率密度最大,左右两侧离m越远对应的概率密度越小。、总体平均数m决定曲线的中心位置,标准差s决定曲线的变化率。 m和s不同的总体其正态分布曲线的位置和形状各异,因此正态分布曲线是以参数m和s的不同而变化的曲线系统。4、正态分布曲线在m 1s处有拐点,两尾向左右无限延伸,以横轴为渐近线,全距为至。5、无论m和s为多少,正态分布曲线与横轴间的总面积都等于1,意为随机变数X的取值位于至之间的概率为1,即6、无论m和s为多少,随机变数的取值落在任意区间(a,b)的概率为直线x=和x=b与正态分布曲线和横轴间的面积,即:表4.7 几个常见区间所对应的概率图412 正态概率密度曲线及随的变化(固定)图4.13 正态概率密度曲线及随的变化(固定)图4。1 正态分布曲线正态分布的概率计算n 随机变数X在(a,b)范围内的概率等于X在(a,b)范围内的定积分:n 计算曲线下从到的面积其式如下:n N()称为正态分布的累积函数或分布函数,具平均数 m和标准差s,(x)为概率密度函数。(Xx)+ P()=1得v 得变量在任意区间(x1, x2)内取值的概率如下v 例43设U(,1),试计算 P( 2.1)、 (U13)、 P(U1)、 P(U2)、 P(U|3)v 由正态分布函数表(附表1)查得: (.) =0179、(1.3) =0。91、(1) 43、 () = .157、 () 09772、 (2) 0028、(3)=0.987、(-3) =000v P(U 2。1) =(2.1) =0.079v (U。38)=1 P(U1.3) =1 .91620838v P(|U1)= ( 1)= (1) (1) =.813 0。158=.6826v ()=0。9545v P(|U)09973图4。16 正态累积函数的图示图418 标准正态分布的概率计算v 例。14设XN(3,9),试计算P(X )、 P(X 753)、 P(|X| 3.9)、 P(|X|39)v 由附表1查得 : (1.4) =0。00、(151) =0945、(0。) =0。6179、(-.3) = 。0107、图4。19 任意正态分布的概率计算v 假定是一个随机变量,服从m=30,s的正态分布,即:X N(3,2)。试求其取值小于26,大于40和介于26和0之间的概率。v 本例不是标准正态分布,须经标准化后才能可求出落于各区间的概率。v 查附表2:(0。)0。2 v 例4。9试求正态分布曲线对应中间概率为0。95和两尾概率为01时随机变数X的取值区间。v 设对应中间概率为0。95的取值区间为(x,2),即P(x1Xx)=。经标准化变换后v 查附表,(96)0.025, (9)0975,于是有u11。96,u2=1.96,即 P(.96U196)0.5,或 P(U|1。6)0。5。也即 P(m1.96sXm +1。6s)=0。5,或 P(m。s)= 0.95。v 同理可得(2.58)0.0, (2。58)=0.99,于是有1-2.8,=2。58,即 P(U2.58)001.也即P(m-2。58s)+(m+2。5s)=.01,或 P(Xm2.58s)=001. 图4。2 中间概率和两尾概率的图示v 中间概率对应的随机变数的取值区间一般称为接受区,两尾或一尾概率对应的取值区间一般称为否定区,接受区与否定区的界限称为临界值。上述问题的实质在于计算中间概率(|)为1-a或两尾概率P(U u)为a时的临界值,也可利用正态离差表(附表2)很方便地查到。例如,查附表2中当a为005时,0.051959964,v 即表示(|U1。959964)=。95 (|U1。9964)=0。05;v 当a为0.01时,0。01=575 2,v 表示(2.57 829)=.9 P(U2.57 89)=0。01。v 一尾的 a值等于附表3中两尾2a的值。一尾的ua两尾的u2av 例如,一尾概率为0。05时,u0.等于附表2中两尾的u10=。64 854;一尾概率为.时,001等于附表中两尾的u0。02=26 38。第五节 抽样分布v 一、总体与样本的关系:v 第一个方向是从总体到样本 从一般到特殊 其目的是研究从总体中抽出的所有可能样本统计量的分布及其与原总体的关系。 v 第二个方向是从样本到总体 从特殊到一般 用样本对总体参数作出推断。 二、v 3、从具有总体平均数 m,总体方差2的正态分布总体抽样,无论样本容量大或小,其样本平均数的抽样分布必做正态分布,具有v 4、从具有总体平均数m ,总体方差2的任一总体抽样,不管其是否服从正态分布,样本容量增大时,样本统计数的分布将趋近于正态分布中心极限定理s02是直接用计算的方差, s是用自由度计算的方差v 例从N(,072)总体中,以=4抽样,试求:三v 1、样本总和数分布的平均数等于总体平均数的倍v 2、样本总和数分布的方差等于总体方差的n倍四、样本平均数差数分布的基本性质v 性质、如果两个总体各作正态分布,则其样本平均数差数 准确地遵循正态分布律,无论样本容量大或小,都有v 性质2、两个样本平均数差数分布的平均数必等于两个总体平均数的差数。v 性质3、两个样本平均数差数分布的方差,必等于两个总体的样本平均数方差的总和。v 其差数标准误为:v 从两个总体抽出的样本平均数的次数分布表样本平均数差数的次数分布表v 样本平均数差数分布的平均数和方差计算表 由上表可算得: 五、二项总体的抽样分布v (一)二项总体的分布参数v (二)二项成数(百分数)的分布参数v (三)二项次数(总和数)分布的参数二项总体的抽样分布本章学习要点v 、理解二项总体、二项分布的概念,掌握二项分布的概率计算。v 2、理解正态分布的性质,掌握正态分布的概率计算。v 3、理解并掌握抽样分布的性质。v 不足之处,敬请谅解vv8 / 8
展开阅读全文