概率与理论分布

资源描述

,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,生物统计学,主讲教师：宋喜娥,第四章概率与理论分布,第一节事件、概率和随机变量,第二节二项式分布,第三节普松分布,第四节正态分布,第五节抽样分布,第一节事件、概率和随机变量,事件和事件发生的概率,事件之间的关系,计算概率的法则,随机变量,第四章,一、事件和事件发生的概率,事件：,每种可能出现的情况称为事件。它是指事物发生某种情况或试验中获得某种结果。,概率：,就是用来度量每一事件出现的可能性大小的数字特征。,频率：,在n次试验中，事件出现的次数叫做在这n次试验中的频数，而的频数与试验次数的比叫事件在n次试验中出现的频率记为,频率和概率是不相同的，只有当试验次数无限增大时，任一事件的频率趋于稳定，这时频率又称统计概率这时的频率和概率才是一样的,调查株数（n）,受害株数（a）,植株受害频率,（a/n）,0.40,0.48,0.30,0.33,0.36,0.354,0.351,0.350,0.352,随机事件：,指在同一组条件下，可能发生也可能不发生的事件。也就是说，在某一特定的条件下，可能这样出现也可能那样出现，可能发生的只是其中的几种情况，这种事件称为随机事件。,二、事件之间的关系,和事件：,事件A和事件B至少有一个发生构成的新事件称事件A和事件B的和事件。记作A+B。,积事件：事件A和事件B同时发生构成的新事件，又叫变事件，记作AB,互斥事件：A和B不可能同时存在（或发生）即AB为不可能事件，那么称事件A和事件B是互斥事件。,对立事件：事件A和B不可能同时发生，但必须发生其一，即A+B为必然事件，AB为不可能事件，这样A、B互为对立事件 B是A的对立,记为,完全事件系：n个事件两两互斥，且每次试验必有其一出现。则这n个事件构成完全事件系。,事件的独立性（独立事件）：事件A发生与否不影响事件B发生的可能性，反之亦然，那么就称事件A对于事件B是独立的。简称独立事件。,三、计算概率的法则,法则,1,：,互斥事件的加法：假定两互斥事件的概率分别为,P,（,A,）和,P,（,B,）。则事件,A,与,B,的和事件的概率等于事件,A,的概率与事件,B,的概率之和，即 P(A+B)=P(A)+P(B)。加法定理对于多个两两互斥的事件也成立。P(A+B+,+N)=P(A)+P(B)+P(N),。,推理,1,：,完全事件系的概率：完全事件系的和事件概率,等于,1,。P(A+B+,N)=P(A)+P(B)+P(N)=1,。,推理,2,：,对立事件的概率：对立事件的概率互补。若事件,A,的概率为,P,（,A,），那么其对立事件的概率为,因为,法则2：,独立事件的乘法：假定P（A）和P（B）是两个独立事件A与B 各自出现的概率，则事件A与B同时出现的概率就等于两独立事件出现概率的乘积，即，乘法定理对于n个相互独立的事件也成立，即,推理1：,若n个事件A、B、N彼此独立，且当P(A)=P(B)=P(N)时，则P(ABN)=P(A),n,。,推理2：,非独立事件的乘法：如果事件A和B是非独立的，那么事件A与B同时发生的概率为事件A的概率P（A）乘以事件A发生的情况下事件B发生的概率P（B/A），即,（）（）（）,四、随机变量,随机变量：,是指从随机变数中所取得的某一实数值。,随机变量,离散型随机变量,连续型随机变量,离散型随机变量：,试验只有几个确定的结果，并可一一列出，变量y的取值可用实数表示，且y取某一值时，其概率是确定的，这种类型的变量称为离散型随机变量。将这种变量所有可能取值及其对应概率一一列出所形成的分布称离散型随机变量的概率分布，也可用函数f(y)表示，称为概率函数。,连续型随机变量：,变量y的取值仅是一个范围，且y在该范围内取值时，其概率是确定的。这时取y为一固定值是无意义的，因为在连续尺度上一点的概率几乎为0。这种类型的变量称为连续型随机变量。,对于随机变量，若存在非负可积函数对任意a和b(ab)都有则称y为连续型随机变量，f(y)称为y的概率密度函数或分布密度。因此，它的分布由密度函数所确定。若已知密度函数，则通过定积分可求得连续型随机变量在某一区间的概率。,第二节二项式分布,二项总体、二项式分布,二项式分布的概率的计算方法,二项式分布的形状和参数,第四章,一、二项总体、二项式分布,二项总体：,这种由“非此即彼”的事件构成的总体，叫做二项总体。为便于研究，通常将二项总体中的“此”事件以变量“1”表示，记为概率p；将“彼”事件以变量“0”表示，具概率q。因此二项总体又称为“0、1”总体，其概率为p+q=1或q=1-p。,第四章,二项式分布：,如果从二项总体抽取n个个体，可能得到y个个体属于“此”，那么属于“彼”的个体为n-y。由于是随机独立地从总体中抽取个体的，每项一次抽取的个体均有可能属于“此”，也有可能属于“彼”，那么得到的y个“此”个体的数目可能为0、1、2、n个。此处将y作为间断性资料的变量，则y共有n+1种取值，这n+1种取值又各有其概率，因而由变量及其概率就构成了一个分布，这个分布叫做二项式概率分布，简称二项式分布或二项分布。,二、二项式分布概率的计算方法,举例说明：大豆子叶颜色由2对隐性重叠基因控制，在其F,2,代黄子叶表现为显性，黄和青以3:1比例分离。（以二粒荚为例来说明）。,全部可能的结果有四种：,两粒都是黄的（YY）,3/43/4=9/16,第一次是青的第二次是黄的（GY）,1/43/4=3/16,第一次是黄的第二次是青的（YG）,3/41/4=3/16,两粒都是青的（GG）,1/41/4=1/16,假设y(黄子叶粒数）为变量，黄色子叶的概率为0.75，青色子叶的概率为0.25。那么其概率分别为（见上面）。,如果一粒豆荚中有三粒种子，那么就有8种可能的情况。,全部是青子叶（GGG）,1/64,仅有一粒黄子叶种子（GGY、GYG、YGG）,9/64,具有两粒黄了叶种子（YYG、YGY、GYY）,27/64,全部是黄子叶种子（YYY）,27/64,数学上的组合公式为,n相当于豆荚内种子数，y相当于黄子叶种子数。因此,由此可以推知二项分布的概率函数为：,例如：某种昆虫在某地区的死亡率为,40%,，即,p=0.4,，现对这种害虫用一种新药进行治疗试验，每次抽样,10,头为一组治疗。试问如新药无疗效，则在,10,头中死,3,头、,2,头、,1,头以及全部愈好的概率为多少？,按照上面的公式进行计算：,7头愈好，3头死去的概率为：,8头愈好，2头死去的概率为：,9头愈好，1头死去的概率为：,10头全部愈好的概率为：,受害株数,概率函数,P,（,y,）,P(y),F(y),nP(y),P,（,0,）,0.1160,0.1160,46.40,P,（,1,）,0.3124,0.4284,124.96,P,（,2,）,0.3364,0.7648,134.56,P,（,3,）,0.1811,0.9549,72.44,P,（,4,）,0.0488,0.9947,19.52,P,（,5,）,0.0053,1.0000,2.12,如果每次抽5个单株，抽n=400次，则理论上我们能够得到y=2的次数应为：理论次数=400P（2）=4000.3364=134.56（次）对于任意y，其理论次数为：理论次数=nP(y)。,三、二项式分布的形状和参数,对于一个二项式总体，如果,p=q,，二项式分布呈对称形状，如果p,q，二项式分布则表现偏斜形状。但如果n,时，即使p,q，二项式总体分布的情况也趋于对称形状，所以二项分布的形状是由,n,和,p,两个参数决定的。,二项总体的平均数,、方差,2,和标准差,的公式为：,=np，,2,=npq，。例如上述棉田受害调查结果，n=5,p=0.35，所以可求得总体参数为：,=np=50.35=1.75株，株。,第三节,普松分布,普松分布的平均数、方差和标准差为：,=m,2,=m,，这一分布包括一个参数,m,（,m=np,），而且其分布的的形状与,m,的大小有关，,m,值越小分布越偏斜，当,m,值适当大时，则分布趋于对称形状。,普松分布的概率函数为:,第四章,第四节,正态分布,正态分布的研究意义,二项式分布的极限正态分布,正态分布曲线的特性,计算正态分布曲线区间面积或概率的方法,第四章,一、正态分布的研究意义,自然界许多现象趋于正态分布,许多其他非正态分布的资料在一定条件下也接近正态分布,绝少部分资料的抽样分布，当n适当大时，接近正态分布,二、二项式分布的极限正态分布,因为正态分布是二项分布的极限，所以可以由二项分布导出正态分布。对于二项分布，当,p=q=0.5,时，无论,n,值大小，二项分布的多边形都必定是对称的；如,p,q,，而,n,又很大时，这一多边仍然是对称的。当,n,时，则可进一步推导出一个表示观察值,y,出现的概率函数方程：,三、正态分布曲线的特性,它是一条对称分布的曲线，且对称轴为,y=,，即以平均数为对称轴。,随着,和,的不同，呈现一系列曲线而并不是一条曲线。,确定它在y轴上的位置，,确定它的变异度。不同,和,的总体具有不同的曲线位置和变异度，所以任何一个正态分布曲线，必须在确定了,和,后，才能确定曲线位置和形状。,从原点所竖立的纵轴是F,N,(y)的最大值y,0,，所以正态分布曲线的算术平均数、中数、众数三者是相等的，都合于,点上。且多数次数分布在平均数附近。,第四章,正态分布曲线在,-,=1,处有拐点，曲线两尾向左右延伸，永不接触，所以y,时，分布曲线以y轴为渐近线。,正态分布曲线与,轴之间的总面积等于1。,正态曲线的任何两个y的定值间的面积或概率完全以曲线,和,而确定。,下面为几对常见的区间与其相对应的面积或概率的数字：,区间,1,面积或概率,=0.6827,2,0.9545,3,0.9973,1.960,0.9500,2.576,0.9900,四、计算正态分布曲线区间面积或概率的方法,如果变数,y,取值介于,a,、,b,之间，且,a,b,P(a,y,b),或者简写为,P(a,y,b),可以通过正态分布曲线下区间的面积来表示其概率。我们知道求曲线下区间的面积，数学上通常用定积分来表示,先将,y,转换为,u,，,转化的公式为：,例题,假定y是一随机变数，具有正态分布，平均数,=30，标准差,=5，试计算小于26，小于40的概率，或者介于26和40之间的概率以及大于40的概率。,查附表2，当,=-0.8时，F,N,（26）=0.2119，说明这一分布从-到26范围内的变量占全部变量数的21.19%，或者说y26的概率为0.2119。,同样计算,（40）,查附表2，当,=+2时，F,N,（40）=0.9773，这指出从-到40范围内的变量数占全部变量数的97.73%，或者说，y40的概率为0.9773。,计算P（26y,40）=F,N,（40）-F,N,（26）,=0.9773-0.2119=0.7654,第五节抽样分布,样本平均数的抽样及其分布参数,样本总和数的抽样及分布参数,两个独立随机样本平均数差数的抽样分布参数,样本平均数的抽样及其分布参数,数理统计的推导表明新总体与母总体之间在特征参数上存在函数关系。以平均数抽样分布为例，这种关系可以表示为两个方面：,1 该抽样分布的平均数与母总体的平均数相等。,0,=,该抽样分布的方差与母总体的方差之间存在以下关系,相应地,样本总和数的抽样及分布参数,该抽样分布的平均数与母总体平均数间的关系：,该抽样分布的方差与母总体方差间存在以下关系,两个独立随机样本平均数差数的抽样分布参数,该抽样分布的平均数与母总体的平均数之差相等,该抽样分布的方差与母总体方差间的关系,

展开阅读全文

概率与理论分布

最新文档