《常用概率分布》PPT课件.ppt

上传人:za****8 文档编号:3163357 上传时间:2019-12-06 格式:PPT 页数:105 大小:2.23MB
返回 下载 相关 举报
《常用概率分布》PPT课件.ppt_第1页
第1页 / 共105页
《常用概率分布》PPT课件.ppt_第2页
第2页 / 共105页
《常用概率分布》PPT课件.ppt_第3页
第3页 / 共105页
点击查看更多>>
资源描述
1,兽医统计学,第四章分布与统计推断,2,第四章分布与统计推断,第一节事件与概率第二节概率分布第三节正态分布正态分布的定义及其特征标准正态分布正态分布的概率计算第四节二项分布与波松分布第五节样本平均数的抽样分布样本平均数抽样分布标准误第六节卡方分布、t分布和F分布第七节统计推断的意义与原理第八节参数估计,第四章分布与统计推断,为了便于理解统计分析的基本原理,正确掌握和应用以后各章所介绍的统计分析方法,本章介绍概率论中的部分基本概念事件、概率;在此基础上介绍生物科学研究中常用的随机变量的概率分布正态分布、二项分布、样本平均数的抽样分布和t分布等。,4,第一节事件与概率,(一)必然现象与随机现象,必然现象在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生),这类现象称为必然现象或确定性现象。随机现象另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为随机现象或不确定性现象,5,第一节事件与概率,(一)必然现象与随机现象,在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性频率的稳定性。通常称之为随机现象的统计规律性。,随机现象的特点,6,第一节事件与概率,(一)必然现象与随机现象,在投掷硬币时,如果仅投3次,我们很难确定有几次投掷出现正面、几次出现反面。但是,当我们头次次数大量增加时,如投掷1000次,此时,正面与反面出现的机会相差不大,均为500次左右。这就是我们所谓的出现的统计规律。,7,第一节事件与概率,(二)随机试验与随机事件,试验:通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为试验。随机试验:当而一个试验如果满足下述三个特性,则称其为一个随机试验,试验可以在相同条件下多次重复进行;每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;每次试验总是出现这些可能结果中的一个,但在一次试验之前却不能肯定会出现哪一个结果。,8,第一节事件与概率,(二)随机试验与随机事件,例如在一定孵化条件下,孵化6枚种蛋,观察其出雏情况;观察两头临产妊娠母牛所产犊牛的性别情况;观测投掷300枚硬币,正反面出现的情况。它们都具有随机试验的三个特征,因此都是随机试验。,9,(二)随机试验与随机事件,随机试验的每一种可能结果,在一定条件下可能发生,也可能不发生,称这种事件为随机事件,简称事件,通常用A、B、C等来表示。,随机事件,基本事件必然事件不可能事件,第一节事件与概率,10,(一)概率的统计定义,研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践;这就要求有一个能够刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们称之为概率;事件A的概率记为P(A)。,第一节事件与概率,11,概率的统计定义在相同条件下进行n次重复试验,如果随机事件A发生的次数为m,那么m/n称为随机事件A的频率;当试验重复数n逐渐增大时,随机事件A的频率越来越稳定地接近某一数值p,那么就把p称为随机事件A的概率。,概率:某个特定事件相对于其他事件发生或不会发生的相对可能性,第一节事件与概率,12,例如为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表中列出了他们的试验记录。,抛掷一枚硬币发生正面朝上的试验记录,第一节事件与概率,13,从表1可看出,随着实验次数的增多,正面朝上这个事件发生的频率越来越稳定地接近0.5,我们就把0.5作为这个事件的概率。在一般情况下,随机事件的概率p是不可能准确得到的。通常以试验次数n充分大时随机事件A的频率作为该随机事件概率的近似值,即P(A)=pm/n(n充分大),第一节事件与概率,14,(二)概率的性质,对于任何事件A,有0P(A)1;必然事件的概率为1,即P()=1;不可能事件的概率为0,即P()=0。,第一节事件与概率,15,相互排斥事件两个事件,X和Y,如果一个事件发生时,另一个事件就不发生,那么这两个事件的关系就是相互排斥的。条件相关事件两个事件,X和Y,如果Y的结果取决于X,或者X的结果取决于Y,那么就称这两个事件的关系是条件相关的。投骰子和人均寿命,第一节事件与概率,16,相互排斥事件和加法法则,例:假设动物医院在某个时期只接收(鸡法氏囊、猪瘟、马传贫)3种疾病的病畜,每种疾病的公母比例不相同,如表所示:,如果X和Y是相互排斥的事件,那么X和Y事件发生的概率是X发生的概率加上Y发生的概率,第一节事件与概率,17,条件概率事件和乘法法则如果X和Y是条件概率事件,那么两个事件都发生的概率是X发生的概率乘以在X发生的前提下,Y发生的概率,独立事件很多事件既不是相互排斥事件也不属于条件相关事件,第一节事件与概率,18,排列组合对于排列我们更感兴趣的是事件发生的顺序对于组合我们更关注的是结果桥牌/博彩排列组合,至少一个事件法则,第一节事件与概率,19,三、小概率事件实际不可能性原理,随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于0.05、0.01、0.001,称之为小概率事件。小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很大,以至于实际上可以看成是不可能发生的。,第一节事件与概率,20,三、小概率事件实际不可能性原理,在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。,第一节事件与概率,21,第二节概率分布,事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布。,22,一、随机变量,在一次试验中,其结果有多种可能。每一种可能结果都可用一个具体数来表示,把这些数作为变量x的取值范围,则试验结果可用变量x来表示,变量x称为随机变量例对100头病畜用某种药物进行治疗,其可能结果是“0头治愈”、“1头治愈”、“2头治愈”、“”、“100头治愈”。若用x表示治愈头数,则x的取值为0、1、2、100。,第二节概率分布,23,例孵化一枚种蛋可能结果只有两种,即“孵出小鸡”与“未孵出小鸡”。若用变量x表示试验的两种结果,则可令x=0表示“未孵出小鸡”,x=1表示“孵出小鸡”。例测定某品种猪初生重,表示测定结果的变量x所取的值为一个特定范围(a,b),如0.51.5kg,x值可以是这个范围内的任何实数。,第二节概率分布,24,如果表示试验结果的变量x,其可能取值为有限个或可列无数个,且以各种确定的概率取这些不同的值,则称x为离散型随机变量;如果表示试验结果的变量x,其可能取值为某范围内的任何数值,且x在其取值范围内的任一区间中取值时,其概率是确定的,则称x为连续型随机变量,第二节概率分布,25,二、离散型随机变量的概率分布,如果我们将离散型随机变量x的一切可能取值xi(i=1,2,),及其对应的概率pi,记作P(x=xi)=pii=1,2,则称上式为离散型随机变量x的概率分布或分布,还可记为:,x1x2xn.p1p2pn,显然离散型随机变量的概率分布具有pi0和pi=1这两个基本性质,1234561/61/61/61/61/61/6,第二节概率分布,26,三、连续型随机变量的概率分布,连续型随机变量(如体长、体重、蛋重)的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量x在某个区间内取值的概率P(axb)来表示。,第二节概率分布,27,三、连续型随机变量的概率分布,则x取值于区间a,b)的概率为图中阴影部分的面积,即P(axb)=,ab,第二节概率分布,28,连续型随机变量概率分布的性质,分布密度函数总是大于或等于0,即f(x)0;当随机变量x取某一特定值时,其概率等于0;即(c为任意实数)因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。,第二节概率分布,29,连续型随机变量概率分布的性质,在一次试验中随机变量x之取值必在-x+范围内,为一必然事件,即。,第二节概率分布,30,第二节概率分布,31,第三节正态分布,一、正态分布的定义及其特征,(一)正态分布的定义,(二)正态分布的特征,二、标准正态分布,三、正态分布的概率计算,(一)标准正态分布的概率计算,(二)一般正态分布的概率计算,32,正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。,第三节正态分布,33,一、正态分布的定义及其特征,(一)正态分布的定义,若连续型随机变量x的概率分布密度函数为,其中为平均数,2为方差,则称随机变量x服从正态分布记为xN(,2)。相应的概率分布函数为,第三节正态分布,34,一、正态分布的定义及其特征,(一)正态分布的定义,正态分布密度曲线,第三节正态分布,35,(二)正态分布的特征,正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为x=;f(x)在x=处达到极大,极大值f(x)是非负函数,以x轴为渐近线,分布从-至+;,第三节正态分布,36,正态分布有两个参数,即平均数和标准差。是位置参数,当恒定时,愈大,则曲线沿x轴愈向右移动;反之,愈小,曲线沿x轴愈向左移动。是变异度参数,当恒定时,愈大,表示x的取值愈分散,曲线愈“胖”;愈小,x的取值愈集中在附近,曲线愈“瘦”。,第三节正态分布,37,分布密度曲线与横轴所夹的面积为1,第三节正态分布,38,二、标准正态分布,由上述正态分布的特征可知,正态分布是依赖于参数和2(或)的一簇分布,正态曲线之位置及形态随和2的不同而不同。这就给研究具体的正态总体带来困难,需将一般的N(,2)转换为=0,2=1的正态分布(标准正态分布)。,第三节正态分布,39,标准分转换,标准分后均数为0.0,离均差也为0.0u列中所有数字的标准差为1.0,第三节正态分布,40,称=0,2=1的正态分布为标准正态分布,标准正态分布的概率密度函数及分布函数分别记作(u)和(u),第三节正态分布,41,对于任何一个服从正态分布N(,2)的随机变量x,都可以通过标准化变换,将其变换为服从标准正态分布的随机变量u。u称为标准正态变量或标准正态离差,标准分:简称z或u,就是一种用SD作为单位来表达原始数值的方法,第三节正态分布,42,二、标准正态分布的转化,第三节正态分布,43,三、正态分布的概率计算,(一)标准正态分布的概率计算,设u服从标准正态分布,则u在u1,u2)内取值的概率为:,(u2)(u1),(u2)与(u1)可由附表查得,附表给出-到u的概率值,第三节正态分布,44,三、正态分布的概率计算,(一)标准正态分布的概率计算,第三节正态分布,45,三、正态分布的概率计算,(一)标准正态分布的概率计算,标准正态计算的相关附表(u0),第三节正态分布,46,(一)标准正态分布的概率计算,实例已知uN(0,1),试求:(1)P(u-0.23)?(2)P(u0.42)=?(3)P(u0.3)=?(4)P(0.34u0.55)=?,第三节正态分布,47,关于标准正态分布,以下几种特殊的概率应当熟记:P(-1u1)=0.6826P(-2u2)=0.9545P(-3u3)=0.9973P(-1.96u1.96)=0.95P(-2.58u2.58)=0.99,第三节正态分布,48,(二)一般正态分布的概率计算,正态分布密度曲线和横轴围成的一个区域,其面积为1,这实际上表明了“随机变量x取值在-与+之间”是一个必然事件,其概率为1。若随机变量x服从正态分布N(,2),则x的取值落在任意区间x1,x2)的概率,记作P(x1xx2),等于下图中阴影部分曲边梯形面积。,第三节正态分布,49,图4-7正态分布的概率,第三节正态分布,50,对上式式作变换u=(x-),得dx=du,故有,其中,第三节正态分布,51,表明服从正态分布N(,2)的随机变量x在x1,x2)内取值的概率,等价于服从标准正态分布的随机变量u在(x1-)/,(x2-)/)内取值的概率;因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换(标准化),就可用查标准正态分布的概率表的方法求得概率了。,第三节正态分布,52,实例设x服从=10.0,2=52的正态分布,试求P(8x12)?,令,则u服从标准正态分布,故,第三节正态分布,53,例已得110名7岁男孩身高(121.94.5),现欲估计该地1995年身高界于116.7cm到119.1cm范围内的7岁男童的概率。解:由该例的频数图可知,可以认为7岁男孩身高近似服从正态分布,由于本例样本量较大,不妨假定:,第三节正态分布,54,作标准化变换:,X=116.7,X2=119.1,第三节正态分布,55,7岁男童的身高界于116.7cm到119.1cm的概率为问题:同上:但求身高界于116.7cm到130.0cm的概率。解:用标准化变换,得到u1=-1.16,u2=1.8,第三节正态分布,56,关于一般正态分布,以下几个概率(即随机变量x落在加减不同倍数区间的概率)是经常用到的。,P(-x+)=0.6826P(-2x+2)=0.9545P(-3x+3)=0.9973P(-1.96x+1.96)=0.95P(-2.58x+2.58)=0.99,第三节正态分布,57,确定医学参考值范围医学参考值范围-决大多数正常人的某项指标值范围“正常”人群:排除了影响所研究指标的疾病和有关因素的同质人群大多数个体;90%,95%,99%等统计方法百分位数法:任何分布的指标正态分布法:服从正态分布的指标注意:根据研究背景确定单双侧范围,正态分布应用,第三节正态分布,58,例2.21估计某地健康成年女子的血红蛋白的95%医学参考值范围具体步骤如下:根据研究背景确定研究对象的入选标准和排除标准。这类研究一般要求参加体检并且要求除研究指标血红蛋白指标外,其他指标均正常的对象。根据研究背景,确定血红蛋白过高或过低均属于不正常(双侧范围)。,第三节正态分布,59,血红蛋白检测的容许误差和研究背景容许误差的范围,确定受检者的样本量。由于在实际研究中,总体均数和方差均不知道的,需要用样本资料进行估计,所以一般至少在100人以上,这样参数估计的平均误差是资料的离散程度的/10以下,第三节正态分布,60,如果受检指标血红蛋白近似服从正态分布,则可以用确定其95%参考值范围如果受检指标血红蛋白呈偏态分布,则可以用百分位数P2.5P97.5确定95%参考值范围,但样本量要充分大样本量充分大是相对与指标的变异程度,指标变异大,要求样本量大;指标变异程度小,要求样本量可以相对小一些,第三节正态分布,61,本例:成年正常女子200人的血清总蛋白含量(近似正态分布),得到均数=73.5克/升,标准差s=3.9克/升。由于样本量大,可以用样本均数和标准差近似总体均数和标准差,按下式计算:,第三节正态分布,62,下限:上限:即:该地成年正常女子的95%参考值范围为65.981.1(g/L),第三节正态分布,63,例2.22估计某地110名健康成年男子第一秒肺通气量的95%参考值范围,已知=4.2L,s=0.7L.实现步骤如下:确定入选标准和排除标准由于第一秒肺通气量过低才是异常,不存在过高不正常,所以只需考虑过低的异常标准(单侧范围),第三节正态分布,64,3.依据原始资料,考查资料是否近似服从正态分布,本例假定近似服从正态分布,样本量也较大,采用正态分布方法确定95%参考值范围。本例:95%参考值范围计算如下:下限:即:健康成年男子第一秒肺通气量的95%参考值范围3.05,第三节正态分布,65,确定医学参考值范围小结,66,估计频数例某地婴儿出生平均体重为3200g,标准差为350g,如出生体重低于2500g为低体重儿,估计当年该地低体重儿所占的比例。求出生体重X2500的比例进行标准化变换(X20时,的分布就近似于正态分布了。,第五节样本平均数的抽样分布,93,1.若随机变量x服从正态分布N(,2);x1、x2、xn,是由x总体得来的随机样本,则统计量=x/n的概率分布也是正态分布,且有,即新的总体也服从正态分布。2.若随机变量x服从平均数是,方差是2的分布(不是正态分布);x1、x2、xn是由此总体得来的随机样本,则统计量=xn的概率分布,当n相当大时逼近正态分布,这就是中心极限定理。,第五节样本平均数的抽样分布,两个定理说明:,94,第五节样本平均数的抽样分布,二、标准误,标准误,即平均数抽样总体的标准差,其大小反映了样本平均数的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数间差异程度大,样本平均数的精确性低。反之,标准误小,说明间的差异程度小,样本平均数的精确性高。的大小与原总体的标准差成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为是一常数,所以只有增大样本含量才能降低样本平均数的抽样误差。,95,第五节样本平均数的抽样分布,在实际工作中,总体标准差往往是未知的,因而无法求得。此时,可用样本标准差S估计。于是,以估计。记为,称作样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值。若样本中各观测值为,则,96,第五节样本平均数的抽样分布,标准差与标准误的联系,97,第五节样本平均数的抽样分布,对于大样本资料,常将样本标准差S与样本平均数配合使用,记为S,用以说明所考察性状或指标的优良性与稳定性。对于小样本资料,常将样本标准误与样本平均数配合使用,记为,用以表示所考察性状或指标的优良性与抽样误差的大小。,98,由样本平均数抽样分布的性质知道:若xN(,2),则N(,2/n)。将随机变量标准化则uN(0,1)。当总体标准差未知时,以样本标准差S代替所得到的统计量记为t。在计算时,由于采用S来代替,使得t变量不再服从标准正态分布,而是服从t分布。,第七节t分布,99,t概率分布密度函数,t分布自由度为df=n-1,第七节t分布,t概率分布的密度曲线,100,t概率分布的密度曲线,t分布受自由度的制约,每一个自由度都有一条t分布密度曲线。t分布密度曲线以纵轴为对称轴,左右对称,且在t0时,分布密度函数取得最大值。与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。df越小这种趋势越明显。df越大,t分布越趋近于标准正态分布。当n30时,t分布与标准正态分布的区别很小;n时,t分布与标准正态分布完全一致。,第七节t分布,101,t分布曲线下面积的分布规律同样,我们最关心的是t分布曲线下面积的分布规律。但由于t分布曲线是一组曲线,故t分布曲线下面积为95%和99%界值不是一个常量,随着自由度的变化,95%或99%面积的界值发生变化,当时,95%和99%面积对应的界值趋近于u值。,第七节t分布,102,1、t界值表:横标目为自由度,纵标目为概率,一侧尾部面积称为单尾概率,两侧尾部面积之和称双尾概率。其中与单尾概率相对应的t界值用表示,与双尾概率相对应的t界值用表示。,第七节t分布,2、举例例如,单侧,表示时,的概率或的概率为0.05,记作:或。,103,其通式:单侧:或双侧:图中非阴影部分面积的概率为:,第七节t分布,104,df=9的t分布图,105,3、从t值表及t分布曲线可得(1)在相同自由度时,概率P越小,t绝对值越大。(2)在相同t值时,双尾概率是单尾概率的两倍。(3)相同概率时的t界值,自由度越小,t的绝对值越大。,第七节t分布,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!