第二章生物统计基础知识2正态与抽样分布剖析课件

上传人:沈*** 文档编号:241660935 上传时间:2024-07-14 格式:PPTX 页数:32 大小:701.06KB
返回 下载 相关 举报
第二章生物统计基础知识2正态与抽样分布剖析课件_第1页
第1页 / 共32页
第二章生物统计基础知识2正态与抽样分布剖析课件_第2页
第2页 / 共32页
第二章生物统计基础知识2正态与抽样分布剖析课件_第3页
第3页 / 共32页
点击查看更多>>
资源描述
第二节第二节 正态分布与抽样分布正态分布与抽样分布1.频率频率 Frequency 定义定义 Definition:在大量重复试验中:在大量重复试验中,事件,事件A已已发生的发生的次数次数a占占试验总次数的比率。试验总次数的比率。特特点点(Characteristics):一一个个事事件件的的频频率率不不是是常常数数,但但随随重重复复试试验验或或观观察察次次数数n 增增加加,频频率率的的波波动动会会不不断断减减小小,逐逐步趋于稳定步趋于稳定,称为,称为频率的稳定性。频率的稳定性。一、频率与概率一、频率与概率 Frequency and probability2.概率概率 Probability 性质性质 Property 1)0 P(A)1 2)P(A)=1,表明该事件为,表明该事件为必然事件必然事件;P(A)=0,表明该事件为,表明该事件为不可能事件不可能事件;0 P(A)1,表明该事件为,表明该事件为随机事件随机事件。定定义义 Definition:同同一一条条件件下下,试试验验或或观观察察次次数数 n 无无限限增增大大,随随机机事事件件 A 发发生生的的频频率率 a/n 必必然然稳稳定定接接近近某某一一常常数数P,P就称为随机事件就称为随机事件 A的概率。的概率。取取值值 Evaluation:一一般般情情况况下下 P 的的取取值值不不可可能能准准确确获获得,以得,以 n 充分大时事件充分大时事件 A 发生的频率发生的频率/n 作为作为P 的近似值。的近似值。1)若事件)若事件 A的概率为的概率为 P(A),那么其对立事件,那么其对立事件 B 的概率为:的概率为:P(B)=1-P(A)运算法则运算法则 Calculation rule2)若事件)若事件 A和和B 是是互斥的互斥的,其概率各为,其概率各为 P(A)和和 P(B),那么两事件的和事件的概率为:那么两事件的和事件的概率为:P(A+B)=P(A)+P(B)3)若事件)若事件 A 和和 B是独立的,其概率各为是独立的,其概率各为P(A)和和 P(B),那么两事件同时出现的概率为:那么两事件同时出现的概率为:P(AB)=P(A)P(B)二、频数与频率分布二、频数与频率分布 Number and frequency distribution1.频数与频率分布频数与频率分布在在一一定定条条件件下下,总总体体或或样样本本中中某某观观察察值值或或某某区区间间(Interval)的的观观察察值值所所出出现现的的次数。次数。总总体体或或样样本本中中某某观观察察值值或或某某区区间间的的观观察察值出现的次数在整个区间的分布情况。值出现的次数在整个区间的分布情况。总总体体或或样样本本中中某某观观察察值值或或某某区区间间的的观观察察值出现的频率整个区间的分布情况。值出现的频率整个区间的分布情况。频数频数Number 频数分布频数分布 Number distribution频率分布频率分布Frequency distributionrequency distribution2.统计方法统计方法 Presentation method of data(1)求出极差(求出极差(R)(2)确定组数(确定组数(G)及组距()及组距(B)组数:组数:n100时,时,G:815 n 100时,时,G:不少于:不少于 6 组;组;n 很大时,很大时,G:不大于:不大于 30 组。组。组距:组距:B=R/G 对于连续变量,组距精度与观察值相同;对于连续变量,组距精度与观察值相同;对于非连续变量,组距取整数。对于非连续变量,组距取整数。(3)确定组限确定组限 Group limit 组组限限就就是是每每一一组组的的上上限限(Upper limit)和和下下限限(Lower limit)。(4)(4)统计统计频数和频率频数和频率 通通常常是是采采用用制制作作频频数数(频频率率)分分布布表表或或频频数数(频频率率)分分布图的方法。布图的方法。例例1:有有一小麦品种,随机采集一小麦品种,随机采集100株,量其株高,试说明不同株,量其株高,试说明不同株高的理论分布株高的理论分布规律规律。行号行号株高株高行号行号株高株高行号行号株高株高行号行号株高株高行号行号株高株高190218341986194811002104229942996210282963103231014393639583944102249344101649384945106259945946597859161062693469366888696783279047946791879681062895488968948885910529102499269104899610993095509870989093119931905110371979110112933291528672100928613102339653957392939714101349854857499949515943590559675889597169636955696769896991797379957957798979518105389358967895989619893995599779949910420964010660918010410096表表1 1001 100株小麦株高(株小麦株高(cmcm)(1)求出极差:求出极差:R=106-83=23 cm表表2 100株小麦株高频数株小麦株高频数与频率分布表与频率分布表(2)确定组数(确定组数(G)及组距)及组距(B)组组数:数:G=9 组距:组距:B=23/9=2.56 cm(3)确定组限确定组限 第第 1 组组:81.5 84.49 第第 2 组组:84.5 87.49 第第 3 组组:87.5 90.49 (4)(4)统计频数和频率统计频数和频率组号组号组组 限限 中值数中值数频数频数 频率频率%1 1 81.5-84.4983 2 2 2 2 84.5-87.4986 4 4 3 3 87.5-90.4989 8 8 4 4 90.5-93.4992 14 14 5 5 93.5-96.4995 30 30 6 6 96.5-99.4998 20 20 7 7 99.5-102.49101 10 10 8 8 102.5-105.49104 8 8 9 9 105.5-108.49107 4 4 小麦株高小麦株高 (cm)频频次次81.5-84.4984.5-87.4987.5-90.4990.5-93.4993.5-96.4996.5-99.4999.5-102.49102.5-105.49105.5-108.4905101520253035频频数数图1 100株小麦株小麦的的频频数分布数分布图2 100株小麦株小麦的的频率频率分布分布小麦株高小麦株高 (cm)频频次次频频率率81.584.587.590.593.596.599.5 102.5 105.50510152025303500.010.020.030.040.050.060.070.080.09频数正态分布曲线三、正态分布三、正态分布 Normal distribution1.概念概念 Definition 1)概念)概念 正态分布随机变量的正态分布随机变量的概率密度函数概率密度函数 为:为:式中:式中:正态分布中的随机变量;正态分布中的随机变量;2.718,是自然对数的底数;,是自然对数的底数;正态分布总体的平均数,是曲线最高点的横坐标;正态分布总体的平均数,是曲线最高点的横坐标;正态分布总体的标准差,其大小表达曲线高低胖瘦程度。正态分布总体的标准差,其大小表达曲线高低胖瘦程度。概率密度函数概率密度函数 Probability density function 定定义义:当当试试验验次次数数无无限限增增加加,直直方方图图趋趋近近于于光光滑滑曲曲线线,曲曲线线下下包包围围的的面面积积表表示示概概率率。该该曲曲线线称称为为概率密度函数。概率密度函数。分布函数分布函数 Distribution function 设设X是一是一个个随机变量随机变量,x是是任意任意实数实数,函数函数 F(x)=PXx 如如果果将将X看看成成是是数数轴轴上上的的随随机机点点的的坐坐标标,那那么么,分分布布函函数数 F(x)在在 x 处处的的函函数数值值就就表表示示X落落在在区区间间(-,x上上的的概概率。率。正态分布的密度函数的图形是关于直线正态分布的密度函数的图形是关于直线x=对称的;在对称的;在x=处达到最大值处达到最大值重点了解重点了解(1)什么样?)什么样?(2)两个参数)两个参数(3)正态分布曲线的解释)正态分布曲线的解释3)正态分布曲线的特点)正态分布曲线的特点 Characteristics of the curve of normal distribution(1 1)图中)图中为总体平均数,为总体平均数,为总体标准差。当样品为总体标准差。当样品数越来越多,处于无穷多时,就构成了以总体平均数数越来越多,处于无穷多时,就构成了以总体平均数为为轴轴的的正态分布形式。变数的次数分布规律是以平均正态分布形式。变数的次数分布规律是以平均数为轴心形成对称的分布规律,变数值越靠近平均数,数为轴心形成对称的分布规律,变数值越靠近平均数,出现的次数越多,远离平均数值的变数次数越少出现的次数越多,远离平均数值的变数次数越少。落入(落入()的概率:)的概率:68.3%;落入(落入()的概率:)的概率:95.4%;落入(落入()的概率:)的概率:99.7%;落入(落入()的概率:)的概率:95%;落入(落入()的概率:)的概率:99%。(2)正态分布总体观察值正态分布总体观察值 落入以下特殊区间的概率落入以下特殊区间的概率(3 3)数学家根据有关公式,计算出了正态曲线下不同距离)数学家根据有关公式,计算出了正态曲线下不同距离内的面积和概率积分表以备应用内的面积和概率积分表以备应用。P336 P336 附表附表2 2 正态分布表正态分布表(4 4)t t 检验检验、方差分析等,采用的、方差分析等,采用的0.050.05、0.010.01显著性判断,显著性判断,其原理就是来源于其原理就是来源于此。此。正态分布的应用正态分布的应用例例2 测得一小麦品种的株高为测得一小麦品种的株高为120cm,试问这个小,试问这个小麦品种株高和例麦品种株高和例1所选样品小麦株高有无本质差异所选样品小麦株高有无本质差异?例例1 小麦小麦品种平均株高为品种平均株高为95.9cm,标准差为标准差为 5.2cm,用正态,用正态曲线概率分布判断:曲线概率分布判断:x2*5.2cm,即株高在即株高在90.7-101.1cm范围内的概率占范围内的概率占95.5%,x3*5.2cm,即株高,即株高80.3-111.5cm范围内的概率占范围内的概率占99.74%。而而这一小麦品种株高为这一小麦品种株高为120cm,显然不在其范围内。说明,显然不在其范围内。说明二者有极显著的差异,这种二者有极显著的差异,这种判断有判断有99.74%以上的把握性,以上的把握性,判错的可能性只有判错的可能性只有0.26%。4)正态分布)正态分布标准化标准化为了便于计算概率和一般化应用,将正态分布标准化。令:为了便于计算概率和一般化应用,将正态分布标准化。令:且以且以 为度量单位,则概率密度函数可被标准化为:为度量单位,则概率密度函数可被标准化为:式式中中 叫叫做做标标准准正正态态离离差差、正正态态离离差差或或概概率率度度。任任何何正正态分布都可以根据以上变换转化为标准正态分布。态分布都可以根据以上变换转化为标准正态分布。u 0.00 -0.02 -0.04 -0.06 -0.08-3.00.0013 0.0013 0.0012 0.0011 0.0010-2.50.0062 0.0059 0.0055 0.0052 0.0049-2.00.0228 0.0217 0.0207 0.0197 0.0188-1.90.0287 0.0274 0.0262 0.0250 0.0239-1.60.0548 0.0526 0.0505 0.0485 0.0465-1.00.1587 0.1539 0.1492 0.1446 0.1401-0.50.3085 0.3015 0.2946 0.2877 0.2810 00.5000 0.4920 0.4840 0.4761 0.4681标准正态分布曲线下面积(u)0u例:某正态总体的例:某正态总体的 ,求,求 落入区落入区 间(间(1.08,1.21)的概率。)的概率。查附表2:P336(二)(二)小概率事件和小概率小概率事件和小概率原理原理 在在生生物物统统计计学学中中,把把概概率率小小于于 5%的的事事件件,称称为为小概率事件小概率事件(Small probability event)。)。小小概概率率事事件件在在一一次次试试验验中中几几乎乎是是不不可可能能事事件件,这这一一规规律律称称为为小小概概率率原原理理(The small probability principle)。四、四、抽样分布抽样分布 Sampling distribution1.1.概念概念 Definition1)抽样)抽样 Sampling从从总体中抽取个体组成样本进行研究以了解总体特性的过程。总体中抽取个体组成样本进行研究以了解总体特性的过程。抽样分布抽样分布Sampling distribution 从从总总体体中中独独立立抽抽取取随随机机样样本本的的统统计计数数的的概概率率分分布布,称称为为抽抽样样分布。分布。统计推断统计推断Statistical postulation从从一一个个样样本本或或一一系系列列样样本本所所得得到到的的统统计计数数,去去推推断断原原总总体体的的参数,称为统计推断。参数,称为统计推断。(1)样本均值抽样分布的均值等于总体均值)样本均值抽样分布的均值等于总体均值几个重要的结论:几个重要的结论:(2)样本均值抽样分布的方差样本均值抽样分布的方差等于原总体方差与样本容量之比等于原总体方差与样本容量之比样本的平均数所构成的新总体的标准差样本的平均数所构成的新总体的标准差均数标准差均数标准差:五、置信限与置信区间五、置信限与置信区间五、置信限与置信区间五、置信限与置信区间1.概念概念置信区间置信区间 Confidence interval 在一定概率保证下,误差的合理存在范围或区间称为置信区间或在一定概率保证下,误差的合理存在范围或区间称为置信区间或置信距。区间的上下限称为置信限。置信距。区间的上下限称为置信限。置信概率置信概率 Confidence level 保证误差合理存在范围的概率,称为置信概率、置信保证误差合理存在范围的概率,称为置信概率、置信度。度。用用 P表表示。示。否定区间否定区间 Negation interval 不属于合理误差的范围或区间,称为否定区间。不属于合理误差的范围或区间,称为否定区间。否定概率否定概率 Negation probability 不合理误差存在范围或区间的概率,称为否定概率,不合理误差存在范围或区间的概率,称为否定概率,或显著性水或显著性水平。用平。用表示表示。2.置信限和置信概率的用途置信限和置信概率的用途 Confidence limit and confidence probability1)估计误差合理()估计误差合理(Rational error)存在范围或区间)存在范围或区间如果置信概率取如果置信概率取95%:误差误差 =x-的的置信区间为(置信区间为();误差误差 的置信区间为(的置信区间为()当当未知,为小样本时,未知,为小样本时,误差误差 的置信区间为(的置信区间为()。)。当当已知时,已知时,误差误差 的置信区间为(的置信区间为(););误差误差 的置信区间为(的置信区间为()。)。如果置信概率取如果置信概率取99%:误差误差 的置信区间为(的置信区间为()当当已知时,已知时,当当未知,为小样本时,未知,为小样本时,2)估计总体平均数)估计总体平均数存在的范围存在的范围如果置信概率取如果置信概率取95%:当当已知时,已知时,则:当当未知,为小样本时,未知,为小样本时,则:如果置信概率取如果置信概率取99%:当当已知时,已知时,则:当当未知,为小样本时,未知,为小样本时,则:
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!