抽样分布与统计推断原理

上传人:san****019 文档编号:20665573 上传时间:2021-04-11 格式:PPT 页数:101 大小:2.62MB
返回 下载 相关 举报
抽样分布与统计推断原理_第1页
第1页 / 共101页
抽样分布与统计推断原理_第2页
第2页 / 共101页
抽样分布与统计推断原理_第3页
第3页 / 共101页
点击查看更多>>
资源描述
第三章 分布与抽样分布 第二节 抽样分布 第一节 概率与概率分布 第三节 统计推断 第一节 概率与概率分布 Certain Impossible 0.5 0 1 一 概率 (一)概率的统计定义 研究随机试验,仅知道可能发生哪些随机 事件是不够的,还需了解各种随机事件发生 的可能性大小,以揭示这些事件的内在的统 计规律性,从而指导实践。这就要求有一个 能够 刻划事件发生可能性大小的数量指标 , 这指标应该是事件本身所固有的,且不随人 的主观意志而改变,人们 称之为概率 ( probability)。 事件 A的概率记为 P( A)。 概率的统计定义 在相同条件下进行 n次重复试验,如 果随机事件 A发生的次数为 m, 那么 m/n称为随机事件 A 的 频率 ( frequency); 当试验重复数 n逐渐增大时,随 机事件 A的频率越来越稳定地接近某一数值 p , 那么 就 把 p称为随机事件 A的 概率 。 这 样 定 义 的 概 率 称 为 统 计 概 率( statistics probability), 或者称后验概率( posterior probability) 表 3-1 抛掷一枚硬币发生正面朝上的试验记录 从表 3-1可看出,随着实验次数的增多,正面朝 上这个事件发生的频率越来越稳定地接近 0.5,我们就 把 0.5作为这个事件的概率。 在一般情况下,随机事件的概率 p是不可能准确 得到的。通常以试验次数 n充分大时随机事件 A的频率 作为该随机事件概率的近似值。 即 P( A) =pm/n ( n充分大) (二 ) 概率的性质 1、对于任何事件 A, 有 0P( A) 1; 2、 必然事件的概率为 1,即 P( ) =1; 3、 不可能事件的概率为 0,即 P( ) =0。 一个总体是由一个随机变量的所有可能取值来构成的,而样本只 是这些所有可能取值的一部分 随机变量中某一个值出现的概率,只是随机变量一个侧面的反映, 若要全面了解随机变量则必须知道 随机变量的全部值 和 各个值出 现的概率 ,即随机变量的概率分布 概率和概率分布是生命科学研究中由样本推断总体的理论基础 随机变量的种类很多,每一种随机变量都有其特定的概率分布。 连续型随机变量 离散型随机变量 在一定范围内可连续取值的变量。 在一定范围内只取有限种可能的值的变量。 正态分布 二项分布、泊松分布 二 概率分布 1. 正态分布 正态分布( normal distribution) 的概念是由德国数学家和天文学家 Moivre于 1733年首次提出的,由德国数学家 Gauss率先将其应用于天文学研究,故正 态分布又称为 Gauss分布( Gaussian distribution)。 许多生物学领域( 如身高、体重、脉搏、血红蛋白、血清总胆固醇等 )的随机变量都 服从或者近似服从正态分布或通过某种转换后服从正态分布,许多其他类型 分布基本上都与正态分布有关,它们的极限就是正态分布。 1.1 正态分布的定义 在日常工作中所遇到的变量大多是连续型随机变量,当这一类随机变量呈线 性时,往往服从正态分布 连 续 型 随 机 变 量 的 概 率 分 布 频数分布表: 某地 13 岁女孩 1 18 人的身高 ( c m ) 资料频数分布 身高组段 频数 组中值 ( 1 ) ( 2 ) (3) 129 2 130.5 132 2 133.5 135 8 136.5 138 20 139.5 141 26 142.5 144 25 145.5 147 20 148.5 150 9 151.5 153 3 154.5 156 2 157.5 159 162 1 160.5 合计 118 下面我们以某地 13岁女孩 118人的身高 (cm)资料,来说明 身高变量服从正态分布。 频数分布图 ( 又称直方图) 身高 ( c m) 1 6 0 . 51 5 7 . 51 5 4 . 51 5 1 . 51 4 8 . 51 4 5 . 51 4 2 . 51 3 9 . 51 3 6 . 51 3 3 . 51 3 0 . 5 某地 13 岁女孩 118 人身高 ( c m ) 频数分布图 频数 30 20 10 0 从频数表及频数分布图上 可得知: 该数值变量资料频数 分布呈现中间频数多,左 右两侧基本对称的分布。 所以我们通俗地认为该资 料服从正态分布。 身高 ( c m) 某地 13 岁女孩 118 人身高 ( c m ) 频数分布图 频数 20 10 0频数分布图二 频数分布图三 身高 ( c m) 某地 13 岁女孩 118 人身高 ( c m ) 频数分布图 频数 14 12 10 8 6 4 2 0 正态分布图四 身高 ( c m) 频数分布逐渐接近正态分布示意图 和正态分布相对应的曲线称为正态分布密度曲线,简称为 正态曲线。 用来描述正态曲线的函数称为正态分布密度函数 2 2 2 )( 2 1)( x exf 总体平均数 2 总体方差 圆周率 3.14 总体标准差 任何一个正态分布均由参数 和 所决定 如果一个随机变量 x服从平均数为 、 方差为 2的正态分布,可 记为 x N( , 2)。 e 自然对数的底, 2.71828 1.2 正态分布的特点 ( 1)正态分布曲线以直线 x =为对称轴,左右完全对称 ( 3) 正态分布曲线有两个拐点,拐点座标分别为( -, f( - ) 和( +, f( +), 在这两个拐点处曲线改变方向, 即曲线在( -, -) 和( +, +) 区间上是下凹的,在 -, +区间内是上凸的 x ( 2) 在 x = 处, f(x)有最大值 2 1)( f ( 4) 正态分布密度曲线的位置由 决定( 为位置参数),形状 由 决定( 为形状参数) ( 5) 正态分布曲线向两边无限延伸,以 x轴为渐进线,分布从 - 到 + 的大小决定了曲线在 x轴上的位置 的大小则决定了曲线的胖瘦程度 当 恒定时, 愈大,则曲线沿 x轴愈向右 移动 愈小,曲线沿 x轴愈向左移动 越大表示数据越分散,曲线越胖 越小表示数据越集中,曲线越瘦 1.3 标准正态分布 正态分布由 和 所决定,不同的 、 值就决定了不同的正态分 布密度函数,因此在实际计算中很不方便的。需将一般的 N( , 2 )转换为 =0, 2 =1的正态分布。我们称 =0, 2 =1的正态分 布为标准正态分布 (standard normal distribution) 可见,由正态分布密度函数 得到标准正态分布密度函数: 2 2 2 )( 2 1)( x exf 2 2 2 1)( xexf 1.4 正态分布的概率计算 根据概率论原理,可知随机变量 x在区间( a, b) 内取值的概率是一块面积: ax bx面积由 0y 曲线 所围成的曲边梯形所组成: ba dxxfbxaP )()( 随机变量 x在( -, +)间取值的概率为 1 ,即: 1)()( dxxfxP 求随机变量 x 在某一区段内取 值的概率就转化 成了求由该区段 与相应曲线所围 成的曲边梯形的 面积。 由于正态分布的概率密度函数比较复杂,积分的计算也比较麻烦,而这些 计算在动物科学研究和生产实践中又经常会用到。 最好的解决办法:将正态分布 转化为 标准正态分布,然后根据标准正态分 布表(附表 1)直接查出概率值。 ( 1) 标准正态分布的概率计算 附表 1列出了在标准正态分布随机变量 u在区间 ( , u内取值的概率: u uu dueduufuuP 2 2 2 1)()( 标准正态分布的概率计算通式 标准正态分布函数表 例 1: 若 u N( 0, 1), 求: )64.0( uP )53.1( uP )53.012.2( uP ( 1) ( 2) ( 3) 解: ( 1) )64.0( uP )53.012.2( uP )53.1( uP 7389.0 ( 2) )53.1(1 uP 9370.01 0630.0 ( 3) )12.2()53.0( uPuP )12.2(1)53.0(1 uPuP )9 8 3 0.01()7 1 0 9.01( 0 1 7 0.02 9 8 1.0 2811.0 关于标准正态分布,以下几种概率应当熟记: P( -1u 1) =0.6826 P( -2u 2) =0.9545 P( -3u 3) =0.9973 P( -1.96u 1.96) =0.95 P( -2.58u 2.58) =0.99 P( u 1) u变量在上述区间以外取值的概率, 即两尾概率: = 1- P( -1u 1) = 1-0.6826 = 0.3174 P( u 2) =1- P( -2u 2) = 0.0455 P( u 3) = 1-0.9973 = 0.0027 P( u 1.96) = 1-0.95 = 0.05 P( u 2.58) = 1-0.99 = 0.01 ( 2) 正态分布的概率计算 对于服从任意正态分布 N( ,2) 的随机变量,欲求其在某个区间的取值概率,需 先将它标准化为标准正态分布 N( 0,1) 的随机变量,然后查表即可。 xu 实质: 为了能使正态分布应用起来更方便一些,可以将 x作一变换,令: 变换后的正态分布密度函数为: 2 2 2 1)( ueuf 标准正态分布均具有 =0, 2=1的特性 如果随机变量 u服从标准正态分布,可记为: u N( 0, 1) u变换 这个变换称为标准化或 u变换 ,由于 x是随机变量,因此 u也是随机变量, 所得到的随机变量 U也服从 正态分布,因此,由任意正态分布随机变量标准化得到的随机变量的标准正态分布常称为 u分布。可 见: 数学期望与方差的运算 随机变量的数学期望就是指它们的理论均数,其统计学意义就是对随机 变量进行长期观测所得数据的平均数,因而,数学期望只对长期或大量 观测值才有意义,对于个别观测或试验无意义。 例 2: 设 x N( 30, 102) 试求 x 40的概率。 解: 首先将正态分布 转化为标准正态分布,令 : )10 3040( uP)40( xP 10 30 xu 则 u服从标准正态分布,故 : )1( uP )1(1 uP 8413.01 1587.0 例 3: 设 x服从 =30.26, 2 =5.102的正态分布,试求 P(21.64x 32.98)。 解: 令 10.5 26.30 xu 则 u服从标准正态分布,故 =P(-1.69u 0.53) =(0.53)-(-1.69) =0.7019-0.04551 =0.6564 )10.5 26.3098.3210.5 26.3010.5 26.3064.21()98.3264.21( xPxP 关于一般正态分布,经常用到以下几个概率: P( -x +) = 0.6826 P( -2x +2) = 0.9545 P( -3x +3) =0.9973 P( -1.96x +1.96) = 0.95 P( -2.58x +2.58) = 0.99 把随机变量 x落在平均数 加减不同 倍数标准差 区间之外的概率称为两 尾概率(双侧概率),记作 。 对应于两尾概率可以求得随机变量 x 小于 -k或大于 +k的概率,称为 一尾概率(单侧概率),记作 2。 0.3173 0.0455 0.0027 0.05 0.01 /2 附表 2: 给出了满足 )uuP ( 两尾临界值 u 因此,可以根据两尾概率 , 由附表 2查出相应的临界值 u。 例 4: 已知 u N( 0, 1), 试求 u: 10.0( )() uuPuu P ( 1) ( 2) 86.0( ) uuuP 解: ( 1) 10.0 )()( uuPuu P 6 4 4 8 5 4.110.0 u ( 2) )()( uuPuu P )( uuuP 1 14.086.01 475791.114.0 u 2. 二项分布 二项分布( binomial distribution) 是一种最常见的、典型的离散型随机变 量的概率分布。 有些试验只有非此即彼两种结果,这种由非此即彼的事件构成的总体,称 为二项总体。 结果“此”用变量 1表示, 概率为 p 结果“彼”用变量 0表示, 概率为 q pxP )1( qxP )0( 1 qp 对于 n次独立的试验,如果每次试验结果出现且只出现对立事 件 A与 A-中之一,在每次试验中出现 A的概率是 p( 0p5, np、 nq较接近时,接近正态 分布, n 时服从正态分布,即二项分布的极限是正态分布 ( 5)二项分布的平均数为: np npq2方差为: npq标准差为: 例 4:某奶牛场情期受胎率为 0.6,该场对 30头发情母牛配种, 使 24头母牛一次配种受胎的概率为多少? 解: 6.0p 30n 24m )24(30P 6242430 )4.0()6.0(C 624 )4.0()6.0( )2430(24 30 ! ! 0115.0 %15.1 186.030 np 2.74.06.0302 n p q 68.22. npq 2.3 二项分布的概率计算 课堂练习: 用某种常规药物治疗猪瘟的治愈率为 0.7,对 20头患猪瘟的肥育 猪进行治疗,问 20头猪中 16头猪治愈的概率是多少? 解: 7.0p 20n 16m )16(20P 4161620 )3.0()7.0(C 416 )3.0()7.0( )1620(16 20 ! ! 1295.0 %95.12 147.020 np 2.43.07.0202 npq 05.22.4 npq 3. 泊松分布 当二项分布中的 n , p0 时,二项分布趋向于一种新的分布 泊松分布(普哇松分布) ( Poissons distribution) 当试验次数(或称观测次数)很大,而某事件出现的概率很小, 则离散型随机变量 x服从于泊松分布。 3.1 泊松分布的定义 若随机变量 x( x = m) 只取零和正整数值 0, 1, 2, ,且其概 率分布为: )( mxP em m ! 0其中: = np, 是一个常量,且 7182.2e 则称 x服从参数为 的泊松分布, 记为 x P( ) 泊松分布主要是用来描述小概率事件发生的概率 单位空间中某些野 生动物数 畜群中的畸形 个体数 畜群中某些遗传性 疾病的患病数 泊松分布不是用来描述几乎不可能发生的事件的概率 山无棱,天地合 南京六月飞雪 ( 1)泊松分布只有一个参数 , = np。 3.2 泊松分布的特点 既是泊松分布的平均值 , 又是方差 2, 即: 2 ( 2)泊松分布的图形决定于 , 值愈小分布愈偏倚,随着 的增大,分布 趋于对称。 当 =20时分布接近于正态分布;当 =50时,可以认为泊松分布呈正态分 布。 3.3 泊松分布的概率计算 例 5: 某大型猪场因某种疾病死亡的猪数呈泊松分布。已知该场平均每年因 这种疾病死亡的猪数为 9.5头,问 2007年该场因这种疾病死亡的猪数为 15头 的概率是多少? 5.9 解: 根据泊松分布的性质可知: 15m )15( xP 5.915 !15 5.9 e 0265.0 2007年该场因这种疾病死亡的猪数为 15头的概率是 2.65%。 )( mxP em m ! 第二节 抽样分布 统计学的主要任务就是研究总体和样本的关系: 从样本到总体 从总体到样本 目的就是通过样本来推断总体。 目的就是研究样本统计量的分布及其与原 总体的关系 从特殊到一般, 从一般到特殊, 抽样分布是统计推断的基础,研究抽样分布的目的就是为了更 好地进行统计推断,并能正确地理解统计推断的结论。 1. 抽样分布的概念 x样本平均数 和样本方差 S 2是描述样本特征的两个最重要的统计量 总体平均数 和总体方差 2是描述总体特征的两个最重要的参数 因此,研究总体和样本的关系,实际就是研究: x S2 2 就总体而言, 和 2都是常量 从总体中随机地抽取若干个体所组成的样本,即使每次抽取的样本容量都相等, 每一个样本所得到的样本平均数 也不可能都相等,同时也不可能就等于总体平均 数 样本统计量将随样本的不同而有所不同,因而样本统计量也是随机变量, 也有其概率分布 样本统计量的概率分布称为抽样分布( sampling distribution) 样本统计量与总体参数之间的差异称为抽样误差 ( sampling error) 从总体中抽取样本的过程称为抽样( sampling) 抽样分为复置抽样和不复置抽样两种: 复置抽样指每次抽出一个个体后,这个个体应返回原总体 不复置抽样指每次抽出的个体不返回原总体 对于无限总体,或者样本容量 n与总体容量 N相比很小时,返回与否都 可保证每个个体被抽到的机会相等,复置抽样等同于不复置抽样 对于有限总体,应该采取复置抽样,否则各个体被抽到的机会就不相 等 在实际操作中,均为不复置抽样 在理论研究中则以复置抽样为主 2. 样本平均数的抽样分布( p47) 2.1 样本平均数抽样分布的概念 从总体容量为 N的总体中进行抽样,如果每个样本的样本容量均为 n, 将所有 这样的样本都抽出来,并计算出每一个样本的平均数 原来的那个总体,称为原总体 由样本平均数组成的分布称为样本平均数的抽样分布 如果原总体的平均数为 , 标准差为 , 那么样本平均数抽样总体: 平均数为: 标准差为: x x 称为样本平均数抽样总体的标准误差 简称为标准误( standard error) 由这些样本平均数组成的新总体,就称为样本平均数抽样总体。 标准误表示平均数抽样误差的大小,反映样本平均数与新总体平均数之间的 离散程度。 标准差表示的是原总体中原始数据与原总体平均数的关系 标准误表示的是从原总体中抽取的样本平均数与样本平均数抽样总体平 均数的关系 研究总体与样本的关系就转化成了讨论原总体与样本平均数抽样总体的关系: x nx 例 6: 设有一总体,总体容量为 N=3, 观测值分别为 2、 4、 6,以样本容量 n=2对该总体进行复置抽样,证明: ( 1) x ( 2) n x 原总体的总体平均数为: 43 642 23 ( 1) 以样本容量 n = 2对该总体进行复置抽 样,则样本平均数抽样总体为: 样本平均数抽样总体的总体容量 为: nN 49369 632 x 样本平均数抽样总体的总体平均 数为: 9 ( 2) 原总体的总体标准差为: N x Nx 2)( 2 3 4856 3 8 N x x N x 2)( 2 样本平均数抽样总体的总体标准差为: 9 9 )36(156 2 3 4 23 8 n 2.2 样本平均数抽样分布的特点 ( 1)样本平均数抽样总体的总体平均数与原总体的总体平均数相等, 因此,可用 代替 x ( 2)样本平均数抽样总体的方差与原总体的方差的关系为 nx 2 2 ( 3)当随机变量 x N( ,2) 时,样本平均数 n 2 当随机变量 x不呈正态分布或分布未知时,只要样本容量 n不断增大(或 足够大),则样本平均数的分布逐渐趋向于正态分布,且平均数为 , 方差为 中心极限定理 ),( 2nNx 样本平均值 服从或近似服从正态分布 2.3 与 的关系 x nx ( 1) ( 2) 表示原总体中各观测值的离散程度 x 表示样本平均数抽样总体中各样本平均数的离散程度 ( 3) 是总体中各观测值变异程度的度量值 是样本平均数抽样误差的度量值 是用来衡量样本平均数代表总体平均数的代表程度的 x ( 4) 称为标准差,用 Sd表示 称为标准误,用 Se表示 x 3. 标准误的作用 ( 1)衡量样本平均数间的变异程度 ( 2)推断总体平均数的可能范围 标准误大,说明样本平均数间的变异程度大 标准误大,用样本平均数来估计总体平均数的效果差,样本平均数的代表性弱 在通常情况下,可以用样本标准误来估计 抽 样总体标准误 n SS x 2 2 nSS x 可用样本平均数标准误来估计总体平均数 的可能范围 Sx xSx 表示原始数据的变异程度的 是用样本平均数来估计总体平均数的可能范围 ( 3) 4. t-分布 4.1 t-分布的定义 设有服从正态分布的随机变量 x, 正态分布的标准化公式为: xu 对于总体方差 2已知的总体, 根据公式可以计算出随机变量 x在某一区间 内出现的概率: uxu 对于总体方差 2已知的总体,根据公式可以知道 样本平均数 在某一区间内 出现的概率,公式为: x xu xx uxu 服从标准正态分布 nx 附: 服从标准正态分布 xu 假如 2未知,而且样本容量又比较小( n30) 时: 2S 2 xS x 标准化公式可变换为: xS x t t统计量组成的分布,就称为 t分布( t distribution) 不再服从标准正态分布 )( dftt t分布是一组曲线,自由度不同,曲线不同,但均以 y轴为对称 t分布只有一个参数,即自由度 df t分布的平均数和标准差为: 0 ( df 1) )2/( dfdft ( df 2) 服从 t-分布 n SS x 4.2 t-分布的特点 ( 1) t分布为对称分布,关于 t = 0对称;只有一个峰,峰值在 t = 0处;与标准正态分布曲线相比, t分布曲线顶部略低,两尾部稍 高而平 ( 2) t分布曲线受自由度 df 的影响,自由度越小,离散程度越大 ( 3) t分布的极限是正态分 布。 df越大, t分布越趋近于 标准正态分布 当 n 30时, t分布与标准正 态分布的区别很小; n 100 时, t分布基本与标准正态分 布相同; n 时, t 分布与 标准正态分布完全一致 4.3 t-分布的概率计算 附表 4给出了 t分布的两尾临界值 当左尾和右尾的概率之和为 (每 侧为 /2)时, t分布在横坐标上的 临界值的绝对值,记为 t )()( ttPttP 例 7:根据附表 4查出相应的临界 t值 :( 1) df =9, =0.05; ( 2) df =9, =0.01 )9(05.0t )9(01.0t 261.2 250.3 从一个平均数为 , 方差为 2的正态总体中,进行独立地抽样, 可获得随机变量 x, 则其标准离差: xu N( 0,1) 如果连续进行 n次独立抽样,可得 n个标准正态离差 ui, 对这 n 个独立的标准正态离差 ui进行平方求和就得到一个新的统计量 2: 222 2 2 1 2 ni uuuu 2 2)( x 5. 2-分布 5.1 2-分布的定义 2 22 )( xx 2 22 )1( Sn 2 22 )( x 2)( xx 如果用样本进行计算: 2)( x 由这些 2值所组成的一个分布,就称之为 2分布( 2 distribution) 2 )(2 df 22 )1()( Snxx 1 )( 22 n xxS 5.2 2-分布的特点 ( 1) 2分布的取值范围为 0, +),无负值 ( 2) 2分布的平均数为: df 2 方差为: df x 222 ( 3) 2分布的形状决定于自由度 df 当 df =1时,曲线呈反 J 形 随着 df 的增大,曲线渐趋对称 当 df 30时,向正态分布渐近 ( 4) 2还可以定义为理论次数与观察次数间的符合程度 (离散型变量) i ii E EO 22 )( O 观察次数 E 理论次数 5.3 2-分布的概率计算 附表 3给出了 2分布的右尾临界值 当右尾概率为 时, 2分布在横坐标 上的临界值的绝对值,记为 2 )( 22P 例 8:根据附表 3查出相应的右尾临界 2值 : ( 1) df =9, =0.05;( 2) df =9, =0.01 2 )9(05.0 2 )9(01.0 919.16 666.21 如果计算左尾概率为 时 2分布 的临界值,只需查右尾概率为 1- 的右尾临界值即可。 6. F-分布 6.1 F-分布的定义 从一个方差 2的正态总体中独立地抽取样本容量分别为 n1、 n2的两个样本, 这两个样本的方差分别为: 2 1S 22S 2 2 1121 )1( Sn 则有: 2 2 2222 )1( Sn 这两个 2变量除以各自的自由度后的比值为: )1( )1( 2 2 2 1 2 1 n n 2 2 2 22 2 1 2 11 )1( )1( )1( )1( n Sn n Sn 2 2 2 1 S S F 由一系列 F值所构成的分布称为 F分布( F distribution) F F( df1,df2) 2 22 )1( Sn 已计算: 6.2 F-分布的特点 ( 1) F分布密度曲线是随自由度 df1、 df2的变化而变化的一簇偏态曲线 其形状随着 df1、 df2的增大逐渐趋于对称; ( 2) F分布的取值范围是( 0, +),其平均数: 1 F 6.3 F-分布的概率计算 附表 5给出了 F分布的右尾临界值 当右尾概率为 时, 2分布在横坐 标上的临界值的绝对值,记为 F )( FFP 例 9:根据附表 5查出相应的右尾临界 F值 : ( 1) df1 =4, df2 =20, =0.05;( 2) df1 =4, df2 =20, =0.01 F0.01( 4, 20) = 4.43 F0.05( 4, 20) = 2.87 第三节 统计推断 假设检验 参数估计 统计推断在统计方法中的地位 统计方法 描述统计 推断统计 参数估计 假设检验 1.统计推断:根据样本的观察结果以及样 本统计量的抽样分布,对总体的数量特征 作出具有一定可靠程度的 估计和判断 。 2.统计推断的基本内容有两个: ( 1)参数估计 (利用样本指标来推断估计 未知的总体指标。) ( 2)假设检验 (先对总体参数做一个假设 ,然后利用样本资料检验这个假设是否成 立。) 统计推断概述 假设你正在研究平均一个美国人一生中要得到多少交通罚单,报告研究结果的方法有以 下两种:“ 10”或者“ 8到 12之间” 一、参数估计 Gudmund R. Iversen 1、点估计 1.用样本的估计量直接作为总体参数的估计值 例如:用样本均值直接 作为 总体均值的估 计 例如:用样本方差直接 作为 总体方差的估 计 2.没有给出估计值接近总体参数程度的信息 X 2 2 2 1 1 )( n XXi S n 2、区间估计 1. 在点估计的基础上 , 给出总体参数估计的一个 区间范围 , 该区间由样本统计量加减抽样误差而得到的 2. 根据样本统计量的抽样分布能够对样本统计量与总体参数 的接近程度给出一个概率度量 比如 , 某班级平均分数在 75 85之间 , 置信水平是 95% 样本统计量 (点估计 ) 置信区间 置信下限 置信上限 1)( tsxtP x 影响区间宽度的因素 1. 总体数据的离散程度, 用 来测度 2. 样本容量, 3. 置信水平 (1 - ),影响 的大小 统计假设检验又称为显著性检验,是生物统计学的核心内容,是统计推 断的主要组成部分 统计推断( statistical inference) 就是通过样本特征(统计量)来推断 相应总体特征(参数)的方法 参数估计( parametric estimate) 通过样本统计量估计总体参数的方法 点估计( point estimate) 区间估计( interval estimate) 直接用样本统计量的数值估计出相应总体参数具体值的方法 在一定的概率保证下(一般为 95%或 99%),根据样本统计量的分布,计 算出总体参数出现的数值范围或区间,用该区间来估计总体参数的方法 参数估计是对总体参数的 定量分析 二、假设检验 统计假设检验( hypothesis test) 根据某种实际需要,对未知的或不完全知道的总体参数提出一些假设, 然后根据样本观测值和统计量的分布,通过一定的计算,再作出在一定 概率意义上应当接受哪种假设的方法。 统计假设检验的假设是对总体提出的,由于最后检验的结论只有两种: 要比较的总体参数间要么存在显著差异,要么不存在显著差异 统计假设检验是对总体参数的 定性分析 1. 统计假设检验的意义 以两个平均数之间差异的显著性检验 t-检验为例 现随机挑选 10名中国女性和 10名韩国女性,请世界网络知名度大赛评委 和观众进行知名度评分,试比较哪个国家女性知名度更高? 9.99 9.85 9.99 9.95 9.98 9.97 9.95 9.95 中国女性的平均得分 9.98 韩国女性的平均得分 9.91 两个国家女性的平均得分并不相等,其差值(表面效应)为: 07.091.998.921 xx 根据两个样本平均数的差值 0.07,是否可以给两个样本所在总体的总体平 均数下这样的结论: 中国女性总体的平均得分高于韩国女性总体的平均得分 中国女性比韩国女性知名度更高 如果从经典数学的角度来看,答案应该是肯定 如果从生物统计学的角度来看,在未经过统计假设检验以前,只能 说“不一定” 事实上,仅仅凭借样本平均数之差不等于 0就得出其所属的总体平均数不相 等是不可靠的 实际上,进行试验研究的目的并不在于了解样本的结果,而是要通过样本 了解总体,通过样本来推断总体,从而对总体给出一个全面的结论 1x 2x 在统计学中,一般用样本平均数 、 作为统计假设检验的对象 、 以样本平均数差数的大小来对样本所在的总体平均数 1与 2是否相同作出 统计推断 以样本平均数作为检验对象的依据: 离均差平方和为最小,说明样本平均数与样本中各个观测值之间相差最 小,因此,平均数是一个样本资料的最好代表值 样本平均数是总体平均数的无偏估计值 根据中心极限定理,样本平均数服从或逼近正态分布 实际上,每个观测值(数据)都只是试验的表面效应,而表面效应一般由两 部分组成: 试验的处理效应 试验的随机误差 样本中每一观测值 xi也可以被分解成两部分: 处理效应: 用总体平均数 表示 误差效应: 用随机误差 表示 iix )(11 11 n in i nxnx 样本平均数为: n in 1 1 总体平 均数 样本平均数的差数也可分解成 2部分: 误差平 均数 )()( 221121 xx )()( 2121 表面 效应 处理 效应 抽样 误差 2. 统计假设检验的基本思想与步骤 首先根据具体试验目的提出一个假设 然后在假定该假设成立(或正确)的前提下进行试验,并取得数 据,接着对这些资料进行统计分析,获得该假设成立的概率 最后根据所获得的概率值的大小来判断假设是否成立 如果所得概率较大,就表明我们没有足够的理由来否定所作假设,即 必须接受这一假设 如果所得概率较小,就表明这一假设不大可能成立,应予否定,从而 接受其对立假设 统 计 假 设 检 验 的 基 本 步 骤 例 3-3:通过以往的大规模调查,已知某地成年黑白花奶牛血液中的白细胞数 为 52.3,标准差为 5.38,现测得 10头黑白花牛白细胞数分别为 53.6, 55.3, 46.4, 57.2, 46.0, 43.2, 48.1, 51.1, 49.9, 44.5; =49.53。试问这批黑 白花奶牛是否来自于某地黑白花奶牛总体? x ( 1) 对所研究的总体提出假设 研究某一随机样本所在的总体(用 表示)和一已知总体(用 0表示)是 否为同一总体,也就是研究这一随机样本是否来自于已知总体 假设: 两个总体为同一个总体(即两个总体的总体平均数相等) 无效假设( null hypothesis) 用 H0表示 即 H0: =0 无效假设的含义: 无效假设就是假设两总体的平均数相等,即 H0: 3.52 0 53.49x 3.520 假设样本平均数 与已知总体平均数 77.20 x 由抽样误差引起的,并不是两总体之间的真实差异 两总体之间的差异是由抽样误差所引起的 为了在无效假设被否定后有可以被接受的假设,因此应在设立无效假设的同 时设立一个后备假设 备择假设( alternative hypothesis) 用 HA表示 即 HA: 3.52H 0A : 0 77.20 x 备择假设的统计学意义: 样本所在总体与已知总体不是同一个总体,即两总体的平均数不等,即: 两总体之间的差异 是真实差异,而不是由抽样误差引起的 统计假设检验中完整的假设是: 00H : 0AH : 两总体之间的差异是真实差异 ( 2) 在假定无效假设成立的前提下,研究样本平均数的抽样分布,计算样 本平均数出现的概率 样本平均数与总体平均数间有一个实际存在的差值: 77.2 0 x 3.520 22 38.5 这个差值就是表面效应,可能是抽样误差,也可能是真实差异,因此需要 借助概率原理来进行判断 第一种方法:计算差值 -2.77出现的概率 在无效假设成立的前提下,样本所在的总体与已知总体为同一个总体,因 此样本所在总体的总体平均数和方差已知,即: x xu 0 70.1 3.5253.49 63.1 70.11038.5 nx 由于总体方差已知,根据标准正态分布就可以计算出差值 -2.77出现的概率 63.1u 0.10.11 (一个)样本在假设成立的条件下构造的统计量出现的概率 第二种方法:计算样本平均数的接受区间 x xu 0 根据标准化公式计算样本平均数的接受区间: 1)( 00 xx uxuP xux 0 xx uxu 00 接受区间 xux 0 否定区间 接受区间和否定区间是有一定的概率保证的,保证概率为 1-, 常用的保 证概率为 95%和 99%; 为显著水平,常用的显著水平有 0.05和 0.01 x 96.10 倘若样本平均数落在接受区间内,就接受 H0, 反之,倘若样本平均数落 在接受区间之外,就否定 H0, 接受 HA 作为 0.05显著水平上接受或否定无效假设的两个临界值 x 58.2 作为 0.01显著水平上接受或否定无效假设的两个临界值 1)( uuuP 95%的接受区间为: 97.4870.196.13.5296.1 0 x 68.5670.158.23.5258.20 x 92.4770.158.23.5258.20 x99%的接受区间为: 63.5570.196.13.5296.10 x ( 3) 根据“小概率事件实际不可能性原理”接受或否定无效假设 小概率事件实际不可能性原理是指在一次试验中,概率很小的事件是不可 能出现的 在统计学中,当样本平均数与总体平均数差值出现的概率小于 5%时,就认 为这种差异由抽样误差引起的概率较小,而是两总体间的真实性差异,从 而否定无效假设 差值 -2.77出现的概率为 0.10.11,大于 0.05,概率较大 ;说明样本平均数 与已知总体的总体平均数之间的差异是抽样误差的概率较大,而不大可能 是真实差异 接受无效假设,也就是说这批黑白花奶牛是来自于某地黑白花奶牛总体。 总结:统计假设检验的步骤 ( 1)提出假设 ( 2)计算样本平均数抽样分布的 t值或 u值 ( 3)查附表,根据小概率原理作出接受或者否定无效假设的推断,并结 合专业知识作出合理的、科学的解释 例 4-2: 1995年,已知某地 20岁应征男青年的平均身高为 168.5cm。 2005年 在当地 20岁应征男青年中随机抽取 85人,平均身高为 171.2cm, 标准差为 5.3cm, 问 2005年当地 20岁应征男青年的身高与 1995年的是否相同 ? 解: 85n 2.171x 5.1680 3.5S ( 1)提出假设 H0: = 168.5 HA: 168.5 与 1995年相比, 2005年当地 20岁应征男青年的身高没有变化 与 1995年相比, 2005年当地 20岁应征男青年的身高有变化 ( 2)计算 u值 n SS x 5 7 5.085 3.5 xS xu 0 5 7 5.0 5.1 6 82.1 7 1 70.4 ( 3)查表,作出推断 u0.05=1.96, u0.01=2.58 |u| = 4.70 2.58 = u0.01, P 0.01 根据“小概率事件原理”可以认为无效假设不成立,因此否定无效假设, 接受备择假设 样本不是来自于已知总体,即 2005年当地 20岁应征男青年的身高有变化, 比 1995年增高了 在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原 理” 用来确定否定或接受无效假设的概率标准称为显著水平,记作 若 |u| u0.05 P 0.05, 说明表面效应属于试验误差的可能性大,不能否定无效假设, 两个总体平均数间 差异不显著 若 u0.05|u| u0.01 P0.05, 说明表面效应属于试验误差的概率 P在 0.01-0.05之间,表面效应 属于试验误差的可能性较小,应否定无效假设,接受备择假设 两个总体平均数间 差异显著 标记 * 若 |u|u0.01 P0.01, 说明表面效应属于试验误差的概率 P不超过 0.01,表面效应属于 试验误差的可能性更小,应否定无效假设,接受备择假设 两个总体平均数间 差异极显著 标记 * 3. 一尾检验和两尾检验 所研究样本的样本平均数,有可能大于已知总体的总体平均数,也有可能 小于已知总体的总体平均数,即计算所得的 u值可能会落在标准正态分布左 边否定区,也有可能会落在右边否定区 既考虑左边否定区又考虑右边否定区即考虑分布 曲线两尾的检验称为两尾检验( two-tailed test) 在很多情况下,事先并不知道所抽样本的样本 平均数是不是肯定大于总体平均数或肯定小于 总体平均数 因此,备择假设 HA: 0中,有两种可能性 存在,既包括 0, 又包括 0 两尾检验是生物统计学中最常用的方法,应用范围极其广泛 有些时候,试验目的是明确的,即所抽样本的样本平均数只可能大于总体 平均数 0, 或只可能小于总体平均数 0 在这种情况下,无效假设否定后的备择假设只有一种情况:要么 0 , 要 么 0 只有一个否定区(一尾)的假设检验称为一尾检验( one-tailed test) 两尾检验的假设: H0: =0, HA: 0 一尾检验的假设: H0: 0, HA: 0 在样本容量和显著水平相同的情况下,一尾检验 的效率高于两尾检验,一尾检验比两尾检验更容 易否定无效假设 若对同一资料进行两尾检验和一尾检验,那么 在 水平上一尾检验显著,只相当于两尾检验在 ( 查表时双侧 2即可 ) 水平上显著。所以,同 一资料两尾检验与一尾检验所得的结论不一定 相同 两尾检验显著,一尾检验一定显著 一尾检验显著,两尾检验未必显著 4. 假设检验的两类错误 在假设检验中,接受或者否定无效假设的依据是 “ 小概率事件实际不可能 性原理 ”,因此所得出的结论(不论是接受还是否定无效假设)都没有 100%的把握,只是在一定的概率范围内认为这种结论是正确的 4.1 第一类错误 如果无效假设 H0成立,即 H0: =0为真,但: 检验结果发现“差异显著”而否定了它(此时,只有 95%的把握,要冒 5%下错结论的风险) 检验结果发现“差异极显著”而否定了它(此时,只有 99%的把握,要 冒 1%下错结论的风险) 这一类错误称为 型错误或 型错误 型错误的实质就是把非真实差异(抽样误差)错判为真实差异, 即: H0: =0为真,却接受了 HA: 0 弃真 H0正确被否定 犯 型错误的概率不会超过显著水平 ( 5%、 1%) 4.2 第二类错误 如果无效假设 H0不成立,即 H0: =0为假,但: 检验结果发现“差异不显著”而接受了它,同时放弃了正确的备择假设 在统计学中所谓的“差异不显著”就是指没有充分的理由去否定无效假设, 但也没有充分的理由去接受备择假设,但生物统计学实行的是“非此即彼” 的原则,因此,既然“差异不显著”就必须接受无效假设。 这一类错误称为 型错误或 型错误。 型错误的实质就是把真实差异错判为非真实差异,即虽然 H0: =0是假 的,但通过检验却接受了 存伪 H0错误被接受 “差异不显著”不是指没有差异,它存在 2种可能:一是两总体间的确没 有差异,平均数间的差异纯属抽样误差;二是两总体间有差异,但由于实 验误差大而掩盖了这一差异。 统计推断的基本特点就是 “ 有很大的可靠性,但也有一定的错误率 ” 两类错误与假设的关系 客 观 实 际 接 受 H0 否 定 H0 无效假设 H0成立 推断正确( 1-) 型错误( ) “弃真” 无效假设 H0不成立 型错误( ) “存伪” 推断正确( 1-)
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!