第五章统计量及其分布课件

资源描述

第第1 1页页第五章统计量及其分布 5.1 总体与样本5.2 样本数据的整理与显示5.3 统计量及其分布5.4 三大抽样分布5.5 充分统计量第第2 2页页5.1 总体与个体总体与个体总体的三层含义：研究对象的全体；数据；分布第第3 3页页例5.1.2 在二十世纪七十年代后期，美国消费者购买日产SONY彩电的热情高于购买美产 SONY彩电，原因何在？1979年4月17日日本朝日新闻刊登调查报告指出N(m,(5/3)2)，日产SONY彩电的彩色浓度服从正态分布，而美产SONY彩电的彩色浓度服从(m5,m+5)上的均匀分布。原因在于总体的差异上！第第4 4页页图5.1.1 SONY彩电彩色浓度分布图第第5 5页页等级 I II III IV美产 33.3 33.3 33.3 0 日产 68.3 27.1 4.3 0.3表5.1.1 各等级彩电的比例(%)第第6 6页页第六章第六章样本与统计量样本与统计量由于大量随机现象必然呈现出其规律性，由于大量随机现象必然呈现出其规律性，因而从理论上讲，只要对随机现象进行足够多因而从理论上讲，只要对随机现象进行足够多次的观察，随机现象的规律性就一定能够清楚次的观察，随机现象的规律性就一定能够清楚地呈现出来。地呈现出来。但是，但是，客观上只允许我们对随机现象进行客观上只允许我们对随机现象进行次数不多的观察或试验，也就是说：我们获得次数不多的观察或试验，也就是说：我们获得的只能是局部的或有限的观察资料。的只能是局部的或有限的观察资料。第第7 7页页5.1.2 样本样品、样本、样本量:一方面，由于样本是从总体中随机抽取的，抽取前无法预知它们的数值，因此，样本是随机变量，用大写字母 X1,X2,Xn 表示；另一方面，样本在抽取以后经观测就有确定的观测值，因此，样本又是一组数值。此时用小写字母 x1,x2,xn 表示是恰当的。简单起见，无论是样本还是其观测值，样本一般均用 x1,x2,xn 表示，应能从上下文中加以区别。第第8 8页页例例1 1：研究某地区研究某地区 N 个农户的年收人。个农户的年收人。在这里，总体既指这在这里，总体既指这 N 个农户，又指我们个农户，又指我们所关心的所关心的 N个农户的个农户的数量指标数量指标他们的年收他们的年收入入(N 个数字个数字)。如果从这如果从这 N 个农户中随机地抽出个农户中随机地抽出 n 个农户个农户作为调查对象，那么，这作为调查对象，那么，这 n 个农户以及他们的个农户以及他们的数量指标数量指标年收入年收入(n个数字个数字)就是就是样本样本。注意：注意：上例中的总体是直观的，看得见、上例中的总体是直观的，看得见、摸得着的。但是，摸得着的。但是，客观情况并非总是这样。客观情况并非总是这样。第第9 9页页例例2 2：用一把尺子测量一件物体的长度。用一把尺子测量一件物体的长度。假定假定 n 次测量值分别为次测量值分别为X1,X2,Xn。显然，。显然，在该问题中，我们把测量值在该问题中，我们把测量值X1,X2,Xn看成看成样本。但总体是什么呢样本。但总体是什么呢?事实上，这里事实上，这里没有一个现实存在的个体的没有一个现实存在的个体的集合可以作为上述问题的总体集合可以作为上述问题的总体。可是，我们可。可是，我们可以这样考虑，既然以这样考虑，既然 n 个测量值个测量值 X1,X2,Xn 是是样本，那么，总体就应该理解为样本，那么，总体就应该理解为一切所有可能一切所有可能的测量值的全体。的测量值的全体。第第1010页页又如又如：为研究某种安眠药的药效，让：为研究某种安眠药的药效，让 n 个病人个病人同时服用这种药，记录服药者各自服药后的睡同时服用这种药，记录服药者各自服药后的睡眠时间比未服药时增加睡眠的小时数眠时间比未服药时增加睡眠的小时数 X1,X2,Xn，则则这些数字就是样本这些数字就是样本。那么，什么是总体呢那么，什么是总体呢?设想让某个地区设想让某个地区(或某国家，甚至全世界或某国家，甚至全世界)所有患失眠症的病人都服用此药，则他们所增所有患失眠症的病人都服用此药，则他们所增加睡眠的小时数之全体就是研究问题的总体。加睡眠的小时数之全体就是研究问题的总体。第第1111页页总体分为有限总体与无限总体实际中总体中的个体数大多是有限的。当个体实际中总体中的个体数大多是有限的。当个体数充分大时，将有限总体看作无限总体是一种数充分大时，将有限总体看作无限总体是一种合理的抽象。合理的抽象。对无限总体，随机性与独立性容易实现，困难在对无限总体，随机性与独立性容易实现，困难在于排除有意或无意的人为干扰。于排除有意或无意的人为干扰。对有限总体，只要总体所含个体数很大，特别对有限总体，只要总体所含个体数很大，特别是与样本量相比很大，则独立性也可基本得到是与样本量相比很大，则独立性也可基本得到满足。满足。第第1212页页对一个总体，如果用对一个总体，如果用X表示其数量指标，表示其数量指标，那么，那么，X的值对不同的个体就取不同的值。因的值对不同的个体就取不同的值。因此，如果我们随机地抽取个体，则此，如果我们随机地抽取个体，则X的值也就的值也就随着抽取个体的不同而不同。随着抽取个体的不同而不同。所以，所以，X是一个随机变量是一个随机变量!既然总体是随机变量既然总体是随机变量X，自然就有其概率，自然就有其概率分布。我们把分布。我们把X的分布称为的分布称为总体分布。总体分布。总体的特性是由总体分布来刻画的。因此，总体的特性是由总体分布来刻画的。因此，常把总体和总体分布视为同义语。常把总体和总体分布视为同义语。.总体分布总体分布第第1313页页样本的二重性样本的二重性假设假设 X1,X2,Xn 是总体是总体X中的样本，在一中的样本，在一次具体的观测或试验中，它们是一批测量值次具体的观测或试验中，它们是一批测量值,是已经取到的一组数。这就是说，是已经取到的一组数。这就是说，样本具有样本具有数的属性。数的属性。由于在具体试验或观测中，受各种随机因素由于在具体试验或观测中，受各种随机因素的影响，在不同试验或观测中，样本取值可的影响，在不同试验或观测中，样本取值可能不同。因此，当脱离特定的具体试验或观能不同。因此，当脱离特定的具体试验或观测时，我们并不知道样本测时，我们并不知道样本 X1 1,X2 2,Xn n 的的具具体取值到底是多少。因此，可将样本看成随体取值到底是多少。因此，可将样本看成随机变量。故，机变量。故，样本又具有随机变量的属性。样本又具有随机变量的属性。.第第1414页页样本样本X1,X2,Xn既被看成数值，又被看成随既被看成数值，又被看成随机变量，这就是所谓的样本的二重性。机变量，这就是所谓的样本的二重性。在前面测量物体长度的例子中，如果我们在完在前面测量物体长度的例子中，如果我们在完全相同的条件下，独立地测量了全相同的条件下，独立地测量了n 次，把这次，把这 n 次测量结果，即样本记为次测量结果，即样本记为 X1,X2,Xn.随机随机样本样本那么，我们就认为：那么，我们就认为：这些样本相互独立，且有这些样本相互独立，且有相同的分布；其分布与总体分布相同的分布；其分布与总体分布 N(,2)相同。相同。第第1515页页将上述结论将上述结论推广到一般的分布推广到一般的分布:如果在相如果在相同条件下对总体同条件下对总体 X 进行进行 n 次重复、独立观测，次重复、独立观测，就可以认为所获得的样本就可以认为所获得的样本X1,X2,Xn是是 n 个个独独立且与总体立且与总体 X 有同样分布的随机变量。有同样分布的随机变量。在统计文献中，通常称统计文献中，通常称相互独立且有相同相互独立且有相同分布的样本分布的样本为为随机样本随机样本或或简单样本简单样本,n 为为样本样本大小大小或或样本容量样本容量。第第1616页页既然样本既然样本 X1,X2,Xn 被看作随机向量被看作随机向量,自然需要研究其联合分布。自然需要研究其联合分布。样本分布样本分布假设总体假设总体 X 具有概率密度函数具有概率密度函数 f(x)，因因样本样本X1,X2,Xn独立独立同分布同分布于于 X，于是，样，于是，样本的本的联合概率密度函数为联合概率密度函数为第第1717页页统计数据的分类统计数据的分类统计数据的分类按计量层按计量层次次分分类类的的数数据据顺顺序序的的数数据据数数值值型型数数据据按时间状按时间状况况截截面面的的数数据据时时序序的的数数据据按收集方按收集方法法观观察察的的数数据据试试验验的的数数据据第第1818页页数据类型及图示(小结)第第1919页页分组数据的图示(直方图的绘制)140140 150150210210直方图下的面直方图下的面积之和等于积之和等于11某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图某电脑公司销售量分布的直方图我我一一眼眼就就看看出出来来了了，销销售售量量在在 170170 180180之之间间的的天天数数最最多多!190190 200200180180160160 170170频频频频频频数数数数数数(天天天天天天)25252020151510105 53030220220 230230 240240第第2020页页未分组数据单批数据箱线图(例题分析)最小值最小值最小值141141141最大值最大值最大值237237237中位数中位数中位数182182182下四分位数下四分位数下四分位数170.25170.25170.25上四分位数上四分位数上四分位数197197197140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240140 150 160 170 180 190 200 210 220 230 240某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图某电脑公司销售量数据的箱线图第第2121页页在要比较两组样本时，可画出它们的背靠背的茎叶图。甲车间 6 2 0 5 6 乙车间8 7 7 7 5 5 5 4 2 1 1 6 6 7 7 8 8 8 7 7 6 6 4 4 2 1 7 2 2 4 5 5 5 5 6 6 6 8 8 9 8 7 6 6 5 3 2 8 0 1 1 3 3 3 4 4 4 6 6 7 7 8 7 3 2 1 0 9 0 2 3 5 8 5 3 0 0 10 7 注意：茎叶图保留数据中全部信息。当样本量较大，数据很分散，横跨二、三个数量级时，茎叶图并不适用。第第2222页页数据分布特征的测度数据特征的测度数据特征的测度分布的形状分布的形状集中趋势集中趋势离散程度离散程度众众众众数数数数中位数中位数中位数中位数均均均均均均值值值值值值离散系数离散系数离散系数离散系数离散系数离散系数方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差方差和标准差峰峰峰峰峰峰态态态态态态四分位差四分位差四分位差四分位差四分位差四分位差异众比率异众比率异众比率异众比率异众比率异众比率偏偏偏偏偏偏态态态态态态第第2323页页5.2.1 经验分布函数5.2 样本数据的整理与显示设 x1,x2,xn 是取自总体分布函数为F(x)的样本，若将样本观测值由小到大进行排列,为 x(1),x(2),x(n)，则称 x(1),x(2),x(n)为有序样本，用有序样本定义如下函数第第2424页页更深刻的结果也是存在的，这就是格里纹科定理。更深刻的结果也是存在的，这就是格里纹科定理。定理定理5.2.15.2.1（格里纹科定理）（格里纹科定理）设设x1,x2,xn是取自是取自总体分布函数为总体分布函数为F F(x x)的样本的样本,F Fn n(x x)是其经验分是其经验分布函数，布函数，当当n n 时时，有，有P P supsup F Fn n(x x)F F(x x)0 0 =1=1格里纹科定理表明：格里纹科定理表明：当当n n 相当大时，经验分布函相当大时，经验分布函数是总体分布函数数是总体分布函数F F(x x)的一个良好的近似。的一个良好的近似。经典的统计学中一切统计推断都以样本为依据，经典的统计学中一切统计推断都以样本为依据，其理由就在于此。其理由就在于此。第第2525页页5.3.1 统计量与抽样分布5.3 统计量及其分布当人们需要从样本获得对总体各种参数的认识时，最好的方法是构造样本的函数，不同的函数反映总体的不同特征。定义5.3.1 设 x1,x2,xn 为取自某总体的样本，若样本函数T=T(x1,x2,xn)中不含有任何未知参数。则称T为统计量。统计量的分布称为抽样分布。第第2626页页几个常见统计量几个常见统计量样本均值样本均值样本方差样本方差反映总体反映总体均值的信息均值的信息反映总体反映总体方差的信息方差的信息样本标准差样本标准差第第2727页页样本样本 k 阶原点矩阶原点矩样本样本 k 阶中心矩阶中心矩 k=1,2,反映总体反映总体k 阶矩的信息阶矩的信息反映总体反映总体k 阶阶中心矩的信息中心矩的信息第第2828页页样本均值的抽样分布：定理5.3.3 设x1,x2,xn 是来自某个总体的样本，x为样本均值。(1)若总体分布为N(,2)，则xx的精确分布为N(,2/n);(2)若总体分布未知或不是正态分布，(3)但 E(x)=,Var(x)=2,则n 较大时的渐近分(4)布为N(,2/n),常记为。xAN(,2/n)这里渐近分布是指n 较大时的近似分布.第第2929页页样本均值的数学期望和方差，以及样本方差的数学期望都不依赖于总体的分布形式。定理5.3.4 设总体 X 具有二阶矩，即 E(x)=,Var(x)=2 ,x1,x2,xn 为从该总体得到的样本，x和s2 分别是样本均值和样本方差，则E(x)=,Var(x)=2/n,E(s2)=21）2）第第3030页页当总体关于分布中心对称时，我们用当总体关于分布中心对称时，我们用x和和 s刻画样本特征很有代表性，而当其不对称时，刻画样本特征很有代表性，而当其不对称时，只用只用就显得很不够。为此，需要一些刻画就显得很不够。为此，需要一些刻画分布形状的统计量，如分布形状的统计量，如样本偏度和样本峰度，它它们都是们都是样本中心矩的函数样本中心矩的函数。样本偏度1反映了总体分布密度曲线的对称性信息。样本峰度2反映了总体分布密度曲线在其峰值附近的陡峭程度。定义：1=b3/b23/2 称为样本偏度，2=b4/b22-3 称为样本峰度。x和和 s第第3131页页偏态与峰态分布的形状扁平分布扁平分布扁平分布扁平分布尖峰分布尖峰分布尖峰分布尖峰分布偏态偏态偏态偏态峰态峰态峰态峰态左偏分布左偏分布左偏分布左偏分布右偏分布右偏分布右偏分布右偏分布与标准正态与标准正态分布比较！分布比较！第第3232页页偏态(skewness)1.统计学家Pearson于1895年首次提出 2.数据分布偏斜程度的测度2.偏态系数=0为对称分布3.偏态系数 0为右偏分布4.偏态系数 0为左偏分布第第3333页页峰态(kurtosis)1.统计学家Pearson于1905年首次提出2.数据分布扁平程度的测度3.峰态系数=0扁平峰度适中4.峰态系数0为尖峰分布第第3434页页计算变异度指标的excel函数四分位数：quartile(,quart=?)平均差：adedev总体方差：varp总体标准差：stdevp样本方差：var样本标准差：stdev偏态系数：skew峰态系数：kurt第第3535页页5.3.5 次序统计量及其分布另一类常见的统计量是次序统计量。一、定义5.3.7 设 x1,x2,xn 是取自总体X的样本,x(i)称为该样本的第i 个次序统计量，它的取值是将样本观测值由小到大排列后得到的第 i 个观测值。其中x(1)=minx1,x2,xn称为该样本的最小次序统计量，称 x(n)=maxx1,x2,xn为该样本的最大次序统计量。我们知道，在一个样本中，x1,x2,xn 是独立同分布的，而次序统计量 x(1),x(2),x(n)则既不独立，分布也不相同。第第3636页页次序统计量的分布定理5.3.5 设总体X的密度函数为p(x)，分布函数为F(x)，x1,x2,xn为样本，则第k个次序统计量x(k)的密度函数为定理5.3.6 在定理5.3.5的记号下，次序统计量(x(i),x(j),(i j)的联合分布密度函数为第第3737页页样本极差 Rn=x(n)x(1)，密度函数为：，密度函数为：这正是参数为(n1,2)的贝塔分布。第第3838页页5.3.6 样本分位数与样本中位数样本中位数也是一个很常见的统计量，它也是次序统计量的函数，通常如下定义：更一般地，样本p分位数mp可如下定义：第第3939页页定理5.3.7 设总体密度函数为p(x)，xp为其p分位数，p(x)在xp处连续且 p(xp)0，则特别，对样本中位数，当n时近似地有当n 时样本 p 分位数 mp 的渐近分布为柯西分布：p(x,)=1/(1+(x)2),x x +中位数=m0.5 AN(,2/4n).第第4040页页5.4 三大抽样分布有很多统计推断是基于正态分布的假设的，以标准正态变量为基石而构造的三个著名统计量在实际中有广泛的应用，这是因为这三个统计量不仅有明确背景，而且其抽样分布的密度函数有明显表达式，它们被称为统计中的“三大抽样分布”。第第4141页页该密度函数的图像是一只取非负值的偏态分布第第4242页页该密度函数的图象也是一只取非负值的偏态分布由 F 分布的构造知 F(n,m)=1/F1(m,n)。第第4343页页 t 分布的密度函数的图象是一个关于纵轴对称的分布，与标准正态分布的密度函数形状类似，只是峰比标准正态分布低一些尾部的概率比标准正态分布的大一些。n1时,t 分布的数学期望存在且为0；n2时，t 分布的方差存在，且为n/(n2)；当自由度较大(如n30)时，t 分布可以用正态分布 N(0,1)近似。t(n1)=t1(n1)第第4444页页5.4.4 一些重要结论定理5.4.1 设 x1,x2,xn 是来自N(,2)的样本，其样本均值和样本方差分别为和x=xi/n s2=(xix)2/(n1)(3)(n1)s2/2 2 2(n n1)。则有(1)x 与 s2 相互独立；(2)x N(,2/n)；第第4545页页推论5.4.3 设 x1,x2,xn 是来自N(1,12)的样本，y1,y2,yn 是来自N(2,22)的样本，且此两样本相互独立，则有特别，若12=22，则F=sx2/sy2 F(m1,n1)第第4646页页推论5.4.4 在推论5.4.3的记号下，设 12=22=2，并记则第第4747页页定义5.5.1 设 x1,x2,xn 是来自某个总体的样本，总体分布函数为F (x;)，统计量 T=T(x1,x2,xn)称为的充分统计量，如果在给定T 的取值后，x1,x2,xn 的条件分布与无关.5.5 充分统计量第第4848页页5.5.2 因子分解定理充分性原则：在统计学中有一个基本原则-在充分统计量存在的场合，任何统计推断都可以基于充分统计量进行，这可以简化统计推断的程序。定理5.5.1 设总体概率函数为 p(x;)，X1,Xn 为样本，则 T=T(X1,Xn)为充分统计量的充分必要条件是：存在两个函数g(t;)和h(x1,xn)，使得对任意的和任一组观测值 x1,x2,xn，有p(x1,x2,xn;)=g(T(x1,x2,xn);)h(x1,x2,xn)(5.5.1)第第4949页页一只兔子如何吃掉狼一天，一只兔子在山洞前写文章，一只狼走了过来，问：“兔子啊，你在干什么？”答曰：“写文章。”问：“什么题目？”答曰：“浅谈兔子是怎样吃掉狼的。”狼哈哈大笑，表示不信，于是兔子把狼领进山洞。一只野猪走了过来，问：“兔子你在写什么？”答：“文章。”问：“题目是什么？”答：“浅谈兔子是如何把野猪吃掉的。”野猪不信，于是同样的事情发生。最后，在山洞里，一只狮子在一堆白骨之间，满意的剔着牙读着兔子交给它的文章，题目：“一只动物，能力大小关键要看你的老板是谁。”第第5050页页一只兔子如何吃掉鹿这只兔子有次不小心告诉了他的一个兔子朋友，这消息逐渐在森林中传播；狮子知道后非常生气，他告诉兔子：“如果这个星期没有食物进洞，我就吃你。”于是兔子继续在洞口写文章。一只小鹿走过来，“兔子，你在干什么啊？”“写文章”“什么题目”“浅谈兔子是怎样吃掉鹿的”“哈哈，这个事情全森林都知道啊，你别胡弄我了，我是不会进洞的”“我马上要退休了，狮子说要找个人顶替我，难道你不想这篇文章的兔子变成小鹿么”小鹿想了想，终于忍不住诱惑，跟随兔子走进洞里。过了一会，兔子独自走出山洞，继续写文章一只小马走过来，同样是事情发生了。最后，在山洞里，一只狮子在一堆白骨之间，满意的剔着牙读着兔子交给它的文章题目是：如何发展下线动物为老板提供食物如何发展下线动物为老板提供食物

展开阅读全文

第五章统计量及其分布课件

最新文档