第四章抽样与抽样分布PPT课件

上传人:无*** 文档编号:137695110 上传时间:2022-08-18 格式:PPT 页数:71 大小:1.60MB
返回 下载 相关 举报
第四章抽样与抽样分布PPT课件_第1页
第1页 / 共71页
第四章抽样与抽样分布PPT课件_第2页
第2页 / 共71页
第四章抽样与抽样分布PPT课件_第3页
第3页 / 共71页
点击查看更多>>
资源描述
1第四章 抽样与抽样分布(新)4.1 抽样的基础知识4.2 抽样分布 4.3 中心极限定理的应用24.1 抽样的基础知识一、几个概念二、抽样误差三、常用的抽样方法3一、几个概念(一)全及总体与总体指标(一)全及总体与总体指标全及总体全及总体。简称总体简称总体(Population)(Population),是指所要研究的,是指所要研究的对象的全体,它是由所研究范围内具有某种共同性质对象的全体,它是由所研究范围内具有某种共同性质的全部单位所组成的集合体。总体单位总数用的全部单位所组成的集合体。总体单位总数用N N表示。表示。(举例)(举例)总体指标总体指标(参数)。在抽样估计中,用来反映总体数(参数)。在抽样估计中,用来反映总体数量特征的指标称为总体指标,也叫总体参数。量特征的指标称为总体指标,也叫总体参数。研究目的一经确定,总体也唯一地确定了,所以总体研究目的一经确定,总体也唯一地确定了,所以总体指标的数值是客观存在的、确定的,但又是未知的,指标的数值是客观存在的、确定的,但又是未知的,需要用样本资料去估计需要用样本资料去估计。4通常所要估计的总体指标有通常所要估计的总体指标有:变量总体变量总体总体平均数总体平均数 (或记为或记为)总体标准差总体标准差或方差或方差总体标志总量总体标志总量(N )(N )属性总体属性总体总体比率(成数)总体比率(成数)P(P(或或 )总体比率标准差总体比率标准差P P或或 方差方差P P 总体中具有某一属性的单总体中具有某一属性的单位总数位总数(NP)(NP)等。等。XX5一、几个概念(二)样本总体与样本指标(二)样本总体与样本指标样本总体样本总体。简称样本(。简称样本(SampleSample),它是按照随机原则,),它是按照随机原则,从总体中抽取的部分总体单位的集合体从总体中抽取的部分总体单位的集合体 。样本容量样本容量:样本中所包含的个体的数量,一般用:样本中所包含的个体的数量,一般用n n表示。表示。在实际工作中,人们通常把在实际工作中,人们通常把n30n30的样本称为大样本的样本称为大样本,而把而把n30n30的样本称为小样本的样本称为小样本。对于某一既定的总体,由于抽样的方式方法不同,样对于某一既定的总体,由于抽样的方式方法不同,样本容量也可大可小,因而,本容量也可大可小,因而,样本是不确定的、而是可样本是不确定的、而是可变的变的。6一、几个概念(二)样本总体与样本指标(二)样本总体与样本指标样本指标(统计量)样本指标(统计量)。在抽样估计中,用来反。在抽样估计中,用来反映映样本总体样本总体数量特征的指标数量特征的指标称为样本指标,也称为样本指标,也称为样本统计量或估计量,是根据样本资料计称为样本统计量或估计量,是根据样本资料计算的、用以估计或推断相应总体指标的综合指算的、用以估计或推断相应总体指标的综合指标。标。7常见的样本统计量有:常见的样本统计量有:变量总体变量总体:样本平均数样本平均数样本标准差样本标准差S S或或 样本方差样本方差SS样本统计量样本统计量不含未知参数不含未知参数,它是随样本不同而不同的它是随样本不同而不同的随机变量随机变量。属性总体:属性总体:样本比率(也称样本样本比率(也称样本 成数)成数)p p样本比率标准差样本比率标准差p p或或 方差方差p p x8二、抽样误差(一)抽样误差的概念(一)抽样误差的概念抽样误差是统计调查误差的一种形式。统计调查误差,是指调查所得结果与总体真实统计调查误差,是指调查所得结果与总体真实数值之间的差异。在抽样调查中,误差的来源数值之间的差异。在抽样调查中,误差的来源有两大类:有两大类:登记性误差登记性误差。是任何一种统计调查都可能产生。是任何一种统计调查都可能产生.代表性误差代表性误差 系统性误差系统性误差 随机误差随机误差9二、抽样误差系统性误差,系统性误差,是由于非随机因素引起的样本代是由于非随机因素引起的样本代表性不足而产生的误差,表现为样本估计量的表性不足而产生的误差,表现为样本估计量的值系统性偏高或偏低,故也称偏差;值系统性偏高或偏低,故也称偏差;随机误差随机误差:又称偶然性误差,是指:又称偶然性误差,是指遵循随机原遵循随机原则抽样,但由于样本各单位的结构不足以代表则抽样,但由于样本各单位的结构不足以代表总体各单位的结构而引起的样本估计量与总体总体各单位的结构而引起的样本估计量与总体参数之间的误差参数之间的误差。这就是抽样估计中所谓的抽。这就是抽样估计中所谓的抽样误差样误差 。10二、抽样误差实际应用中,有三个密切联系而又相互区别实际应用中,有三个密切联系而又相互区别的抽样误差的概念的抽样误差的概念 实际抽样误差实际抽样误差 抽样平均误差抽样平均误差 抽样极限误差抽样极限误差11二、抽样误差(二)抽样平均误差(抽样标准误(二)抽样平均误差(抽样标准误)抽样平均误差是反映抽样误差一般水平的指标(抽样平均误差是反映抽样误差一般水平的指标(因为因为抽样误差是一个随机变量,它的数值随着可能抽取的抽样误差是一个随机变量,它的数值随着可能抽取的样本不同而或大或小,为了总的衡量样本代表性的高样本不同而或大或小,为了总的衡量样本代表性的高低,就需要计算抽样误差的一般水平低,就需要计算抽样误差的一般水平)。通常用)。通常用样本样本估计量的标准差估计量的标准差来反映来反映所有可能样本估计值与其中心所有可能样本估计值与其中心值的平均离散程度。值的平均离散程度。12二、抽样误差(二)抽样平均误差(二)抽样平均误差22()()()x E xxxMMn抽样平均误差可衡量样本对总体的代表性大小抽样平均误差可衡量样本对总体的代表性大小。即。即:抽样平均误越小,则抽样平均误越小,则样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体样本估计量的分布就越集中在总体参数的附近,平均来说,样本估计值与总体参数之间的抽样误差越小,样本对总体的代表性越大。参数之间的抽样误差越小,样本对总体的代表性越大。13抽样平均误的计算公式抽样平均误的计算公式在总体方差在总体方差 已知,总体单位总数为已知,总体单位总数为N N,样本,样本容量为容量为n n,简单随机抽样条件下,抽样平均误,简单随机抽样条件下,抽样平均误的计算公式为的计算公式为:重复抽样重复抽样 不重复抽样不重复抽样估计均值估计均值估计成数估计成数22()xnn2()1nxnN(1)()pppn(1)()1ppnpnN14二、抽样误差(三)抽样极限误差(三)抽样极限误差抽样极限误差是指抽样极限误差是指一定概率下一定概率下抽样误差的抽样误差的可能范围可能范围,也称为也称为允许误差允许误差。用。用表示,由定义知其表达式:表示,由定义知其表达式:在一定概率下,在一定概率下,上式表示,在一定概率下可认为样本估计量与相应的上式表示,在一定概率下可认为样本估计量与相应的总体参数的误差的绝对值不超过总体参数的误差的绝对值不超过 。15抽样极限误差抽样极限误差用用 、分别表示平均数和比率(成数)的抽样极限分别表示平均数和比率(成数)的抽样极限误差,则在一定概率下有:误差,则在一定概率下有:估计均值的置信区间:估计均值的置信区间:估计成数(比例)的置信区间:估计成数(比例)的置信区间:xpxXxpPpxxxXx pppPp 16对抽样极限误差的解释:抽样极限误差抽样极限误差是抽样误差的是抽样误差的可能范围可能范围,而不是完全肯,而不是完全肯定的范围。所以,这一可能范围的大小是与其估计的定的范围。所以,这一可能范围的大小是与其估计的可靠程度的大小(即概率)紧密联系的。在抽样估计可靠程度的大小(即概率)紧密联系的。在抽样估计中,这个概率叫置信度,习惯上也称为可靠程度、把中,这个概率叫置信度,习惯上也称为可靠程度、把握程度或概率保证程度等,用握程度或概率保证程度等,用1-1-表示。表示。显然在其他显然在其他条件不变的情况下,抽样极限误差越大,相应的置信条件不变的情况下,抽样极限误差越大,相应的置信度也就越大。度也就越大。17抽样误差率:抽样误差率:与抽样极限误差相关的两个概念是与抽样极限误差相关的两个概念是:抽样误差率和抽样估计精度抽样误差率和抽样估计精度抽样误差率抽样误差率=(抽样极限误差(抽样极限误差/估计量)估计量)100%100%抽样估计精度抽样估计精度=100%-=100%-抽样误差率抽样误差率18估计精度(准确性)与可靠程度的关系:估计精度与估计的可靠程度是矛盾的。也就是说,如估计精度与估计的可靠程度是矛盾的。也就是说,如果果精度很高精度很高,则会由于估计区间太窄而使错误估计的,则会由于估计区间太窄而使错误估计的可能性大增,从而大大降低估计的可靠程度,使估计可能性大增,从而大大降低估计的可靠程度,使估计结果没有多大的作用;如果结果没有多大的作用;如果置信度很高置信度很高,则意味着允,则意味着允许误差范围较大,而使估计精度太低许误差范围较大,而使估计精度太低 ,这时尽管估计,这时尽管估计的可靠程度接近或等于的可靠程度接近或等于100%100%,但抽样估计本身也会失,但抽样估计本身也会失去意义。去意义。实际中,只能依据具体情况,先满足一方面,然后确实际中,只能依据具体情况,先满足一方面,然后确定另一方面。定另一方面。19三、抽样方法在实际应用中,抽样方法主要有两种在实际应用中,抽样方法主要有两种 概率抽样概率抽样 非概率抽样非概率抽样1 1、概率抽样也叫随机抽样概率抽样也叫随机抽样,是指按随机原则抽取样本。,是指按随机原则抽取样本。所谓随机原则,就是排除主观意识的干扰,使总体的每所谓随机原则,就是排除主观意识的干扰,使总体的每一个单位都有一定的概率被抽选为样本单位,每个单位一个单位都有一定的概率被抽选为样本单位,每个单位能否入选是随机的。能否入选是随机的。概率抽样最基本的组织形式有概率抽样最基本的组织形式有:简单随机抽样、分层抽样、等距抽样和整群抽样。简单随机抽样、分层抽样、等距抽样和整群抽样。20三、抽样方法1 1、概率抽样概率抽样特点特点:概率抽样能有效地避免主观选样带来的倾向性:概率抽样能有效地避免主观选样带来的倾向性误差(系统偏差),使得抽样估计和推断得以建立在误差(系统偏差),使得抽样估计和推断得以建立在概率论和数理统计的科学理论之上。从而使样本资料概率论和数理统计的科学理论之上。从而使样本资料一方面能够用于估计和推断总体的数量特征;一方面能够用于估计和推断总体的数量特征;另一方面可以计算和控制抽样误差,说明估计的可靠另一方面可以计算和控制抽样误差,说明估计的可靠程度。程度。2 2、非概率抽样也叫非随机抽样非概率抽样也叫非随机抽样,是指从研究目的出发,是指从研究目的出发,根据调查者的经验或判断,从总体中根据调查者的经验或判断,从总体中有意识地有意识地抽取若抽取若干单位构成样本。干单位构成样本。21三、抽样方法由于一般的抽样推断都是建立在概率抽样的基由于一般的抽样推断都是建立在概率抽样的基础上,因此,主要介绍四种常见的抽样组织形础上,因此,主要介绍四种常见的抽样组织形式。式。简单随机抽样类型抽样等距抽样整群抽样22(一)简单随机抽样(一)简单随机抽样简单随机抽样又称简单随机抽样又称纯随机抽样纯随机抽样,它是对总体单位不进,它是对总体单位不进行任何划分或排队,行任何划分或排队,完全随机地直接完全随机地直接从总体中抽取样从总体中抽取样本单位,使每个总体单位都有完全均等的机会被抽中。本单位,使每个总体单位都有完全均等的机会被抽中。纯随机抽样常采用的纯随机抽样常采用的抽选方法抽选方法有抽签法、利用随机数有抽签法、利用随机数表取数法和电子计算机取数法。它只需对总体单位进表取数法和电子计算机取数法。它只需对总体单位进行编号,而不需要事先掌握更多的总体信息。行编号,而不需要事先掌握更多的总体信息。23(一)简单随机抽样(一)简单随机抽样纯随机抽样有两种纯随机抽样有两种抽取单位抽取单位的具体方法,即:的具体方法,即:重复抽样重复抽样,又称回置抽样,是指从总体的,又称回置抽样,是指从总体的N N个单位中,每次抽个单位中,每次抽取一个单位后,再将其放回总体中参加下一次抽选,这样连续抽取一个单位后,再将其放回总体中参加下一次抽选,这样连续抽n n次,即得到一个样本。次,即得到一个样本。其特点是其特点是:样本是由:样本是由n n次次相互独立相互独立的连续试验构成的,每次试验的连续试验构成的,每次试验是在是在完全相同完全相同的条件下进行,每个单位中选的机会在各次都完全的条件下进行,每个单位中选的机会在各次都完全相等。相等。“重抽重抽”(考虑顺序)可能的样本数目(从总体中可能抽取的样(考虑顺序)可能的样本数目(从总体中可能抽取的样本个数,用本个数,用M M表示)为:表示)为:N Nn n个。个。不重复抽样不重复抽样,也叫不回置抽样,是指抽中的单位不再放回总体,也叫不回置抽样,是指抽中的单位不再放回总体中,下一个样本单位只能从余下的总体单位中抽取。中,下一个样本单位只能从余下的总体单位中抽取。其特点是其特点是:样本由:样本由n n次连续抽取次连续抽取的结果构成,实际上等于一次同的结果构成,实际上等于一次同时从总体中抽取时从总体中抽取n n个样本单位。个样本单位。可能的样本数目(考虑顺序):可能的样本数目(考虑顺序):N(N-1)(N-2)N(N-1)(N-2)(N-n+1)(N-n+1)个。个。24(一)简单随机抽样(一)简单随机抽样优缺点:纯随机抽样比较适用于总体单位数不多,总纯随机抽样比较适用于总体单位数不多,总体单位标志值的差异不很大,或对抽样推断的要求不体单位标志值的差异不很大,或对抽样推断的要求不十分高的情况下使用。但由于纯随机抽样的估计效率十分高的情况下使用。但由于纯随机抽样的估计效率比较低,进行大规模的抽样调查时,其组织工作也不比较低,进行大规模的抽样调查时,其组织工作也不宜开展,故大规模抽调常采用其他三种组织形式。宜开展,故大规模抽调常采用其他三种组织形式。25(二)分层抽样(二)分层抽样分层抽样分层抽样又称类型抽样或分类抽样。这种抽样方式又称类型抽样或分类抽样。这种抽样方式是先对总体各单位按是先对总体各单位按主要标志主要标志加以分组,然后再从各加以分组,然后再从各组中按随机原则抽选一定单位构成样本。如城市职工组中按随机原则抽选一定单位构成样本。如城市职工收入调查,可按行业将全部职工分类,再从各行业中收入调查,可按行业将全部职工分类,再从各行业中分别抽取若干职工进行调查。分别抽取若干职工进行调查。类型抽样总的抽样误差与组间差异无关,仅取决于各类型抽样总的抽样误差与组间差异无关,仅取决于各组内组内的抽样误差,而组内的抽样误差又取决于各组内的抽样误差,而组内的抽样误差又取决于各组内的方差水平。的方差水平。所以,类型抽样所以,类型抽样应该尽可能扩大组间方应该尽可能扩大组间方差,缩小组内方差,这样就可以减少抽样误差,以提差,缩小组内方差,这样就可以减少抽样误差,以提高抽样效果。高抽样效果。26(二)分层抽样(二)分层抽样分层抽样的优点:1、不仅能对总体进行估计,而且也可对各层子总体进行估计。2、能使抽样的组织和实施都比较方便。因为分层时可按自然区域或行政区域进行。3、能使样本在总体中的分布比较均匀。因为类型抽样是对所有的层进行全面抽样。4、估计精度高。因为分层抽样的误差只与组内方差有关,因此,若分类效果好,则可减少抽样误差。27(三)等距抽样(三)等距抽样等距抽样也称机械抽样。它是等距抽样也称机械抽样。它是先先将总体所有单位按将总体所有单位按某一标志顺序某一标志顺序排列,排列,然后然后按按相等相等的距离抽取样本单位。的距离抽取样本单位。排列的标志可以是排列的标志可以是无关标志无关标志也可以是也可以是有关标志有关标志。(1 1)无关标志无关标志,指和单位标志值的大小无关或不起主要的影响作指和单位标志值的大小无关或不起主要的影响作用。用。(2 2)有关标志有关标志,指作为排队顺序的标志和单位标志值的大小有密指作为排队顺序的标志和单位标志值的大小有密切的关系。切的关系。其中,按有关标志顺序排队,并将样本单位加以其中,按有关标志顺序排队,并将样本单位加以n n等份后,对每一等份后,对每一部分抽取一个样本单位有两种方法部分抽取一个样本单位有两种方法 半距中点取样半距中点取样 对称等距取样对称等距取样 应该指出的是,等距取样间隔的确定,要避免与想象中的应该指出的是,等距取样间隔的确定,要避免与想象中的周期性周期性节奏重合节奏重合,引起系统误差的影响。,引起系统误差的影响。28(三)等距抽样(三)等距抽样等距抽样的优点:等距抽样的优点:1 1、简便易行。相对于简单随机抽样而言。简便易行。相对于简单随机抽样而言。2 2、误差相对而言,比简单随机抽样的要小。因为等距、误差相对而言,比简单随机抽样的要小。因为等距抽样的样本在总体中的分布一般比较均匀(针对有关抽样的样本在总体中的分布一般比较均匀(针对有关标志排队而言)标志排队而言)。29(四)整群抽样(四)整群抽样整群抽样整群抽样又称又称群体抽样群体抽样。它是将总体各单位划分成它是将总体各单位划分成许多群,然后从中随机抽取部分群,并对许多群,然后从中随机抽取部分群,并对中选群的所中选群的所有单位进行全面调查有单位进行全面调查。整群抽样整群抽样实质上实质上是是以以“群群”代替单位代替单位之后的纯随机抽之后的纯随机抽样。因此,整群抽样的抽样平均误差可以根据群间方样。因此,整群抽样的抽样平均误差可以根据群间方差来推算。差来推算。30(四)整群抽样(四)整群抽样优点:1、不需要有总体单位的具体名称,而群的名单比较容易得到。2、整群抽样调查单位比较集中,故调查较方便,节省费用。3、若群内各单位存在较大差异时,抽样推断效果较好。314.2 抽样分布一、一、抽样分布的概念抽样分布的概念二、二、抽样分布的形式抽样分布的形式三、三、抽样分布的特征抽样分布的特征四、四、样本比率的抽样分布样本比率的抽样分布五、五、样本方差的抽样分布样本方差的抽样分布六、六、两个样本统计量的抽样分布两个样本统计量的抽样分布xx32一、抽样分布的概念样本指标是一种随机变量,它有若干可能取值,每样本指标是一种随机变量,它有若干可能取值,每个可能取值都有一定的可能性(即概率),从而形成个可能取值都有一定的可能性(即概率),从而形成它的概率分布,即统计上所谓的抽样分布。简言之,它的概率分布,即统计上所谓的抽样分布。简言之,抽样分布就是指抽样分布就是指样本统计量样本统计量的概率分布的概率分布。样本统计量是由样本统计量是由n n个随机变量构成的函数,故抽样分布个随机变量构成的函数,故抽样分布属于随机变量函数的分布。属于随机变量函数的分布。33一、抽样分布的概念举例举例:四名学生的月生活费支出(四名学生的月生活费支出(480480,560560,720720,800 800 元)。现按不重复取样的方法,随机抽取两位构元)。现按不重复取样的方法,随机抽取两位构成一个样本,则全部可能的样本及其各样本的均值如成一个样本,则全部可能的样本及其各样本的均值如下表所示:下表所示:34序序 样本变量样本变量 样本平均数样本平均数 平均数离差平均数离差 离差平方离差平方 x -x -E(E()-)-E(E()1 480 1 480,560 520 -120 14400560 520 -120 14400 2 480 2 480,720 600 -40 1600720 600 -40 1600 3 480 3 480,800 640 0 0800 640 0 0 4 560 4 560,480 520 -120 14400480 520 -120 14400 5 560 5 560,720 640 0 0720 640 0 0 6 560 6 560,800 680 40 1600800 680 40 1600 7 720 7 720,480 600 -40 1600480 600 -40 1600 8 720 8 720,560 640 0 0560 640 0 0 9 720 9 720,800 760 120 14400800 760 120 1440010 80010 800,480 640 0 0480 640 0 011 80011 800,560 680 40 1600560 680 40 160012 80012 800,720 760 120 14400720 760 120 14400合计合计 7680 0 64000 7680 0 64000 xxxxx35一、抽样分布的概念(续)样本平均数的概率分布样本平均数的概率分布 520 600 640 680 760 f 2 2 4 2 2f/f 2/12 2/12 4/12 2/12 2/12x36一、抽样分布的概念(续)例中总体分布和样本均值分布的比较:P()xx37一、抽样分布的概念(续)通过图通过图4.1总体分布和图总体分布和图4.2样本均值的抽样样本均值的抽样分布的比较,不难看出:尽管总体为均匀分分布的比较,不难看出:尽管总体为均匀分布,但样本均值的抽样分布在形状上却是对布,但样本均值的抽样分布在形状上却是对称的。称的。38一、一、抽样分布的抽样分布的概念概念(续续)抽样分布的形成过程抽样分布的形成过程可概括为图可概括为图4.3:xxx39抽样分布反映了样本指标的分布特征,是抽样推断抽样分布反映了样本指标的分布特征,是抽样推断的重要依据的重要依据。根据样本分布的规律,可揭示样本指标。根据样本分布的规律,可揭示样本指标与总体指标之间的关系,估计抽样误差,并说明抽样与总体指标之间的关系,估计抽样误差,并说明抽样推断的可靠程度。推断的可靠程度。40二、二、抽样分布的抽样分布的形式形式 抽样分布的形式与原有总体的分布和样本容量抽样分布的形式与原有总体的分布和样本容量n的大小有关。的大小有关。(1)若总体的分布是正态分布,且方差已知若总体的分布是正态分布,且方差已知,则无论样本容量,则无论样本容量是大是小,样本均值的抽样分布都服从正态分布。是大是小,样本均值的抽样分布都服从正态分布。(2)若总体的分布是非正态分布,则要看样本容量的大小若总体的分布是非正态分布,则要看样本容量的大小。当样本容量是大样本当样本容量是大样本(通常通常n 30),无论原来的总体是否),无论原来的总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的的数学期望数学期望为:总体均值为:总体均值;方差方差为总体方差的为总体方差的1/n,即:,即:/n。当当n n为小样本为小样本(通常(通常n 30n 30)时,其分布则不是正态分布,则不)时,其分布则不是正态分布,则不能按照正态分布进行推断。能按照正态分布进行推断。xx241二、二、抽样分布的抽样分布的形式(形式(续)样本均值的抽样分布与总体分布的关系可概括为图样本均值的抽样分布与总体分布的关系可概括为图4.44.4。x42三、三、抽样分布的抽样分布的特征特征从统计推断的角度看,人们所关心的从统计推断的角度看,人们所关心的抽样分布的特征抽样分布的特征主要有主要有均值均值和和方差方差。而这两个特征又与以下两个问题。而这两个特征又与以下两个问题有关:有关:(1)总体分布的均值和方差;)总体分布的均值和方差;(2)样本的抽样方法(即重复抽样还是不重复抽样)样本的抽样方法(即重复抽样还是不重复抽样)x43三、抽样分布的特征(续)假设一个总体,其单位总数为假设一个总体,其单位总数为N,均值,均值,方差为,方差为。从中抽取样本容量为从中抽取样本容量为n n的样本,样本均值的的样本,样本均值的数学期望数学期望为为E(),E(),样本均值的样本均值的方差方差为为()()。对对样本均值样本均值 的数学期望而言,无论是重复抽样还是不的数学期望而言,无论是重复抽样还是不重复抽样,重复抽样,E()=E()=。对样本均值的方差对样本均值的方差()()而言,则与抽样方法有关。而言,则与抽样方法有关。(前述抽样平均误已总结过前述抽样平均误已总结过)xxxxxx44三、抽样分布的特征(续)即:重复抽样下重复抽样下,不重复抽样下不重复抽样下,说明说明:对于:对于无限总体无限总体进行不重复抽样时,可按重复抽样计算;进行不重复抽样时,可按重复抽样计算;对于对于有限总体有限总体,当,当N N很大而很大而n n很小时(一般而言,抽样比很小时(一般而言,抽样比 n/Nn/N 5%),其修正系数),其修正系数 也趋近于也趋近于1 1,所以也按重复,所以也按重复 计算即可。计算即可。12NnNnx1NnNnx22)()(2x45四、样本比率p的抽样分布P的抽样分布是样本比率的抽样分布是样本比率p的所有可能取值的概率分布。的所有可能取值的概率分布。当当样本容量很大样本容量很大时,样本比率的抽样分布近似于正态分时,样本比率的抽样分布近似于正态分布。对于一个具体的样本比率布。对于一个具体的样本比率p,若,若np 5和和n(1-p)5,即可认为样本容量足够大。,即可认为样本容量足够大。P P的分布特征的分布特征:(1)p的数学期望的数学期望E(p)等于总体比率等于总体比率 ,即:,即:E(p)=46四、样本比率p的抽样分布(续)(2)P的方差。(的方差。(与抽样方法有关)与抽样方法有关)重复抽样,不重复抽样,np)1(2)()(2p1n)1(NNn47五、五、样本方差样本方差的抽样分布的抽样分布用用样本方差样本方差 去推断去推断总体的方差总体的方差 ,也必须知道,也必须知道样样本方差的抽样分布本方差的抽样分布。在在重复重复选取选取容量为容量为n的样本时,由样本方差的所有可能的样本时,由样本方差的所有可能取值形成的相对频数分布,称为样本方差的抽样分布取值形成的相对频数分布,称为样本方差的抽样分布。教材p100的样本方差 的抽样分布为:2s2s2 的取值 0 0.5 2 4.5 频数f 4 6 4 2频率f/f 4/16 6/16 4/16 2/16 2s48五、五、样本方差样本方差的抽样分布的抽样分布(续)统计证明,对于来自正态总体的简单随机样本,作为估统计证明,对于来自正态总体的简单随机样本,作为估计量的计量的样本方差的分布样本方差的分布是:是:比值比值 的抽样分布服从自由度为(的抽样分布服从自由度为(n-1)的)的 分布,即:分布,即:221sn)(22221sn)()(12n49五、五、样本方差样本方差的抽样分布的抽样分布(续)分布具有四个特征分布具有四个特征(教材(教材p108)分布通常用于分布通常用于总体方差的估计和非参数总体方差的估计和非参数检验检验。2250样本统计量的抽样分布形式概括:样本统计量的抽样分布形式概括:x2x2s51六、两个样本统计量的抽样分布六、两个样本统计量的抽样分布52问题的提出:o1、甲、乙两台机床同时加工某种同类型的零件,已知两机床加工甲、乙两台机床同时加工某种同类型的零件,已知两机床加工的零件直径(单位:的零件直径(单位:cm)分别服从正态分布)分别服从正态分布 o ,并且有,并且有 。为比较两台机床。为比较两台机床的加工精度有无显著性差异,分别独立抽取了甲机床的的加工精度有无显著性差异,分别独立抽取了甲机床的8个零件和个零件和乙机床的乙机床的7个零件,通过测量得到的数据见表:个零件,通过测量得到的数据见表:o 两台机床加工零件的样本数据两台机床加工零件的样本数据 单位:单位:cmo在在 的显著性水平下,样本数据是否提供证据支持的显著性水平下,样本数据是否提供证据支持“两台机床加工两台机床加工的零件直径不一致的零件直径不一致”的看法?的看法?221122(,),(,)NN2212机床机床 零件直径零件直径甲甲20.520.519.819.819.719.720.420.420.120.12020191919.919.9乙乙20.720.719.819.819.519.520.820.820.420.419.619.620.220.20.0553o2、某饮料公司开发研制出一新产品,为比较消费者对新老产品口感的满、某饮料公司开发研制出一新产品,为比较消费者对新老产品口感的满意程度,该公司随机抽取一组消费者(意程度,该公司随机抽取一组消费者(8人),每个消费者先品尝一种饮人),每个消费者先品尝一种饮料,然后再品尝另一种饮料,两种饮料的品尝顺序是随机的,然后每个消料,然后再品尝另一种饮料,两种饮料的品尝顺序是随机的,然后每个消费者要对两种饮料分别进行评分(费者要对两种饮料分别进行评分(010分)分),评分结果如表所示:,评分结果如表所示:o 两种饮料平均等级的样本数据两种饮料平均等级的样本数据o取显著性水平取显著性水平=0.05,该公司是否有证据认为消费者对两种饮料的评分存,该公司是否有证据认为消费者对两种饮料的评分存在显著性差异?在显著性差异?消费者消费者 编号编号1 12 23 34 45 56 67 78 8评价等级评价等级旧款饮料旧款饮料5 54 47 73 35 58 85 56 6新款饮料新款饮料6 66 67 74 43 39 97 76 654o3、假定两个办事处纳税申报单的独立简单随机样本提供的资料如、假定两个办事处纳税申报单的独立简单随机样本提供的资料如下表所示:下表所示:o o 纳税申报单中有错申报数纳税申报单中有错申报数o要求:在显著性水平要求:在显著性水平=0.01下,检验两办事处纳税申报单的有错比下,检验两办事处纳税申报单的有错比例是否相等。例是否相等。办事处1n1=250有错申报数=35办事处2n2=300有错申报数=2755六、两个样本统计量的抽样分布六、两个样本统计量的抽样分布现实中,若对现实中,若对两个总体参数进行推断时,所关心的总体两个总体参数进行推断时,所关心的总体参数主要是:参数主要是:两个总体均值之差两个总体均值之差(),),两个总体比率之差两个总体比率之差(),),两个总体的方差比两个总体的方差比 。相应地,用于推断这些参数的统计量分别是:相应地,用于推断这些参数的统计量分别是:两个样本均值之差两个样本均值之差 两个样本比率之差两个样本比率之差 两个样本方差比两个样本方差比121212()xx12()pp2212/2212/ss56六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)为此,需分别研究两个总体参数推断时为此,需分别研究两个总体参数推断时样本样本统计量的抽样分布统计量的抽样分布,包括:,包括:两个样本均值之差的抽样分布两个样本均值之差的抽样分布两个样本比率之差的抽样分布两个样本比率之差的抽样分布两个样本方差比的抽样分布两个样本方差比的抽样分布57六、六、两个样本统计量的抽样分布(两个样本统计量的抽样分布(续续)1、两个样本均值之差的抽样分布两个样本均值之差的抽样分布 从两个总体中分别从两个总体中分别独立地独立地抽取容量为抽取容量为 的样的样本,在本,在重复重复选取选取容量为容量为 的样本时,由两个的样本时,由两个样本均值之差的所有可能取值形成的相对频数分布,样本均值之差的所有可能取值形成的相对频数分布,称为两个样本均值之差的抽样分布。称为两个样本均值之差的抽样分布。12nn和12nn和58六、六、两个样本统计量的抽样分布(两个样本统计量的抽样分布(续续)当两个总体都为当两个总体都为正态分布正态分布时时,即,即 ,两个样本均值之差两个样本均值之差 的抽样分布服从正态分的抽样分布服从正态分 布,即:布,即:12()xx22121212(,)Nnn2111(,)XN 2222(,)XN12()xx59 对分布的解释:对分布的解释:这表明,两个样本均值之差的抽样分布,其均值是这表明,两个样本均值之差的抽样分布,其均值是两个总体均值之差,即:两个总体均值之差,即:抽样分布的方差抽样分布的方差 为各自样本均值为各自样本均值分布的方差之和,即:分布的方差之和,即:1212()E xx12()xx122xx122221212xxnn60六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)另一种情况是:另一种情况是:若两个总体为若两个总体为非正态分布非正态分布,当,当 比较大时,比较大时,即即大样本大样本,则两个样本均值之差的抽样分布仍然,则两个样本均值之差的抽样分布仍然可以用正态分布来近似可以用正态分布来近似。12nn和61六、六、两个样本统计量的抽样分布(两个样本统计量的抽样分布(续续)2、两个样本比率之差的抽样分布两个样本比率之差的抽样分布从两个服从二项分布的总体中,分别从两个服从二项分布的总体中,分别独立独立地抽取容量地抽取容量为为 的样本,在的样本,在重复选取重复选取容量为容量为 的样本的样本时,由两个样本比率之差的所有可能取值形成的相对时,由两个样本比率之差的所有可能取值形成的相对频数分布,称为两个样本比率之差的抽样分布。频数分布,称为两个样本比率之差的抽样分布。当两个样本均来自于服从二项分布的两个总体,且都为当两个样本均来自于服从二项分布的两个总体,且都为 大样本大样本,则两个样本比率之差的抽样分布可用正态分,则两个样本比率之差的抽样分布可用正态分布来近似,其分布的均值和方差分别为:布来近似,其分布的均值和方差分别为:12nn和12nn和62六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)即:1212()E pp122112212(1)(1)ppnn12()pp11221212(1)(1),Nnn63六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)3、两个样本方差比的抽样分布两个样本方差比的抽样分布从两个总体中分别从两个总体中分别独立地独立地抽取容量为抽取容量为 的样本,的样本,在在重复选取重复选取容量为容量为 的样本时,由两个样本方差的样本时,由两个样本方差比的所有可能取值形成的相对频数分布,称为两个样比的所有可能取值形成的相对频数分布,称为两个样本方差比的抽样分布。本方差比的抽样分布。设两个总体都为设两个总体都为正态分布,正态分布,分别从两个总体抽取样本分别从两个总体抽取样本容量为容量为 的独立样本,则两个样本方差比的独立样本,则两个样本方差比 的抽样分布,服从的抽样分布,服从F分布。分布。12nn和12nn和12nn和2212/ss64六、六、两个样本统计量的抽样分布(两个样本统计量的抽样分布(续续)F(n1-1,n2-1)简单介绍一下F分布:设U是服从自由度为n1的 分布的随机变量,即:U (n1)V是服从自由度为n2的 分布的随机变量,即:V (n2)且U和V相互独立,则:2212/ss222265六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)称称F为服从自由度为服从自由度 n1和和n2 的的F分布,记为分布,记为 FF(n1,n2).由前述样本方差的抽样分布可知,样本方差的抽样分由前述样本方差的抽样分布可知,样本方差的抽样分布是服从布是服从12/U nFVn)(12n66六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)即:即:两个独立的两个独立的 分布除以自由度后,再相比即分布除以自由度后,再相比即得到得到F分布,即分布,即:2211121(1)(1)nsn2222222(1)(1)nsn267六、两个样本统计量的抽样分布(六、两个样本统计量的抽样分布(续续)F分布的图形见教材分布的图形见教材p111.F分布的图形是右偏。分布的图形是右偏。该分布除了用于两个总体方差比的估计外,还广发应用于方差分析该分布除了用于两个总体方差比的估计外,还广发应用于方差分析和回归分析中对方程的检验。和回归分析中对方程的检验。2222112212122222112221(1)(1)/(1,1)(1)(1)nsnssF nnnns68自由度:自由度自由度,是指可以自由取值的数据的个数,或者指不,是指可以自由取值的数据的个数,或者指不受任何约束、可以自由变动的变量的个数。受任何约束、可以自由变动的变量的个数。样本方差中的自由度为样本方差中的自由度为n-1,而,而S2的表达式中的表达式中 是是n个量的平方和,为何自由度为(个量的平方和,为何自由度为(n-1)呢?)呢?这是因为这是因为 (i=1,2,,n)这)这n个量并不能个量并不能自由变化,而是受到一个约束条件,即:自由变化,而是受到一个约束条件,即:21()niixxixx69自由度:从而使它的自由度少了一个,即自由度为(从而使它的自由度少了一个,即自由度为(n-1)。)。这是因为当给定均值这是因为当给定均值 时,时,x1,x2,xn这这n个数据中,前个数据中,前(n-1)个数据都可以自由取值,而第个数据都可以自由取值,而第n个个数据受到全部数据的平均数的制约,不能自由取值。数据受到全部数据的平均数的制约,不能自由取值。第第n个数据可由公式个数据可由公式 求得。因此,求得。因此,S2的自由度为(的自由度为(n-1)。1()0niixxx11nniixnxx704.3 中心极限定理的应用中心极限定理是俄国数学家中心极限定理是俄国数学家里亚普诺夫里亚普诺夫给出的。其思给出的。其思想是:想是:如果总体存在有限的平均数和方差,那么,不管总体如果总体存在有限的平均数和方差,那么,不管总体是否属于正态分布,只要当抽样单位数不断增加是否属于正态分布,只要当抽样单位数不断增加(n 30),抽样平均数),抽样平均数 的分布也就趋近于正态的分布也就趋近于正态分布。分布。这个定理为抽样误差的估计提供了理论依据,使抽样这个定理为抽样误差的估计提供了理论依据,使抽样估计有了科学基础。估计有了科学基础。在实际推断中,总体是什么分布通常是未知的。有了在实际推断中,总体是什么分布通常是未知的。有了中心极限定理,我们就可以放心的利用大样本条件下,中心极限定理,我们就可以放心的利用大样本条件下,抽样平均数服从正态分布的性质进行各种统计推断。抽样平均数服从正态分布的性质进行各种统计推断。x71
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!