语言统计第六章从样本统计量估计整体参数

资源描述

,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,第六章从样本统计量估计总体参数,第一节点估计,第二节区间估计,一、样本平均数的抽样分布,二、总体平均数的区间估计,从样本统计量估计或推断总体参数是推断统计的一个重要局部。,我们在引入“样本和“总体这两个概念时看到，语言研究所涉及的总体往往非常大甚至是无限大的，因而难以对其中所有个体都加以研究，研究者们所能做的只是通过随机的方法从总体中抽取一个具有代表性的样本加以研究，然后再从有关样本统计量来估计或推断未知的总休参数，例如从样本平均数来估计总体平均数。本章只讨论如何从样本平均数X和比分别估计总体平均数和比。估计的方法有两种：点估计与区间估计。,第一节点估计,当总休平均数或比例未知时，我们可以直接把样本平均数或比例用作它的估计值。由于样本统计量为数轴上的一个点，所以称为“点估计值。,一个理想的点估计值至少应具备以下两个条件：,1无偏性,一般情况下，样本统计量是不会和相应的总体参数完全相同的，两者多少都会有一定的差距，但是如果用无限多个样本的统计量来估计总体参数，平均估计误差将会等于,0,。具有这一特征的统计量就无偏估计值。,例如，用样本平均数估计总体平均数时，总会有些误差，在有些样本中，它可能会大于总体平均数，而在另一些样本中它又可能会小于总体平均数，而且对于不同的样本估计误差的大小也是不同的，但是无限多个样本平均数的平均估计误差为,0,。换句话说，样本平均数的平均数将会等于总体平均数。,因而样本平均数是一个无偏点估计值在第四章里，我们在讨论样本方差和标准差时曾经指出，公式中要用N-1 而不能用N 做分母，就是要保证方差和标准差具有无偏性，因为用N做分母时，样本方差一般要小于总休的方差。,2一致性。,样本容量越大，根据样本计算出的估计值越接近总体参数的真值。作为总休平均数的估计值，样本平均数就具有一致性。,第二节区间估计,即便是一个理想的点估计值，也无法克服点估计的一个致命缺陷，那就是它易受样本变化的影响：每次抽取的样本不同，得出的统计量也就不同，因而它所提供的参数估计值也就会不同。如果能把抽样所带来的这种变异性或不确定性考虑进去，对总体参数的估计将会更有意义简而言之，区间估计就是为总体参数计算出一个可能的取值范围或值域，然后指出总体参数处在该值域的可能性有多大。,一、样本平均数的抽样分布,假设有一个变量的总体至于何种总体无关紧要，我们从中随机抽取取一个含有假设干个观测值的样本记作 S1，计算出样本平均数记作X1，然后把所抽取的观测值再放回总体。按照此法，再抽取样本S2，得样本平均数X2，等等。从理论上讲，我们可以无限次地重复这一过程，抽取n 个样本，计算出 n个样本平均数。正如我们可以为观测值绘制分布图那样，我们也可以为这些样本平均数绘制分布图为了便于理解，不妨把这些平均数看作观测值，这个分布就叫做平均数的抽样分布。,1.渐近正态分布,平均数的抽样分布的形态取决于总体的分布和总体方差是否，以及样本容量的大小：当总体的分布为正态，总体方差时，样本平均数的分布为正态分布；当总体的分布为非正态，总体方差时，如果样本较大，那么样本平均数的分布接近正态分布，其样本越大，总体偏接近的程度取决于样本容量以及总体的偏斜程度斜程度越轻，两者就越接近。这一现象叫做“中心极限定理。,当样本平均数的分布为正态或渐近正态时，分布的平均数与总体平均数相等，而分布的离散程度那么小于总休的离散程度。如果横轴上的测量单位相同，那么总体的分布形态较为平阔，而样本平均数的分布那么较为尖狭。不过，如前所述，一个呈正态分布的变量可以通过求标准分的方法，转换为标准正态变量见第五章，我们也可以用此方法把每个样本平均数转换为标准分，进而把正态的样本平均数的抽样分布转换为标准正态分布，公式为,样本平均数分布的离散程度是用样本平均数的抽样分布的标准差来表示的。为了与样本标准差区别开来，抽样分布的标准差习惯上称作“标准误，用符号SE表示。标准误与样本容量 N以及总体的标准差,有关，即,也就是说，标准误与总体标准差的大小成正比，与样本的大小成反比严格来说是与样本大小的开方成反比，因此在总休标准差一定时，为了使标准误减少一半，就必须使样本容量扩大四倍。,2.t,分布,前面讲的是样本平均数呈正态分布或接近正态分布的情况。此外，还有两种情况：一是总体分布为正态，但总体方差未知，且样本容量又较小；二是总休分布为非正态，而且总体方差未知，样本容量又较小。在这些情况下，样木平均数的分布为t分布这是因为总体力一差末知，在计算,这一比率时，要用样本标准差S取代，但是在样本较小的情况下，样本方差差S2作为总体方差的估计值并不是很准确的，这时不再呈正态分布，而是呈“t分布，因而该比率也就不再称作Z值，而是t值。,t分布在某些方面与正态分布是一样的，譬如它的平均值为0，平均值两侧是对称的，左侧t为负值，右侧为正值。但是不同的是，t分布的方差要大于标准正态分布的方差即大于1，因而与正态分布相比，t分布的中间要低平一些。样本越小，分布的方差就越大，其中间也就越低，两尾端就翘得越高。反过来，随着样本容量的增加，t分布的方差逐渐接近1，而当样本容量大到一定程度时，t分布的方差就等于1。因而，t分布的形状随着样本大小的变化而变化，但是这里“样本大小不是通常所指的N，而是N-1即样本容量减1，即所谓的“自由度。,从以上的讨论可以看到，虽然决定样本平均数分布的因素有总体的分布形态、总体方差是否以及样本容量，但是由于在实际应用中总体的分布情况和方差往往是未知的当然在语言研究中经常遇到的许多变量都是呈正态分布的，因而在多数情况下，样本的容量就成了关键因素或唯一的因素。因而，除非对统计的条件要求很严格或对统计结果的准碗性要求非常高，一般是避繁就简，而仅考虑样本的容量：样本较大时，就认定其平均数的抽样分布为正态分布，否那么为t分布。至于何为“大样本，下面还要进一步讨论。,二、总体平均数的区间估计,顾名思义，区间估计不像点估计那样给出一个值样本统计量作为总体的参数，而是在样本的根底上计算出总体参数值所在的可能区域。,由于这个区域在数轴上不是一个点，而是一个区间或一段距离，所以称作“区间估计值。,1.,样本抽样分布为正态时的区间估计,1几个根本概念,置信水平：从样本统计量估计总体参数时的把握程度或信心程度。,置信区间：两个标准误的值所界定的区间。,置信界限：这一区间的上下界。,临界值：定义这一置信区间的标准误的值。,(2)总体平均数的区间估计,从样本平均数X来估计总体平均数，是进行总体参数估计的常见情形之一。这时，我们的任务就是根据样本平均数计算出总体平均数可能落入的置信区间，以此来估计总体平均数的可能取值范围。该置信区间的计算方法是,我们看到，对于大样本，抽样分布服从正态分布，这时式中的“临界值为对应于某置信水平(或显著水平)的Z值从正态分布表中可以查到。该式用符号表示，那么为,或,第二式表示处于其两边的式子表示置信区间的下限和上限所界定的范围之内。式中表示以平均数为界置信水平的一半所对应的Z值。在有的书中该项写成，这表示显著水平的一半即正态分布的一端的尾巴所对应的Z值。不同的表示方法适用于按不同的方法编制的正态分布表第二式适用于本书所列的正态分布表，但最后查得的Z值是一样的。在计算标准误时，如果总体标准差未知，那么用样本标准差S代替，即。,3比例的区间估计,如同对总体平均数的估计那样，我们可以为其计算一个可能的取值区间即置信区间，并同时指出正确估计的概率。为了计算此置信区间，同样要先计算样本的比例的抽样分布的标准误SE公式为,样本中的比例，,N样本容量。,计算总体比例P的置信区间的公式为,用符号表示为,式中校正值。,对于较大的样本，加与不加该值对结果不会有太大的影响，但当样本较小时，那么最好加上。,2.,从小样本对总体平均数进行区间估计,我们上面讨论的是当样本平均数的抽样分布为正态时如何对总体平均数或比例进行估计。从小样本对总体平均数或比例进行区间估计的方法是一样的，即：。唯一不同的是，当样本较小时，其抽样分布不是正态分布，而是t分布。这时，公式中的“临界值不再是从正态分布表中查得的Z值，而是t分布表中对应于某一置信水平或显著水平的t值。,3.,置信区间与置信水平、样本容量以及标准差的关系,区间估计是在样本统计量的根底上来估计相应的总体参数，因而我们所希望的当然是：这一区间越小越好，而估计的正确概率越大越好。但是，从进行区间估计的公式可以看出，在其它条件一定时，要提高正碗估计的概率即提高置信水平，置信区间就不可防止地会增大，而要使置信区间缩小，就要降低正确估计的概率。必须牢记的是，置信水平越低，置信区间越小，该区间不包括总体参数的可能性就越大；置信水平越高，置信区间越大，该区间包括总体参数的可能性就越大。,4.,样本容量,样本的“大与“小是相对的，一般情况下，一个变量的总体的分布是未知的。如果一个量是由数个互相独立的局部相加而来的，那么该量的分布一般为正态.在语言研究中经常遇到的许多变量例如“测试分数都具有这种性质，那么不需要太大的样本容量就可以保证样本平均数的正态分布。当样本容量大于30时，不管总体的分布是否为正态，根本上都可以保证样本平均数的抽样分布为正态或接近正态。因此，一般30为界，样本的观测值少于30,就是“小样本，大于30就叫做“大样本。,此外，所需样本容量的大小与其中观测值是否互相独立也有关系。如果它们不具备相互独立性观测值之间在有关方面互相联系，或者一些观测值的性质受其它观测值的影响，就需要增大样本容量才能保证样本平均数的正态分布。,5.要到达一定的精确度，如何计算所需样本容量,估计总体平均数：,如果用E来表示容许的误差或估计的精确度，以表示总体标准差，以Z表示对应于某一置信水平的标准分假设抽样分布为正态，所需样本容量的计算公式为,但是，在通常情况下，总体的标准差都是未知的，因此在计算所需样本容量之前，就需要先抽取一个小一些的样本，计算出标准差S,以此作为总体标准差的估计值，这时，上面的公式就应改写为,估计总体比例：同样可以设定一个容许误差，然后计算所需样本容量。,估计总休比例的公式是,当样本容量较大时，要不要校正值关系不大，所以为方便起见，我们暂且不要它，那么,就是估计误差。如果要使估计误差不大于,E,就等于说要使。也就是,或,或,或,小结,正如总体平均数的估计那样，要确定到达一定估计精确度的样本容量，往往要先抽取一个样本，计算出样本比例p。为了省去这个麻烦，统计学家们提出了一个粗略的计算样本容量的方法。总体比例p的取值范围只能在0和1之间，那么p(1-p)就不可能大于0.25。所以，我们可以在任何情况下都用p(1-p)=0.25即把0.25作为一个常数。,

展开阅读全文

语言统计第六章从样本统计量估计整体参数

最新文档