第一章统计概述

资源描述

第一章概述一. 统计统计(statistics) 一词具有多种含义，它可能指：用于统计处理的数据，对数据的统计处理，使用统计手段收集、分析、解读数据的技术，关于统计技术的学问，即统计学。1.1总体与样本统计数据分为总体数据和样本数据：总体(population)：一组研究对象或者一组观察数据。样本(sample)：从特定总体中选择的一组研究对象或观察数据。总体数据和样本数据对应的统计量数分别称为参量和统计量：参量(parameter)：对总体的统计学描述。统计量(statistic)：对样本的统计学描述。比如，一个变量的总体平均数就是一个参量，而该变量的样本平均数就是一个统计量。1.2统计分析的分类描述统计和推断统计统计分析首先根据是否进行统计推断分为描述统计和推断统计两大类。描述统计(descripti ve statistics):对已知数据的特征进行描述的统计方法。推断统计(inferential statistics):根据样本特征去推断总体特征的统计方法。比如，总体平均数和样本平均数都属于描述统计，根据样本平均数去推断总体平均数就是推断统计。一般来说，在使用样本的时候总体平均数或其它参量是未知的，这时就需要进行推断统计来获得关于总体的信息了。单变量分析和多变量分析统计分析又根据所分析的变量的个数分为单变量分析和多变量分析。单变量分析(univariate analysis):同时只分析一个变量的统计方法。多变量分析(multivariate analysis):同时只分析多个变量的统计方法。比如，根据一个变量的样本平均数去推断总体平均数，这只涉及一个变量，是单变量分析。计算一个变量和另一个变量的相关性，涉及到两个变量，这就是最简单的多变量分析。以上所述其实并不准确。严格来说，多个因变量才称为多变量分析，一个因变量多个自变量仍然称为单变量分析。参数统计和非参数统计统计分析又根据其所依赖的基本假设分为参数统计和非参数统计。参数统计(parametric statistics)：已知总体的分布或者对总体的分布有确定假设(一般是正态分布)条件下的统计方法。初等的统计方法一般都是参数统计。非参数统计(non-parametric statistics):不知晓总体的分布或者对总体的分布不作假设或仅作非常一般性假设条件下的统计方法。二. 模型2.1科学模型广义来说一切科学研究的对象都视作变量，而科学研究的目的就是要尽可能解释这些变量的变异性(variation)，或者说就是确定这些变异性的来源。追根究底，一个变量的变异性的来源其实就是其它变量。因此，可以说科学研究就是要弄清变量之间的关系，而模型(model)就是对变量关系的概括。在自然科学，特别是物理学中，大量的模型是确定性模型(deterministic model)，也就是说能够建立变量之间的确定关系。比如牛顿第二定律a=F/m，通过自变量F和m就确定了因变量a，这一模型在经典力学中是没有任何意外情形的。确定性模型一般都有一定的前提条件。比如经典力学模型只在低速和宏观的情形下成立，在高速 (接近光速)和微观的情形下就无法成立。2.2 统计模型对数据进行统计分析的目的就是要建立统计模型(statistical model) o比如平均数(Mean)和标准差(Standard Deviation)就是最常见最简单的统计模型，它们用来描述单个变量的集中和变异的特征。统计模型把变量的变化分为两部分：确定分量(deterministic component)和不确定分量。不确定分量一般称为随机分量(random component)。实际上，随机分量并不见得真的是随机的，只不过是当前的统计模型无法解释它而已(注：一种观念认为世界上根本就不存在真正的随机事件，所谓随机就是指当前的知识无法解释。)。统计模型和确定性模型的差别在于，确定性模型只包含了确定的部分，而统计模型不只包含了确定的部分，还包含了不能确定的部分。确定性模型之所以能够抛弃不确定分量，只留下确定分量，是因为在一定的条件下它对其中的自变量与因变量的关系提供了机理性的解释。比如自由落体运动模型中，设定下落初速度为零，除重力以外的其它外力为零。在这个模型中，重力是落体运动的决定性因素。这个模型提供了特定条件下落体运动的完备解释。统计模型却无法抛弃不确定分量只留下确定分量，这是因为统计模型所给出的变量关系并非一定条件下的完整的机理性解释。比如我们会发现中小学生的年级和身高之间存在一定的相关性，因而可以建立一个用性别和年级来预测学生身高的统计模型。但是这个统计模型本身只是对两个变量之间的数量关系的一个统计描述，并不包含关于学生身高的机理解释。如果我们改成用学生的年龄作为自变量去预测身高，此时具有一定意义上的机理性解释了。但是这个模型仍然是统计模型而非确定性模型，因为我们没有限定一个基础条件去剔除所有的随机分量。由于统计模型中的变量关系不具有完整的机理解释的意义，我们就无法设定一个条件来只考虑其中的自变量，而忽略其它变量。比如我们不能假定学生的其它因素都忽略不计，只考虑年龄对身高的影响，这样的假定显然是荒谬的。尽管统计模型不能提供即便是一定条件下的完整的机理性解释，它在实践中仍然可以有用。统计模型所揭示的变量关系，在一定程度上可以丰富我们对现实世界的理解，在一定程度上可以用于预测变量的变化。根据变量的关系不同，统计模型可分为线性模型(linear models)和非线性模型(non-linear models)。2.3理想模型和经验模型确定性模型一般都是理想模型，也就是说是建立在非常特殊的前提条件上。比如说自由落体运动模型的一个限定条件就是真空，或者说没有空气阻力。理想模型和现实世界显然有所不同，因而把它用于现实世界就无法得到准确的结果。尽管如此，在某些时候理想模型用于现实世界的准确性仍然是可以接受的。比如当空气阻力相对较小时，将其忽略不计，当作理想的自由落体运动仍然可以得到比较令人满意的结果。如果在应用中对准确度的要求较高或者现实条件对理想前提条件偏离较远，不能直接使用理想模型，那么就需要对理想模型进行修正，加入更多的变量，这就形成了经验模型。比如根据流体力学把空气阻力的影响加入到落体运动模型中去。必须要注意到的是，无论如何，没有一个模型是绝对完美的，任何模型都只是在一定程度上对现实世界的近似(“Essentially, all models are wrong, but some are useful.” - Box, George E. P.; Norman R. Draper (1987). Empirical Model-Building and Response Surfaces. Wiley. pp. p. 424. ISBN 0471810339.)。模型之所以无法与现实世界完全符合，是因为现实世界中存在了太多的变异性，而能够包含现实世界全部变异性的只能是现实世界本身。2.4模型的科学意义表面看来，模型所涵盖的现实世界的变异性越多越好，然而并非如此。模型不但应当是具有广泛的预测力的，也应当是具有科学意义的(scientifically meaningful)o这两个目的之间存在着内在的冲突，一个模型的普适性越强，即对现实世界的变异性的覆盖面越广，那么它使用的变量就越多，它就越复杂、越难理解，它的科学意义也就越不明显。而科学所追求的解释力是建立在对现实世界的理解上的，因而我们总是先建立尽可能简洁的模型，通过暂时的普适性上的损失换来科学理解上的深刻性。比如自由落体运动虽然和现实中的很多落体运动不符，但是通过自由落体运动模型我们获得了对落体运动的一般规律的理解。进而我们可以把自由落体运动作为理解更复杂的落体运动的起点，只要对简单模型进行修改就可以建立更复杂的模型用于解释更复杂的现象。对于不同的实际情况我们可以对简单模型进行不同的修改来于之适应，显然简单模型的另一个优势是更具灵活性。总之，通过对简单模型逐步细致化的方法，我们才能够建立既有科学意义又有普适性的系统知识。2.5拟合与残差研究者在建立模型时只能基于自己所掌握的数据，而研究者所掌握的数据其实是对现实世界的抽样，它显然不可能包含现实世界中全部的变异性。而我们所要建立的统计模型可以说是对我们所掌握的数据的再次抽样。我们尝试建立模型并不是为了让它和原始数据完全符合，而是希望通过这个模型来概括数据。既然概括就未必需要百分之百的准确。一个模型要越准确，它就要变得越复杂，越难理解。现实中我们总是在复杂性和准确性之间进行权衡。因此，统计模型和样本数据之间总是有个差距。样本数据中的变化，有一部分能够被统计模型解释，这就是拟合的部分；另一部分不能被统计模型解释，这就是误差(error)，在推断统计中称为残差(residual)。2.6过度拟合另外要注意的一点就是，统计模型是基于样本建立的，但是其模拟的真正目标是总体数据。也就是说统计模型是通过模拟样本去模拟总体。一般来说，统计模型和样本符合得越好，那么它和总体也就符合得越好。但是这个结论其实只在一定程度上成立。当模型和样本拟合到一定程度之后，会出现它和总体的拟合下降的现象，这称为过度拟合(over-fitting) o过度拟合之所以会出现，是因为样本和总体相似而又不完全相同。当统计模型一开始和样本越来越拟合时，它和总体也越来越拟合，这时样本和总体的相似性是主要因素。当统计模型和样本拟合得越来越好时，它和总体的拟合会开始下降，这时样本和总体的差异开始成为主要因素。三. 变量3.1变量的定义变量的定义有两种方式：一是概念化定义(conceptual definition)，即用其他概念来描述变量，这种方式的定义便于揭示变量的意义。比如：速度定义为描述物体运动快慢的物理量。一是操作化定义(operational definition)，即通过数学操作或实验操作来描述变量，这种方式的定义便于揭示变量的本质。比如：速度定义为位移除以时间(数学操作)。3.2变量的数值特性根据变量所取的值的性质的不同可将变量分为质性变量和量性变量。分类变量(categorical/qualitative variable)的取值为非数值性的分类或标签。比如性别、种族、血型、成绩等级(优良中下)等。数值变量(numerical/quantitative variable)的取值为数值。比如年龄、身高、体重等。根据变量所取的值是否可以排序可分为有序变量和无序变量。有序变量(ordered variable)的值是可以进行排序比较的。比如年龄、身高、体重、成绩等级(优良中下)等。无序变量(unordered variable)的值是不可以进行排序比较的。比如性别、种族、血型等。根据变量所取的值是否连续可分为连续变量和离散变量。连续变量(continuous variable)可取的值的个数是无限且不可数的。比如年龄、身高、体重。对于连续变量的测量总是在一定程度上的近似，而不可能是精确值。比如年龄的测量一般精确到年，身高的测量一般精确到毫米，体重的测量一般精确到克等。离散变量(discrete variable )可取的值的个数是有限的或者无限且可数的。所有的分类变量都是离散变量。有的数值变量也是离散变量，比如试卷中的题数、班级中的人数等。这里需要的特别注意的是测验的得分，表面看来测验的得分是离散变量，但是它背后所代表的知识、能力等心理特质其实是连续的，因此测验的得分往往当做连续变量来处理。3.3变量的因果关系根据变量在研究中因果地位的不同可分为自变量(independent variable)、因变量(dependent variable)、外部变量/无关变量(extraneous variable)和混杂变量(confounding variable) o量性研究的目的一般就是要揭示因果关系，反映在变量上就是要了解自变量对因变量的影响。其中自变量就是实验者控制和操作的变量，因变量就是随自变量而变化的变量。比如要研究教学方法对学生成绩的影响，那么就首先要对学生按照教学方法分组。比如A组采用一种新式的教学方法，称为实验组；另一组采用传统/普通的教学方法，称为控制组。学生所在的组别就是自变量，学生的成绩就是因变量。但是在研究的过程中除了自变量还会有其他因素对因变量产生影响。因为它们和实验研究的目的无关，这些变量统称为外部变量或无关变量。比如上述的教学研究中教师的个人特征，教室的物理环境，班级的学习风气等等。可见外部变量有无穷多个。外部变量虽然和实验研究的目的无关，但是也可能对因变量产生影响。在外部变量中有一种特殊的变量，它和自变量和因变量都有相关，这种变量被称为混杂变量。比如假定有人研究儿童体重和识字量的关系，结果他发现儿童体重增加时识字量也增加了，那么难道就说明体重和识字量有关系吗？当然不是，这里是一个混杂变量一一时间一一在作怪，因为儿童体重和识字量都是随着时间的推移而增加的。可见混杂变量会严重影响对因果关系的判断，从而影响研究的内在效度。四. 数据量性研究中所收集的数据(data)大多数可以表示为数字值，但是并非数字值才叫数据，字符串也可以作为数据，比如人名等。在大多数时候数据都可以表示为表格(table)的形式。通常的格式是表格的每一行(row)是一条记录(record)，表示所收集的一个研究对象(subject)的各项数据。英文中也常常将一行称为一个 observation或一个case。表格的每一列(column)对应一个变量(variable)。数据的这种表格形式，对应于数学中的矩阵，因此很多统计分析以矩阵代数为数学基础。这样的一个表格在软件中有称为一个数据表(data table)或一个数据集(dataset)。一项研究可以使用多个数据表，而这些数据表加起来组成一个数据库(database)。比如，假定一项研究中需要收集某个学校学生和教师两方面的数据，那我们就至少需要两个数据表。一个数据表存放学生的数据，另一个数据表存放教师的数据。这两个数据表就构成了这项研究的数据库。4.1数据的分类根据数据的取值类型可以将其分为：量性数据(quantitative data)和质性数据(qualitative数据类型可用的运算/比较操作定类数据=,尹定序数据 , ,=,尹data)，有序数据(ordered data)和无序数据(unordered data)，离散数据(discrete data)和连续数据(continuous data)，参看变量的数值特性。根据收集数据时测量的标度等级，又可将数据分为定类数据等距数据，,=,头，+, (nominal data)、定序数据(ordinal data)、等距数据等比数据，,二，头，+,(interval data)和等比数据(ratio data)，其中后两种又可合称为数值数据(numerical data)，参看测量的标度五. 测量的标度测量的尺度/标度(measurement scale)是指观察所得的信息和数值之间的对应关系。简单来说，测量的标度可以理解为米尺上的刻度。根据米尺上的刻度，我们可以把所观察到的事物的长度和某个数值对应起来。如果没有刻度，那么米尺就只是一根木棍，无法用于测量。可见刻度相当于把观察到的信息进行转换的一种协议，心理测量中的测量标度也是起到这样的作用。比如考试卷的评分准则就是一种把学生的答题信息转换为数值的转换协议，也就是测量的标度。再如，把李克特量表中的非常不同意到非常同意转换为特点数值的规则也是测量的标度。显然，这种转换方式显然是不精确的，无法和米尺的刻度相提并论。这就涉及到下面要讨论的问题，即测量标度的等级。5.1测量标度的等级在把观察到的信息进行转换时，转换的目标有不同的精确等级，这就是测量标度的等级。根据测量标度的等级(levels of measurement scales)有定类、定序、等距、等比四种。定类标度(nominal scale):数值仅仅是表示类别的标签(labels)。比如：性别、种族、血型、学号等。在数据处理时，往往对定类标度的测量值赋予数字，比如性别一栏用0代表女性，1代表男性，这时要注意这些数字仍然只是表示类别的标签。定序标度(ordinal scale):数值是有序的，但是相邻值之间的间距是无法确定的或不相等的。比如：军阶、成绩排名等。等距标度(interval scale):数值是有序的，相邻值之间的间距是相等的，但是起点值是不确定的(即并不代表相应属性的缺失，零不表示无)。比如：摄氏温度、日期、海拔高度等。等比标度(ratio scale):数值是有序的数值，相邻值之间的间距是相等的，起点值也是确定的。比如：开尔文温度、身高、体重、年龄等。测量标度质性/量性有序/无序连续/离散算术运算定类标度质性无序定序标度质性/量性有序等距标度量性等比标度量性有序有序离散不能离散不能连续/离散可以连续/离散可以 5.2准等距标度在社会科学研究中涉及到的等比标度和等距标度的测量非常少，大多数测量是定类标度或定序标度的。定序标度和等距标度的测量之间存在着巨大的差别。严格来说，定序测量所得的数值是无法进行算术运算的(比如优和良、第2名和第3名等是无法加减乘除的)，因而对其能够进行的操作就受到了巨大的限制。要注意的是，某些测量虽然实际上是定序标度的测量，却常常当作等距标度的测量来处理。比如常见的测验成绩，我们无法肯定地说100分和99分之间的差距与99分和98分之间的差距是相等的，这相当于一把米尺的不同位置的单位刻度是不相等的。但是现实中测验成绩往往当作等距标度的测量来处理，这种做法无疑隐含着问题。但是社会科学领域这样的做法却很普遍，这是因为通常认为其间距即便不相等也是相近的，因此就假定其间距是相等的。也就是说，我们知道一把米尺的不同位置的单位刻度是不相等的，同时我们认为差别不大，因而把它当作处处相等来处理。这种测量的标度称为准等距标度(Quasi-interval Scale)。准等距标度到底应该作为定序标度还是等距标度来处理，这个问题现在一般从实用的角度来解决。如果作为等距标度来处理能够提供更多可靠的信息，那么就是可以接受的，否则就要当作定序标度来处理。5.3等距标度和等比标度在各种标度等级中，等距标度和等比标度的差别相对来说较难理解。简单来说，等比标度比等距标度多了个真正的零点。这似乎算不上什么，其实有很大的差别。等距标度也有零点，但不是真正的数据的起点。比如摄氏温标的零点，定义为水的冰点。它不是真正的温度的最低点，所以可以有比它更低的温度，也就是说摄氏温标可以有负值。类似地，海拔高度也可以有负值。可见，等距标度数据理论上的范围是负无穷至正无穷(虽然摄氏温度的实际值不可能至负无穷，但这不是摄氏温标所确定的。)。等比标度的零点是真正的数据的起点。比如开尔文温标的零度是温度的最低点，不可以有比它更低的温度，也就是说开尔文温标不可以有负值。类似地，高度也不可以有负值。可见，等比标度数据理论上的范围是零至正无穷。等比标度的比例具有实际意义，而等距标度的比例不具有实际意义。比如开尔文温标的100度是 50度的两倍，这有实际的物理意义(即前者的分子平均动能是后者的两倍)；而摄氏温标的100 度是50度的两倍，这没有实际的物理意义，只有单纯的数值意义。因而等比标度的数据可以使用比例，而等距标度的数据不可以使用比例。一般而言，等距标度的数据只能相互加减，而不能相互乘除。尽管等距标度和等比标度有重大的差别，但是在统计和测量中其差别却又无关紧要。在绝大多数时候，只需要等距标度即可，而无需等比标度。比如，平均数只涉及到数据的相互加减，显然没有问题。标准差、协方差、相关系数等虽然涉及到乘法，但它们是基于离差进行的运算，也没有问题。比如说标准分2分是-1分的两倍是可以的，因为这表示的是两个数值离平均数的距离之间具有两倍的关系，并没有说两个原始数值是两倍关系。注：对测量标度等级的批评见 Velleman and Wilkinson (1993)的综述 Nominal, Ordinal, Interval, and Ratio Typologies are Misleading六. 统计分析技术的选择(组间比较)组间比较的目的是为了判断样本上的组间差异是否能够推论至总体，也就是样本上的组间差异的信度问题。组间比较本质上来说属于相关分析。所谓不同组之间的差异，本质上就是分组变量和因变量之间的相关性。组间比较可以采用多种统计分析技术。最最基本的组间比较是一个分组变量、一个分组、一个因变量的情形。如果知道总体标准差则采用单样本z检验，否则采用单样本t检验。最常见的组间比较是一个分组变量、两个分组、一个因变量的情形。它可以用t检验来实现。如果是受试者间设计则采用独立双样本t检验，否则采用配对双样本t检验。一个分组变量、两个分组、多个因变量的情形，可以采用Hotellings T2检验一个分组变量、多个分组、一个因变量的情形，采用单向方差分析(One-way ANOVA)或单向协方差分析(One-way ANCOVA)。N个分组变量、一个因变量的情形，采用N向方差分析(N-way ANOVA)或N向协方差分析(N-way ANCOVA)。N个分组变量、M个因变量的情形，采用多变量方差分析(MANOVA)或多变量协方差分析(MANCOVA)。以上所述为受试者间设计，如果是受试者内设计，则应采用特征分析(profile analysis)。另外组间比较也可以通过回归分析来实现。一般来说因变量是等距或等比尺度的连续变量，如果因变量是定序尺度的，那么可以把各组数据合并排序后再分组进行t检验。除非定序数据中有极端值，否则不必使用非参数检验(独立样本 Mann-Whitney-Wilcoxon 或 Kruskal-Wall is，配对样本 Wilcoxon signed ranks test 或 Friedman nonparametric one-factor analysis of variance)。七. 统计资源7.1在线课程 StatSoft Electronic Statistics Textbook Online Statistics Education: An Interactive Multimedia Course of Study UCLA Statistical Computing UCLA Statistics Online Computational Resource (SOCR)7.2免费资源 Free Statistical Software, Data and Resources

展开阅读全文

第一章 统计概述

最新文档

第一章统计概述