《语言统计绪论》PPT课件

资源描述

语言统计,第一章绪论,导引：第一节研究与统计第二节实验设计与统计第三节统计学的基本内容第四节数据与变量第五节总体样本与随机抽样,第一节研究与统计研究（research）是一个为理论或实际问题寻找答案的系统过程，在此过程中统计分析是一个至关重要的环节，首先简要讨论一下研究的一些主要方面或参数。一、方式（approach）研究方式有综合性（heuristic）与分析性（deductive）两种之别。 1、综合性（heuristic）综合性的研究把要研究的问题看作一个整体，强调的是各部分之间的相互依赖与联系，研究的目的是对各部分之间的关系有个总括的大致的了解。 2、分析性（deductive）分析性的研究则是把各部分分离出来，分别加以研究，强调的是各个构成部分的作用；当然，把对各个部分的研究结果综合起来，也能得到对整体的总括的了解。,二、目的（objective）研究目的分为探索性（heuristic）的与演绎性（deductive）的两种。 1、探索性（heuristic）探索性的研究往往是归纳性的、描述性的，研究者没有十分明确具体的研究问题，对要研究的现象只有一个模糊的看法，研究的目的就是对该现象进行观察、记录和描述，以期对其获得更多的了解，为进一步的研究提出具体的问题或假设。因此，这类研究可以说是假设产生性（hypothesis-generating）的。 2、演绎性(deductive) 演绎性的研究往往有一个非常明确具体的问题，而且对研某种期待，这就是假设；该假设可以基于探索性的研究，也可以基于某种理论。演绎性研究的目的就是来检验这一假设的有效性。因此，这类研究可以说是假设检验性（hypothesis-testing）的。,三、设计（design）研究设计涉及对研究环境的操纵与控制（manipulation and control）尽可能控制一切与所研究的中心的程度与方式。这是一个连续体，在其一端是对研究环境进行多方面严格控制与操纵的研究设计，而在另一端则是有意对研究环境不加任何控制、操纵和限制的研究设计。控制与操纵的程度直接影响数据的质量、数据的分析、结果的解释以及结果的适用性。研究环境是一个笼统的概念，包括研究的规模或具休程度、变量的控制程度、被试对研究的意识程度，等等。分析性、演绎性研究的限制程度往往高于综合性、探索性的研究。譬如，它所研究的问题较为明碗具体，同时为了保证研究结果清楚明确，便于解释，研究者必需采取适当的措施问题无关的因素。,四、方法（methodology）研究方法是指收集数据的具体步骤。收集数据的方法取决于研究领域、研究方式与目的等因素。显然，要决定如何收集数据，首先必须明确要收集什么样的数据，也就是对数据加以定义，这直接关系着收集数据的具体步骤以及所使用的工具、对变量的控制和对结果的解释。需要注意的是，有些方法有可能把被试者的注意力引向所要收集的数据，也就是他们会意识到他们正在被当作研究的对象，或者研究者正在收集什么样的数据。这样一来，他们的行为就有可能受到影响而变得不自然，从而收集到的数据的质量（代表性与可靠性）就会受到影响。,实验研究，按照严格的步骤和方法系统地收集数据，进而为某个研究问题提供答案的研究都可以看成是实验研究。任何严肃的实验研究都必须注意并采取有效措施保证其“内部有效性”(internal validity)与“外部有效性”(external validity)。 1、内部有效性(internal validity) 指研究结果的可靠性，即研究结果确实是由研究者所调查的因素（而不是其它无关的因素）所产生的，关系到我们是否有把握接受基于该研究设计所产生的结果 2、外部有效性(external validity) 指研究结果能够适用于该研究环境之外的（类似）环境，关系到我们能否赋予该研究结果以普遍性。内部有效性是外部有效性的前提，假如我们对研究结果的可靠性根本就没有什么把握，不能碗定是什么因素导致了这一结果，那么再去把该结果推而广之就没有什么份值了。,第二节实验设计与统计统计是研究过程中的一个重要环节，对获取的数据要进行正确的统计分析，那就首先必须获取正确的数据，为此研究者在开始一项研究之前必须充分考虑研究的设计问题，对整个研究过程予以周密的计划和考虑，对每个环节都按照科学的要求制定出实施计划，对可能出现的问题要提出预防措施。具体来讲，对于分析性的、演绎性的、假设检验性的对研究环境控制与操纵较为严格的研究，至少要考虑以下几个方面：（1）对所要研究的问题涉及的主要方面（变量）及其关系加以界定；（2）提出明碗的假设；（3）确定研究的具休步骤和方法；（4）选取有代表性的样本（包括样本的结构、性质与大小）；（5）操纵和控制适当的因素或变量。,第三节统计学的基本内容依其功能，统计学通常分为两大部分：描述统计与推断统计。一、描述统计描述统计的作用是对数据进行整理、归纳和总结，使数据得以压缩，便于研究者把握其一般性的特征或全貌。描述统计的主要内容有：利用统计图表以及计算峰值和偏态值来描述数据的分布情况；通过计算一些统计值来反映数据的集中趋势（例如平均数、中数、众数等）和离中趋势（例如全距、标准差等）。二、推断统计推断统计的作用是根据描述统计提供的结果，进一步对有关关系加以推断。推断统计中有两个重要的方面要注意：一是根据样本统计值对总体参数进行推断或估计；,我们所研究的对象的个体往往非常多，甚至无限多，因而由于时间与经济等方面的限制，通常仅能选取部分个体（即样本）加以研究，然后再用适当的统计手段对所有个体（即总体）的情况进行推断，例如通过样本平均值推断或估计相应的总休平均值。二是对事物之间关系的推断。例如比较两种或多种事物之间在某个方面（例如平均值）的差异等。,第四节数据与变量一、自变量与因变量 1、自变量在语言研究中，我们所操纵的变量叫做自变量，研究的目的是看它如何影响别的变量。 2、因变量在语言研究中，我们观察和测量的变量叫做因变量，因为它是随着自变量的变化而变化的变量，或者说它的值取决于自闭那两的值。例如：研究传统教学法与交际教学法在外语教学中的不通效果，我们可以随机选取两组学生作为被试(subject) ，分别施以其中一种教学法，经过一算时间之后，用释放的方法对其学习成绩加以测量和统计分析，可以知道不痛的教学法是否会对外语学习产生明显不同的影响。在这个研究中，教学法就是自变量，被试的学习者就是因变量。,二、计数数据与测量数据按照获取的方法，实验数据可以分为计数数据与测量数据。 1、计数数据：是指计算个数的数据，例如长、短句数，高、低智商的人数，男、女生人数，等等。此类数据一般取整数。 2、测量数据：是指利用某一侧量工具而获得的数据，如考试成绩等。三、连续变量与非连续变量（离散变量）实验数据按其是否具有连续性可以分为连续变量与非连续变量。 1、连续变量：取某一范围内的任何值，其单位可以做非常细微的划分来显示程度上的细微差异，从理论上讲，其精确度是没有任何限制的。 2、非连续变量：只能取某一范围内的某些值，而且两个单位之间不能再做细微的划分，它可以使数字型的（一般取整数），也可以是范畴型的，它的值往往是某种特征、接受或不接受某种实验处理等等。,四、称名变量、顺序变量、等距变量及比率变量按照变量的不同测量量变或测量水平，可一把变量区分为称名变量、顺序变量、等距变量及比率变量。 1、称名量表与称名变量称名量表，也叫做命名量表，实际上并不是在测量，而是把个体按照某一特征分成不同的范畴，范畴之间往往只有“异同”之别，而没有“多少”之分，即不存在数学上的关系，或者说这一量表是定性的而不是定量的。称名变量是指用称名量表加以“测量”的变量。常见的称名变量有：不同的数学/学习方法、对某个问题的反应（例如“是”与“否”、“同意”与“不同意”等）、不同性质的阅读材料（“难”与“易”、“熟悉”与“不熟悉”等）。 2、顺序量表与顺序变量,顺序量表的作用是把个体排序或分等，个体之间的关系体现为“大于”与“小于”或“高于”与“低于”的关系，但顺序量表紧紧排序，不能只出其间的差别大小，不同叙述之间的熟知差不一定相同，或者说其单位是不相等的。顺序变量就是按照排序的方法进行测量变量。 3、等距量表与等距变量等距量表的单位是相等的，即量表个点之间的间距是相等的。测量数据具有这种性质的变量就称为等距变量。 4、比率量表与比率变量比率量表与等距量表相似，所不同的是它具有一个绝对零点（即量表上代表完全不具有某一特征的一点），因而，量表上不同点的比率是可比的，比率量表便于比较实际数值而不是数值间的距离。测量数据具有这种性质的变量成为比率变量。常见的比率变量有：距离、时间、身高、体重等。,五、量表的转换与选择量表之间是可以已转换的，通常的做法是从高等向低等转换，即按照等距量表顺序量表称名量表的方向转换，而相反方向的转换往往是不可能的。,第五节总体、样本与随机抽样一、总体什么是总体？作为研究对象的任何个体的集合或者目标群体叫做总体。总体有大小之分，及研究对象的规模不同。有些总体是有限的，而有些总体却是无限大的，因此，我们又可以将总体分为有限总体和无限总体。二、样本什么是样本？从总体中抽取一个部分个体加以研究，在此基础上再对总体作出判断，所抽取的个体称为样本。三、随机抽样随机抽样是从通体中抽取个体的一种方法，为了保证样本的代表性，但并不是说抽取样本的赴欧成是杂乱无章的，而是指总体中的每个个体被抽中的概率是相同的，即有同等的机会再样本中得到体现。,随机抽样的方法： 1、简单随机抽样：简单随机抽样又称为单级抽样，以区别于多级抽样。（1）抽签：把总体中所有个体的编号写在一张张纸条上，然后放在一个容器里（如盒子、帽子等），充分混合后蛮爪所确定的样本容量（即样本规模的打消），从中抽出灯亮的纸条，再把纸条上的编号与抽样框架加以比较，以确定所对应的个体。（2）随机数表：在该表中09是个数字已经随机地排列起来，并分成了若干组，魅族5个数字。（3）系统随机抽样（或准随机抽样）：所要抽取的样本的第一个单位按照真正的随机地方法来选取，余后的单位则等距离抽取（抽取间距大大小是样本的大小而定）。 2、分层随机抽样首先确定分层参数或者变量，即研究所设计的自变量或者控制变量，据此把总体等成若干部分或层，然后再各部分中分别进行简单随机抽样，最后把抽取的分样本合并起来就得到一个总样本。分层抽取可以再一个层面上惊醒，也可以在多个层面上进行。,3、多级抽样多级抽样就是逐级进行抽样，把每一集所抽取的样本看做下级的总体。四、样本参数与样本统计量描述总体的某一特征的数值成为参数，而描述样本的某一特征的数值叫做统计量或统计数值征（有时也称为估计值）。当总体与样本统计量实质上是同一个统计指标，而当总体提为无限总体，样本小于总体是，而这组不同，时把样本统计量作为总体参数的估计值。,章节小结：研究（research）是一个为理论或实际问题寻找答案的系统过程，在此过程中统计分析往往是一个至关重要的环节。绪论这一章就是为了有助于读者更好地理解统计方面的问题，首先简要讨论一下研究的一些主要方面或参数。,

展开阅读全文

《语言统计 绪论》PPT课件

最新文档

《语言统计绪论》PPT课件