语言统计绪论_装配图网

资源描述

单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,语言统计,第一章绪论,导引：,第一节研究与统计,第二节实验设计与统计,第三节统计学的根本内容,第四节数据与变量,第五节总体样本与随机抽样,第一节研究与统计,研究research是一个为理论或实际问题寻找答案的系统过程，在,此过程中统计分析是一个至关重要的环节，首先简要讨论一下研究的一些,主要方面或参数。,一、方式 approach,研究方式有综合性heuristic与分析性deductive两种之别。,1、综合性heuristic,综合性的研究把要研究的问题看作一个整体，强调的是各局部之间的,相互依赖与联系，研究的目的是对各局部之间的关系有个总括的大致的了,解。,2、分析性deductive,分析性的研究那么是把各局部别离出来，分别加以研究，强调的是各个,构成局部的作用；当然，把对各个局部的研究结果综合起来，也能得到对,整体的总括的了解。,二、目的objective,研究目的分为探索性heuristic的与演绎性deductive的两种。,1、探索性heuristic,探索性的研究往往是归纳性的、描述性的，研究者没有十清楚确,具体的研究问题，对要研究的现象只有一个模糊的看法，研究的目的就是对该现象进行观察、记录和描述，以期对其获得更多的了解，为进一步的研究提出具体的问题或假设。因此，这类研究可以说是假设产生性hypothesis-generating的。,2、演绎性(deductive),演绎性的研究往往有一个非常明确具体的问题，而且对研某种期待，这就是假设；该假设可以基于探索性的研究，也可以基于某种理论。演绎性研究的目的就是来检验这一假设的有效性。因此，这类研究可以说是假设检验性hypothesis-testing的。,三、设计design,研究设计涉及对研究环境的操纵与控制manipulation and control,尽可能控制一切与所研究的中心的程度与方式。这是一个连续体，在其一,端是对研究环境进行多方面严格控制与操纵的研究设计，而在另一端那么是,有意对研究环境不加任何控制、操纵和限制的研究设计。控制与操纵的程,度直接影响数据的质量、数据的分析、结果的解释以及结果的适用性。研,究环境是一个笼统的概念，包括研究的规模或具休程度、变量的控制程度、,被试对研究的意识程度，等等。分析性、演绎性研究的限制程度往往高于,综合性、探索性的研究。譬如，它所研究的问题较为明碗具体，同时为了,保证研究结果清楚明确，便于解释，研究者必需采取适当的措施问题无关,的因素。,四、方法 methodology,研究方法是指收集数据的具体步骤。收集数据的方法取决于研究,领域、研究方式与目的等因素。显然，要决定如何收集数据，首先必,须明确要收集什么样的数据，也就是对数据加以定义，这直接关系着,收集数据的具体步骤以及所使用的工具、对变量的控制和对结果的解,释。需要注意的是，有些方法有可能把被试者的注意力引向所要收集,的数据，也就是他们会意识到他们正在被当作研究的对象，或者研究,者正在收集什么样的数据。这样一来，他们的行为就有可能受到影响,而变得不自然，从而收集到的数据的质量代表性与可靠性就会受,到影响。,实验研究，按照严格的步骤和方法系统地收集数据，进而为某个研究,问题提供答案的研究都可以看成是实验研究。任何严肃的实验研究都必须,注意并采取有效措施保证其“内部有效性(internal validity)与“外,部有效性(external validity)。,1、内部有效性(internal validity),指研究结果的可靠性，即研究结果确实是由研究者所调查的因素而,不是其它无关的因素所产生的，关系到我们是否有把握接受基于该研,究设计所产生的结果,2、外部有效性(external validity),指研究结果能够适用于该研究环境之外的类似环境，关系到我们,能否赋予该研究结果以普遍性。,内部有效性是外部有效性的前提，假设我们对研究结果的可靠性根本,就没有什么把握，不能碗定是什么因素导致了这一结果，那么再去把该结,果推而广之就没有什么份值了。,第二节实验设计与统计,统计是研究过程中的一个重要环节，对获取的数据要进行正确的统,计分析，那就首先必须获取正确的数据，为此研究者在开始一项研究之,前必须充分考虑研究的设计问题，对整个研究过程予以周密的方案和考,虑，对每个环节都按照科学的要求制定出实施方案，对可能出现的问题,要提出预防措施。具体来讲，对于分析性的、演绎性的、假设检验性的,对研究环境控制与操纵较为严格的研究，至少要考虑以下几个方面：,1对所要研究的问题涉及的主要方面变量及其关系加以界定；,2提出明碗的假设；,3确定研究的具休步骤和方法；,4选取有代表性的样本包括样本的结构、性质与大小；,5操纵和控制适当的因素或变量。,第三节统计学的根本内容,依其功能，统计学通常分为两大局部：描述统计与推断统计。,一、描述统计,描述统计的作用是对数据进行整理、归纳和总结，使数据得以压缩，,便于研究者把握其一般性的特征或全貌。,描述统计的主要内容有：利用统计图表以及计算峰值和偏态值来描,述数据的分布情况；通过计算一些统计值来反映数据的集中趋势例如,平均数、中数、众数等和离中趋势例如全距、标准差等。,二、推断统计,推断统计的作用是根据描述统计提供的结果，进一步对有关关系加,以推断。,推断统计中有两个重要的方面要注意：,一是根据样本统计值对总体参数进行推断或估计；,我们所研究的对象的个体往往非常多，甚至无限多，因而由于时间与,经济等方面的限制，通常仅能选取局部个体即样本加以研究，然后再,用适当的统计手段对所有个体即总体的情况进行推断，例如通过样本,平均值推断或估计相应的总休平均值。,二是对事物之间关系的推断。例如比较两种或多种事物之间在某个方,面例如平均值的差异等。,第四节数据与变量,一、自变量与因变量,1,、自变量,在语言研究中，我们所操纵的变量叫做自变量，研究的目的是看它如何影响别的变量。,2,、因变量,在语言研究中，我们观察和测量的变量叫做因变量，因为它是随着自变量的变化而变化的变量，或者说它的值取决于自闭那两的值。,例如：研究传统教学法与交际教学法在外语教学中的不通效果，我们可以随机选取两组学生作为被试,(subject),，分别施以其中一种教学法，经过一算时间之后，用释放的方法对其学习成绩加以测量和统计分析，可以知道不痛的教学法是否会对外语学习产生明显不同的影响。在这个研究中，,教学法,就是,自变量,，,被试的学习者,就是,因变量,。,二、计数数据与测量数据,按照获取的方法，实验数据可以分为计数数据与测量数据。,1、计数数据：是指计算个数的数据，例如长、短句数，高、低智商的人,数，男、女生人数，等等。此类数据一般取整数。,2、测量数据：是指利用某一侧量工具而获得的数据，如考试成绩等。,三、连续变量与非连续变量离散变量,实验数据按其是否具有连续性可以分为连续变量与非连续变量。,1、连续变量：取某一范围内的任何值，其单位可以做非常细微的划分来,显示程度上的细微差异，从理论上讲，其精确度是没有,任何限制的。,2、非连续变量：,只能取某一范围内的某些值，而且两个单位之间不能再做细微的划分，它可以使数字型的一般取整数，也可以是范畴型的，它的值往往是某种特征、接受或不接受某种实验处理等等。,四、称名变量、顺序变量、等距变量及比率变量,按照变量的不同测量量变或测量水平，可一把变量区分为称名变量、顺序变量、等距变量及比率变量。,1、称名量表与称名变量,称名量表，也叫做命名量表，实际上并不是在测量，而是把个体按照某一特征分成不同的范畴，范畴之间往往只有“异同之别，而没有“多少之分，即不存在数学上的关系，或者说这一量表是定性的而不是定量的。,称名变量是指用称名量表加以“测量的变量。,常见的称名变量有：不同的数学/学习方法、对某个问题的反响例如“是与“否、“同意与“不同意等、不同性质的阅读材料“难与“易、“熟悉与“不熟悉等。,2、顺序量表与顺序变量,顺序量表的作用是把个体排序或分等，个体之间的关系表达为“大,于与“小于或“高于与“低于的关系，但顺序量表紧紧排序，,不能只出其间的差异大小，不同表达之间的熟知差不一定相同，或者说,其单位是不相等的。,顺序变量就是按照排序的方法进行测量变量。,3、等距量表与等距变量,等距量表的单位是相等的，即量表个点之间的间距是相等的。测量,数据具有这种性质的变量就称为等距变量。,4、比率量表与比率变量,比率量表与等距量表相似，所不同的是它具有一个绝对零点即量,表上代表完全不具有某一特征的一点，因而，量表上不同点的比率是,可比的，比率量表便于比较实际数值而不是数值间的距离。,测量数据具有这种性质的变量成为比率变量。,常见的比率变量有：距离、时间、身高、体重等。,五、量表的转换与选择,量表之间是可以已转换的，通常的做法是从高等向低等转换，即按,照等距量表,顺序量表,称名量表的方向转换，而相反方向的转换,往往是不可能的。,第五节总体、样本与随机抽样,一、总体,什么是总体？,作为研究对象的任何个体的集合或者目标群体叫做总体。,总体有大小之分，及研究对象的规模不同。有些总体是有限的，而,有些总体却是无限大的，因此，我们又可以将总体分为有限总体和无限,总体。,二、样本,什么是样本？,从总体中抽取一个局部个体加以研究，在此根底上再对总体作出判,断，所抽取的个体称为样本。,三、随机抽样,随机抽样是从通体中抽取个体的一种方法，为了保证样本的代表性，,但并不是说抽取样本的赴欧成是杂乱无章的，而是指总体中的每个个体,被抽中的概率是相同的，即有同等的时机再样本中得到表达。,随机抽样的方法：,1、简单随机抽样：简单随机抽样又称为单级抽样，以区别于多级抽样。,1抽签：把总体中所有个体的编号写在一张张纸条上，然后放在一个,容器里如盒子、帽子等，充分混合后蛮爪所确定的样本容量即样,本规模的消除，从中抽出灯亮的纸条，再把纸条上的编号与抽样框架,加以比较，以确定所对应的个体。,2 随机数表：在该表中09是个数字已经随机地排列起来，并分成,了假设干组，魅族5个数字。,3系统随机抽样或准随机抽样：所要抽取的样本的第一个单位按,照真正的随机地方法来选取，余后的单位那么等距离抽取抽取间距大大,小是样本的大小而定。,2、分层随机抽样,首先确定分层参数或者变量，即研究所设计的自变量或者控制变量，,据此把总体等成假设干局部或层，然后再各局部中分别进行简单随机抽样，,最后把抽取的分样本合并起来就得到一个总样本。分层抽取可以再一个层,面上惊醒，也可以在多个层面上进行。,3、多级抽样,多级抽样就是逐级进行抽样，把每一集所抽取的样本看做下,级的总体。,四、样本参数与样本统计量,描述总体的某一特征的数值成为参数，而描述样本的某一特征的数,值叫做统计量或统计数值征有时也称为估计值。,当总体与样本统计量实质上是同一个统计指标，而当总体提为无限,总体，样本小于总体是，而这组不同，时把样本统计量作为总体参数的,估计值。,章节小结：,研究research是一个为理论或实际问题寻找,答案的系统过程，在此过程中统计分析往往是一个至,关重要的环节。绪论这一章就是为了有助于读者更好,地理解统计方面的问题，首先简要讨论一下研究的一,些主要方面或参数。,

展开阅读全文

语言统计绪论

最新文档