语言统计第五章概率与概率分布

上传人:ra****d 文档编号:252313837 上传时间:2024-11-14 格式:PPT 页数:33 大小:383.50KB
返回 下载 相关 举报
语言统计第五章概率与概率分布_第1页
第1页 / 共33页
语言统计第五章概率与概率分布_第2页
第2页 / 共33页
语言统计第五章概率与概率分布_第3页
第3页 / 共33页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,第五章 概率与概率分布,第一节 概率的根本概念,一、后验概率,二、先验概率,第二节 随机变量及其概率分布,第三节 正态分布,一 、正态分布的特征,二、正态分布表,三、正态分布表的用法,四、正态分布理论的实际应用,五、检验分布是否为正态的方法,在语言实验研究中,我们通常选取研究对象的一局部即样本加以研究,在此根底上,通过推断统计对所有的研究对象 即总体 的情况作出推断。在进行这种推断时,我们不仅要指出总休可能是什么情况,而且还要指出我们进行这种推断的把握程度有多大,或者总体出现这种情况的可能性有多大,这个“可能性 就是概率。因此,要学好推断统计,就要对概率这一概念有所了解。,第一节 概率的根本概念,简而言之,概率就是在某种条件下,某个事件出现的可能性。显然,这个事件可能会出现,也可能不出现,所以通常称之为“随机事件。概率可分为两类:“后验概率 与“先验概率。,一、后验概率,后验概率或统计概率是指通过实际观测,根据在总观测次数中某事件所出现的次数来计算该事件出现的概率,这种概率其实是一个相对频率,是实际概率的估计值。,一般用A代表随机事件 例如“全体学生中的男生 ,用P代表频率 概率估计值,或用n表示观测的次数,用m表示事件出现的次数,那么,5.1,二、先验概率,当可能出现的情况 叫做“根本领件 是有限的,而且其出现的可能性相等时,所计算的概率称为“先验概率 或“古典概率 无需经过实际观测。用n表示根本领件的总数,用m表示事件A所包括的根本领件,用P代表概率,那么,5.2,第二节 随机变量及其概率分布,随机变量是指在实验中受随机或偶然因素的影响,其取值无法进行准确预测的变量。譬如,我们要随机选取一些学生,来调查其家庭的人口数,“人口数 是一个随机变量,因为它可以取这一个值,也可以取那一个值,究竟取哪一个值完全是偶然的,无法碗切地预测,这要等到实验 实际抽取之后才能得知。我们可以用某种方法对随机变量可取数值的概率分布进行描述,这就是随机变量的概率分布。,第三节 正态分布,正态分布也叫正态曲线,有时也称作高斯分布或高斯曲线。正态分布其实是次数分布的其中一种,但是它在统计学中尤其是推断统计中具有特殊的重要性。首先,在自然界、现实生活以及我们的语言研究中,许多现象或特征都是呈正态分布。就统计工作本身来讲,正态分布具有一些特殊的数学特征,使得我们能够预测总体中多大比例的个体将会在一定范围内取正态分布的变量的某些值,此外,一些重要的差异显著性检验也要求所涉及的变量呈正态分布见第七章。,一、正态分布的特征,正态分布主要具有以下几个特征:,1其形状如钟,中央点 最高点 为平均数点,整个分布以过该点的垂线左右对称,横坐标代表标准差,即横坐标上各点表示离开平均数的标准差单位数,曲线两端向靠近横坐标处无限延伸,但永远不能与之相交见图5.1,2在正态分布的中央点,平均数、中数与众数相等或重合见图5.1。,3)正态曲线完全是由平均数和标准差两个参数碗定的。有了这两个值,就可以利用正态分布的密度函数绘出正态曲线。当随机变量的平均数与标准差的值不同时,正态分布就会呈现不同的形态。在平均数相同的情况下,标准差大的正态曲线低平宽阔,而小的那么高尖狭窄。但是我们可以把一个正态分布里的观测值换算成标准分 见第四章,即把原来的随机变量转换成一个标准正态变量,这样就可以把各种不同形态的正态分布转换成标准正态分布。,4在曲线下,从任一标准差 整数或小数均可 作垂线,截取的“尾巴所占总面积的比例都可以精确地计算出来。任一标准差与平均数之间的面积也可以精确地计算出来。任何两个标准差之间的面积也是固定的。正态曲线下的总面积为1,因而任一面积与总面积之比 即该面积本身可以视为随机变量的值出现的概率。当直方形的宽度即分组区间相等时,各直方形的面积与相应的分组区间的数值的次数或频率也是成比例的,而数值出现的次数与总次数之比就是数值出现的概率。,标准差与正态曲线下的面积的对应关系见图5.2,二、正态分布表,由于任何形态的正态分布都可以转换成标准正态分布,我们就有可能依据标准正态分布编制一个通用的表,列出与各Z值相对应的正态曲线下的面积或概率,这就是正态分布表附表2。当我们想知道一个正态分布中的某个观测值所对应的面积时,或者面积,求相对应的观测值时,就不用一一计算了,只要把观测值换算成标准分,然后查正态分布表即可得到答案。,三、正态分布表的用法,1.由Z值查A值,1查某Z值与平均数之间的面积。,先在第一列找到要查的Z值,其后的数值即是该Z值值与平均数之间所夹的面积。例如:,2 查某Z值以上或以下的面积即该Z值所截去的尾 巴的面积。,由于表中A值为某Z值与平均数之间的面积,而平均数以上或以下即平均数右侧或左侧的面积各占曲线下总面积的一半,所以,在按照上述方法查到A值之后,还要进行一些简单的计算:,求某Z值以上的面积时,如果Z为正值,用0.5减去A值就可得到,如果Z为负值,那么要用A值加上0.5平均数右侧的面积才能得到;求某Z值以下的面积时,如果Z为正值,用A值加上0.5就可得到,如果Z为负值,那么要用0.5平均数左侧的 减去值才能得到。,(3)求两个Z值之间的面积。,求两个Z值之间的面积时也要进行一些运算。例如:求Z=1.00和Z=2.00之间的面积。,查表得:Z=1.00时,A=0.34134,Z=2.00时,那么 A=0.47725 Z=1.00和Z=2.00之间的面积应为 0.47725-0.34134=0.13591,2.由A 值查Z值,1平均数与某Z值之间的面积A,查与之对应的Z值。,只要在标有A的一列里找到该面积值,其前的数值即是对应的Z值。如果的面积在表里没有列出,那么用表里与之最接近的面积值。如果不知道该面积是平均数以上还是以下的面积,那么查出的Z值可能是正值,也可能是负值。例如:,平均数以上的面积A=0.067,Z=0.17表中面积为0.06749;平均数以下的面积A=0.35,Z=-1.04 表中面积为0.35083,2正态分布两端的面积值,求该面积的分界点的值。由于表中所给面积为平均数与值之间的面积,因而查表时不能直接用两端的面积,而是要用0.5减去两端的面积,然后再查表求Z值。例如:求分布曲线右端面积为0.025的分界点的值:,0.5-0.025=0.475,查表得Z=1.96;,求分布曲线左端面积为0.05的分界点的Z值:,0.5-0.05=0.45,查表得Z=-1.64 表中面积,为0.44950。,3正态曲线下中央局部的面积,求两侧分界点的值。由于分布曲线是对称的,两侧的Z值其实是一样的,只是符号不同而已,所以只查一侧的Z值即可。由于表中列出的只是平均数与一侧Z值之间的面积,所以查表之前,要先用2去除中央局部的面积。例如:求中央局部面积为0.68的两侧分界点的Z值:,0.68/2=0.34,查表得Z=1.00表中面积为0.34134).,四、正态分布理论的实际应用,正态分布理论和正态分布表在语言研究中有着重要的实用份值。,下面是一些主要的应用例如。,1.选拔与淘汰,在包括外语教学在内的各类教育中,我们都面着对学生进行选拔和淘汰的问题,如高考时选拔考生、教学中选拔优等生或淘汰差生等等。在所有这些工作中,正态分布的理论都能给予我们有益的指导。,2.考试后分数的分档,在各类教育评估中,都会遇到对分数或能力进行分档的问题,例如在考试后,往往要统计每个分数段的人数。当考生人数比较少时,直接数一数就可以了,但是对于大规模的考试例如涉及数以千计、数以万计的考生,这一做法显然不太经济有效。这时,如果考试的平均分和标准差,利用正态分布表就可以估计出各分数段的人数。该人数为理论值,它与实际人数是比较接近的。,3.等级评定前确定各等级或档次的人数,我们在按照某种能力指标、考试分数等对学生评定等级或分档时,为了保证各等级人数分布合理,可以利用正态分布的理论,计算出各等级或档次应该包含的人数。,例1 如果100个学生的能力服从正态分布,要把他们分成5个等级A,B,C,D,E),求每个等级应该包含的人数。,分析:求每个等级的人数,首先要计算每个等级在正态分布中的面积或概率,然后乘以总人数即可得到各等级的人数。在讨论正态分布的特征时我们看到,正负三个标准差根本上包括了正态曲线下所有的面积,因此我们可以将6个标准差除以等级的个数5,就可以把整个面积等分成5个局部。,计算:,第一步:将6个标准差除以等级的个数5,得 1.2个标准差,即平均每一等级约包含1.2个标准差或Z分数。这5个等级为:,第二步:查表求对应于每一等级的而积或概率:,第三步:用各等级的面积乘以总人数100,得各等级应该包含的人数应四舍五入取整数,如果各等级的人数之和与总人数有出入,那么在中间一个等级调整:,五、检验分布是否为正态的方法,对于一组数据是否为正态分布,可以用多种方法进行检验。,方法之一是绘制直力一图或多边图,这样就可以非常直观地看出数据分布的形态是否大休对称或呈单众数分布。,方法之二是比较理论分布与实际分布中各标准差之间的而积或概率。,方法之三是计算数据分布的偏态值和峰值。如果分布的形态不是对称的,而是偏向一边,称为“偏态。如果偏向左边,即低数值的次数偏高,称为“正偏态反之,那么称为“负偏态(见图5.3)。,偏态值就是分布的偏刹程度的指标,正值表示分布为正偏态,负值表示分布为负偏态,如果其值为0,那么表示分布为正态。峰值表示分布曲线的顶点尖峭的程度,正值表示分布曲线较尖,称“尖峰态,负值表示分布曲线较平,称为“低峰态,如果其值为0,那么表示分布曲线为正态(见图5.4)计算偏态值与峰值的公式为,方法之四是比较算术平均数、众数与中数。从正态分布的特征可知,在正态分布中这三个数值完全相同,在正偏态分布中,平均数高于中数和众数,而在负偏态分布中,平均数那么低于中数和众数,因此通过比较它们的接近程度,就可以知道数据的分布是否呈正态分布。根据三者之间的关系,皮尔逊提出了一个偏态量数公式:,式中 SK 偏态量数,M算术平均数;,Mo众数;,Md中数。,如果SK为正值,那么分布为正偏态,如果SK为负值,那么分布为负偏态,如果SK的值为零,那么分布为正态。,小 结,显然,这个事件可能会出现,也可能不出现,所以通常称之为“随机事件。概率可分为两类:“后验概率 与“先验概率。随机变量是指在实验中受随机或偶然因素的影响,其取值无法进行准确预测的变量。正态分布也叫正态曲线,有时也称作高斯分布或高斯曲线。正态分布其实是次数分布的其中一种,但是它在统计学中尤其是推断统计中具有特殊的重要性。正态分布理论和正态分布表在语言研究中有着重要的实用份值。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!