统计学第五章概率与概率分布.ppt

资源描述

,sample,population,inferential,statistics,probability,人类探索的无止境,前几章只介绍了一些描述一组数据全貌所用统计量的计算方法，实现了对教育研究中实得资料的一般性描述。科学研究的任务不仅仅是描述一组实得资料的情况，更重要的是根据这组资料去推论总体的情况。实例,问题,由样本所推论的总体情况是否可靠? 推论正确的可能性有多大?犯错误的可能性又有多大? 概率如果知道某一样本在总体中出现的概率大，就可以认为该样本是来自总体，能反映总体的情况，反之，就不能反映总体的情况。概率分布,第五章概率分布,第一节概率与概率分布基础第二节正态分布第三节二项分布第四节抽样分布,教学目的与要求：了解概率的基础知识；掌握正态分布的特点及其应用；掌握二项分布的性质与应用；掌握常见抽样分布的主要特点及性质教学重点与教学难点：重点正态分布、二项分布和抽样分布；难点二项分布与抽样分布,第一节概率与概率分布基础,一、概率基础后验概率先验概率概率的性质概率的加法和乘法定理小概率事件 P .05 P .01,小概率事件虽然不是不可能事件，但在一次试验中出现的可能性很小，不出现的可能性很大，以至于实际上可以看成是不可能发生的。在统计学上，把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率原理。小概率原理是统计学上进行假设检验（显著性检验）的基本依据。,二、概率分布类型,（一）根据随机变量的取值是否具有连续性连续分布正态分布离散分布二项分布（二）根据分布的来源经验分布（样本分布）理论分布（总体分布）（三）根据概率分布所描述的数据特征基本随机变量分布抽样分布,第二节正态分布（normal distribution）,正态分布是一种很重要的连续型随机变量的概率分布。心理与教育研究中有许多变量是服从或近似服从正态分布的,如智商、学业成绩、能力、心理健康水平等，许多统计分析方法也都是以正态分布为基础的。因此正态分布无论在理论研究上还是实际应用中，均占有重要的地位。,德莫佛,高斯,高斯分布,高斯(Gauss 1777-1855) 德国数学家、天文学家和物理学家，他和牛顿、阿基米德，被誉为有史以来的三大数学家。高斯是近代数学奠基者之一，有“数学王子”之称。其祖父是农民，父亲是泥水匠，母亲是一个石匠的女儿。高斯幼时家境贫困，但聪敏异常，表现出超人的数学天才。17951798年在格丁根大学学习1798年转入黑尔姆施泰特大学，翌年因证明代数基本定理获博士学位。从1807年起担任格丁根大学教授兼格丁根天文台台长直至逝世。高斯的成就遍及数学的各个领域，在数论、非欧几何、微分几何、超几何级数、复变函数论以及椭圆函数论等方面均有开创性贡献。,（一）正态分布函数看x 和1 时的Y值,（二）正态分布特征,正态分布的形式是左右对称的，对称轴是经过平均数的垂线。正态分布的中央点最高，然后逐渐向两侧下降，并无限延伸，但永不与基线相交。正态分布是一族分布。它随随机变量的平均数、标准差的大小而呈不同的分布形态。标准正态分布曲线下的面积为1，标准差与概率间有一定的数量关系。正态曲线下的每一面积可视为概率，其值为每一横坐标值的随机变量出现的概率。,X轴上用标准分Z代替原始分数，则根据标准分的性质，该分布的平均数为0、标准差为1 标准正态分布,（二）正态分布表的使用,根据Z值求概率P（看P88例3-19）根据概率求Z值（看P87例3-18 ）根据Z值或概率P查找纵线高度Y值（表在P318）,根据Z值求概率P 表有两种表示，一种是P(0Z）（方法）,一种是P(-Z)教材P318（方法）,P（ZZ）,课堂练习题,问：若从中随机抽取一人，其智商高于125的可能性有多大? 低于95的可能性有多大?,例题：如果已知其智商处于总人群中的前5%,问:其智商至少是多少?如果已知其智商处于总人群中的后1%,其智商最高不超过多少?若已知其智商处于中间50%，其智商得分应处在什么范围内？,2.根据概率求Z值,几个常用概率值,双尾概率值Z0.05/2 = 1.96，Z0.01/2 = 2.58，这里下标中的0.05和0.01表示的是两端概率之和，斜杠2表示双尾概率。单尾概率值Z0.05 = 1.645， Z0.01 = 2.33,3.根据Z值或概率P查找纵线高度Y值,查找方法,（三）正态分布在实践中的应用,确定录取分数线在能力分组或等级评定时确定人数将能力、品行等的等级评定转化为数量化分数,应用实例,确定录取分数线例题：某项职业录取考试，在参加考试的1600人中准备录取200人，考试分数接近正态分布，平均分为74，标准差为11，问录取分数是多少？,计算步骤根据参考人数和录取人数确定录取比率；将录取比率视为正态曲线上端（右侧）的面积，找出相应的Z值；根据公式Z=X-/ 计算出原始分数X X= +Z ,在能力分组或等级评定时确定人数例如：假设对100名报考研究生的学生按能力分为甲、乙、丙、丁四个组，问各组应有多少人才能使分组构成等距量尺？,计算步骤：将正态分布基线上Z=-3至Z=3之间6个标准差的距离分成相等的几份；根据正态分布表查找各段Z值间的概率；再用各概率乘以学生总人数，即为各等级人数。,3. 将能力、品行等的等级评定转化为数量化分数,计算步骤：计算各等级人数的概率；求各等级中点所对应的Z值求各等级中点以下（上）的累加概率，并求出其与0.5的差；根据计算出的概率查找相应的Z值，该值就是各等级的数量化分数；,练习题,某年高考平均分500，标准差100，考分呈正态分布，某考生得到650分。设当年高考录取率为10，问该生能否被录取？录取分数线：500+1.28*100=628,某地区47000人参加高考，物理学平均分为57.08，标准差为18.04。问：（1）成绩在90以上有多少人？（2）成绩在8090之间有多少人？（3）60分以下有多少人？,（1）成绩在90以上有多少人？ 0.03438，1615.86 （2）成绩在8090之间有多少人？ 0.06766，3180 （3）60分以下有多少人？ 0.56356，26487,第三节二项分布,一、定义：重复进行n次二项试验后不同“成功”次数的概率分布称为二项分布。,二项试验（又称贝努里试验）,任何一次试验恰好有两次试验，成功或失败，或A与非A。共有n次试验，并且n是事先给定的任意一个整数。各次试验相互独立，即各次试验之间无相互影响。任何一次试验中成功或失败的概率保持相同，即成功的概率在第一次为P（A），在第n次实验中也是P（A）。,一次试验只有两种可能结果，即“成功”和 “失败”(只说明两种结果或状态而已)；各次试验中“成功” （失败）的概率相等成功概率：p 失败概率：q=1-p 各次试验相互独立，互不影响；凡是满足以上条件的试验称为二项试验。,二项分布函数的得来,随机抽查2个婴儿中男婴的概率分布,男,女,随机抽查3个婴儿中男婴的概率分布,男,女,男,女,随机抽查的4个婴儿中男孩的概率分布,女,二项展开式的通式就是二项分布函数，运用这一函数式可以直接求出在n次二项试验中成功事件恰好出现X次的概率,假设把一个质地均匀的硬币抛掷3次，这时你和朋友打赌：着地时会有2次出现“正面”，赌注为10元。如果这种结果出现了，你的朋友必须给你10元钱。但谁最有可能赢得这10元钱呢？你还是你朋友？,二项分布图,二、二项分布的特点,二项分布的概率之和等于1。二项分布随n和p的变化而成一簇分布：当P=0.5时，无论n的大小，均为对称分布；当P0.5 ,n较小时为偏态分布,n较大时（ np5或nq 5 ）逼近正态分布。,当二项分布接近正态分布时，在二项试验中成功事件出现次数的 1、平均数 2、标准差,推导过程见王孝玲教育统计学,三、在心理与教育研究中的用途,二项分布是一种离散型随机变量的概率分布。二项分布在心理与教育研究中，主要用于解决含有机遇性质的问题。所谓机遇问题，是指实验结果可能由猜测而造成的。为了区分是猜测的结果还是真实的结果，就可用二项分布来解决。,例题：在一项有关儿童认知发展的研究中，为了考察2岁儿童是否理解“最大”的概念，随机抽取了15名年龄在30-32个月之间的儿童，并分别对他们进行测试。测试的内容是让他们在三个物体中挑选出最大的一个。结果发现15名儿童中有9名能正确作答。问：该研究结果能否表明2岁儿童理解了“最大”的概念或能否排除猜测因素在作答中的作用。 P=1/3,q=1-1/3=2/3,np=15*1/3=5 =np,=1.897,若要保证95%，查表Z=1.64，临界次数=8+1.64*1.4=10 910，所以，不排除猜测的因素。,解法1 二项分布法,首先假设是猜测的结果，并计算猜测作答正确的概率（利用二项分布函数）。判断是否小概率事件，如果是则表明不是猜测的结果，表明被试理解或掌握了相应的概念或知识。,解法2 正态分布法,先求出二项分布的平均数与标准差而后利用正态分布计算如果要确定猜测作答正确是小概率（5%）事件至少需要正确作答几次（临界次数）。 X=+1.645 最后用实际作答正确的次数与其相比较，如果实际作答正确的次数多于与小概率事件对应的临界次数，则排除猜测因素的作用。,例1：一名学生作答2道三择一的选择题，每作答1题正确的概率为1/3，错误的概率为2/3，问该生作答正确1题的概率是多少？例2：一名儿童对 10个记忆项目进行再认，每个项目再认正确的概率为1/2，错误的概率为1/2，问该生再认正确6个项目的概率是多少？。例3：设生男孩的概率为p,生女孩的概率为 q=1-p，令X表示随机抽查出生的4个婴儿中“男孩”的个数，求X的概率分布。,第四节抽样分布,前言统计学研究问题的方法是从特殊到一般，从部分到全局，即用样本来推断总体。从一个总体中可以抽取出很多很多的样本，而实际中一般只选取一个样本进行研究，所以你所选取的那一个具体的样本只是你随机选中的一个，你完全有可能选中另外的样本。统计学就是用你随机选中的一个样本来推断总体，为了让这种推断有根有椐，我们必须清楚这种随机的规律是什么？而抽样分布理论给出了答案。,总体分布样本分布抽样分布,下面是某班25名同学的某科成绩，它就是要研究的总体：,常用的抽样分布平均数的抽样分布方差的抽样分布两个样本平均数差的抽样分布两个样本方差比的抽样分布,一、样本平均数的抽样分布,一个正态总体中的抽样分布,（一）总体正态且方差已知时的样本平均数的抽样分布正态分布(Z-distribution),一个正态总体中的抽样分布,应用：大样本或总体方差已知时的总体平均数的估计、样本平均数与总体平均数差异的检验,随机抽取的一个样本平均数在其抽样分布中的位置为：,一个正态总体中的抽样分布,（二）总体正态且方差未知时的样本平均数的抽样分布t分布（t-distribution）,应用：小样本或总体方差未知时的总体平均数的估计、样本平均数与总体平均数差异的检验,t分布的来源：,1900年左右，统计学家开始觉得标准正态分布并不总是用来寻找概率的正确分布。William Gosset（高赛特）是在爱尔兰一家啤酒厂工作的一名化学分析技术人员，他也是对此感到怀疑的人之一。于是他决定检验在概率问题中使用标准正态分布是否总是正确的。令人不可思义的是，Gosset以收集犯人的身高和左手中指长度开始了他的探索。他以每4个犯人作为一个样本，共收集了750个不同的样本，并对每一个样本都计算了一个数值。然后他绘制了两个直方图（身高和左手中指长度），想看一看每一个样本的所有的数值的分布是什么样的？他们与标准正态分布有多类似？结果Gosset发现两个直方图形状非常接近，但是与标准正态分布有很大不同。他将这个新分布命名为t分布，计算出的值也叫做t值。由于他的雇主害怕员工泄露酿造啤酒的秘密而禁止员工发表文章，所以Gosset在1908年发表上述研究结果时，使用了假名“学生”。正因为如此，t分布又名学生分布（students distribution）。,特点：,t分布以Y轴为对称轴，呈单峰对称状，且在t0时，分布密度函数（纵线高度）取值最大。 t分布受自由度的制约，每一个自由度都有一条t分布密度曲线。与标准正态分布曲线相比，t分布曲线顶部略低，两尾部稍高而平。df越小这种趋势越明显。df越大，t分布越趋近于标准正态分布。当n 30时，t分布接近标准正态分布，当n时，t 分布与标准正态分布完全一致。,自由度（degree of freedom）：变量值可以自由变化的个数，常缩写为df。,X1+X2=10 df=1 X1 X2 =4 df=0 X1与X2之间一个条件也没有 df=2 df=变量个数-限制条件数 t 分布中变量取值只受离差之和等于0的限制，故df=n-1,t分布表的使用：（附表2 P452）,按自由度及相应的概率去找到对应的 t 值例：t0.05/2 (15) 其意义是： P(-t-2.131)=P(2.131t+)=0.025; P(-t-2.131)+P(2.131t+)=0.05。,（三）总体呈非正态，方差未知，n30时，则样本均数的分布呈渐近正态分布,应用：样本方差与总体方差的差异检验、计数数据的假设检验,二、样本方差的抽样分布2分布,特点：,呈正偏态，随着自由度的增大， 2分布趋近于正态分布。 2都是正值。,2分布表的使用：（附表14，P348）,按自由度及相应的概率去找到对应的2值,2 0.05 (7) =14.1,三、两样本平均数之差的抽样分布,两样本的分类,根据两样本内个体是否存在一一对应关系独立样本相关样本,独立样本：两个样本内的个体是随机抽取的,它们之间不存在一一对应关系。,例1：为了比较独生子女与非独生子女社会性方面的差异，随机抽取独生子女25人，非独生子女31人，进行社会认知测验。例2：从某大学一年级随机抽取部分学生，其中男生100人，女生80人，研究男生与女生英语成绩有无显著差异。,相关样本：两个样本内个体存在一一对应关系。,重复测量样本：对同一组被试先后进行两次测量所获得的样本。匹配样本：根据某些基本条件相同的原则，将被试匹配成对，然后将他们随机分配到实验组和控制组接受不同的实验处理所获得的样本。,例1：为了揭示小学二年级的两种识字教学法是否有显著差异，根据学生的智力水平、努力程度、识字量多少、家庭辅导力量等条件基本相同的原则，将学生配成10对，然后把每对学生随机地分入实验组和对照组。实验组施以分散识字教学法，而对照组施以集中识字教学法。例2：为考察某一试卷的稳定性，随机选取36名学生先后施测两次，以求两次测验间的相关。,两样本容量不相等时，一定不是相关样本，但相等时不一定是相关样本。,（一）总体正态且方差已知时，样本平均数之差的抽样分布正态分布,平均数：独立样本标准误：,相关样本标准误：,独立样本Z值计算：,相关样本Z值计算：,独立样本的标准误：,相关样本的标准误：,(二）总体正态方差未知时，样本平均数之差的抽样分布,平均数：标准误：独立样本大样本,小样本方差齐性：,方差齐性：,相关样本,大样本,小样本,四、两个样本方差比的抽样分布 F分布,F分布是以英国统计学家费舍尔（R. A Fisher）的姓氏的第一个英文字母命名的概率分布。,费舍尔.罗纳德（Feisher. Ronald 1890-1962）英国统计学家，出生于英国伦敦附近，在剑桥接受教育，早年在赫德福德郡的罗塞姆斯特德农业研究实验站担任统计员，后入伦敦大学，继皮尔逊后担任优生学和生物统计学教授职位，并在剑桥大学担任遗传学教授。费舍尔是现代最具有创造力的统计学家，为心理学提供了（1）方差分析（2）小样本理论（3）零假设等重要概念。,应用：两总体方差齐性（是否相等）检验、方差分析（多个总体的平均数是否相等）,特点,呈正偏态，随着自由度的增大， F分布趋近于正态分布。 F都是正值。 F分布表的使用 (附表6A P328，双侧，附表6B P332，单侧）按两个自由度及相应的概率去找到对应的 F 值,计算步骤:,If you are beginning with a raw score, first convert it to a Z score. Draw a picture of the normal curve, where the Z score falls on it, and shade in the area for which you are finding the probability. Find the exact probability using the normal curve table.,例某市1995年110名7岁男童的身高(cm)资料如下,次数分布图与概率密度曲线,要注意的是，密度函数 f (x)在某点处a的高度，并不反映X取值的概率. 但是，这个高度越大，则X取a附近的值的概率就越大. 也可以说，在某点密度曲线的高度反映了概率集中在该点附近的程度。,计算步骤:,If you are beginning with a raw score, first convert it to a Z score. Draw a picture of the normal curve, where the Z score falls on it, and shade in the area for which you are finding the probability. Find the exact probability using the normal curve table.,计算步骤:,Draw a picture of the normal curve, where the probability falls on it, and shade in the area. Find the exact Z score using the normal curve table. If you want to find a raw score, convert to it from the Z score.,

展开阅读全文

统计学第五章概率与概率分布.ppt

最新文档