心理统计-录音笔记

上传人:zhu****ng 文档编号:149008146 上传时间:2022-09-06 格式:DOC 页数:30 大小:766.51KB
返回 下载 相关 举报
心理统计-录音笔记_第1页
第1页 / 共30页
心理统计-录音笔记_第2页
第2页 / 共30页
心理统计-录音笔记_第3页
第3页 / 共30页
点击查看更多>>
资源描述
1、黄底的是听录音自己加上去的(因看不到,无法知道所加是否正确)。第一章 绪论心理统计:心理统计是研究心理学科的科学方法和工具,是统计学的原理和数学方法在心理学领域中的应用。心理统计分为描述统计和推论统计两大部分。描述统计:是把实验中所得到的数据进行概括的整理,得出实验者可利用的信息,用表和图将实验数据形象地表示出来,描述统计的指标有三类,即集中量数、离中量数和数据间的相关。集中量数,是指一组数据具有代表性的指标,如,平均数、中数、众数。离中量数,表示一组数据分散程度的指标,如,四分差,标准差,方差。数据间的相关,是表示成对的两组数据之间的关系的指标。进行心理实验是为了发现心理现象的客观规律。心理统计将研究对象的全部称为总体,从总体中抽出的参与实验的部分称为样本。推论统计就是从样本的数量特征去推论总体的数量特征。它包括一系列的统计程序:推论的假设、推论的方法步骤和检验推论的可靠性的各种方法等。描述统计和推论统计是相辅相成,描述统计是推论统计的基础,只有描述统计准确无误,推论统计才具有意义。第二章 数据的初步整理实验数据的类型:计数数据:是准确数,它是一个一个数出来的。数据形式为计数数据的变量称为离散型变量。测量数据:是近似数。测量数据是通过测量工具得到的。数据形式为测量数据的变量,称为连续性变量。上限:就是一个数的最末位加上半个单位。下限:就是一个数的最末位减去半个单位。用表整理实验数据常用的表格有三种:原始数据表(原始记录表)、次数分布表、实验结果表 全距:就是数据中最大数值的上限与最小数值下限的差。组距:就是某一组数据上限与下限的差。中点:符号X。假设数据均匀地分布在组距之间,这一组数值的代表点叫中点。它是这一组数值的上限与下限中间一点的数值。(计算中点的简单方法是两个数相加,除以2)比例:符号小写p。部份比全部的比值就是比例。比例是将全部数据作为一个整体。定总量为1,部份为分量,分量总是总量的几分之几,用小数或分数表示,比例值永远小于1.累加次数cf:最底组cf就等于f,上一组cf等于下一组的cf加上本组的f,最高组的cf就是总次数。累加次数百分数cP:最底组cP就等于P,上一组cP等于下一组的cP加上本组的P,最高组的cP就是100%。表的名称放在表上面,图的名称放在图下面。图分为平面图和立体图。横轴称为X轴(横坐标),纵轴称为Y轴(纵坐标)。X轴与Y轴垂直交于零点,横坐标常用于表示心理实验中的自变量(刺激变量)。纵坐标表示心理实验中的因变量。常用的图有直条图、直方图、曲线图(折线图)。当横坐标代表的数据是计数数据时只能画直条图和直方图。当横坐标代表的数据是测量数据时,可以画直方图和曲线图。直条图中的长方形是分开的,这种图形只能表示计数数据,离散型变量。直方图的长方形是连在一起的,横坐标在表示测量数据时是以各组数的上下限标点的。直方图的纵坐标必须从0开始,这样才能反应真实情况。曲线图又称折线图,是用线段连接各组次数点绘制而成,可用于多组数据的比较。多用于表示测量数据,连续型变量。包括多边图和累积曲线图。多边图的横轴用各组的中点标点。累积曲线图的横坐标是以组上限标点的。正态分布又称正态曲线和钟形分布。它是连续性随机变量的概率分布形态。正态分布的曲线是中间高,两侧逐渐下降,两端无限向横轴延长并永远不与横轴相交,两侧完全对称的钟形曲线。当多数数据集中在曲线的一端,而少数数据在曲线的另一端,数据分布的形态就产生了偏斜。当偏斜的一边趋向正数的方向时,叫正偏态。当偏斜的一边趋向负数的方向时,称为负偏态。双峰分布:在作完图形之后,有时我们会发现作出的曲线出现了高低差不多的两个峰,这时就发生了双峰现象,两个高峰被一个低峰的组隔开,画出来的图就表现为双峰。双峰现象产生的原因有两个,第一,由于在分组时组距选择得不当出现了双峰,这样出现的双峰叫假双峰,第二由于数据中混有性质不同的两种数据出现的双峰,这则是真正的双峰。第三章 集中趋势的测量集中量数:表示数据集中趋势的指标叫做集中量数,它是一组数据的代表值,比起个别数据来,更能准确地反映所研究的事物和现象的真实情况,是真值最好的估计值。常用的集中量数有三种:平均数、中数、众数。平均数:是指算术平均数,符号,集中趋势的重要指标,表示一组数据的平均值,当数据比较集中,分布比较均匀,没有极端数值,我们就用平均数来代表这组数据的集中趋势。平均数是集中趋势中代表性最大,最稳定的数据指标。极端数值:一组数据中存在比其它数大得多或小得多的个别数据,该个别数据就是极端数值。当数据中出现极端数值,就不适宜用平均数来表示集中趋势,而应该改用中数。平均数公式:-10-1加权平均数-简单应用概念:加权平均数符号。已知几组数据各自的平均数,又知道这几组的数据个数不相等时, 需要计算总平均数,就一定要用加权平均数方法计算总平均数。公式:使用加权平均数的条件:已知各组平均数,各组人数不相等求加权平均数的注意事项:一定要写单位加权百分数公式:-平均数是最严谨的集中量数。平均数是一组数据的重心。它像一个平衡的天平的支点。比它大的数减平均数得正差,比它小的数减平均数得负差,所有的正差负差加起来等于零。每一个数据减去平均数所得的差叫离均差。该特点定义为:离均差之和等于零。用公式表示:(X)0中数:符号Mdn,是一组按大小排列的数据中位置居中的那个数,它将数据分为大的一半和小的一半。当数据存在有极端数值时,我们就用中数来表示数据的集中趋势。中数使用的条件:当一组数据有极端数值时,用中数表示极端数值计算步骤:排序、找位置(位置=(n+1)/2)、求值。计算中数的几种情况:(1)当数据个数为奇数,且中数的位置处无相同数据时计算中数的方法:中数位置=(n+1)/2;该位置的数值为中数。(2)当数据个数为偶然,且中数位置处无相同数据时计算中数的方法:中数位置处于两个数之间;中数位置=(n+1)/2;Mdn(小+大)/2(3)当数据个数为奇数,中数的位置有相同数据时计算中数的方法:(见课本P28例题3-7)(4)当数据个数为偶数,中数的位置有相同数据时计算中数的方法:(见课本P28例题3-8)对中数而言,重要的是位置而不是数值的大小。中数对数据中的其他数据数值的变化不敏感。众数:符号Mo。众数就是在数据中出现次数最多的那个数。使用它可以最快地了解数据的集中趋势,但它是一个较粗糙和极不稳定的指标,在正式研究结果中很少采用。需要很快地知道集中趋势时,需要使用众数。需要看一下P32-33,知道了解(见P22图3-1)。第四章 离中趋势的测量差异量数:表示离中趋势的指标叫差异量数(离中量数),差异量数表示一组数据的分散程度(离散程度),差异量数的指标有全距、四分差、标准差和方差、离中系数等。离中量数大,数据分散,平均数代表性小;离中量数小,数据集中,平均数代表性大;离中量数为零,数据相等,平均数代表性最大。全距:是一组数据中最大数的上限值与最小数的下限值的差。它是最简单的差异量数,表示数据的离散程度,全距大,差异大,数据分散;全距小,差异小,数据较集中。百分点与Pp百分位RX ,百分位和百分点是同一事物的两个侧面,百分等级表示的是位置,百分点表示的是该位置上的数值。利用百分点和百分等级可以描述某个个体与整个分布的关系。百分等级:一个分数的百分等级是低于这个分数的人占总人数的百分比。百分点:指属于某个百分比占的具体数值。例题:今年高考文科最高分为690分,最低分为105分,计划录取1/2,问录取分数线是多少。,求出X则为录取分数线。(录音第8课后半部分)中数的百分点是50%,中数的百分等级是50四分差:符号Q;表示按大小顺序排列的一组数据中间50%个数据的离散程度的指标。四分差的计算公式:在对称的分布中:Q2Q1=Q3Q2在正偏态分布中:Q2Q1Q3Q2在负偏态分布中:Q2Q1Q3Q2Q2:即中数表示为Mdn,号Mdn,是一组按大小排列的数据中位置居中的那个数,它将数据分为大的一半和小的一半。也称之第2个四分点,第50个百分点(概念)Q1:中数是把数据分成两半,把其中较小的一半再分成两半的那个点就是Q1,也叫第1个四分点,第25个百分点。(概念)Q3:把中数分成两半,把其中较大的一半再分两半的那个点就是Q3,也叫第三个四分点,第75个百分点。(概念)-10-2四分差计算简单应用(录音第9课)定义:四分差:符号Q;表示按大小顺序排列的一组数据中间50%个数据的离散程度的指标。使用条件:当一组数据中存在极端数值,集中量数就用中数,离中量数就须用四分差。计算步骤:(1)排序(2)找位置(Q1、Q2、Q3):Q2(n+1)/2;Q1(n+1)/4;Q3(n+1)3/4;(3)求Q1、Q2、Q3的值。(4)用求Q。判断原理:成绩好坏反应快慢等用集中量数指标;比较分散程度或平均数代表性用离中量数。依据:Q大,数据分散,平均数代表性小;Q小,数据集中,平均数代表性大;见:课本4-3(见P41)例1:两组被试做同一次心理测验,各人得分如下表:被试一二三四五六七八甲组476837165乙组12610981056(1)分别计算甲乙两组Q1、Q2、Q3(2)比较两组被试测试成绩。(3)比较两组被试成绩分散程度,哪一组平均数代表性大。先做甲组:甲组的顺序:3、4、5、6、7、7、8、16因为有极端数值16,所以计算中数,离中量数用四分差。做题时直接标上箭头(不用写找位置的公式)求值:Q14.25;Q26.5;Q37.75;利用公式求Q:1.75计算乙组:乙组的顺序:5、6、6、8、9、10、10、12求值:Q16.25;Q28.5;Q310.75;利用公式求Q:2.25解(1):甲组Q14.25;Q26.5;Q37.75;乙组:Q16.25;Q28.5;Q310.75;解(2):因为有极端数值,比较两组被试测验成绩,我们选用集中量数指标中数来比较。因为甲的中数为6.5,乙的中数为8.5,因为甲组小于乙组,所以乙组成绩较好。(不知道为什么录音上乙组中数算得是7,有可能是乙组数据我听错一位,不过知道怎么解题就成了)解(3):因为有极端数值,集中量数用中数,离中量数须用四分差来比较分散程度。Q大,数据分散,平均数代表性小;Q小,数据集中,平均数代表性大。因为Q甲1.75,Q乙2.25,所以乙组成绩分散,甲组平均数代表性大。例2:两组被试解决问题所用时间如下表(单位:分钟):被试一二三四五六甲组4245153乙组7153911(1)甲乙两组中数和Q。(2)哪一组解决问题快。(3)哪一组分散。选用比较指标。求甲组,首先排序:1、2、3、4、5、45记得标上箭头中数(Mdn)Q23.5Q11.75;Q315利用公式求Q:6.625求乙组:首先排序:1、3、5、7、9、11中数(Mdn)Q26Q12.5;Q39.5;利用公式求Q:3.5解(1)甲组中数为3.5,Q6.625;乙组中数为4,Q3.5解(2)因为有极端数值,所以选用集中量数指标中数来比较。甲组中数为3.5小于乙组中数6,所用时间较少,所以甲组解决问题快。解(3)因为有极端数值,集中量数用中数,离中量数须用四分差来比较分散程度。Q大,数据分散,平均数代表性小;Q小,数据集中,平均数代表性大。因甲组Q6.625小于乙组Q3.5,所以甲组分散程度大。例3:某校英语测验成绩如下:性别一二三四五六七八九十十一十二女817376857882757181747684男717674747769717270737098(1)男生女生Q1、Q2、Q3。(2)男生女生成绩谁高谁低。(3)哪组成绩较分散,哪组集中趋势代表性大。解:女生成绩排序:71、73、74、75、76、76、78、81、81、82、84、85中数(Mdn)Q277Q174.25;Q381.75利用公式求Q:3.75男生成绩排序:69、70、70、71、71、72、73、74、74、76、77、98中数(Mdn)Q272.5Q170.25;Q375.5利用公式求Q:2.625解(1):女生成绩:Q174.25;Q277;Q381.75;男生成绩:Q170.25;Q272.5;Q375.5解(2):因为有极端数值,所以选用集中量数指标中数来比较男生女生成绩。女生成绩中数为77,男生成绩中数为72.5,所以女生成绩高,男生成绩低。解(3):因为有极端数值,集中量数用中数,离中量数须用四分差来比较分散程度。Q大,数据分散,平均数代表性小;Q小,数据集中,平均数代表性大。因为Q女3.75大于Q男2.625,所以女生成绩分散大,男生成绩集中趋势代表性大。-AD:平均差,它是离中量数指标,这个公式表示每个数与平均数的差的绝对值和的平均值。方差:符号S2,又称变异数,它是离中量数常用指标,它是以数据中每一数值与均值的差的平方和的均值作为离散程度的指标。标准差:符号是S,是离中量数常用指标,表示每个数与平均数的差的平方和的均值的正方根。-10-3 CV(离中系数)计算简单应用(录音第12课)CV(离中系数)定义:CV是表示离中量数的相对量指标。使用条件:单位不同,单位相同但平均数相差较大,我们用CV来表示离散程度,它的公式:。判断原理:CV大,数据分散,平均数代表性小,CV小,数据集中,平均数代表性大例1:下面是两个年龄组,被试运动时间,单位时间:秒被试一二三四五六S青年897101191.14老年1619101015361.86(1)计算两组平均值。(2)计算两组CV值。(3)哪一组被试的平均代表性大,为什么。解(1)9秒17.67秒解(2)因为青年组和老年运动时的平均值相差较大,所以用相当对指标离中系数CV来表示离散程度。1001310011解(3)CV大,数据分散,平均数代表性小,CV小,数据集中,平均数代表性大,因为CV青13大小CV老,所以老年组的平均数代表性大。例2:小学一年级二年级各5个,做净化实验,发生的错误次数如下:被试一二三四五S一年级17131019113.87二年级413521.58(1) 求两个年级的平均数和CV值。(2)哪个年级错误次数比较分散。(3)哪个年级错误次数平均代表性大。解(1):14次3次因为两个年级错误次数平均数相差较大,所以用CV来比较他们的离散程度。解(2):CV大,数据分散,CV小,数据集中,因为CV一年级=28小于CV二年级53,所以二年级错误次数比较分散。解(3):CV大,平均数代表性小,CV小,平均数代表性大,因为CV一年级=28小于CV二年级53,所以一年级错误次数平均数代表性大。例3:下面是测量两组儿童食指两点阈,单位:毫米被试一二三四五六S盲人3112220.75正常6473451.47(1)求两组两点阈的平均值和CV值。(2)哪一组食指分辨能力较强。(3)哪一组两点阈比较一致,为什么不用S而用CV来比较。解(1):解(2):(感觉性和感觉阈限成反比关系)两点阈跟分辨能力成反比关系,两点阈大,分辨能力弱,两点阈小,分辨能力强,因为1.83小于4.83,所以盲人儿童的分辨能力强。解(3):CV大,数据分散,CV小,数据集中或一致,因为大于,所以正常儿童的两点阈比较一致。因为盲童和正常儿童的两点阈的平均数相差较大,所以不用标准差S而用离中系数CV来比较他们的离散程度。-第五章 正态分布与z分数、T分数决定曲线位置和形态的关键数值是分布的平均数,和标准差。值决定曲线最高点在横轴上的位置。值越大曲线在横轴上的位置越向右。值决定曲线的形状,是高耸还是矮平。任何特定的正态分布的确定的性质是由公式中的和决定的。标准正态曲线:在为数众多的正态曲线中,有一条正态曲线,它的平均数等于0,标准差等于1,统计中规定它为标准正态曲线,任何一条正态分布曲线都可以转化为标准正态曲线,方法就是将原始分数转变为Z分数。z分数:也叫标准分数,它是公式是,它是以标准差为单位去度量某一原始分数偏离平均数的距离,从而确定这一数据在全体数据中的位置。(原始分数与平均数的差是标准差的几倍或几分之几。)z分数的性质:(z分数的平均数等于0),或S1(z分数的方差和标准差等于1)T分数就是以平均数为50,标准差为10进行转换后的分数:公式:T50+10(z)PS:离差智商公式:IQ100+15zz分数等于1时,较大部分面积为0.8413;较小部分面积为0.1587例:某班100人,语文考试成绩60分,S8分。(1)求55分和75分的标准成绩.(2)假设服从正态分布,高于76分的人占全部人数的百分之几?(3)低于52分的人,占全部人数的百分之几?解(1):利用公式求标准成绩。-0.6251.875解(2):2查正态分布表z=2较小部分的面积是0.0228,所以高于76分的人占全部人数的2.28%解(3)-1查正态分布表z=-1较小部分的面积是0.1587,所以低于52分的人占全部人数的15.87%Z分数在统计检验中的重要临界值,即两事物差别显著不显著的分界线。1.65是单侧检验,.05显著水平的临界值;(Z分数为1.65时,大面0.95,小面0.05)2.33是单侧检验,.01显著水平的临界值;(Z分数为2.33时,大面0.99,小面0.01)1.96是双侧检验,.05显著水平的临界值;(Z分数1.96时正态曲线下两端各有0.025面积)2.58是双侧检验,.01显著水平的临界值;(Z分数2.58时正态曲线下两端各有0.005面积)统计上常.05和.01作为检验的显著性水平的概率。第六章 数据间的相关相关的分类:相关性质:正相关、负相关;相关程度:完全相关、部分相关、零相关;相关又分直线相关和曲线相关(此课本不讲曲线相关);直线相关:等级相关、积差相关;相关:两个变量之间存在某种相互关系,相关按性质分为正相关和负相关,相关按程度上分为完全相关、部分相关和零相关。相关性质:指正相关和负相关两种,正相关指一个变量和另一个变量按同方向变化,这两个变量是正相关;两个变量变化方向不一致或向相反方向变化为负相关。正相关:一个变量增加,另一个变量也跟着增加,一个变量减少,另一个变量也跟着减少,所以两个变量向同一方向变化,这两个变量呈正相关。例如数学成绩好,会计工作业绩也好,这两个则呈正相关。负相关:一个变量增加,另一个变量减少,一个变量减少,另一个变量则增加,所以两个变量向相反方向变化,这两个变量呈负相关。例如旷课天数越多,成绩越差,这两个则呈负相关。相关程度:指两个变量之间的密切程度,相关程度分完全相关、部分相关和零相关。相关系数:符号为r,用于表示两列变量之间相互关系的性质和密切程度的指标叫相关系数。相关系数的范围 -1.00 r +1.00散布图:用来表示两个变量之间相关性质和相关程度的图解叫散布图。相关性质看符号,相关程度看数值;相关系数不能有倍数和几分之几的关系;两个变量之间有一定相关,但不一定有因果关系;请看散布图P65;散布图越扁相关越高(大、密切);通过散布图,相关性质看方向(左上右下负、右上左下正),相关程度看形状(扁、圆、直线)积差相关:符号r,公式,又称皮尔逊相关系数或称皮尔逊r,它是通过两个变量z分数或标准分数的乘积之和的平均数计算出来的来表示两个变量相关性质和相关程度的数字指标。(它是利用两列变量的标准分数计算出来的,表示变量之间相关性质和程度的指标。)等级相关:符号为,公式(此公式不用记和写),又称斯皮尔曼等级相关,通过两个变量的等级差计算出来的表示两个变量相关性质和相关程度的数字指标。-10-4等级相关系数的计算简单应用定义:等级相关:符号为,又称斯皮尔曼等级相关,通过两个变量的等级差计算出来的表示两个变量相关性质和相关程度的数字指标。公式:(D:两组数据的等级差;n:数据对的个数。)步骤:(1)排等级;(2)求D;(3)求;(4)说明;注意事项:排序时两组必须按同一方向进行(都是从大到小或是从小到大);有相同数值时,以它们的等级平均值作为它们各自的等级;判断原理:判断相关性质看符号,相关程度看数值(小于0.15很低;小于0.35较低;0.45-0.50中等;0.65以上较高;0.85以上很高;)例1:下面是8个被试在镜画的试验中,画一遍所需要的时间和错误次数如下表:被试一二三四五六七八时间(秒)14455578错误次数97754621(1)两组数据转化为等级。(2)利用公式求(3)根据说明时间和错误次数的相关性质和程度。解(1):按从大到小排等级,求D,求D2被试一二三四五六七八时间(秒)14455578R186.56.544421错误次数97754621R212.52.556478D744-1-20-5-7D24916161402549解(2)解(3)根据-0.90说明所需时间和错误次数呈很高的负相关,画一遍所需要的时间越短,错误次数就越多。例2:十个被试,视觉和听觉反应时间测试结果如下:被试一二三四五六七八九十视觉RP179180180190193198200203240250听觉RP150135130140140150140148150280(1)把两种反应时排等级(2)求等级相关(3)说明两种反应时的相关性质和相关程度解(1)将两种反应时从大到小排等级,求D,D2被试一二三四五六七八九十视觉RT179180180190193198200203240250R1108.58.57654321听觉RT150135130140140150140148150280R239107737531D7-0.5-1.50-12-3-2-10D2490.252.250149410解(2):解(3):根据0.57说明视觉反应时和听觉反应时存在中等程度的正相关,听觉反应快的人,其视觉反应也比较快。例3:12名学生在心理测验中的得分如下:学生号一二三四五六七八九十十一十二甲测验434249375136573156514946乙测验63146124112521111(1)将甲乙测验排成等级(2)计算等级相关系数(3)根据值说明甲乙两测验之间的相关性质和程度解(1)将甲乙测验进行等级排列,求出D,D2学生号一二三四五六七八九十十一十二甲测验434249375136573156514946R1895.5103.51111223.55.57乙测验63146124112521111R26.5936.511111482115D1.502.53.5-7.510-108-61.5-5.52D22.2506.2512.2556.2510010064362.2530.254解(2):解(3)根据-0.45说明甲乙两测验之间存在中等程度的负相关,甲测验得分高的,乙测验得分低。第七章 推论统计由部分去推论全部的推论过程就是推论统计的内容统计推论是根据概率和逻辑学的原理进行的用随机样本的统计量去推测总体参数的程序又称为参数检验(概念)研究对象的全部称为总体由总体计算出来的综合指标称为总体参数或总体特征值由样本计算出来的综合指标称为样本统计量总体中抽出的部分称为样本误差主要有两种:第一种是系统误差,系统误差是由于抽样不当而造成的,用含有系统误差的样本去推论总体,就会产生偏性估计导致推论错误。另一种是随机误差,也叫抽样误差,抽样误差是在实验时随机出现的,是不可控制的因素造成的。随机误差出现的规律是符合概率的原则的,如果样本中只含有随机误差,就可以用来推论总体。为了避免对总体的偏性估计,样本应该随机抽取,随机取样(概念)是指总体中的每一个个体,都有同等的机会被选中。自由度:符号df,是指在统计推论时,能够独立变化的数据的数目。公式表示为n-1。样本分布:从总体随机抽取许多n相等的样本,由这些样本各自的统计量分别可以构成各个统计量的次数分布,称为该统计的样本分布,最常用的是平均数的样本分布。大样本:样本容量n30的样本,为大样本,呈正态分布;小样本:样本容量n30的样本,为小样本,呈t分布;平均数的标准误:符号,平均数样本分布的标准差称为平均数的标准误,表示构成平均数样本分布的所有平均数的离散程度。公式:和平均数差异的样本分布:是指分别来自于两个总体的许多对随机样本平均数的差异形成 的样本分布。当样本容量大于30时,该分布呈现为正态分布,当样本容量小于30时,呈现t分布。平均数差异的标准误:符号,表示构成差异的样本分布的所有差值的离散程度。是由两个总体各自的平均数标准误合成的。.6826置信区间:.95置信区间:.99置信区间:区间估计最常用的是.95置信区间、.99置信区间。.95、.99称为置信度。通过随机样本平均数对总体平均数进行估计的方法有两种:点估计和区间估计。(1)点估计。点估计是由随机样本的统计值去估计总体参数值。估计的标准有无偏、有效、一致。在数理统计里有方法证明随机样本的平均数是总体平均数最好的点估计。点估计的不足是由于使用单一值的估计,因此不知估计的可靠性的大小。(2)区间估计:当总体平均数不知的情况下,可以由样本平均数去推总体平均数有多大可能落入的区间,同时也可能给出总体平均数有多大可能不在这个区间里,或者说推论一个总体平均数落入某一个区间出错的可能性有多大,这就是区间估计。当样本容量n30时,容易的变化对样本分布的影响较大,容易增加一个或减少一个,样本分布的分布形态都有变化,此时的样本分布符合t分布的概率分布。(英国统计学有W.S.Gosset,笔名Student首先发现这个现象,并以他的笔名命名,称为t分布)已知样本平均数,标准差、样本大小,去推论总体平均数例:为了解某个党校学生每天花在学习的时间有多少,通过随机抽查,了解到36名学生每天学习的平均时间是6.46小时,标准差为1.21小时。求(1)平均数标准误。(2)该校学生每天平均学习时间有95%的可能在什么范围?(3)该校学生每天平均学习时间有99%的可能在什么范围?解(1)解(2).95置信区间:;该校学生每天平均学习时间有95%的可能在6.07小时到6.85小时范围之间。解(3).99置信区间:;该校学生每天平均学习时间有99%的可能在5.94小时到6.98小时范围之间。第八章 统计假设与单总体的假设检验虚无假设:符号HO,从无差别开始假设,假设样本和总体的差异仅仅是抽样误差,是符合概率原则的随机误差。样本与总体不存在真正的差异,样本与总体的实质等于0,因此,虚无假设也叫做零假设或称为无差异假设。备择假设:符号HA,备择假设是从有差别开始假设。假设样本和总体的差异不仅仅有抽样误差,还包括样本与总体真正的差异,样本与总体的实质差异不等于零,备择假设也叫差异假设。推翻虚无假设,备择假设就成立,就说明样本与总体存在显著性差异,即总体与样本有真实的差异;接受虚无假设,就意味着备择假设不成立,就可以推论样本与总体不存在显著差异,样本与总体的差异仅仅是随机误差。显著水平(或P):是人为选择的推翻虚无假设的概率,在统计检验中用P来表示,常用的有.05和.01显著水平,如果.01P.05,该差异就在.05水平上显著,如果p.01,该差异就在.01水平上显著。第一类错误:是指当虚无假设不应被推翻时而被推翻了,即将随机误差当成了真正的差异。第二类错误:指当应该推翻虚无假设时而没有推翻,即将存在的真实差异当成了随机误差。第九章 平均数差异的显著性检验两个总体没有差异:当比较不同总体是否存在差异时,需要分别从不同总体中抽取样本,计算出各自的样本平均数,两个总体的样本平均数之间总会存在差别,这个差别里如果仅包含抽样误差,说明两个总体没有差异,是相同的总体或者是同一总体。两个总体存在差异:当比较不同总体是否存在差异时,需要分别从不同总体中抽取样本,计算出各自的样本平均数,两个总体的样本平均数之间总会存在差别,这个差别里如果不仅包含抽样误差,还包含来自自变量不同水平的影响,就说明两个总体存在差异,两个样本来自不同总体。被试间实验设计:每个被试只参加自变量一个水平的实验,两个实验条件各自独立,所得的数据是不相关的,所得的样本称为独立样本。被试内实验设计:每个被试参加自变量所有水平的实验,每个被试被多次测量,两个实验条件之间不独立,因此所得的数据是相关的。方差一致性检验:检验的目的是判定两个样本是否来自方差一致的总体。如果两个样本不是来自方差一致的总体,一个总体的数据比较分散,一个总体的数据相对集中,它们的总体平均数的代表性就不一致,分散的数据平均数代表性就小,集中的数据平均数代表性就大。是单侧还是用双侧是事先确定的双侧检验:当研究的问题仅仅是回答某一随机样本是否属于某一总体,或需要检验的两个总体谁强谁弱没有方向性,就会用到双侧检验。双侧检验的大样本查正态分布表,临界值.05水平为1.96;.01水平为2.58,小样本则根据不同的df查t表。单侧检验:如果研究的是某一样本平均数比总体平均数大还是小,这类研究的问题存在方向性,需要使用单侧检验。单侧检验的特点是带有方向性的,它的.05、.01的临界值比双侧检验的小,大样本查正态分布表临界值为:.05水平为1.65;.01水平2.33。小样本根据df查t表,单侧检验比双侧检验容易达到显著性差异。-平均数差异显著性检验复杂应用独立/相关大样本平均数差异显著性检验已知:、;S1、S2;样本30;没有r/知道r;公式:平均数标准误:;平均数差异的标准误:、;计算z值:;判断原理:求得z2.58,P.01,则平均数差异在.01水平上显著;求得1.96z2.58,.05P.01,则平均数差异在.05水平上显著;求得z.05,则平均数差异不显著。复1:相关大样本平均数差异显著性检验例题1:已知81人,分别采用汉字和图画两种作业方式,结果如下:汉字图画4.15.5S3.64.5r=0.8求(1)求、。(2)求(3)求z。(4)回答两种作业方式差异是否显著?解:提出虚无假设HO:(1)(2)(3)(4)因为z=4.67大于z.01/2=2.58,所以z2.58,P2.58,P2.58,P2.58,P.01,推翻虚无假设HO,备择假设HA成立,所以左右手打点实验成绩平均数差异在.01水平上显著。复3:独立小样本平均数差异显著性检验已知:、;S1、S2;样本30;没有r公式:平均数标准误:;平均数差异的标准误:;计算t值:;自由度公式:dfn1+n2-2;判断原理:求得t.01(查表的值),P.01,则平均数差异在.01水平上显著;求得.05t.01(查表的值),.05P.01,则平均数差异在.05水平上显著;求得t.05,则平均数差异不显著。例1:为了解年龄对记忆的影响,随机选了两组(n10)不同年龄的被试对记忆的测验,结果如下:青年组老年组9.67.0S2.12.9求(1)求、。(2)求(3)求t值和df。(4)查表,说明记忆能力是否有显著年龄差异解:提出虚无假设HO,(1)(2)(3)dfn1+n2-210+10-218(4)查表(见课本P279),t.05(18)2.101;t.01(18)2.878,因为t=2.17,t.05(18)2.101tt.01(18)2.878,所以.01Pt.01(32)?,所以P.01,说明足球运动员和篮球运动员手的反应速度的平均数差异在.05水平上显著。第十章 回归分析掌握变量的相互关系以后,从一种变量推测另一种变量时,就需要进行回归分析。当两种变量间存在着一定程度的相关时,一种变量有向另一种变量的平均数趋近的现象,这种现象就叫做回归。当二变量间相关程度越大,预测就越可靠,误差就越小。如果把两组平均数分别地求出它们的最优的拟合线,从X预测Y和从Y测验X的最佳值就会分别落在这两条线上,这两条线叫做回归线。最优拟合线叫回归线,这条直线的斜率叫做回归系数(b),这条直线的议程式叫做回归方程式,其通式为:,是预测值,有一定程度的误差,当X和Y的相关系数越大时,误差也就越小。在预测中回归方程式的适用范围一般仅局限于原来观测数据的变动范围,不能随便外推。10-5第十一章 二项实验和结果检验设p为选对的即成功的概率,0p1q为选错的即失败的概率,q1-p在n10时,二项分布和正态分布已很接近,所以当n较大时用正态分布表示二项分布的近似值是可取的。当对二项实验的结果进行检验时,在n10的条件下,只能用二项分布的公式来计算正确答案的概率;在n10的条件下,才可以用正态分布的方法来计算。10-6二项分布的平均数 MB=np 公式11.3二项分布的标准差 公式11.4 (X代表选对次数的下限) 公式11.5第十二章 卡方检验当实验的数据有二组或二组以上,而且都是不连续的变量(如个数、次数)时,要检验各组的差异是否显着就须用X2分布来进行计算。X2读作卡方,它是实际观察次数与假设次数偏离程度的指标。X2越大,偏离程度越大。X2检验是通过X2分布来计算随机误差的机遇的,X2分布实际上也是随机抽选很多样本,从每个样本计算出一个X2值,X2分布就是这许多样本的X2值的分布。对于t分布来说,自由度和样本的大小有关;而对于X2分布来说,自由度和观察的类别有关。在用X2检验时,还要注意到一点,那就是当任何假设的次数小于5时,就不宜用X2检验(F5,不用X2检验)当df=1时,需要对计算的X2值进行较正,再计算X2值。10-7 公式12.1。f:实得的次数 F:假设平均数第十三章 单因素设计方差分析自变量也称为因素,在实验中只安排一个自变量的实验叫做单因素实验。统计中用符号表示实验设计时,常用大写英文字母表示因素,如因素A,因素B等;用S表示被试,AS表示单因素被试间设计;SA表示单因素被试内设计,ABS表示表示多因素被试间设计;SAB表示多因素被试内设计,ASB表示混合设计。进行两个总体平均数是否有差异的显著性检验,通常用t检验或z检验,小样本用t检验,大样本用z检验,如果实验包含3个或3个以上的总体平均数是否有差异的显著性检验,就用F检验,也叫方差分析,如果比较的是3个不连续的变量要用X2检验(卡方检验)当两个总体没有差异,而统计推论的结论说有差异,就犯了I类错误;当两个总体存在差异,而统计推论的结论说没有差异,就犯了II类错误。方差有时也称为变异数,是表示一组数据离散程度的统计量。方差的总体参数用符号2表示;方差的样本统计量用符号S2表示。在方差分析中,方差用符号MS表示,叫均方。总变异用MST表示组间变异符号MSB,称为组间均方,它由三部分构成:处理效应、被试的个体差异和实验误差。被试的个体差异和实验误差属于随机误差。处理效应是由自变量引起的因变量的变化,表现为实验中因素的不同水平所带来的变异,所以处理效应是系统变异。组内变异MSE,称为组内均方,它是由随机误差引起的因变量的变化,由于在每一个组中都会出现这种变异,因此称为组内变异。组内变异由两种误差构成:被试的个体差异和实验误差。总变异组间变异+组内变异(MSTMSB+MSE)F检验(方差分析)的公式:,F检验(方差分析):利用组间变异和组内变异的比值来检验平均数差异的统计方法叫F检验。公式。(假如F1,差异不显著)在方差分析之后还要对实验中的各个总体再进行两两比较,这种比较叫事后检验。和方(SS):离均差平方和在方差分析里称为和方。-10-8 单因素方差分析简单应用单因素被试间F检验的公式变异来源SSdfMSF组间ASSAk-1SSA / dfAMSA/MSE组内S(A)SSE(n-1)kSSE / dfE总计SSTN-1判断:如果F.01水平(查表的值),P.01。则平均数差异在.01水平显著如果.05F.01(查表的值),.01 P.05则平均数差异在.05水平显著如果F.05,则平均数差异不显著例:健康5人,生病5人,测反应时间如下表:健康者12233患者33455求:(1)健康者和患者的平均反应时间。(2)填方差分析表。(3)查表,回答健康者和患者平均反应时间是否显著。解:(1)秒秒(2)完成下列A2S5(意思是2组,每组5人)方差分析表。变异来源 SSdfMSFPA8.118.1 9.5 .01 P .05S(A)6.880.85第一列8.1:第二列8:根据公式列表中:(n-1)k(5-1)28(3)查表得F.01(1,8)11.26,F.05(1,8)5.32,因为F.05(1,8)5.32 F9.5 F.01(1,8)11.26,所以 .01 P .05,说明健康者和患者平均反应时间在.05水平上差异显著。-第十四章 多因素设计方差分析多因素设计:是指采用两个或两个以上的自变量,且每个自变量都有多个水平的实验设计。多因素设计和单因素设计的区别:多因素设计会多几个F检验;多因素设计存在交互作用。主效应:是指单一因素的不同水平对因变量的作用。检验单一因素各个水平的总体平均数有无显著性差异,称为检验各因素的主效应。交互作用:双因素实验设计中,当一个自变量的几个水平引起因变量的变化在另一自变量各水平上的变化趋势不一致时,就称这两个自变量存在着交互作用,或者说二因
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 中学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!