心理学统计总结

上传人:无*** 文档编号:164420254 上传时间:2022-10-24 格式:DOC 页数:18 大小:93KB
返回 下载 相关 举报
心理学统计总结_第1页
第1页 / 共18页
心理学统计总结_第2页
第2页 / 共18页
心理学统计总结_第3页
第3页 / 共18页
点击查看更多>>
资源描述
心理与教育学统计第一章 绪论一 统计方法在心理和教育科学研究中的研究1.心理与教育统计的定义与性质(1)定义:是专门研究如何运用统计学原理和方法,搜集、整理、分析心理与教育科学研究中获得的随机性数据资料,并根据这些数据资料传递的信息,进行科学推论找出心理与教育活动规律的一门学科。(2)数理统计学:分析这种随机变量的规律性,它的理论基础是专门研究随机现象的科学概率论,侧重于基本原理与方法的科学证明。 心理与教育统计:侧重于数理统计方法如何在心理和教育科学研究中的应用,是心理与教育科学研究中最广泛应用的,也是最基本的一种定量化工具。2.数据特点:多以数字形式呈现、随机性、规律性、研究目的是通过部分数据来推测总体特征。二 心理与教育统计学的内容1.描述统计:主要研究如何整理心理与教育科学实验或调查得来的大量数据,描述一组数据的全貌,表达一件事物的性质。 具体内容:数据如何分组(统计图表)、计算一组数据的特征值(集中量数、差异量数)、表示一事物两种或两种以上属性间相关关系的描述。2.推论统计:研究如何透过局部数据所提供的信息,推论总体的情形。 推论统计的原理和理论包括:抽样理论、估计理论、统计检验理论。3.实验设计三 心理与教育统计学基础概念1.数据类型:(测量方法和来源):计数数据和计量数据(测量水平)称名数据、顺序数据、等距数据、等比数据。(连续性)离散数据:任何两个数据点之间所取得数值的个数是有限的。 连续数据:任何两个数据点之间都可以细分出无限多个大小不同的数值。进一步细分,取决于:测量技术所允许的精确程度、测量所需要的精确程度。2.变量、观测值、随机变量变量:在心理与教育实验、观察、调查中想要获得的数据,即为一个可以取不同数值的物体的属性或事件,其数值具有不确定性。观测值:一旦确定了某个值,就称这个值为某一变量的观测值,也就是具体数据。随机变量:在统计上,把取值之前不能预料到取什么值的变量,就称为随机变量。2.总体、样本3.次数、比率、频率、概率次数:指某一事件在某一类别中出现的数目,又称为频数。(f)4.参数、统计量。第二章 统计图表一 数据的初步整理(排序和统计分组)1.统计图和统计表就是对数据进行初步整理,以简化的形式加以表现的两种最简单的方式。2.在对数据进行统计分类以后,得到的各种数据结果成为统计指标。把统计指标和被说明的事物之间的关系用表格的形式表示就成为统计表。统计图是一句数据资料,应用点线面体色等描绘而成。二 次数分布表1.(所显示的次数如何产生)简单次数分布表、分组次数分布表、相对次数分布表、累加次数分布表。2.分组次数分布表的步骤:(1)求全距:指最大数与最小数两个数值之间的距离。(2)决定组距与组数:K=1.87(N1)25 ,i=全距K(3)列出分组区间:即一个组的起点值和终点值之间的距离,又称组限。表述组限和精确组限。注:在列出的分组区间内,最高区组应包含最大的数据,最低组应包含最小的数据;最高组或最低组的下限正好是组距i的整数倍。(4)登记次数。(5)计算次数。3.分组次数分布表的栏目:第一列:分组区间。第二列:各分组区间的组中值。第三列:次数。4.归组效应:由于用分组数据编制次数分布表时,假设各区组的数据均匀分布,并用各组的组中值代表原始数据,而不管数据原来的情况所造成的误差。三 次数分布图1.直方图(等距直方图):是以矩形的面积表示连续性随机变量次数分布的图形。2.次数多边形图:一种表示连续性随机变量次数分布的线性图,以每个分组区间的组中值为横坐标,以各组的次数为纵坐标标点,连接各点,就成为一条折线。3.累加次数分布图:累加直方图和累加曲线图。累加曲线图又称递加线,它的画法同次数多边形基本相同,不同是横坐标为每分组区间的精确上限或精确下限,纵坐标是各分组的累加次数。正偏态(上枝长于下枝):说明大数端各组次数偏少,且组数较多,各组的次数变化小。负偏态(下枝长于上枝):说明小数端各组次数偏少,且组数较多,各组的次数变化小。正态:相同。四 其它类型统计图表1.其他常用的统计表:(1)简单表:只列出名称、地点时序或统计指标名称的统计表。(2)分组表:只有一个分类标志的统计表,也称单向表。(3)复合表:统计分类的标志有两个或两个以上的因素。2.其他常用的统计图:(1)条形图(直条图):主要用于表示离散型数据资料,即计数资料。它以条形的长短表示各事物数量的大小与数量间的差异情况。(简单条形图、分组条形图、分段条形图)与直方图的差别:描述的数据类型不同。表示数据多少的方式不同。坐标轴上的标尺分点意义不同。图形直观形状不同,条形图之间有间隔。(2)圆形图:主要用于描述间断性资料,目的是为了显示各部分在整体中所占的比重大小,以及各部分之间的比较。(3)线性图:更多用于连续性资料,凡欲表示两个变量间的函数关系,或描述某种现象在时间上的发展趋势,或一种现象通过另一种现象变化的情形,用线性图表示是最好的方法。(4)散点图第三章 集中量数一 算术平均数(M)1.平均数的计算方法:(1)未分组: (2)分组:2.特点:(1)在一组数据,每个变量与平均数之差(离均差)的总和等于零。(2)在一组数据中,每一个数都加上常数C,则所得的平均数为原来的平均数加常数C。(3)在一组数据中,每一个数都乘以常数C,则所得的平均数为原来的平均数乘以常数C。3.意义:算术平均数是应用最普遍的一种集中量数,它是“真值”渐进、最佳的估计值。4.优缺点:(1)优点:反应灵敏。计算严密。计算简单。简明易懂。适合用进一步代数方法演算。较少受抽样变动的影响。(2)缺点:易受极端数据的影响。若出现模糊不清的数据时,无法计算平均数。(3)在书写平均数时,习惯上平均数保留的小数位数要比原来的测量数据多一位数字。5.计算和应用平均数原则:(1)同质性原则:所谓同质性数据是指使用同一个观测手段,采用相同的观测指标,能反映某一问题的同一方面特质的数据。(2)平均数与个体数值相结合的原则。(3)平均数与标准差、方差相结合的原则。二 中数(Md、Mdn)1.定义:又称中点数、中位数、中值。中数是按顺序排列在一起的数据中居于中间位置的数,即在这组数据中,有一半的数据比它大,有一半的数据比它小。2.计算;(1)未分组:无重复数据。有重复数据。(2)分组:3.优缺点:(1)优点:是根据观测数据计算来的,不是凭主观臆断,计算简单,容易理解,概念简单明白。(2)缺点:中数的计算不是每个数据都加入,其大小不受制于全体数据。反应不够灵敏,极端值的变化对中数不产生影响。中数受抽样影响较大,不如平均数稳定。计算时需要对数据先排列大小。中数乘以总数与数据的总和不相等。中数不能做进一步代数运算。4.一般情况下,中数不被普遍应用,但在一些特殊情况下,它的应用应受到重视:(1)当一组观测结果中出现的两个极端数目时。(2)当次数分布的两极端数据或个别数据不清楚时,只能取中数作为集中趋势的代表值。(3)当需要快速估计一组数据的代表值,也常用中数。三 众数(Mo)1.定义:又称范数、密集数、通用数等。中数指次数分布中出现次数最多的那个数的值。2.计算:直接观察求中数。数据整理成次数分布表后,观察次数最多的那个分组区间的组中值为众数。公式:Mo=3Md-2M(皮尔逊经验法)3.优缺点:(1)优点:概念简单明了、容易理解。(2)缺点:不稳定,受分组影响,亦受样本变动影响。计算式不需要每一个数据都加入,较少受极端数值影响,反应不够灵敏。用观察法得到的众数,不经过严格计算而来;用公式计算得来的众数亦只是一个估计值。众数不能做进一步代数运算。4.运用:(1)当需要快速而粗略地寻求一组数据的代表值。(2)当一组数据出现不同质的情况时,可用众数表示典型情况。(3)当次数分布中有两极端数目时,除了一般用中数外,有时也用众数。(4)当粗略估计次数分布的形态时,有时用平均数与众数之差,作为表示次数分布是否偏态的指标。第四章 差异量数一 全距与百分位差1.全距(R):又称两极差。R=Xmax-Xmin ,最简单最易理解的差异量数。2.百分位差:(1)百分位数(百分位点):它是指量尺上的一个点,在此点一下,包括数据分布中全部数据个数的一定百分比。第P百分位数就是指其值为P的数据之下,包括分布中全部数据的百分之p,其符号为Pp。(2)利用百分位数的计算公式也可以计算出任意分数在整个分数分布中所处的百分位置,成为该分数的百分等级。百分等级是一种相对位置量数,它是百分位数的逆运算。PR=80,意味着比79%的人要好,比20%的人要差。3.四分位差(Q)四分位差也可视为百分位差的一种,只在一次次数分配中,中间50%的次数的距离的一半,P25到P75距离的二分之一。四分位差的计算基于两个百分位数,即P25和P75,这两个点值与中数一起把整个数据的次数等分为四部分,因此称它们为四分值,或四分位数。P25是第一四分位数,P50为第二四分位数,P75为第三四分位数。四分位差是第三四分位数与第一四分位数差的一半。二 平均数、方差与标准差1.平均差(A.D.或M.D.)离均差表示了一个观测值与平均数的距离大小,正负号说明了重量施与什么方向,离均差的总和为零,标志着完全平衡,有时称为偏差或离差。平均差的优缺点:优点:是根据分布中每一个观测值计算得到的,它较好地代表了数据分布的离散程度。 缺点:要对离均差取绝对值,不利于进一步做统计分析,低效差异量数。2.方差与标准差(1)方差,也称变异数、均方。(2)计算:未分组数据。分组数据。(3)总标准差的合成只有在应用同一种观测手段,测量的是同一种特质,只有样本不同时,才能应用上面的公式合成方差和标准差。(4)性质与意义:性质:方差是对一组数据中各种变异的总和的测量,具有可加性和可分解性特点,统计实践中利用方差的可加性去分解和确定属于不同来源的变异性(组内、组间等),并进一步说明各种变异对总结果的影响。标准差是一组数据方差的平方根,特性:每一个观测值都加一个相同常数C,计算得到的标准差等于原标准差。若乘以C,则等于原标准差乘以C。意义:方差与标准差是表示一组数据离散程度的最好指标,它们是统计描述和统计推断分析中最常用的差异量数。在描述统计统计中,只需要标准差就足以说明一组数据的离中趋势。优点:具备一个良好的差异量数应具备的条件:反应灵敏、计算严密、容易计算、适合代数运算、受抽样变动影响小、简单明了。注:切比雪夫定理指出,随机变量落在平均值附近的概率与标准差有一定的数量关系,对于任何一个数据集合,至少有(1-1h2)的数据落在平均数的h个标准差之内。 如果数据成正态,则数据将以更大的百分数落在平均数两侧三 标准差的应用1.差异系数(1)绝对差异量:标准差的单位与原数据的单位相同。相对差异量:最常用的有差异系数,又称变异系数、相对标准差等。(CV)注:在下列情况中,不能直接比较标准差:两个或两个以上样本所使用的观测工具不同,所测的特质不同。两个或两个以上样本使用的是同一观测工具,所测的特质相同,单样本间的水平相差很大(从平均数大小明显不同确定)(2)差异系数:CV=sX100%应用于:同一团体不同观测值离散程度的比较。对于水平相差较大,但进行的是同一种观测的各种团体,进行观测值离散程度的比较。应用差异系数比较相对差异大小,一般应注意:测量的数据要保证具有等距尺度。观测工具应具备绝对零。差异系数只能用于一般的相对差异量的描述,至今尚无有效的假设检验方法,因此对差异系数不能做统计推论。2.标准分数:又称Z分数或基分数,是以标准差为单位表示一个原始分数在团体中所处位置的相对位置量数。0为平均数,1为标准差。(1)标准分数的性质:Z分数无实际单位,是以平均数为参照点,以标准差为单位的一个相对量。一组原始分数转换得到的Z分数可以是正值,也可以是负值,平均数为0。一组原始分数中,Z分数的标准差为1.若原始分数成正态分布,则转换的Z分数为均值为0,标准差为1的标准正态分布。(2)优点:可比性、可加性、明确性、稳定性。 缺点:计算繁杂、有负值和零、有小数。第五章 相关关系一 相关、相关系数与散点图1.相关系数:两列变量间相关程度的数字表现形式,或者说是用来表现相关关系强度的指标。相关系数取值的大小表示相关的强弱程度,绝对值靠近1.00端,一般为相关程度密切,接近0端,一般为关系不够密切。在判断相关是否密切时,要把样本量大小与相关系数取值大小综合起来考虑,一般要通过统计检验方法,来确定变量之间是否存在显著的相关。若是非线性相关关系,而且用直线相关计算r值可能非常小,但不能说两变量关系不密切。3.散点图:散点图通过点的散布形状和疏密程度来显示两个变量的相关趋势和相关程度,能够对原始数据的关系做出直观而有效的预测和解释。是确定变量之间是否存在相关关系以及关系紧密程度的简单而又直观的方法。二 积差相关(皮尔逊相关、积矩相关)1.是一种运用较为普遍的计算相关系数的方法,也是解释两个变量线性相关方向和程度最常用和最基本的方法。2.条件:成对测量数据,且不少于三是对。正态双变量。连续变量。线性关系。3.基本公式:4.相关系数的合并:Z-r转换法。注:必须保证各样本接近,研究的两事物相同,使用的测量工具也应相同。及要求各样本同质性,同质性检验是合并相关系数的前提。三 等级相关 搜集到的数据不是等距或等比的测量数据,而是具有等级顺序的测量数据。 等距或等比,但其分布不是正态分布,不能满足积差相关的要求。注:对总体变量的分布不作要求,故又称这种相关法为非参数的相关方法。1. 斯皮尔曼等级相关(rR、rS)(1)适用资料:两列属于等级变量性质的具有线性关系的资料。等距等比资料,不考虑正态。(2)公式及校正公式2.肯德尔等级相关(1)W系数(和谐系数)(评分者信度)适用资料:是表示多列等级变量相关程度的一种方法,适用于两列以上的等级变量。W是每一评价对象实际得到的等级总和的变异与被评价对象最大可能变化的等级总和的变异的比值。公式及校正公式(2)U系数(一致性系数)公式 U的取值:若完全一致则U=1.若对角线上下格子中出现的择优分数相同,则一致性最小,但其值不是零。K为奇数(U=1K)。K为偶数U=1(K1)一致性系数U的取值与其他相关系数的取值不同,可见,一致性系数U的取值“+”和“”并不表示相一致的方向,这点与一般的相关系数不同。四 质与量相关一列为等比或等距的测量数据,另一列为按性质划分的类别。二列变量:按事物的某一性质划分的只有两类结果的变量。(真正的二分变量、人为的二分变量)1.点二列相关适用资料:有一列为等距或等比测量数据,而且其分布为正态分布,另一列为二分称名变量。点二列相关法就是考察两列观测值,一个为连续变量(点数据),另一个为二分称名变量(二分数据)之间相关程度的统计方法。多用于评价由是非测验题目组成的测验的内部一致性问题。公式2.二列相关适用资料:两列数据都属于正态分布,其中一列为等距或等比的测量数据,另一列变量是人为划分的二分变量。公式五 品质相关用于表示RC(行列)表的两个变量之间的关联程度,在编制心理测验,进行项目分析时,它是常用的相关方法。品质相关处理的数据类型一般是计数数据而非测量数据。1.四分相关适用资料:适合于计算两个变量都是连续变量,且每一个变量的变化都被人为地分为两种类型这样的测量数据之间的相关。计算四分相关的资料会整理成四格表。四格表的二因素都是连续的正态分布。公式2. 相关(列联表系数)适用资料:两个相互关联的变量分布是真正的二分变量,在这两个分布中间各有一个真正的缺口公式相关系数的大小,表示两因素之间的关联程度。当小于0.3时,表示相关较弱,当大于0.6时,表示相关较强。关于其相关方向,一般由表中的ad、bc的大小来说明,负值表示一次测量中的是多于另一次测量中的非。完全正相关的,全体个案落于ad两格中;完全负相关的,落于bc格中;零相关时,全体个案均匀落在四格之中。但在应用相关时,一般不指出相关方向,只能说明相关程度非常显著。对于四格表(独立样本)相关程度的描述,除了使用相关外,有时还使用其他方法,例如尤尔的关联系数Q或归结系数r第六章 概率分布一 概率分布的基本概念1.概率:表示随机事件出现可能性大小的客观指标。2.先验概率 后验概率:在对随机事件进行n次观测时,其中某一事件出现的次数m与观测次数n的比值。当n趋向无穷大,它将稳定在一定的常数上,这一常数被称作概率。3.基本性质:(1)概率的公理系统:任何一个随机事件A的概率都是非负的。在一定条件下必然发生的必然事件的概率为1。在一定条件下必然不发生的事件,即不可能事件的概率为0.注:公理的逆定理不成立,即概率等于1的某个事件,并不能被断定为必然事件,只能说它出现的可能性非常大。(2)概率的加法定律(互不相容)(3)概率的乘法定律(相互独立)4.概率分布类型:离散分布和连续分布、经验分布和理论分布、基本随机变量分布和抽样分布。二 正态分布正态分布也称常态分布或常态分配,是连续性随机变量概率分布的一种,是在数理统计的理论和实际应用中占有最重要地位的一种理论分布(高斯分布)1.正态分布曲线函数2.正态分布的特征:(1)正态分布的形式是对称的(但对称不一定是正态的),它的对称轴经过平均数点的垂线,正态分布中平均数、中数、众数三者相等。(2)正态分布的中央点(平均数点)最高,然后逐渐向两侧下降,曲线的形式是先向内弯,然后向外弯,拐点位于正负一个标准差处,曲线两端想靠近基线处无限延伸,但终不能与基线相交。(3)正态曲线下的面积为1,正态曲线下的面积可视为概率,其值为每一横坐标的随机变量出现的概率。(4)正态分布昰一族分布,它随随机变量的平均数、标准差的大小与单位不同而有不同的分布形态,如果平均数相同,标准差大的正态分布曲线形式低阔,标准差小的正态分布曲线形式高狭。(5)正态分布中各差异量数间有固定比率。(6)在正态分布曲线下,标准差与概率有一定的数量关系。3.标准正态分布:所有的正态分布都可以通过Z分数公式非常容易得转换成标准正态分布。4.正态分布表的编制和使用(1)依据Z分数求概率(p)。(2)从概率求Z分数。(3)已知概率或Z值,求概率密度y5.次数分布是否正态的检验方法 对分布曲线是否为正态分布的拟合检验方法是卡方检验。除此之外,还有些简单的方法,如累加次数曲线法、偏态峰态数量描述法、直方图法、概率纸法等。(1)皮尔逊偏态量数法 皮尔逊发现,在偏态分布中平均数距中数较近而离众数较远,根据平均数与中数或众数的距离,提出一个偏态量数公式,用来描述分布形态。(2)峰度、偏度检验法(数量足够大)(3)累加次数曲线法6.正态分布理论在测验中的应用。(1)化等级评定为测量数据(2)确定测验的难易程度(3)在能力分组或等级评定时确定人数(4)测验分数的正态化三 二项分布(贝努里分布)1.二项试验与二项分布 (1)二项试验又称贝努里试验,条件:任何一次试验恰好有两个结果,成功与失败或A与非A。共有n次试验,并且n是预先给定的任一正整数。每次试验各自独立,各次试验之间无相互影响。某种结果出现的概率在任何一次试验中都是固定的。(2)二项分布是指试验仅有两种不同性质结果的概率分布,即各个变量都可归为两个不同性质中的一个,两个观测值是对立的,因而二项分布又可说是两个对立事件的概率分布。 二项分布的具体定义为:设有n次试验,各次试验是彼此独立的,每次试验某事件出现的概率都是p,某事件不出现的概率都是q(1p),则某事件出现X次的概率分布为b(x.n.p)2.性质二项分布是离散型分布,概率直方图是跃阶式,因为X为不连续变量,用概率条图表示更合适,用直方图表示只是为了形象。(1)当p=q时,图形是对称的。(2)当pq时,直方图呈偏态。当n很大,即使不相等,偏态逐渐降低,最终成正态分布,二项分布的极限分布是正态分布。当pp,np5,或pq,nq5时,二项分布就可以当做一个正态分布的近似形,二项分布可以用正态分布的概率作为近似值。(3)二项分布的平均数与标准差3.应用二项分布在心理与教育研究中,主要用于解决含有机遇性质的问题。所谓机遇问题,是指在实验或调查中,实验结果可能是由于猜测造成的。二项分布用来区分由猜测而造成的结果与真实的结果之间的界限。四 样本分布样本分布指样本统计量的分布,它是统计推论的重要依据,常用的样本分布有平均数及方差的分布。在谈及样本统计量的分布时,首先要保证各个样本是独立的,各个样本都服从同样的分布。(随机抽样)第七章 参数估计总体参数估计:当在研究中从样本获得一组数据后,通过这组信息,对总体特征进行估计。对参数模型下的估计,称为参数估计,非参数模型下的估计,称为非参数估计。一 点估计、区间估计和标准误1.点估计:用样本统计量来估计总体参数,因为样本估计量为数轴上某一点值,估计的结果也用一个点的数值来表示,所以称为点估计。良好点估计的标准:无偏性:即用多个样本的统计量作为总体参数的估计值,其偏差的平均数为零。有效性:当总体参数的无偏估计不止一个统计量时,无偏估计变异小者有效性高,变异大者有效性低,即方差越小越好。一致性:当样本容量无限增大时,估计值应能够越来越接近它所估计的总体参数,估计值越来越精确,逐渐趋近于真值。充分性:指一个容量n的样本统计量,是否充分反映了全部n个数据所反映总体的信息。2.区间估计:是根据样本分布理论,样本分布的标准误(SE),计算区间长度,解释总体参数落入某置信区间可能的概率。存在成功估计的概率大小及估计范围大小两个问题,在保证置信度的前提下,尽可能提高精确度。区间估计的原理是样本分布理论,在计算区间估计值,解释估计的正确概率时,依据的是该样本统计量的分布规律和样本统计量分布的标准误。 可提供概率解释 决定区间估计的长度二 总体平均数的估计1.步骤:(1)根据实得样本的数据,计算样本的平均数和标准差(2)计算标准误(3)确定置信水平或显著性水平(4)根据样本平均数的抽样分布,确定查何种统计表(5)计算置信区间(6)解释总体平均数的置信区间三 标准差与方差的区间估计第八章 假设检验1.假设检验:通过样本统计量得出的差异做出一般结论,判断总体参数之间是否存在差异。基本任务是事先对总体参数或总体分布形态做出一个假设,然后利用样本信息来判断原假设是否合理,从而决定是否接受原假设。2.参数检验:若进行参数检验对总体的分布形式已知,需要对总体的位置参数进行假设检验 非参数检验:若对总体分布形式所知甚少,需要对未知分布函数的形式及其他特征进行假设检验。一 假设检验的原理1.H1(研究假设、备择假设):根据已有的理论和经验事先对研究结果做出一种预期的希望证实的假设。 H0(虚无假设、无差假设、零假设、原假设)2.假设检验的基本思想是:概率性质的反证法。小概率事件原理:小概率事件在一次试验中几乎是不可能发生的。3.两类错误型错误:拒绝H0时所犯的错误,假设真实而被拒绝,概率为,故称错误。型错误:接受H0时所犯的错误,假设错误而被接受,概率为,故称错误。注:一般总是控制犯型错误的概率,使H0成立时犯型错误的概率不超过。在这种原则下的统计检验问题称为显著性检验。4.差异检验:经过检验,如果所得差异超过了统计学所规定的某一误差限度,则表明这个差异已不属于抽样误差,而是总体上确有差异,这种情况叫做差异显著。5.两种错误的关系:(1)+不一定等于1:是拒绝H0是所犯错误的概率,是接受H0时所犯错误的概率。(2)在其他条件不变的情况下,与不可能同时减少或增大(在规定的同时,增大n)(3)统计检验力(1),即说有差异的把握。6.单侧检验:强调某一方向的检验(大于、优于、快于、小于) 双侧检验:只强调差异不强调方向的检验。注:用单侧检验的问题,若使用双侧检验:可能使结论由“显著”变成“不显著”。增大错误。用双侧检验的问题,若使用单侧检验:虽减少了错误,但使无方向的问题人为成为单方向问题。7.步骤:(1)根据问题要求,提出虚无假设和备择假设。(2)选择适当的检验统计量(3)规定显著性水平(4)计算统计检验量的值(5)作出决策8.差异问题:样本统计量与相应总体参数的差异、两个样本统计量之间的差异。二 平均数的显著性检验指对样本平均数和总体平均数之间差异进行的显著性检验。1.总体正态分布,总体方差已知2.总体正态分布,总体方差未知3.总体非正态分布三 平均数差异的显著性检验两个样本平均数之间的差异,目的在于由样本平均数之间的差异来检验各自代表的两个总体之间的差异。1.总体正态分布,总体方差已知:独立样本。相关样本。2.总体正态分布,总体方差未知:独立样本(方差一致,不一致:齐性、不齐性)。相关样本(相关系数已知、未知)3.非正态分布:独立样本和相关样本四 方差的差异检验、1.样本方差与总体方差的差异检验2.两个样本方差之间的差异显著性检验:独立样本。相关样本。五 相关系数的显著性检验1.积差相关系数的显著性检验(样本和总体):=0.02.相关系数差异的显著性检验(样本和样本):独立样本。相关样本。第九章 方差分析方差分析又称作变异分析,为了探讨一个因变量和一个或多个自变量之间的关系,其功能在于分析实验数据中不同来源的差异对总变异的贡献的大小,从而确定实验中自变量是否对因变量有重要影响。一 方差分析的基本原理及步骤1.方差分析的基本原理:综合的F检验(1)综合的虚无假设与部分虚无假设 样本所归属的所有总体的平均数都相等 检验综合的虚无假设是方差分析的主要任务,如果综合的虚无假设被拒绝,紧接着要确定究竟哪两个组之间的平均数之间存在显著性差异时,需要运用事后检验来确定。(2)方差的可解性方差分析的基本原理就是方差(或变异)的可加性原则(可解性)SS表示平方和。SST为总平方和,表示实验中产生的总变异。SSB为组间平方和,表示由不同的实验处理而造成的变异。SSW为组内平方和,表示由实验误差(包括个体差异)所造成的变异。这样,总变异就被分解为组间变异和组内变异两部分,总变异的计算是把所有的数值作为一个整体考虑时所得的结果,是用所有被试的因变量的值得到的,它不区分各个数值究竟来自于哪一种实验条件。2.方差分析的基本过程和步骤:(1)求平方和(用平方和定义公式、原始数据、样本统计量计算)(2)计算自由度(3)计算均方(4)计算F值(5)求F值表进行F检验并作出决断(单侧检验)(6)陈列方差分析表方差分析表组成要素要一致,主要包括变异来源、平方和、自由度、均方、F值和p值。3.方差分析的基本假定运用F检验进行的方差分析是一种对所有组间平均数差异进行的整体检验。(1)总体正态分布。(2)变异的相互独立性。(3)各实验处理内的方差要一致。4.方差分析中的方差齐性检验 方差齐性检验常用哈特莱最大F比率法。若AB两组自由度不同,则可以使用其中较大的一个座位查表时所用的自由度。5.与方差分析有关的实验设计问题(1)组间设计(完全随机设计、独立组设计、被试间设计)(2)组内设计:每个被试都要接受所有自变量水平的实验处理(重复测量设计)当用被试样本组代替单个被试时(随机区组设计)。即每个被试组都要接受所有实验处理,但组中的每个被试只随机得接受一种实验处理。(3)混合设计:一般涉及两个以上的自变量,其中每个自变量的实验设计各不相同。二 完全随机设计的方差分析(单因素组间设计)三 随机区组设计的方差分析1.随机区组设计根据被试特点将被试划分为几个区组,再根据实验变量的水平数在每一个区组内划分为若干个小区,同一区组随机接受不同的处理。对于每一区组而言,它应接受全部实验处理,对于每种实验处理而言,它在不同区组中重复的次数应该相同。注:区组效应的检验:无论区组效应显著还是不显著,对实验目的而言,并没有什么重要的意义,即区组变异与组间变异是彼此独立的,当区组效应显著时,说该实验采用随机区组设计是成功的、必要的(相对完全随机设计),若区组效应不显著,说明主试划分区组不成功或者所采用的被试本来就基本同质,没必要再划分区组。四 事后检验如果F检验的结果表明差异不显著,说明实验中的自变量对因变量没有显著影响。如果F检验的结果表明差异显著,则表明几个实验处理组的两两比较中至少有一对平均数的差异达到了显著水平。事后检验:虚无假设被拒绝的结果一旦出现,就必须对实验处理组的多对平均数进一步分析,做深入比较,判断究竟是哪一对或哪几对的差异显著,确定两变量关系的本质。当需要对3对以上平均数的差异进行比较时,单纯地使用多次t检验的方法,是不可靠的。在这种情况下,需要应用多重比较的方法进行检验。第十章 卡方检验一 卡方检验的原理1.(1)基本概念:又称属性统计方法,因为这一次数据是按照事物属性进行多项分类的。 又称卡方检验,因为对这些计数数据统计分析的依据是卡方分布。 又称列联表分析或交叉表分析,因为在初步整理计数数据时,除了使用次数分布表呈现数据之外,大都用列联表或交叉表的单元格形式表示。 又称百分比检验,因为列联表的单元格里是次数或百分比。 是非参数检验的一种方法,因为对计数数据总体不做任何假设。(2)卡方检验方法能处理一个因素两项或多项分类的实际观察频数与理论频数分布是否相一致的问题,或说有无显著差异问题。实际频数:简称实计数或实际数,是指在实验或调查中得到的计数资料,又称观察频数。理论频数:根据概率原理、某种理论、某种理论次数分布或经验次数分布计算出来的次数,又称期望次数。2.卡方检验的假设(1)分类相互排斥、互不包容。(2)观测值相互独立:当同一被试被划分到一个以上的类别中时,常常会违反这个规定。在实验中,让观测值的总数等于实验中不同被试的总数,要求每个被试只有一个观测值,这是确保观测值相互独立最为安全的做法。(3)期望次数的大小:当单元格中的次数过少时,处理的方法有四种:合并单元格、增加样本数、去除样本、使用校正公式。3.卡方检验的类别(1)配合度检验:用来检验一个因素多项分类的实际观察数与某理论次数是否接近(误差假说检验),当对连续数据的正态性进行检验时,又称正态吻合性检验。(2)独立性检验:用来检验两个或连两个以上因素各项分类之间是否有关联或是否具有独立性的问题。探讨三个变量之间的关系时,就必须使用多为列联表分析方法。4.基本公式5.期望次数的计算6.小期望次数的连续校正在运用卡方检验时,有一个特殊的要求,各单元格的理论次数不得小于5,小于5时可能违反统计基本假设,导致统计检验高估的情形出现。二 配合度检验主要用于检验单一变量的实际观察次数分布与某理论次数是否有差异,由于它检验的内容仅涉及一个因素多项分类的计数资料,故可以说是一种单因素检验。1.配合度检验的一般问题(1)统计假设:研究假设:实际观察数与某理论次数之间差异显著。虚无假设:实际观察数与某理论次数之间无差异或相等。(2)自由度的确定:配合度检验的自由度一般为分类的项数减1。计数数据分布的配合度检验,如正态分布拟合检验,要用到三个统计量,总数、平均数、标准差,这种情况下自由度为分类组目减(3)理论次数的计算2.配合度检验的应用(1)检验无差假说指各项分类的期望数之间没有差异,也就是假设各项分类之间的机会相等或概率相等。因此理论次数完全按概率相等的条件计算。(2)检验假设分布的概率假设某因素各项分类的次数分布为正态,检验实计数与理论上期望的结果之间是否有差异,具体方法是先按正态分布理论计算各项分类应用的概率再乘以总数,便得到各项分类的理论次数如果不是事先假定所观察的资料为正态分布而是其他分布,如二项分布、泊松分布等,其概率应按各所假定的分布计算。事先假定的不是理论分布而是经验分布,亦可按此经验分布计算概率,再乘以总数得到理论次数。(3)连续变量分布的吻合性检验(4)比率或百分数的配合度检验最后将计算的结果卡方乘以N/100后再查卡方表。(5)二项分布的配合度检验与比率显著性检验的一致性三 独立性检验独立性检验主要用于两个或两个以上因素多项分类的计数资料分析,也就是研究两类变量之间的关联性和依存性问题。其目的在于检验从样本得到的两个变量的观测值,是否具有特殊的关联,如果两个变量是独立的无关联的(卡方值不显著),就意味着对其中一个自变量来说,另一个自变量的多项分类次数上的变化是在取样误差的范围之内的。假设两个因素是非独立的(卡方值显著),则称这两变量之间存在关联或交互作用。1.独立性检验的一般问题及步骤(1)统计假设:研究假设:二因素(或多因素)之间有关联或者说差异显著。虚无假设:二因素(或多因素)之间是独立的或无关联的。(2)理论次数的计算(3)自由度的确定(4)统计方法的选择(独立或相关、大样本或小样本)(5)结果解释2.四格表独立性检验(最简单的列联表)独立样本、相关样本、小样本校正第十一章 非参数检验1.参数检验的特点:在给定或假定总体的分布形式基础上,对总体的未知参数进行估计或者检验。需要满足某些总体参数的假定条件。2. 非参数统计检验的模型对抽出研究样本的总体不规定条件,大多数非参数检验都包含一定的假设,其观测是独立的,所研究的变量具有基础的连续性,不过这些假设比起参数检验的假设来说要少得多。而且,非参数检验并不要求和参数检验所要求的那么高的测量,大多数非参数检验用于顺序量表的数据,也有一些用于称名量表的数据。如果参数统计模型的所有假设在数据中事实上都能满足,而且测量达到所要求的水平,那么非参数检验就浪费了数据。还没有一种非参数统计方法能来检验方差分析模型中的交互作用。一 非参数检验的概念与特点1.特点:(1)一般不需要严格的前提假设。(2)非参数检验特别适合于顺序资料(等级变量)(3)适合于小样本且方法简单(4)最大的不足是未能充分利用资料的全部信息(5)非参数检验目前还不能处理交互作用二 两个独立样本的非参数检验方法1.秩和检验法(维尔克松两样本检验法、惠特曼尼-维尔克松秩和检验、惠特曼尼U检验)(1)秩统计量:分布无关性、不变性(2)适用资料:秩和检验法与参数检验中独立样本的t检验相对。(3)计算:两个样本容量均小于10时 两个样本容量均大于10时2.中数检验法(1)与秩和检验法的使用条件基本相同,而且在非参数检验法中的地位也同秩和法相当,对应着参数检验中两独立样本平均数之差的t检验。虚无假设是两个独立样本是从具有相同中数的总体中抽取的,他也可以是双侧检验或单侧检验。双侧检验的结果若有统计学意义,意味着两个总体中数有差异(并没有方向),单侧检验结果若有统计学意义,则表明对立假设“一个总体中数大于另一个总体中数”成立。(2)计算:三 配对样本的非参数检验方法1.符合检验法(1)适用资料:符号检验是以正负符号作为资料的一种非参数检验程序,适合于检验两个配对样本分布的差异,与参数检验中配对样本差异显著性t检验相对应。符号检验法也是将中数作为集中趋势的量度,虚无假设配对资料差值来自中位数为零的总体,具体而言,它是将两样本每对数据之差用正负号表示,若两样本无显著性差异,则正差值与负差值应大致更占一半。(2)计算2.符号等级检验法(1)适用资料:维尔克松符号等级检验法是由维尔克松提出的,又称符号秩和检验法,有时也简称为维尔克松检验法,其使用条件与符号检验法,也适合于配对比较,但它的精度比符号检验法高,因为它不仅考虑差值的符号还考虑差值的大小。(2)计算四 等级方差分析1.克瓦氏单向方差分析(1)适用资料:克瓦氏单向方差分析是一个非参数方差分析方法,也称克瓦氏H检验,作为非参数检验方法,它与参数方法中的完全随机资料方差分析相对应。(2)计算2.弗里德曼两因素等级方差分析(1)适用资料:弗里德曼双向方差分析可解决随机区组实验设计的非参数检验问题,它先把每一个个体的K个观测值的大小赋予相应等级,这些等级为基础,计算卡方值作为检验统计值,这种检验适合于配对组设计的多个样本进行比较。(2)计算第十二章 线性回归一 线性回归模型的建立方法回归分析:通过大量的观测数据,可以发现变量之间存在的统计规律性,并用一定的数学模型表示出来,这种用一定模型来表述变量相关关系的方法称为回归分析。一次函数是变量之间存在的各种各样的关系模型中最简单的形式,对于这种线性关系的回归分析叫做线性回归,只有一个自变量的线性回归称作简单线性回归。1.回归分析与相关分析的关系相同:均为研究及度量两个或两个以上变量之间关系的方法。不同:回归分析是以数字方式表示变量间的关系,而相关分析则是检验或度量这些关系的密切程度。当旨在分析变量之间关系的密切程度时,一般使用相关系数,这个过程叫相关分析。倘若研究的目的是确定变量之间数量关系的可能形式,找出表达它们之间依存关系的合适的数学模型,并用这个数学模型来表示这种关系形式,则叫做回归分析。2.回归模型与回归系数 回归模型用来表达变量之间规律的数学模型3.回归模型的建立方法(1)建立步骤:根据数据资料做散点图,大致地判断两变量之间是否大致成一种直线关系。设直线方程式,如果估计值与实际值Y之间的误差比其他估计值与实际值之间的误差小,则这个表达式就是最优拟合直线模型,即表示X和Y之间线性关系的最佳模型。选定某种方法,如平均数法、最小二乘法等,使用实际数据资料,计算表达式中的a和b。 将a、b带入表达式,得到回归方程。(2)平均数法(3)最小二乘法:利用误差平方和最小原理求回归方程如果想得到比较精确的方程,则常用最小二乘法。最小二乘法即如果散点图中没一点沿Y轴方向到直线的距离的平方和最小,简单讲就是使误差的平方和最小,则在所有直线中这条直线的代表性就是最好的,它的表达式就是所要求的回归方程。计算:4.回归系数与相关系数的关系 由于标注差总是大于零,所有回归系数b的正负符号与相关系数相同,而且同样代表了相关的方向。5.线性回归的基本假设(1)线性关系假设:回归分析必须建立在变啦ing之间具有线性关系的假设成立上。(2)正态性假设:回归分析中的Y服从正态分布。(3)独立性假设:某一个X值对应的一组Y值和与另一个X值对应的一组Y值之间没有关系,彼此独立;指误差项独立,不同的X所产生的误差之间相互独立,无自相关关系。(4)误差等分散性假设:特定X水平的误差,除了应呈随机化的常态分布,其变异量也应相等。二 回归模型的检验和估计回归模型的有效性检验,就是对求得的回归方程进行显著性假设,看是否真实得反映了变量间的线性关系。回归方程显著性检验有很多方法,如回归系数b的检验、测定系数和相关系数的拟合程度的测定、回归方程整体检验判定,以及估计标准误差的计算等,均是检验回归模型的拟合优度方法。1.方差分析运用F检验,判断MSR是否显著大于MSE,如果显著大于,则表明总变异中回归的贡献显著,亦即X和Y的线性关系显著,或称回归方程显著,表明回归方程在整体上成立,进一步检验了变量X与Y之间是否存在线性关系。2.回归系数的显著性检验 对于回归系数b进行显著性检验后,如果b是显著的,同样也表明所建回归方程是显著的,或者X与Y之间存在显著的线性关系。3.测定系数 回归方程的方差分析或回归系数的显著性检验的目的是为了验证回归方程是否显著,即X与Y是否有显著线性关系。 测定系数关心的则是回归效果的问题(X与Y的线性关系的程度问题) 相关系数的平方等于回归平方和在总平方和中所占比例,如果r2=0.64,表明变量Y的变异中有64%是由变量X的变异引起的,或者说有64%可以由X的变异解释,所有r2叫做测定系数。 相关系数显著只是否定了=0,即表明两变量确实存在相关,然而相关系数显著不等于高相关。R=0.50时,r2=0.25,这时该测验两次施测结果的共同变异进展25%,这个测验稳定性太差了。三 回归方程的应用回归分析的目的,就是测定自变量X与因变量Y的关系为显著相关后,借助于拟合的最优回归模型来预测自变量为一定值因变量Y的发展变化。运用建立的回归模型进行估计和预测是它主要的应用。1.用样本回归方程进行预测和估计回归预测:点预测:将确定的自变量X值代入回归模型,得到相应的Y值。 区间预测:以一定的概率为保证,预测当自变量X取一定的值Y时,因变量Y的可能范围,在去预测中,要以估计标准误为基础。因为线性回归的基本假设之一是与每一个X值对应的Y值构成正态分布的子总体,且各个子总体方差相等。所以回归线上下各一个SYX的区间内包含所有数据的68%,上下两个2个SYX区间内包含全部数据数目的95.44%。2.真值的预测区间3.回归分析与相关分析的总和应用(1)将成对资料绘制散点图,从散点图中点子的分布形状判断X和Y是否有线性关系(2)建立回归模型(3)回归方程显著性检验,用显著性检验的结果,判断回归模型变量间的线性关系是否非常显著,测定系数说明Y的变异由X解释的比例,用于判断回归模型的拟合程度。(4)计算回归估计标准误差。(5)根据建立的回归模型进行预测,计算其真值预测区间。注意:(1)一种模型只有在当初抽取样本的同一范围内使用才有效。(2)回归分析不能准确地确定因果关系。(3)若变量之间不存在相关关系,不要刻意去寻求两变量间的某种关系。第十三章 多变量统计分析简介一 多因素方差分析1.基本概念运用多因素方差分析,不仅能检验出各个因素对因变量的影响,还可以检验出因素与因素相结合共同产生的影响,即交互作用。如果要直观地分析两个因素间是否存在交互作用,还可以将之制成交互作用图。用图来表示交互作用时,一个是比较折线位置的高低,一个是比较折线在不同折点上的变化,基本原则是观察折线之间的平行程度。在对类似甲乙两个因素设计实验数据的方差分析中,一般把A因素平均差数的差异称为A的主效应,B因素平均差数的差异称为B的主效应,AB交互作用下的平均数差异称为交互效应。这三种效应的显著性可以用F检验来判定,其中,A与B主效应相互独立,分别代表A与B变量与因变量的关系,可以视为两个独立的单因素方差分析,而两个变量的交互作用对因变量产生的影响,可以从两个方面来分析。(1)当在考虑A的不同水平条件下,检验B因素对于因变量的影响,须分别检验在a1和a2两种不同水平条件下B因素效应,称为B因素单纯主效应检验。2.多因素方差分析的统计原理(1)SST两因素完全随机设计、两因素随机区组设计。(2)F检验(3)事后比较:在单因素方差分析中,一旦整体效果达到显著水平,研究者必须继续进行平均数的个别差异比较。对二因素方差分析进行事后检验,其中主效应的检验与单因素方差分析相同,但交互作用的事后检验包括事后整体检验和事后多重比较两种状况。注:二因素方差分析主效应显著后,不一定要进行事后多重比较多因素交互作用显著后,对主效应必须进行事后比较交互作用的时候比较,包括限定条件的主效应整体比较,以及达到显著性水平后,该限定条件的主效应的时候多重比较两种。二 多重线性回归三 因子分析第十四章 抽样原理及方法一 抽样的意义和原则1.特点作用:节省人力及费用。节省时间,提高调查研究的时效性。保证研究结果的准确性。 档案,抽样研究的这些特点和作用是以样本的代表性为前提,如果样本代表性差,则以上抽样研究的特点和作用也就失去了其意义。2.抽样研究的基本原则:随机化。即指在进行抽样时,总体中每一个个体是否被抽取,并不由研究者主观决定,而是每一个体按照概率原理被抽取的可能性是相等的。(1)随机抽样可以保证样本代表总体(2)随机抽样对于抽样误差的范围可以预算或控制 意味着对研究结果的精确度能客观地评价,同时也能够按照所要求的精确度来决定样本应该具有多大容量。 以样本平均数估计总体平均数时,从总体中随机抽取一个样本,即使没有系统误差和过失误差,样本平均数也不一定等于总体平均数,两者之差叫做抽样误差。 对于任意一个样本平均数,尽管存在抽样误差,但是由于样本平均数基本上在临界值范围之内,因而抽样误差不超过这个范围的一半(以d表示),d即为最大允许抽样误差,简称最大允许误差。 如果d值大,表明X围绕u的离散程度大,以X估计u时精确度就小,所以d值是评价抽样结果精确度的一个指标。二 几种重要的随机抽样方法1.简单随机抽样(1)方法:它是最基本的抽样方法,使用范围广,最能体现随机化原则,原理简单,抽样时,总体中每个个体应有独立的等概率被抽取的可能。抽签法和随机数字表(2)标准误(3)评价:从理论上说,最符合随机原则的,而且分析抽样误差比较简明。忽略总体已有信息,降低了样本的代表性(分层随机抽样)。 大规模的抽样研究时,用抽签法是不可能的,而用随机数字表法一个一个抽,有太费时费力(等距抽样方法)2.等距抽样方法等距抽样也叫机械抽样或系统抽样,在实施时,将已编号的个体排成顺序,然后每隔若干个抽取一个。比简单随机抽样跟简便易行,而且它比较均匀地抽到总体中各个部分的个体,样本的代表性好。如果总体具有一种周期性变化,则等距抽样的代表性远不如简单随机抽样。3.分层随机抽样(1)方法:按照总体已有的某种特性,将总体分成几个不同的部分(每个部分叫一个层),再分别在每一部分中随机抽取。(2)总原则是各层内的变异要小,层与层之间的变异越大越好,分层随机抽样充分利用了总体已有
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!