第一部分-描述性统计课件

资源描述

第一章心理统计概论A基本概念什么是统计？统计与研究变量与常量测量量尺心理量尺与变量参数统计与非参数统计自变量和因变量总体和样本什么是统计统计是以数字形式来表达的观察结果我们班有几名同学，平均年龄是多少？统计是一个数学分支，是一些理解和概括数字集合的方法心理统计较少的涉及数学推导，属于应用统计，描述性统计是对数据进行总结，推断性统计是将结果推广到更大的群体。统计的第三层意思是统计量，即从样本而非总体中获得的数值。统计与研究心理科学研究必须要用统计吗？心理学的研究方法：观察、问卷、访谈、实验对于个案的观察与访谈往往不需要使用统计方法比如巴普洛夫的狗但其他研究统计似乎不可缺比如探讨高智商者是否会有好的学习成绩变量与常量在上个例子中，同学的智商是不同的，学习成绩也是不同，也就是说智商和成绩都是变化，因此称之为变量。有些量是不变化的，称之为常量，比如光速人的心理指标往往都是变量，比如你聪明他笨，你高他矮，大千世界人与人各不相同变量的各个水平是连续的称为连续变量，如身高、体重，不连续的称为离散变量，比如考试分数我们对心理变量进行描述，就需要对其进行测量测量量尺测量是对观测到的现象用一种一致的、可重复的方式进行赋值。常见的物理测量，身高、体重，都可以精确测量。但有些测量不需要用到数字同学们今天的心情，性别及身体状况等等称名量尺如果一个变量的各个水平可以被命名，但是不能被排序，那么这个变量是用称名量尺来测量的。又称为类别量尺，是质性测量水平，代表着不同性质的东西。一个称名量尺的各个类别可以被赋值，但是不能进行数学运算 1男 2 女顺序量尺如果一个量尺的各个水平可以排序，但各相邻水平之间的间隔又不一定相等时，这种量尺就是顺序量尺。某个人的相貌：很差、差、一般、好、很好当被试或项目沿着某一维度被排序时，各水平可以赋数字，但不能做数学运算。1很差，2差，3一般，4好，很好实际的研究中研究者经常会对类似手段（5点评分）的分数进行数学运算，此时他们把这些分数看做是等距数据了等距量尺如果一个变量个相邻水平之间的间隔是总是相等的，这是等距量尺的特征。那些具有相等间距但没有绝对零点的量尺被称为等距量尺。摄氏温度、电压、智商 20度是10度的2倍？我智商150是阿甘的两倍？双重弱智？等比量尺如果一个等距量尺同时也具有一个绝对零点，那么两个测量值之比是有意义的。同时具有等距和等比特征的量尺称为等比量尺。身高、体重、年收入量尺与变量不要混淆变量和用来测量变量的量尺。同一种变量可以用不同的量尺来测量温度：冷热（称名）、摄氏温度（等距）、开尔文（等比）参数统计和非参数统计我们把量尺分为这些类对我们有什么用？等距和等比量尺获得的数据可以用光滑的分布来表示，所用到的统计方法为参数统计，参数统计只适用于处理等距等比数据。如果所有数据都是基于称名或者顺序量尺，或者等距等比数据不满足参数统计的分布假设，这是就要用非参数统计。自变量与因变量实验法是心理学研究的一种重要方法。问题：课前预习是否有助于学习成绩的提高？实验：随机选两组人，一组课前预习，一组不预习，课后对其进行测验，给出分数预习与否是我们操控的变量，称为自变量；测验分数会受到预习与否的影响，称为因变量。自变量与因变量之间有因果关系。在这个例子中，因变量用等比量尺测量，自变量是用称名量尺来测量，那么其统计方法是用参数统计还是非参数统计呢？某人要研究失眠是否会引起焦虑，他选取了两组被试，一组为失眠者，另一组为睡眠正常者，测量其焦虑水平，并进行比较。这个研究中自变量是什么？因变量是什么？上例中我们确定是失眠引起焦虑还是焦虑引发失眠，因此并非实验研究，没有自变量和因变量。这样的研究应该采用相关法，及计算两个变量的相关性。总体和样本人们所关心的某一群体的集合称为总体。总体可以是一个人，一个家庭或一个城市。总体的子集被称为样本。调查华师学生的男女比例：华师所有的学生就是总体，要得到总体的特征，我们可以蹲在一个路口，数100个学生，记录其性别。这100个学生就是样本。通过计算100个学生的男女比例来推测总的比例。从样本中获得的、对样本特征进行总结的数值被称为统计量，而用来描述总体特征的数值被称为参数。练习哪种心理量尺类型适合于解决下列问题：1.回答正确的算数题目2.心率3.恐惧症类型4.通过自评问卷测量自尊下列哪些研究是实验研究，哪些是相关研究1.比较养宠物者与不养宠物者的同情心2.比较男性和女性在极品飞车游戏中的成绩3.比较被试在男性主试和女性主试的研究中1小时完成的任务情况B基本统计过程下标变量求和符号求和符号的特征四舍五入下表变量班内同学的年龄：张三20，李四21，王五23，。这样的表示方式非常繁琐，我们可以采用一种简单的表示方法，下表变量：Xi，其中i可以定义为学号，这样Xi就表示学号为i的同学的年龄。下标变量用于公式计算，简单明了。双下标变量1个班级学生的年龄可以用Xi 表示，那么10个班级学生的年龄呢？可以用Xki，k代表班级号，i代表学号，这样Xki表示的就是第k个班级的学号为i的同学的年龄。如X1,12求和符号计算1个班级内30名同学平均年龄，我们可以写成(X1+X2+X3+X4+.+X30)/30这样的表达比较繁琐，因此需要引入求和符号上边的表达式就变成了求和符号下方i=1表示从第一个开始叠加，上方的30表示叠加到第30个数据为止。问：求学号为5-21的同学的平均年龄怎样表达对于双下标变量Xki 表示第k个班级的学生的年龄总和，其中n随着不同班级同学数目的不同而变化所有同学年龄的总和表示为求和符号的特征四舍五入中国的四舍五入：见四舍，见五进 3.44413.44 3.44503.45 3.45503.46 3.45513.46美国的四舍五入：3.44413.44 3.44503.44 3.45503.46 3.45513.46 第二章频数表、图和分布A基本概念频数分布众数累积频数分布相对频数和累积相对频数分布累积百分比分布百分位数图实际分布和理论分布频数分布我们班22名同学的平时成绩：88,87,89,90,90,92,85,85,88,89,87,90,88,87,89,83,95,88,85,88,91,84如何描述？排序：95,92,91,90,90,90,89,89,89,88,88,88,88,88,87,87,87,85,85,85,84,83 简单频数分布简单频数分布：注意：即使某一特定数值没有出现也要列出，如93,94的频数为0众数众数：在一个分布中发生频率最高的那个分数，88；在某些分布中众数可能不止一个。X95 94 93 92 91 90 89 88 87 86 85 84 83f1001133530311累积频数分布累积频数分布：（1）该数值的频数与所有比其低的分数的总频数之和（多少学生分数没比我高）（2）该数值的频数与所有比其高的分数的总频数之和（不比我分低的学生有多少）X95 94 93 92 91 90 89 88 87 86 85 84 83f22 21 21 21 20 19 16 13 85521X95 94 93 92 91 90 89 88 87 86 85 84 83f111236914 17 17 20 21 22更多的情况下，我们不关心具体有多少人分数比我高，而在乎一个比例相对频数和累积相对频数，相对频数和累积相对频数，即频数和累积频数与总数之比累积百分比分布累积百分比分布，也就是把累积相对频数用百分数来表示百分位数百分位数，某一给定的百分位所对应的分数，常见的25%，50%，75%图频数分布表中的有关信息可以用图的形式图的形式表现出来更直观条状图条状图：离散变量直方图直方图：连续变量频数折线图频数折线图：注意最末端和最始端分别要通过一条直线连到X轴累积频数折线图累积频数折线图：单调变化实际分布和理论分布实际分布和理论分布：较少的测量次数和不精确的测量导致实际测得的分布不光滑B基本统计过程分组频数分布表观极限和真实极限建构组距选择组距宽度选择最低组距的极限绘制频数分布图的指导原则61-70,71-80,81-90,91-100其间距有表观极限来定义：71下极限，80上极限如果变量为连续的，那么表观极限就不是组距的真实极限。70.5为真实下极限，80.5为真实上极限。真实极限比表观极限低出或高出半个单位，组距由真实极限算出。建构组距的原则：一个数据不可能同时出现在两个组距中；两个组距之间没有间隔。表观极限80-84,85-89，真实极限79.5-84.5,84.5-89.5选择组距宽度：有外在标准：考试成绩61-70,71-80,81-90,91-100，可以分为ABCD等级；无外在标准：最好至少能有10个组距才能保证得到一个关于分布的详细描述；最好不要超过20个组距；如果可能尽量用5的倍数；间距最好是等距的。求与某一组距宽度对应的组数：求全距：最大数值的真实上限减去最小数值的真实下限；把全距与一个方便的组距宽度相除；如果全距小于20，可以使用简单频数分布；为了避免太多组的频数为0或者很小的情况，组的个数最好不要超过样本大小的平方根。选择最低组距的极限：一个指导原则是确保最低组距的下表观极限或上表观极限是组距的倍数。71-75,76-80，。70-74,75-79，。绘制频数分布图的指导原则：1、图的高度为宽度的三分之二；2、数值或测量值分布在X轴上，频数在Y轴上；3、数据单位在X轴和Y轴上均必须是等距的；4、X轴和Y轴的交点为0，且向上或向右数值增大；5、选择合适的测量单位和标尺；6、XY轴必须清楚地标定出来。4、5不能同时满足的情况：100个考试成绩均在90以上第三章集中趋势和变异的测量A基本概念集中趋势量算数平均数、众数、中数变异测量全距、半四分位距、平均离差、方差、标准差、样本方差、自由度偏态分布用一个点来描述一个群体分布，往往是寻找该分布的中心，也就是求分布的集中趋势。最常见的集中趋势量是算数平均数：测量值的总和除以总体个数或者样本数。除此之外，还有调和平均数（倒数的平均再取倒数）和几何平均数（连乘开方）。总体平均值，样本平均数众数：频率最高的数缺点：测量集中趋势时有时不稳定。众数为50和80，这使得众数对集中趋势的描述不够准确了。X102030405060708090f112065461优点：当处理等距/等比数据时，用众数来描述一个分布的集中趋势的最大优势就是能够区分出多峰或单峰分布；当处理称名数据时，其他集中趋势指标无法测量，众数就成了表示集中趋势的唯一指标。花园中花的颜色：红100，蓝10，黄15，粉20，紫25中数：第50百分位数若数值个数为奇数，中数则为排序数列的中间那个数字；如数值个数为偶数，中数则为排序数列中间两个数字的平均（等距/等比数列）。中数无法描述称名数据顺序量尺测量的数据，中间的数为两个时不能做平均；太多相同的数值会降低运用顺序量尺来测量数据的意义。当一个数列存在过大或过小值的时候，中数不受其影响，要好于平均数。已知一个频数折线图，众数：折线图的最高点对应的数值中数：向X轴做垂线，将折线图面积平分的点变异测量全距：最大数值减去最小数值缺点：极端值会使其不大可靠优点：变异的最简单测量方法，囊括整个分布解决全距受极端值影响的方法：半四分位距若分布的集中趋势用中数来测量，那么半四分位距是表示某个分数到中数的典型距离。在高级统计中，集中趋势往往用平均数来测量。变异可用某个分数到平均数的距离来测量，即离差分数。描述分布的变异，用平均离差分数：但是，平均离差分数等于0.因此用平均绝对离差来测量变异。平均绝对离差很有意义，且好理解，但是却无法很好的应用于很多高级统计方法之中。因此，我们采用一种与之很接近的测量指标方差。平均离差分数为0，我们可以对离差分数取绝对值再平均，同样我们也可以将离差分数平方在求平均。离差的平方和离差平方和的均数被称为总体方差，也被称为均方（MS）方差要比全距还要大，因为方差的计算是基于离差的平方。直接的修正就是对方差取平方根，即总体标准差（SD），它可以很好的描述一个分布的变异程度。有时也被称为离差的均方根。对于存在极端值的分布，可用平均离差或者半四分位距或者剔除极端值或者转换数据对于心理学研究，往往是通过样本来估计总体，测量的数据是样本数据，那么它的变异性可用样本方差来估计。用上面的公式来估算总体方差时，无限多样本方差的均数将小于总体方差，因此被称为有偏估计值。对上述公式进行修正，我们可以得到无偏样本方差。我们可以用不同的符号来区分有偏方差和无偏方差，S有偏s无偏，或者s有偏无偏。样本标准差样本方差有偏估计小于总体方差，所以我们将分母-1，那么N-1还有别的意义吗？对于样本量为N的数据，由于样本离差之和为0，所以只要知道其中N-1个离差，那么第N个也就知道了。也就是说，N个离差中自由变化的只有N-1个。自由度：自由变化的离差个数被称为自由度(df)。一般来说，当样本有N个分数时，df=N-1.自由度还可以理解成关于变异的独立信息数。如果一个分布是对称的且单峰的，那么算术平均数、众数、中数均为一个值；但是如果一个单峰的不对称分布其集中趋势量用什么呢？如果一群分数都集中在量尺的一端，而只有少量的分数在另一端，那么这个分布就是偏态分布。偏态分布中的众数与中数偏态分布中的均数与中数对于正偏态分布，可能存在这样一种形态，无论何时都是变量取值在低端是有极限的，但高端没有，或者一大群数值集中在接近下极限的地方而不是上极限。这种单边极限的类型，称为地板效应。训练之后的反应时，十分困难的测验，正常群体的精神疾病分数对于负偏态分布，当其分数只靠近上极限而不是下极限时，就产生了天花板效应。非常简单的测验偏态分布的变异可用半四分位距来测量，因为其不受极端值影响。练习：选择一个最合适描述以下假设的数据集中趋势量（均数、中数、众数）（1）赴美国游客的宗教偏好（2）班级同学的身高（3）被试解决谜语的时间（有些人没有解答出来）计算以下分数的平均数、SS和方差：11,17,14,10,13,8,7,14B基本统计过程平均数计算公式方差和标准差计算公式均值特性标准差特性B基本统计过程平均数计算公式总体均数样本平均数问题：实验为在限定30s内解决谜题，共有30个谜题，20个被试参加实验，解题正确率为Ai，平均反应时为ti，问正确解题的平均时间是多少？平方和是计算方差和标准差的基础但是这样的公式计算起来比较麻烦，而且再求平均值的时候会出现更多位数的小数，会带来更大的误差。因此，将平方和公式改写那么方差标准差从样本估计总体，样本方差无偏估计样本标准差无偏估计练习：计算数集11,17,14,10,13,8,7,14的标准差计算器可用来直接计算标准差在高级统计中，分布的集中趋势和变异常用均数和标准差来测量比如，实验结果的描述，平均反应时为45632ms均数和标准差的一些数学特性有利于高级统计中的数学推导。均数特性如果一个分布中的每个分数都加上（减去）一个常数，那么这个分布的均数也会增加（减少）那个常数；如果每个分数都乘上（除以）一个常数，那么均数也要乘上（除以）那个常数；与均数的离差之和都是等于0；平均离差的平方和小于分数与分布中任意其他点的离差的平方和。中数最小化离差绝对值之和，而均数最小化离差平方和。标准差特性如果一个分布中的每个分数都加上（减去）一个常数，那么标准差不变；如果每个分数都乘上（除以）一个常数，那么标准差也要乘上（除以）那个常数；从均数计算的标准差比分布中根据任何其他点计算的标准差都小。第四章标准分和正态分布A基本概念Z分数Z分数特性正态分布均数的抽样分布均数的标准误问题：我们班的同学中，有一个同学A的高考成绩是650分，另一个同学B高考成绩也是650分，但是进了大学之后，同学们发现B的学习成绩要远比A好，为什么？原因可能是：A和B来自不同的省份，高考用的是不同的试卷，同样的650分代表的却是不同的排名。如果假设两个省份的高考平均分都是500分，那么两个省份的分数是怎么样的分布状态才能造成上述的情况呢？分布的不同变异是造成上述问题的原因，也就是两个分布具有不同的标准差。那么我们可以看他们在各自群体的排名来对他们的水平进行比较。对于对称分布，平均数可用以测量其一般水平，标准差可以用来作为评估一个分数与平均数之间差距的基本标尺。比如，比平均分大1个标准差。我们可以用z分数来计算某个分数在总体中排序的大概位置假设A省分数标准差为200，B省标准差为100，我们可以计算出 Z(A)=(650-500)/200=+0.75 Z(B)=(650-500)/100=+1.5如果A的高中同学C考了400分，那么 Z(C)=(400-500)/200=-0.5由于Z分数不与任何特定的测量单位关联，因此被称为标准分。标准分的优势在于它为来自不同分布的原始分数比较提供了一个相对“中性”的方式。如果我们已知一个分布的平均数和标准差，那我们可以通过其标准分求出其原始分数Z分数特性：均数为0；标准差为1；用Z分数比较两个分数的前提条件是两个分布的形态要相似；把一组原始分数转换为z分数将不会改变其原始分布的形态。z分数在心理学中的一个重要应用就是测IQ斯坦福-比纳量表测得的IQ=16z+100韦氏量表IQ=15z+100前面我们提到，要对来自不同总体的两个分数进行比较，最好是两个分布的形态相同，这实际上不太可能，不过现实中的大多数分布都与某一个数学分布相似。这就是正态分布。钟形分布由于所有的正态分布形态相同，只是均值和标准差不同，所以我们可以将来自两个不同正态分布的分数转换为z分数再进行比较。这样我们就可以得到一个均数为0，方差为1的正态分布，称为标准正态分布。我们可以查阅标准正态分布表，来获得比某个z值高的分数比例是多少。这个比例，也就是上图的面积，它所代表的是一个概率。概率可以定义为无穷次随机抽样中这个事件发生次数占总数的比例。比如你的z分数是1，对应的面积是0.1587，这意味着如果我们随机抽一个人出来，那么我们只有15.87%的可能找到一个分数比你高的。Z分数只有在数据呈正态分布时才适用。但实际上的很多分布都不是正态分布。庆幸的是，即使对于不遵循正态分布的总体，只要样本大小足够大，则均数的抽样分布可被认为是正态的。（中心极限定理）对于大多数总体，当样本大小大于30时，抽样分布就会很接近一个正态分布。在心理学研究中z分数可以作为一种研究工具。举例：我们同学的考试平均成绩为70分，标准差为10分，如果一个同学考了95分，那么这个成绩有多么特殊呢？Z=(95-70)/10=2.5 查表发现2.5对应的概率为0.62%，也就是1000个人里只有6个人比他高，这是一个非常好的成绩了。但你了解到一个情况，那个同学考试前吃了某种缓解压力的药物，对于一个普通学生而言，得到这样一个分数是很难的，所以你可能会怀疑是不是药物起了很大作用。但是只有这一个人数据，不能确定是不是药物作用。这时我们可以随机选择一组人，让其吃这种药，然后计算他们的平均成绩看它是不是正常。但是要评价一个组的均数有多么不正常，我们不能把这个组的均数与个体的分布进行比较。而是要和一个组（样本数相同n）的分布进行比较。得到一个组的分布比较简单，我们从总体随机抽取n个同学，计算他们的平均数。重复以上过程m次（趋近于无穷大），这样我们就可以得到一个由m个均数构成的分布，这就是均数的抽样分布。它是一个正态分布。这样我们计算先前那个组的均数在这个均数抽样分布中z分数就可以评估该组的分数是否正常。这个均数抽样分布的均数与原来个体分布的均数是相同的；尽管每个抽样的小组内的标准差与个体总体的标准差相似，但是均数抽样分布的标准差却很不相同。均数抽样分布的标准差要小于个体总体的标准差。举个例子，我们从校园里随机找一个男生，他的身高超过180的概率是不低的，但是随机找10个男生，平均身高在180以上，那概率就低多了。在图上表现为180的点上个体总体分布概率值要比抽样分布概率值要高，所以均数的抽样分布要比个体总体的分布要瘦一些。如果抽样20个男生，那概率就会变得更低，也就是抽样分布的标准差会变得更小。均数的抽样分布的标准差被称为均数的标准误。B基本统计过程Z分数求百分位求两个z分数之间区域的面积求给定区域对应的原始分数描述样本前面提到，z分数主要代表的是排序位置，百分数是我们常用的排序位置的描述方法。比如你的智商是120，你想知道自己的智商在所有人中大概处于怎样一个位置。韦氏智力量表智商平均100，标准差15Z=（120-100）/15=1.33，查表可知对应面积为0.0918，也就是9.18%由此可知你的智商在前10%，只有9.18%的人比你聪明如果一个人的智商为85，那么他的智商又处于一个怎样的位置呢？同样的，z=(85-100)/15=-1，查表可得大于z=1对应的面积为0.1587，由于标准正态分布的0均值和对称性，小于z=-1的面积也为0.1587，也就是说比该人笨的人占15.87%，那该人在总体智力的位置大概为第84.13%。求两个z分数之间区域的面积智力测验中，把智商90109定为中等智力，那么有多少人是中等智力的？Z1=(90-100)/15=-0.67，Z2=(109-100)/15=0.6查表可知，大于z=0.6的面积为0.2743，则小于z1=0.6的面积为0.7257；大于z=0.67的面积为0.2514，即小z2=-0.67的面积为0.2514那么智商90109对应的人数比例为0.7257-0.2514=0.4743求给定区域对应的原始分数如果我们知道自己的智商分数，那么我们可以计算出自己在人群总体中智力排序位置。现在遇到这样一个问题，学校要推选学习成绩前1%的学生出国交流，已知学生的平均成绩是85分，标准差为3分，你想知道多少分以上的学生才能被推荐。这时我们就需要通过百分数逆算原始分数。查表可知，1%对应的z分数为2.33那么用公式我们可以算出X=2.33*3+85=93.99由前所述，通过z分数我们可以轻松的计算出一个人的智商所处的位置。然而，在心理学研究中我们很少关心单个人，更多的是关心一组人，因为一组人才有代表性。我们不能把一组人和一个人去比较，而应该和其他组去比较。一个组在抽样分布中位置可以用以描述该组的特殊性。举例，智商的平均分数为100，标准差为15，我们班有25个人，平均智商为110，那么我们班的同学聪明吗？问题转化：随机抽取25人为一组，抽m次（趋近无穷大），那么有多少可能抽到的组平均智商大于110？我们可以通过z分数来计算这个比率。个体总体分布的z分数抽样分布的z分数查表可知，大于z=3.33的概率为0.00135在上述例子中，我们用到了均数的抽样分布，它的使用具有两个前提：变量在总体中遵从正态分布：根据中心极限定理，只要样本较大（大于30），均数的抽样分布接近正态分布；样本是随机抽取的：总体中的所有个体被抽样的概率相等；每次抽样是独立于其他抽样的。

展开阅读全文

第一部分-描述性统计课件

最新文档