大学spss期末复习资料整理含部分公式

资源描述

第一章1.SPSS是软件英文名称的首字母缩写，其最初为StatisticalPackagefortheSocialSciences的缩写，即“社会科学统计软件包”。2.SPSS系统运行管理方式（SPSS的几种基本运行方式）有：（1）完全窗口菜单运行方式（2）程序运行管理方式（3）混合运行管理方式3.SPSS的界面提供的五个窗口：数据编辑窗口、结果管理窗口、结果编辑窗口、语法编辑窗口、脚本窗口。第二章1.SPSS的文件类型：语法文件（*.sps）、数据文件（*.sav）、结果输出文件（*.spv）。2.SPSS数据编辑器的每一行数据称为一个个案（Case），每一个数据代表个体的属性，即变量（Variable）。3.SPSS变量名的命名规则：1）必须以英文字母开头，其他部分可以含有字母、数字、下划线（即“-”）；2）变量名尽量避免和SPSS已有的关键字重复，例如sum、compute、anova等；3）SPSS13及以后版本支持变量名最长为64Byte，即变量名最长为64个英文字符，或者32个中文字符；4）SPSS变量名不区分大小写，即SPSS认为Name、name、nAme这三个变量名没有区别。4. 变量度量类型：定量（个数、高度、温度等）、定序（“十分重要”、“重要”、“一般”、“不重要”）、定类（名字、地址、电话等）。5. 列和宽度的区别：变量宽度：对字符型变量，该数值决定了你能输入的字符串的长度；列：设定该变量数据视图中列的宽度。值标签1男2女6变量的值标签：即对数值含义的解释。例如：7. 默认的缺失值类型：数值型类型（.）、字符串类型（空格）。8. 数据文件的合并包括：纵向合并和横向合并（合并个案和合并变量），合并变量包括一对一合并和一对多合并。9.SPSS用“（*）”表示变量来自于当前活动数据文件中的变量，而用“（+）”表示将要和当前数据文件进行合并的数据文件中的变量。10. 在合并数据文件之前，所有需要合并的数据文件必须预先按照关键变量进行升序排列。否则，合并文件程序将失败。11. （选择题）一对一合并变量时，两个文件都要提供个案；一对多合并时，活动的和非活动的文件都可以作为关键字。-Vr.第三章1. 可是离散化的作用以及两类方法作用：可视离散化用于为定量变量创建分类变量，从而实现连续变量的离散化。在统计分析中，有时候需要了解总体的大致分布状况，而不需要了解属性的具体信息。两类方法：直接输入分割点和根据条件自动生成分割点。2. 数据缺失的可能原因，缺失值的定义以及如何处理缺失值？1）原因：9在数据收集阶段，收集者没有收集到相应数据；层应答着拒绝回答该问题，比如该问题涉及个人隐私；93该问题对该应答者不适用，比如该问题是针对女性的，而应答者为男性。2）定义：缺失值是指粗糙数据中由于缺少信息而造成的数据的聚类，分组，删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。3）如何处理：首先应该想到重新回到数据收集阶段尽量收集到该数据，如果实在收集不到该数据，再考虑怎么处理缺失值，如果缺失数据不影响到具体的统计分析，则不对缺失值作任何处理（即缺失数据还是作为缺失数据处理），如果缺失数据影响到了具体的统计分析，则必须考虑采取适当方法来填补缺失数据。3.SPSS提供的填补缺失值的方法有哪些？（作简要说明）1）序列均值为取整列数据的均值；2）临近点均值为去该缺失值临近的几个点的均值，具体几个点由附近点的跨度来设定；3）临近点的中位数为取该缺失值邻近的几个点的中位数，具体几个点由附近点的跨度来设定；4）线性插值法应用线性插值法填补缺失值。用该列数据缺失值前一个数据和后一个数据建立插值直线，然后用缺失点在线性插值函数的函数值填充该缺失值；5）点处的线性趋势法应用缺失值所在的整个序列建立线性回归方程，然后用该回归方程在缺失点的预测值填充缺失值。4.什么叫数据校验，作用是什么？数据校验即查找错误数据或者不一致数据的过程。作用：如果数据没有收集到则尽量想办法补全；如果是录入错误则重新录入；如果数据确实错误，则可将这些数据设置成缺失值（即丢弃这些数据不进行分析）。5在选择个案If对话框中，构建选择男性1、黑种人2、东北地区1”的表达式：性别=1&种族=2&地区=1第四章1. 统计分析的目的，描述性统计分析方法与推断性统计分析方法有什么不同？目的：是研究观察对象总体的特点。区别：描述性统计分析方法是指应用分类、制表、图形以及概括性数据指标（如均值、方差）来概括数据分布特征的方法。儿推断性统计分析方法则是通过随机抽样，应用统计方法把从样本数据得到的结论推广到总体的数据分析方法。2. 描述数据特征的统计量的两大类：一类表示数据的中心位置，另一类表示数据的离散程度。3. 比较均值、中位数、众数的区别与联系。均值：用于数值型的数据，不能用于定类、定序型数据；Q易受极端值的影响；中位数川主要用于定序数据存能用于定类数据；总不受极端值影响；众数：主要用于定类数据；Q不受极端值影响；可能没有众数或多个众数。对于数据变量和定序变量，可以用均值、中位数、众数；对于定类数据，只有众数。4. 对极差、方差、标准差作解释。极差反映了变量的变异范围或离散幅度，在相同样本容量的两组数据中，全距大的一组数据比全距小的一组数据要分散。方差和标准差越大，变量值之间的差异越大，距离平均数这个“中心”离散越大；越小，则这些数据更接近平均值。5. 分位数的类型，各自的含义。四分位差是什么，大小说明什么？百分位数：一百等份，即P1.P2.P3.P4P100；四分位数将观测数值按从小到大进行排序，然后分成四等份，出于三个分割点位置的观测值就是四分位数，即Q1.Q2.Q3；十分位数将观测数值按从小到大进行排序，然后分成十等份，出于九个分割点位置的观测值就是十分位数，即D1.D2.D3.D9。四分位差通常为Q3和Q1的差，用来衡量观测值的离散程度，四分位差越大则说明所观测的数据越分散，越小则说明所观测数据越集中。6. 分布的形状有偏度和峰度。偏度是用来描述变量取值分布的偏斜方向，它衡量分布对称与否、分布不对称的方向和程度，取值一般在-3和3之间；峰度是用来描述变量取值分布形态陡缓程度的统计量，是指分布图形的尖峭程度或峰凸程度，取值范围可正可负可为零。7标准化分数也叫标准化值或Z分数，用于对变量的标准化处理。意义：变量值X，Z分数表示大于或小于平均数几个标准差，可用来比较从两个不同单位抽取出来的两值。8.统计图定类型；饼图、条形图（【分析】一【描述统计】一【频率】下），帕累托图（【分析】一【质量控制】一【排列图】）。数值型：茎叶图、箱图、直方图（在【分析】一【描述统计】一【探索】下）。9. 对茎叶图、箱图的解释。茎叶图是描述定量变量的一种图形方式，它除了能够给出直方图所给出的分布的信息外，还能够还原大部分原始数据的信息。箱图是总结五数（最小值、第一四分位数、中位数、第三个四分位数、最大值，的图形表现。（用o表示离群值，用*表示极端值，一般极端值会大一些。）（要求会读图，P132-133）。课后练习3. 说明茎叶图和直方图区别。如果想尽可能展现原始数据的信息，应该采用哪一种图形？茎叶图：茎叶图是描述定量变量的一种图形方式，它除了能够给出直方图所给出的分布的信息外，还能够还原大部分原始数据的信息。优点：变量取值较多，不影响其显示效果；缺点：如果观测值较大，显示效果不好。直方图：应用于连续型数据，表现在图形上直方图的各个正方条形之间没有任何间隔。优点：变量值较多，观测值较多不影响显示效果，概括性好，反映次数分布直观；缺点：有信息损失，组数的确定带有一定的主观性。如果想尽可能展现原始数据的信息，应该采用茎叶图。1. 利用SPSS进行数据分析的一般步骤答：数据的准备、加工整理阶段：进入SPSS,打开一个已保存的待分析的SPSS或EXEL、TXT等文件。若没有原始数据文件，则需新建一个SPSS文件，将数据输入新建的SPSS文件中，并及时保存。数据的预分析阶段：根据设计初步判断可以用到的检验方法，然后进行必要的预分析（分布图、均数和标准差的描述等），其操作步骤为分析描述性统计选择必要的描述性分析方法，以确定数据是否满足方法要求，最终选择一种合适的检验方法。数据的分析阶段：然后在分析中按上一步的结论选择分析方法并进行统计分析。保存和导出分析结果，对分析结果进行阅读和解释。2. 常用的统计图表有: 条图：汇总分类变量，用以描述按性质分组的各组某项指标值的大小。饼图:比较比例，用以描述百分比（构成比）资料；散点图：用于表示双数值变量之间的相关关系以及某变量的格值分布。直方图：用以描述一组定量变量资料的频数分布，显示单个刻度变量的分布情况。箱图：显示五个统计量（最小值（P25）、第一个四分位（P25）、中位数（P50）、第三个四分位（P75）和最大值（P975）。该图对于显示刻度变量的分布情况并确定离群值的位置非常有用。3. 题目：按照一个条件来找满足该条件的观测，年龄在50岁以上的女性。答：方法一：打开相应的SPSS文件，定义值标签，1=”男”，2=”女”；点击转换一一计算变量一一点击“如果”弹出对话框；选择“如果个案满足条件则包括（F）”，键盘输入：age50andgender=2,点击继续；在目标变量框中键入新变量如selected，=后边的数学表达式框中键入1,点击确定。弹出对话框“是否更改现有的变量？”，点击确定，即可完成。查看更改后的数据的最后一列“selected，,值为1的即为选中的变量。方法二：打开相应的SPSS文件，定义值标签，1=”男”，2=”女”；点击数据一一选择个案一一如果条件满足，弹出对话框；在条件表达式对话框中输入：age50andgender=2，点击继续；再点击确定即可。在更改的数据视图中，未标有黑色斜杠的即为选择的个案。4试说明下列结果的分析过程？（这个题很有可能考，大家最好自己操作一下啊）1、第一步：选择“数据”弓“拆分文件”在“分割文件”对话框中，首先将变量“marital”从原变量列表中选入“分组方式”列表中，然后将变量“gender”从原变量列表中选入“分组方式”列表中，然后点击“确定”。2、第二部：选择“分析”T“描述统计”T“频率”然后在“频率”对话框中，将变量“retire”选入目标变量列表中，点击确定。RjetiredMaritalstatuGenderF已quencyPercentValidPercentCumulativePercentUnmarriedFemale丙lidNo145594.994.994.9YesTotal78153351iaa.o5.11000100.0swet11ValidNoYes16147795.44.6个実Total1691wa.o亍案MarriedFemaleValidNo159897.1U1.1U1.1丫日字482：9.291000Total1646iaa.o100.0MaleValidNo142593t93.193.1Yes105fi.9100.0Total1530wa.o100.0l.ArithmeticFunctions算术函数算术函数是最常用的函数，可以满足对变量进行的一般运算，算术函数主要有:函数名自变量涵义函数类型函数功能及说明ABS(numexpr)（算术表达式）*数值型函数求绝对值，例如：ABS（Y-850）：将分别计算变量Y的每个数据与20的差的绝对值ARSIN(numexpr)（角度；弧度单位）数值型函数求反正弦值，例如：ARSIN（1）=兀/2ARTAN(numexpr)（角度；弧度单位）数值型函数，求反正切值，例如ARTAN（1）=兀/4：COS(radians)（角度；弧度单位）数值型函数求余弦值，例如：COS（兀）=-1EXP(numexPr)（算术表达式）数值型函数求e的指数幕值。例如：Exp（4）=e4=54.60。注意：若函数值太大，其结果会超出SPSS的计算范围。LGlO(numexp)（算术表达式）数值型函数求以10为底的对数值。例如：Ln（Y）:分别计算变量Y中每个数据的以10为底的对数值LN(numexpr)（算术表达式）数值型函数求以e为底的对数。例如：Ln（Y）：分别计算变量Y中每个数据的自然对数值MOD(numexpr,modulus)（算术表达式；摸数（常数）数值型函数求算术表达式除以模数的余数。例如：Mod（10.3）：函数值=1SIN(radians)（角度；弧度单位）数值型函数求正弦值。例如：Sin（兀）=0SQRT(numexpr)（正数）数值型函数求平方根。例如：Sqrt（9）=3RND(numexpr)（算术表达式）数值型函数求算术表达式的值四舍五入后的整数。例如：RND（2.72）=3TRUNC(numexpr)（算术表达式）数值型函数求算术表达式的值被截去小数部分的整数。例如：Trunc（2.72）=2*算术表达式也包括单值与变量名的情况。2.StatisticalFunctions统计函数统计函数也是统计分析中常用的函数之一，主要反映变量的数据特征，时间序列的滞后期变量等，具体函数有函数名自变量涵义函数类型函数功能与说明CFVAR(numexpr,numexpr,.)（变量名，变量名，）数值型函数求出多个变量值的变异系数（标准差/均值）。例如Cfvar（数学，物理，化学）：分别计算每个学生三门成绩的变异系数LAG(variable)（变量名）数值型函数或字符型函数返回滞后一期的变量数据。对第一个观测量来说，将返回系统缺失值，如果指定的变量是字符型，则返回空格。LAG(variable,ncases)（变量名，自然数n）数值型函数返回滞后n期的变量数据。对第前n个观测量来说，将返回系统缺失值，如果指定的变量是字符型，则返回空格。MAX(ivalue,value,)（变量名，变量名，）数值型函数求多个变量值中的最大值;例如MAX（数学,物理，化学）：分别计算每个学生三门成绩中的最高分MEAN(numexpr,numexpr,.)（变量名，变量名，）数值型函数求多个变量值的平均值；例如MEAN（数学，物理，化学）：分别计算每个学生三门成绩的平均值MIN(value,value,.)（变量名，变量名，）数值型函数求多个变量值中的最小值;例如Min（数学,物理，化学）：分别计算每个个案三门成绩中的最低分NVALID(variable,variable,.)（变量名，变量名，）数值型函数求出变量的（不包括缺失值）的数量SD(numexpr,numexpr,.)（变量名，变量名，）数值型函数求多个变量值的标准差；例如SD（数学，物理，化学）：分别计算每个学生三门成绩的标准差SUM(numexpr,numexpr,.)（变量名，变量名，）数值型函数求多个变量值的和;例如Sum（数学，物理，化学）:分别计算每个个案三门成绩的总和VARIANCE(numexpr,numexpr,.)（变量名，变量名，）数值型函数，求多个变量值的方差；例如Variance（数学，物理，化学）：分别计算每个学生三门成绩的方差3.LogicalFunctions逻辑函数 ANY（test,valu,value,）逻辑型函数，自变量为（变量名，xl,x2,），函数功能是判断变量值是否是xl、x2中的一个，例如：Any（数学，80，90，70）：分别对每条个案判断其数学成绩是否为80或90或70分。 RANGE（test,lo,hi，10，hi.逻辑型函数变量必须都为数值型或都为字符型，自变量为（变量名，x1，x2），其中：xlWx2，函数功能是判断某变量值是否在xl至x2之间，例如：RANGE（数学，80，90）:分别对每条个案判断其数学成绩是否在80至90分之间5

展开阅读全文

大学spss期末复习资料整理含部分公式

最新文档