数据统计分析及方法SPSS教程完整版.ppt

资源描述

数据统计分析及方法SPSS教程完整版第1章数据分析概述与软件入门 1 1SPSS软件概述1 1 1SPSS简介SPSS StatisticsPackageforSocialScience forWindows是一种运行在Windows系统下的社会科学统计软件软件包 SPSS的基本功能包括数据管理统计分析图表分析输出管理等具体内容包括描述统计列联分析总体的均值比较相关分析回归模型分析聚类分析主成份分析时间序列分析非参数检验等多个大类每个类中还有多个专项统计方法一功能强大 1 囊括了各种成熟的统计方法与模型为统计分析用户提供了全方位的统计学算法为各种研究提供了相应的统计学方法 2 提供了各种数据准备与数据整理技术 3 自由灵活的表格功能 4 各种常用的统计学图形二 SPSS的实验环境要求 1 系统运行环境SPSS10 0以上版本软件包可以工作在两种模式下单机模式和作为网络系统的用户界面模式 2 辅助软件环境三 SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口四 SPSS的帮助系统SPSS对一些基本模块中的统计提供了帮助可以通过单击Help菜单中的StatisticsCoach命令选择所需要的统计指导五 SPSS的运行方式 SPSS提供了3种基本运行方式完全窗口菜单方式程序运行方式混合运行方式程序运行方式和混合运行方式是使用者从特殊的分析需要出发编写自己的SPSS命令程序通过语句直接运行 SPSS中使用的对话框主要有两类一类是文件操作对话框文件操作对话窗口操作与Windows应用软件操作风格一致另一类是统计分析对话框统计分析对话框可以分为主窗口和下级窗口在该类对话框中选择参与分析的各类变量及统计方法是对话框的主要任务 1 1 2spss的安装一启动Windows后把SPSS系统安装软盘或光盘插入软驱或光驱并找到SPSS的安装程序的可执行文件Setup exe 二双击Setup exe文件安装程序向导将给出每一步操作的提示在出现 Welcome 欢迎窗口后选择 Next 进入下一步三安装程序显示 SoftwareLicenseAgreement 对话框时选择 Yes 接受显示的协议条款 1 2spss操作入门 1 2 1spss软件的启动与退出单击Windows的开始按钮在程序菜单项 SPSSforWindows 中找到 SPSS10 0forWindows 并单击 1 2 2SPSS的5个窗口 1 数据编辑窗口 SPSSDataEditor Spss处理数据的工作全在此窗口进行 2 结果管理窗口 SPSSOutputviewer 此窗口用于存放分析结果左边是目录区右边是内容区 3 草稿结果窗口 SPSSDraftViewer 草稿结果是结果的一种简化文本格式实际上就是WORD所兼容的rtf超文本格式因此可以在没有安装SPSS的PC机上使用文字编辑软件打开 4 语法编辑窗口 SPSSSyntaxEditor 5 脚本窗口 SPSSScriptEditor 1 2 3SPSS的四种运行方式一菜单对话方式首先打开SPSS软件然后选择菜单FileOpenfile 然后利用菜单AnalyzeDescriptiveStatisticsFrequencies 二程序方式在Syntax编辑窗口中键入以下程序 Getfile c programfiles spss employeedata sav Frequenciesvariables jobcat order analysis 只需要选择菜单RunAll 运行该程序也一样会出现相同的分析结果三 Include命令方式当编写Syntax程序时如果发现将要编写的程序语句正好是另一个Syntax文件的内容或者发现所需要的程序语句其实是几个Syntax文件的总和是除了可以通过 Copy Paste 的方法利用资源生产一个新的Syntax文件外还可以利用Include命令 Include c sytaxsample sps 四 spssProductionFaccility方式在Windows的程序菜单中 spss菜单组除了有 spssforwindows 项之外还有一个 spssproductionfacility 1 单击Syntax框下的 Add 按钮到C盘根目录下打开 syntaxsample 2 单击Syntax框下的 Edit 按钮对程序进行编辑 3 单击右下角的 uesrprompts 按钮添加对程序的交互分析界面 4 单击 Browse 按钮制定结果保存路径单击 exportoptions 按钮还可以制定结果保存格式 1 2 4spss的四种输出结果 1 表格格式2 文本格式3 标准图与交互图4 结果的保存和导出第2章数据录入与数据获取本章主要解决两个问题第一个问题根据问题类型的不同将会从开放题单选题和多选题的录入方式为例进行介绍第二个问题重点介绍如何用SPSS直接读取Excel类型和文本格式的数据以及如何用ODBC接口读取数据库文件 2 1 1统计软件中数据的录入格式 1 不同观测对象的数据不能在同一记录中出现即同一观测数据应当独占一行 2 每一个观测量指标或影响因素只能占据一列的位置即同一指标的数量观测值都应当录入到同一个变量中去 2 1数据格式概述即一个观测占一行一个变量占一列在录入数据时归纳为以下三步第一步定义变量名第一步指定每个变量的各种属性第一步录入数据变量名不能与spss保留字相同 spss的保留字有ALL END BY EQ GE GT LE LT NE NOT OR TO WITH 2 1 2变量属性介绍一变量的储存类型 SPSS中变量有三种的基本类型数值型字符型和日期型标准数值型逗号数值型圆点数值型科学技术法数值型美元数值型用户自定义型数值型数值型的数据是0 9的阿拉伯数字和其他符号如美元符号逗号或圆点组成的字符型字符型数据的默认显示宽度为8个字符位系统不区分变量名中的大小写字母并且不能进行数学运算注意在输入数据时不应输入引号否则双引号将会作为字符型数据的一部分日期型日期型数据是用来表示日期或时间的日期型数据的显示格式有很多 SPSS以菜单方式列出日期型数据的显示格式以供用户选择事实上 SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数关于日期型格式的几点说明 m 在年与日字母y与d 之间表示月份在时与秒字母h与s 之间表示分钟 mmm 表示要求书写英文月份单词的前三个字母组成的缩写 ddd 三个字母d表示要求用从元月一日算起的日数表示日期指定了日期变量的格式不一定在输入时就使用指定的格式可以输入用或作分隔符的具体日期回车后系统将自动将输入的格式转化为指定的格式显示在单元各种二变量的测量尺度在SPSS中使用Measure属性对变量的测量尺度进行定义 1 定类尺度 NominalMeasurement 定类尺度是对事物的类别或属性的一种测度按照事物的某种属性对其进行分类或分组特点其值仅代表了事物的类别和属性即能测度类别差异不能比较各类之间的大小所以各类之间没有顺序和等级对定类尺度的变量只能计算频数和频率在spss中能适用定类尺度的数据可以是数值型也可以是字符型变量使用定类变量对事物进行分类时必须符合穷尽原则和互斥原则 2 定序尺度 OrdinalMeasurement 定序尺度是对事物之间的等级或顺序差别的一种测度可比较优劣或排序特点由于定序变量只能侧度类别之间的顺序无法测出类别之间的准确差值即测量数值不代表绝对的数量大小所以其测量结果只能排序不能进行运算 3 定矩尺度 IntervalMeasurement 定矩尺度是对事物类别或次序之间间距的测度特点不仅能将事物区分为不同类型并进行排序而且可能准确指出类别之间的差距是多少定居变量通常以自然或物理单位为计量尺度因此测量结果往往表现为数值所以计量结果可以进行加减运算 4 定比尺度 ScaleMeasurement 定比尺度是能够测算两个测度值之间比值的一种计量尺度它的测量结果同定距变量一样表现为数值特点定必变量是测量尺度的最高水平它除了具有其他三种测量尺度的全部特点外还具有可计算两个侧度至之间笔直的特点因此它可以进行加减乘除运算而定居变量值可进行加减运算三变量名与变量标签值 Label 定义变量名标签Value 定义变量值标签四缺失值 Spss中缺失值有用户自定义缺失值和系统缺失值两大类在SPSS中对字符型变量默认的缺失值为空格对数值型变量默认的缺失值为零 2 2数据的直接录入 2 1 1操作界面说明 DataView表可以直接输入观测数据值或存放数据表的左端列边框显示观测个体的序号最上端行边框显示变量名 VariableView表用来定义和修改变量的名称类型及其他属性如图所示如果输入变量名后回车将给出变量的默认属性如果不定义变量的属性直接输入数据系统将默认变量Var00001 Var00002等在VariableView表中每一行描述一个变量依次是 Name 变量名变量名必须以字母汉字及开头总长度不超过8个字符共容纳4个汉字或8个英文字母英文字母不区别大小写最后一个字符不能是句号 Type 变量类型变量类型有8种最常用的是Numeric数值型变量其它常用的类型有 String字符型 Date日期型 Comma逗号型隔3位数加一个逗号等 Width 变量所占的宽度 Decimals 小数点后位数 Label 变量标签关于变量涵义的详细说明 Values 变量值标签关于变量各个取值的涵义说明 Missing 缺失值的处理方式 Columns 变量在DateView中所显示的列宽默认列宽为8 Align 数据对齐格式默认为右对齐 Measure 数据的测度方式系统给出名义尺度定序尺度和等间距尺度三种默认为等间距尺度为了在统计分析过程中能有效的利用其它软件产生的数据 SPSS软件编辑窗口除可以使用 sav扩展名数据文件还可以直接打开和保存下述类型的文件 SPSSDOS版本产生的数据文件 sys Excel报表程序产生的数据文件 xls DBASE数据库格式文件 dbf SAS统计软件产生的数据文件 2 2 2开放题和简单单选题的录入一在spss中定义变量录入数据的第一步是定义变量属性随后才能进行数据录入二开放题的录入三单选题的录入单选题的录入可以采用字符直接录入字符代码值标签数值代码值标签三种方式 2 2 3多选题的录入一多重二分法 MultipleDichotomyMethod 所谓多重二分法是在编码的时候对应每一个选项都要定义一个变量有几个选项就有几个变量这些变量均为二分类他们各自代表对一个选项的选择结果二多重分类法 MultipleCategoryMethod 多重分类法也是利用多个变量对一个多选题的答案进行定义应该用多少个变量由被访者实际可能给出的最多答案数而定三多选题录入在spss中的实现 2 3外部数据的获取 SPSS读入非SPSS类型的文件数据有三种主要方式直接打开利用文本导向读入文本数据以及利用数据库OBDC接口读入数据 2 3 1电子表格数据如何导入spss中 SPSS中可以直接读入许多常用格式的数据文件选择菜单FileOpenData或直接单击快捷键工具栏上的快捷按钮系统就会弹出OpenFile对话框单击文件类型列表框在里面能够看到可以直接打开的数据文件格式 2 3 2文本数据如何导入spss中第一步首先在OpenFile文件框中选中文件单击打开系统会自动启动文本倒入向导对话框第二步选择 NO 并单击下一步按钮用某种字符区分固定宽度第三步分别选择 Delimited 和 yes 然后单击下一步按钮第四步第五步第六步第七步 2 4数据的保存 2 4 1存为spss格式2 4 2存为其他数据格式第3章数据管理 3 1变量级别的数据管理对变量进行操作的内容主要集中于Transform菜单中包括新变量的生成记录的排序对变量进行计数等计算新变量就是用Compute过程变量转换包括Recode VisualBander Count RankCase AutomaticRecode这五个过程专用过程包括建立时间序列缺失值代替和设定随机种子三个过程 RunPendingTransforming 用于执行编程中被挂起的数据整理操作计算产生新变量变量值自动编码设定随机数种子创建代替缺失值变量创建时间序列变量运行其它转换程序变量值重新编码创建计数变量观测量排秩连续变量进行分段 3 1 1计算新变量计算新变量的功能就是在原有spss数据文件的基础上根据用户的要求使用spss算术表达式及函数对所有记录或满足SPSS条件表达式的记录计算出一个新结果并将结果存入一个用户指定的变量中一常用基本概念 1 spss算术表达式spss算术表达式是由常量 spss变量名 spss的算术运算符圆括号等组成的式子 2 spss函数spss提供了多达70多种函数分为八大类算术函数统计函数分布函数逻辑函数字符串函数日期时间函数缺失值函数和其它函数 3 spss条件表达式通过spss的算术表达式和函数可以对所有记录计算一个结果如果仅希望对部分记录进行计算则应当利用spss的条件表达式指定对那些记录进行计算二 compute过程的分析实例例3 1统计英语成绩在60分以上的学生的数学和语文的平均成绩例3 2计算工人工资的所得税学生自己练习 3 1 2对变量值进行分组合并一对连续变量进行分组在SPSS中可以将连续变量转换为离散等级或定序变量按照某种一一对应的关系生成新变量值可以将新值赋给原变量 Recode过程和VisualBander过程都可以完成这一任务但前者给为简单和常用例3 3当学生英语成绩小于60时取值为不及格大于等于60且小于70为及格大于等于70且小于80为较好大于等于80为优秀二分类变量类别的合并 Recode过程也常用于合并某个分类变量的几个水平为一个水平将上例grade中优秀良好和及格三个等级合并为一个等级 PASS 将grade的等级不及格转换为 NOPASS 3 1 3连续变量的可视化分段 VISUALBander用于将连续变量进行分段该过程使用百分位数标准差范围或者等间距方式将连续变量划分为若干组段并采用图形化操作的方式例3 4对数学成绩进行分段假设现在希望按变量math将学生分为5组 60分以下为第一组 60分以上的按照等间距的方式分为4组 3 1 4将字符变量转换为数值变量用automaticrecode将字符变量转换为数值变量 3 1 5变量的编秩所谓编秩就是对记录按照某个变量值大小来排序 Rankcase过程就是用来排序的一个专用过程例根据性别分组计算数学成绩的秩次 3 1 6Transform菜单中的其它功能 1 count过程如果用户需要对满足某项条件的数据进行计数可以使用Count命令先在TargetVariable中指定一个变量可以是已经存在的变量或新变量并定义变量标签然后指定要统计的变量加到NumericVariables框中再单击DefineValues按纽打开ValuetoCount对话框 Value 输入某个值为清点对象 System missing 以系统的缺失值为清点对象 System orusermissing 以系统或用户指定的缺失值为清点对象 Range 指定数值的计数区域其中包括 through 在框内指定下限和上限lowestthrough 在框内只指定上限 highestthrough 在框内只指定下限 2 randomNumberSeed过程用于设定伪随机函数的随机种子 3 2文件级别的数据管理一数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能这个菜单是SPSS统计软件数据整理的特有功能菜单它的功能包括对变量观测量的编辑处理对变量数据的变换对观察量数据整理 1 简单命令包括插入变量插入记录和到达某条记录他们的功能实际上都可以用鼠标在数据表界面上直接完成很少会使用菜单来调用 2 常用的简单过程包括排序拆分文件选择记录和加权记录 3 变量与数据文件属性导向用于定义数据字典或者将于定义的数据字典直接引入当前数据文件 4 数重构过导向用于进行数据转置或者对重复测量数据表进行长型宽型记录间的转换 5 文件合并过程将几个数据文件合并为一个大的spss数据文件含横向合并和纵向合并两种情况 6 正交设计过程实际上是联合分析模块的一部分用于生成实施联合分析所需要的设计 7 其他过程包括定义日期变量过程数据汇总过程和查找重复记录导向定义变量属性定义变量日期插入观测量拷贝数据属性插入一个变量定位观测量观测量排序重构数据结构分类或不分类汇总正交设计数据文件转置合并数据文件标识重复观测量拆分数据文件选择观测量观测量加权 3 2 1记录排序一排序的两种方法 1 在数据表格的变量名处单击右键弹出的右键菜单最后两项就是 sortAscending 和 SortDescending 2 对于多变量排序则需要使用SortCases过程来进行二多变量排序需要注意的三点 1 在多重排序中制定排序变量名是很关键的先指定的变量在排序时必然优先于后制订的变量 2 可以指定按某变量值升序排序的同时按另一变量值降序排序或相反 3 排序以后原来记录数据的排列次序将被打乱 3 2 2记录拆分 SplitFile分割文件的功能是把当前工作分割成两个或两个以上的组随后的分析将对每个组进行 3 2 3记录筛选 SelectCases 当用户不需要分析全部的数据而是按要求分析其中的一部分使用该选择 Allcase 选择所有数据 Ifconditionissatisfied 按指定条件选择数据 RandomSampleofcases 对观察值进行随机抽样 Usefiltervariable 用指定变量作过滤先选择一个变量系统自动在数据管理器中将该变量值为0的观测单位标上删除记号系统对标有删除记号的观测单位不作分析 Basedontimeorcaserange 顺序抽样单击Range按纽打开SelectCase Range对话框用户自行定义从第几个观察值开始抽到第几个观察值结束 3 2 4加权记录 WeightCases 设定某变量为频数变量 3 2 5数据汇总所谓分类汇总就是按指定的分类变量对观测值进行分组对每组记录的各变量求指定的描述统计量结果可以存入新数据文件也可以替换当前数据文件一汇总的概念二进行分类汇总的方法 1 打开 data 菜单选择 Aggregate 展开aggregatedata 对话框 2 在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量 BreakVariable s 框中 3 在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量 AggregateVariable s 框中即要求这些变量的值进行分类汇总 4 name label 名称与标签单击此按钮可以修改组合后所生成新变量名称以及标签可以在name后面的矩形框中输入新变量名在Label后面的矩形框中输入新变量标签单击 continue 按钮继续 5 Function 函数选择此项可以确定汇总变量的描述内容系统默认函数为平均数 3 3文件级别的数据管理二 3 3 1数据字典的定义与应用在大型的数据分析项目中数据管理是非常重要的一个环节为了保证工作质量数据处理人员往往会事先定义好一个非常详细的数据格式包括变量格式变量标签标签值缺失值定义等这被称为数据字典一变量属性定义导向 DefineVariableProperties 具体说来可以列出所选变量的所有值分辨没有值标签的值并且提供自动给出值标签的功能可以将另一个变量的属性拷贝到所选变量也可以将所选变量的属性拷贝到其他变量二复制数据文件属性导向 CopyDataProperties过程用于将定义好的数据字典直接应用到当前文件中操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中还可以进行自行定义只选择某些变量或者某些属性进行拷贝这无疑大大提高了连续性项目对原有资源的利用程度 3 3 2查找重复记录 IdentifyingDuplicateCases 用于查找重复记录运行结束后结果窗口会给出本次操作的信息汇总 3 3 3数据文件的重新排列与转置一数据的长型与宽型格式长型格式和宽型格式指的是重复测量数据的两种不同的排列方式由于重复测量模型可以使用不同的统计模型加以分析因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题二长型格式转换为宽型格式 Restructure 选择DataRestructure 系统就会弹出下图导向三数据转置 Transpose 用于对数进行行列转置数据文件的转置就是将数据编辑窗口中数据的行列互换即将记录转为变量将变量转为记录后重新显示在数据编辑窗口中 Variable s 放入将要行列转置的变量名在数据文件中未放入栏中的变量会遗失字符串变量不能转换如强迫转换变量值转变为系统缺失值 Namevariable 变量命名栏在左侧源变量栏中选择一个变量放入namevariable栏技改变量的数据作为转置后的变量名 3 3 4多个数据文件的合并纵向连接几个数据集中的数据相加组成一个新的数据集新数据集中的记录是原来几个数据集中记录数的总和横向连接指的是按照记录的次序或者某个关键变量的数值将不同数据集中的不同变量合并为一个数据集新数据集中的变量数是所有原数据集中不重名变量的总和一数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列按照各个变量名的含义一一对应的进行首尾相接纵向合并必须遵循两个条件第一两个合并的spss数据文件其内容合并是有实际意义的第二为方便spss数据文件的合并在不同的数据文件中最好起相同的名字变量类型和变量长度也要尽量相同 Unpairedvariable 不匹配变量栏指变量名相同而变量定义不同的变量或变量名不同的变量 Variableinnewworkingdata 新工作数据变量栏 Indicatecasesourceasvariable 指示记录来源的变量选项二数据文件的横向合并横向合并的实质是将两个数据文件的记录按照记录对应一一进行左右对接横向合并遵循三个条件第一如果不是按照记录号对应的规律进行合并则两个数据文件必须至少有一个变量名相同的公共变量这个变量是两个数据文件横向合并的依据成为关键变量第二如果是使用关键变量进行合并的对应则两个数据文件都必须事先按关键变量进行升序排列第三为方便SPSS文件的合并在不同的数据文件中数据含义不相同的列变量名不应取相同的名称 ExcludedVariables 拒绝变量名外部文件与当前数据的同变量拒绝加到新工作区中 NewWorkingData 新工作数据变量栏 MatchCaseonKeyVariableinsort 排序文件中按关键变量匹配记录选项 Bothfilesprovidecase 由外部文件和当前数据量两者提供记录 Externalfileiskeyedtable 外部文件为关键表以当前数据为基准外部文件匹配当前数据的关键变量值如匹配成功外部文件的新变量值加入到当前数据的新变量中匹配不成功则不加入 WorkingDataFileiskeyedtable 当前数据为关键表 KeyVariables 关键变量栏在拒绝变量选择某变量作为关键变量 Indicatecasesourceasvariable 指示记录来源的变量选项第4章连续性变量的统计描述与参数估计 4 1连续变量的统计描述概述4 1 1统计描述中的可用工具 1 各种初步汇总描述方法频数百分位数 2 各种统计描述指标均值标准差四分位数间距 3 统计表 4 统计图 4 1 2连续变量的统计描述指标体系 1 集中趋势 CentralTrend 均数 Mean 中位数 Median 众数 Mode 总合 Sum 4 其他趋势百分位数指标 Percentile M统计量 M Estimators 极端值 Outlier 2 离散趋势 DispersionTrend 标准差 Std Deviation 方差 Variance 全距 Range 最小值 Minimum 最大值 Maximum 标准误 S E Mean 3 分布特征 DistributionTendency 偏度系数 Skewness 和峰度系数 Kurtosis 4 1 3spss中的相应功能 1 Spss的用于连续变量统计描述的过程均集中在DescriptiveStatistics子菜单中 1 Frequencies 产生原始数据的频数表并能计算各种百分位数控制频数表输出范围类型的最大数目 2 Descriptive过程该过程用于一般性的统计描述相对于Frequencies过程而言它不能绘制统计图 3 Explore过程该过程用于对连续性资料分布状况不清楚时的探索性分析它可以计算许多描述统计量给出各种统计图并进行简单的参数估计 4 Ratio过程用于对两个连续性变量计算相对比指标 2 Comparesmeans均值比较 means过程 means过程的优势在于各组的描述指标被放在一起便于相互比较并且如果需要可以直接输出结果无须再次调用其它过程 4 2集中趋势的的描述指标 4 2 1算术平均算术平均 ArithmeticMean 是最常用的描述输送距分布的集中趋势的统计良总体均数 PopulationMean 用希腊字母表示样本均数常用表示一算术平均数的定义和性质二均数的意义任何一个平均数值首先是同类现象的平均数任何一个平均数总是一个平衡点但平均数在高度概括观测数据从而使问题简化的同时却丢失了某些有用的信息一方面它把各个观测数据之间的差异性掩盖了起来另一方面由于平均数对于个别极端值反应比较灵敏因而平均数在某些情况下可能具有一定的欺骗性三均数的适用范围严格的讲平均数指示用于定距变量但有时对于定序变量求平均等级也可以使用平均数 4 2 2中位数中位数 Median 是将总体各单位的标志值按大小顺序排列处于中间位置的那个标志一中位数的定义对于未分组的原始资料首先必须将标志值按大小顺序设排序结果为则中位数就可以按下列方式确定二中位数的适用范围 4 2 3其他集中趋势指标一截尾均数由于均数较易受极端之的影响因此可以考虑将数据排序后按照一定的比例去掉最两端的数据只是用中部的数据来求均数如果截尾均数河源均数相差不大则说明数据不存在极端值或者两侧极端值的影响正好抵消反之则说明数据中有极端值此时截为均数更好地反映数据的集中趋势常用的截尾均数有5 截尾均数即两端各去掉5 的数据二几何均数几何均数适用于原始数据分布不对称但经过对数转换后称对称分布的资料几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数四调和均数它实际上是观察值X倒数之均数的倒数三众数 Mode 众数指的是样本数据中出现频次最多的那个数众数适用于任何层次的变量特别适用于单峰对称的情况是比较两个分布是否接近首先要考虑的参数在SPSS中众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来在SPSS中调和均数可以在Report子菜单的4个报表过程过程中计算出来 4 3离散趋势的描述指标 4 3 1全距 Range 又称为极差是一组数据中最大值 Maximun 与最小值 Minimum 之差极差反映的是变量分布的差异范围或离散程度在总体中任何两个标志值之差都不可能超过极差极差存在两点不足一是它仅仅取决于两个极端之的水平不能反映其间的变量分布情况提供的信息太少二是它容易受个别极端值的影响不符合稳健型的要求 4 3 2方差和标准差一方差 Variance 和标准差 StandardDeviation 的定义将离均差平方和 SumofSquaresofDeviationfromMean SS 除以观察例数N 就得到方差方差越大数据分布离散程度越大对于样本数据而言方差的计算公式为将方差开方就得到标准差对于同性质的数据来说标准差越小表明数据的变异程度越小即数据越整齐数据的分布范围越集中标准差越大表明数据的变异程度越大即数据越参差不齐分布越分散二方差和标准差的适用范围方差和标准差的适用范围应当是正态分布 4 3 3百分位数四分位数与四分位数间距分位差是对极差指标的一种改进是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标常用的分位差有四分位差十分位差百分位差一分位数分位数是一种位置指标用PX表示一个百分位数PX将一组观测之分为两部分理论上有x 的观测值比它小 100 x 的观测值比它大四分位数 quartile 十分位数 decile 百分位数 percentile 他们分别是用3个点 9个点 99个点将数据4等分 10等分和100等分后各分位点上的值二四分位数四分位数实际上是三个数值的总称分别是P25 P50 P75分位数很显然中间的分位数是中位数因此通常所说的四分位数是指第一个四分位数下四分位数和第三个四分位数上四分位数上下四分位数的差值称为四分位数间距 QR Q3 Q1 4 3 4变异系数当需要比较两组数据离散程度大小的时候往往直接使用标准差来进行比较并不合适这可以被分为两种情况 1 测量尺度相差太大 2 数据量纲不同在以上情形中就应当消除测量尺度和量纲的影响而变异系数 CoefficientofVariance 它是标准差和其平均数的比率 4 4连续变量统计描述实例 4 4 1数据背景介绍4 4 2使用Explore过程进行分析探索分析是对数据进行初步的观察分析主要的分析项目有观察数据的分布特征可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性包括考察数据中是否存在异常值等正态分布检验检验数据是否服从正态分布方差齐性的检验用Levene检验比较各组的方差是否相等 1 单击Analyze Descriptivestatistics Explore 打开Explore主对话框一分析操作 3 在Display栏中选择输出项依次是Both选择项输出图形与描述统计量系统默认只输出描述统计量和只输出图形本例中选择默认项 1 从左侧的变量列表中选出变量身高送入DependentList栏 2 选择性别作为因子变量送入FactorList栏有了因子变量 SPSS会把所有的观测个体按照因子变量的取值分成若干各组再分组考察DependentList中的各个变量如果不选择因子变量 SPSS会对全部观测来做探索分析 2 单击Statistics统计量按钮打开Statistics对话框选择统计输出量 1 Descriptives基本统计描述同时指定均值的置信区间的置信度系统默认为95 2 M 估计 M估计在计算时对所有观测量赋予权重随观测量距分布中心的远近而变化 3 Outliers输出分析数据中五个最大值和五个最小值 4 Percentiles输出百分数 3 单击Plots图形按钮打开Plots对话框 1 Boxplot箱图选择栏 Factorlevelstogether因变量按因素水平分组系统默认 Dependentstogether所有因变量生成一个并列箱图本例中选择项 None不显示箱图 2 Descriptive描述图形栏Stem and leaf茎叶图Histogram直方图 3 Normalityplotswithtest 复选项正态分布检验并输出Q Q图 None 不产生回归直线的斜率和方差齐性检验 PowerEstimation转换幂值估计对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图选项 Transformed变换原始数据选择项 Untransformed不变换变换原始数据选择项 4 SpreadvslevelwithLeveneTest栏对所有的散布层次图同时输出回归直线的斜率以及方差齐性的Levene s检验 4 单击Option按纽打开Option对话框如图所示可选择缺失值的处理方式 SPSS提供三种处理方式 1 Excludecaseslistwies剔除带缺失值的观测量系统默认 2 Excludecasespairwise剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量 3 Reportvalues输出频数表时同时输出缺失值 5 单击OK 得到相应的输出结果如表所示二基本的分析结果三输出百分位数和极端值列表身高Stem and LeafPlotforsex 男FrequencyStem Leaf1 0015 9 0016 9 0016 55577899920 0017 0000000001111233444424 0017 55555555555667777778888912 0018 0000001222343 0018 668Stemwidth 10Eachleaf 1case s 箱图中最底部的水平线段是数据的最小值奇异点除外顶部的水平线段是数据的最大值奇异点除外中间矩形箱子的底所在位置是数据的第一个四分位数即25 分位数箱子顶部所在位置是数据的第三个四分位数据即75 分位数箱子中间的水平线段刻画的是数据的中位数即50 分位数 4 4 3使用其他过程过程进行分析一 Descriptive过程的结果二 Frequencies过程的结果 4 5连续性变量的参数估计根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断 StatisticalInference 它可以被分为参数估计和假设检验两大类 4 5 1正态分布一正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布 NormalDistribution 二正态分布的特征 1 正态分布是一条对称曲线关于均数对称因此均数被称为正态分布的位置参数 2 曲线是单峰在均值出达到最高点 3 正态分布曲线的尖削与标准差有关因此标准差被称为正态分布曲线的尺度参数 4 曲线无论向左或向右延伸都越来越接近横轴但不会与横轴相交以横轴为渐近线 5 约68 的个体的取值与平均数在距离一个标准差之内 6 约95 的个体取值与平均数的距离在1 96个标准差之内 7 99 个体的取值与平均数的距离在2 58个标准差三标准正态分布 StandardNormalDistribution 将原来的正态分布转换为标准正态分布在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分只需要选中主对话框左下角的Savestandardizedvaluesasvariables复选框即可四偏度和峰度 1 偏度 Skewness 偏度是用来描述变量取值分布形态的统计量只分布不对称的方向和程度样本偏度系数偏态的方向指的应当是长尾的方向而不是高峰的位置 2 峰度 Kurtosis 峰度用来描述变量取值分布形态陡缓的统计量是指分布图形的的尖削程度或峰凸程度样本的峰度系数 4 5 2参数的点估计参数的点估计就是选定一个适当的样本统计量作为参数的估计量并计算出估计值对于所选统计量是否适于作参数估计量有无偏性一致性和有效性三个评选标准无偏性是指虽然估计量的值不全等于参数但应在真实值附近摆动一致性是指样本容量越大估计值离真实值的差异应当越小有效性是指如果两个统计量都符合上述要求则应当选取误差更小的一个作为估计值在许多种情况下样本统计量本身往往就是相应的总体参数的最佳估计此时就可以直接取相应的样本统计量作为总体参数的点估计一矩法二极大似然估计法该方法的原理是在已知总体的分布但未知其参数值时在待估参数的可能取值范围内进行搜索使似然函数值最大的那个数值为极大似然估计值三稳健估计值稳健估计值的是该统计量具有稳健性当数据存在异常值时受影响较小而且对大部分的分布而言都很好文件估计有M估计 R估计等不同方法 SPSS中数出的M估计量有4种它们分别是Huber Andrews Hampel和Tukey所提出的实际上就是所用的函数不同一般而言 Huber适用于数据接近正态分布的情况另外三种则适用于数据中许多异常值的情况如果M估计量里平均数和中位数较远则数据中可能存在异常值此时应该用M估计量替代平均数以反映集中趋势 4 5 3参数的区间估计一标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量二区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间该区间称为总体参数的1 a可信区间或置信区间 ConfidenceInterval 对于任意可信度的区间情况总体均值在100 1 a 可信区间为第5章分类变量的统计描述与参数估计 5 1分类变量的统计描述概述5 1 1分类变量的统计描述指标体系一频数分布情况描述各个类别的样本数和所占比例分别称为频数绝对频数和百分比构成比累计频数是指本类别及较低类别出现的次数之和累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比根据类别的有序性分类变量可以分为有序分类变量 OrdinalVariable 和无序分类变量 NominalVariable 当集中趋势显著时用众数 Mode 作为总体的代表值二集中趋势的描述所谓众数使之出现次数最多的那个数如果只有一个众数称为单众数多于一个的称为复众数 1 比 Ratio 比指的是两个有关指标之比A B 用于反映两个指标在数量频数上的大小关系三使用相对数进行深入描述 2 构成比 Proportion 率是一个时间概念或者说具有速度强度含义的指标用于说明某个时间发生的频率或强度分观察对象为K部分 A1 A2 Ak 其中某一个多个部分的例数占总例的比例未构成比它描述某个事物内部各构成部分所占的比重 3 率 Rate 5 1 2分类变量的联合描述当一共有两个分类变量时这汇总因分类变量的各类别交叉而成的复合频数表被称为行列表也称列联表当观察的现象与两个因素有关时如某种服装的销量受价格和居民收入影响某种产品的生产成本受原材料价格和产量的影响等等交叉列联表分析可以比较好的反映出两个因素之间有无关联性两因素与现象之间的相关关系因此数据交叉列联表分析主要包括两个基本任务 1 根据收集的样本数据产生二维或多维交叉列联表 2 在交叉列联表的基础上对两两变量间是否存在关联性进行检验 5 2分类变量的统计描述实例 5 2 1使用Frequencies过程输出频数表具体操作 AnalysisDescriptiveStatisticsFrequencies 1 打开数据单击Analyze DescriptiveStatistics Crosstabs对话框 2 如果是二维列联表分析可以将行变量选择进入Row s 中将列变量选择进入Column s 框中如进行三维以上的列联表可以将其它变量作为控制变量选到Layer框中多控制变量可以是同层次的也可以是逐层叠加的 5 2 2使用Crosstabs过程输出列联表 3 Displayclusteredbarchart选择项可以指定绘制各变量交叉频数分布柱形图 Suppresstable表示不输出列联表只有在分析行列变量间关系时选择此项此例中不选择这一项 4 单击Cell按纽打开Crosstabs CellDisplay对话框如图所示从对话框中指定列联表单元格中的输出内容在Counts框中选择Observed观察值系统默认或Expected期望频数在Percentages框内选择Row行百分比 Column列百分比及Total总百分比在Residuals框中选择输出残差其中Standardize为标准化残差 Adj standardize为修正的标准化残差 5 3多选题的统计描述 5 3 1多选题的描述指标体系在多选题分析中比较特别的描述指标有 1 应答人数是指选择了本项人数 2 应答人数百分比 PercentofCases 选择该项的人占总人数的比例 3 应答人次选择本选项的人次 4 应答次数百分比 PercentofResponses 在作出的选择中选择该项的人数占总次数的比例 5 3 2分析实例操作步骤 AnalyzeMultipleResponseFrequencies 1 DefineSets过程该过程指定变量组成一个多重响应或多重两分数集并应用于频数表和交叉列表 2 Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表 3 Crosstabs过程该过程提供带有另一种变量的已定义的多重或多重两分数据集交叉表 5 4分类变量的参数估计 5 4 1二项分布的参数估计一二项分布二项分布又称为贝努里 Bernoulli 分布是一种具有广泛应用的离散型随机变量的概率分布二项分布研究的是试验仅有两种结果的分布这种试验称为贝努里试验如某产品质量合格与不合格等其定义为设有n次试验各次试验是相互独立的每次试验某事件出现的概率都是p 某事件不出现的概率都是1 p 记为q 则对于某事件出现k k 0 1 2 n 次的概率分布为二二项分布检验 BinomialTest 当研究对象属于二项总体时可以用二项分布来检验假设判断所抽取的样本是否来自具有既定值的总体其检验步骤如下 1 提出假设 2 计算统计量值和p值 3 根据p值作出统计判断例掷一枚球类比赛用的挑边器40次出现A面和B面在上的次数如表所示试问这枚挑边器是否均匀解 1 在SPSS中输入表中的数据变量名为Y 选择主菜单的 Analyze NonparametricTests BinomialTest 2 显示如图所示的 BinomialTest 二项检验主对话框把Y选入 TestVariable 其它选项采用默认值 3 单击主对话框中的 OK 按钮输出结果如下从结果可以看出 p 0 017 0 05 认为该挑边器不是均匀的第6章数据报表的呈现 6 1spss报表概述6 1 1spss中的报表功能1 base模块2 original模块3 CustomTables模块6 1 2报表的基本绘制步骤 6 2表格入门 6 2 1表格基本框架行 Row 指的是形成表格的横行元素列 Column 指的是形成表格纵列的元素行列元素相交就会形成一个最简单的二维表行列元素不同取值的组合就确定了一个单元格 Cell 层 Layer 指的是表格中的第三个维度 6 2 3单元格的数据类型 1 分类变量包括了名义型和有序尺度两大类 2 连续变量包括间距尺度和比率尺度两大类 1 集中趋势指标均数中位数众数最大值最小值 2 离散趋势指标全距标准误标准差方差 3 百分位数第5 25 75 95 99百分位数其任一指定的百分位数 4 百分比按相应合计方向当前变量的行列层表格合计百分比 5 其他例数有效例数综合等 3 汇总项 6 2 4集中基本表格类型 1 叠加表 Stacking 叠加表指的是在同一张表格中对两个变量进行描述或者说表格中有一个维度的元素是由两个以上的变量构成 2 交叉表 Crosstabulation 它的两个维度都是由两个分类变量的各类别构成 3 嵌套表 Nesting 两个变量被放置在同一个表格维度中即该维度是由两个变量的各种类别组合而成 4 多层表 Layers 如果制定了层元素表格就由二维扩展到三维即多层表 5 复合表格 6 3用OriginalTables模块制表 6 3 1功能简介 1 MultipleResponseSets 2 BasicTables 3 GeneralTables 4 MultipleResponseTables 5 TablesofFrequencies 6 3 2BasicTables过程例2 请将数据文件Cars sav中的汽车数据分为不同的产地和气缸数计算其引擎功率引擎重量的频数和均数用适当的报表形式给出并要求给出类别合计 1 表格框架的设定 2 统计量的添加与格式的设置 3 添加汇总项 4 空单元格的设置 5 添加标题与说明文字 6 标签排列格式的调整 7 最终完成表格绘制 6 3 3GeneralTables过程 1 表格框架的设定 2 添加汇总项 6 4用CustomTables模块自由制作 6 4 1操作主界面 6 4 2简单实例分析 1 表格框架的绘制选中左侧列表中变量的图标按下左键不放移动鼠标此时鼠标携带着变量图标一起移动将其拖入画布内当鼠标接近行列边框时相应地边框会变红表明该变量已经找到位置 2 连续变量统计量的设置 1 选中画布上的Horsepower图标此时界面左下方Define框组中的SummaryStatistics浮动钮已经可以用单击该钮后即弹出连续变量汇总统计量设定的对话框图 2 如果计算某一个统计量使用连接两框的统计按钮将其移入右侧例如如果希望先计算频数则在用最右侧的上下移动钮将其移动到均数上方即可 3 分类变量汇总项的设置选择分类变量Cylinder 则Define框组中的该浮动按钮可用单击后弹出如下界面 TotalsandSubtotalsAppear框组用于设定汇总和子项汇总的标签是在左上部显示还是在右下部显示 Show框组用于设定某项是否显示 Ttotal选项用于要求计算汇总栏 Missing选项要求将用户定义的的缺失值按缺失值处理方式处理该选择不影响系统缺失 Empty选项用于控制是否在表格中输出无案例的类别而最右侧的Other选项则控制是否显示未提供值标签的类别 Exclude框用于指定部显示某些类别 Display框组直观的显示该分类变量各类的显示方式顺序汇总等 4 显示标签的调整将表格画布切换为正常视图然后在Cylingder的变量名标签出单击右键则弹出相应的右键菜单 6 4 3其他选项卡功能 1 TestStatistics功能 2 Titles选项卡 3 Options选项卡 6 5表格的编辑 6 5 1基本编辑操作1 两种不同的编辑窗口 1 嵌套窗口编辑模式选中相应表格使用右键菜单上的SPSSPivottableObjectEdit 或者双击鼠标左键 2 单独窗口编辑模式选中相应表格使用右键菜单上的SPSSPivottableObjectOpe 2 表格元素的选择方式 3 单元格内容编辑 6 5 2主要编辑菜单功能介绍 1 Edit菜单 2 format菜单对单元

展开阅读全文

数据统计分析及方法SPSS教程完整版.ppt

最新文档