数据统计分析及方法SPSS教程完整版.ppt

上传人:tian****1990 文档编号:8445724 上传时间:2020-03-29 格式:PPT 页数:430 大小:6.30MB
返回 下载 相关 举报
数据统计分析及方法SPSS教程完整版.ppt_第1页
第1页 / 共430页
数据统计分析及方法SPSS教程完整版.ppt_第2页
第2页 / 共430页
数据统计分析及方法SPSS教程完整版.ppt_第3页
第3页 / 共430页
点击查看更多>>
资源描述
数据统计分析及方法SPSS教程完整版 第1章数据分析概述与软件入门 1 1SPSS软件概述1 1 1SPSS简介SPSS StatisticsPackageforSocialScience forWindows是一种运行在Windows系统下的社会科学统计软件软件包 SPSS的基本功能包括数据管理 统计分析 图表分析 输出管理等 具体内容包括描述统计 列联分析 总体的均值比较 相关分析 回归模型分析 聚类分析 主成份分析 时间序列分析 非参数检验等多个大类 每个类中还有多个专项统计方法 一 功能强大 1 囊括了各种成熟的统计方法与模型 为统计分析用户提供了全方位的统计学算法 为各种研究提供了相应的统计学方法 2 提供了各种数据准备与数据整理技术 3 自由灵活的表格功能 4 各种常用的统计学图形 二 SPSS的实验环境要求 1 系统运行环境SPSS10 0以上版本软件包可以工作在两种模式下 单机模式和作为网络系统的用户界面模式 2 辅助软件环境三 SPSS的主要界面SPSS的主要界面有数据编辑窗口和结果输出窗口 四 SPSS的帮助系统SPSS对一些基本模块中的统计提供了帮助 可以通过单击Help菜单中的StatisticsCoach命令 选择所需要的统计指导 五 SPSS的运行方式 SPSS提供了3种基本运行方式 完全窗口菜单方式 程序运行方式 混合运行方式 程序运行方式和混合运行方式是使用者从特殊的分析需要出发 编写自己的SPSS命令程序 通过语句直接运行 SPSS中使用的对话框主要有两类 一类是文件操作对话框 文件操作对话窗口操作与Windows应用软件操作风格一致 另一类是统计分析对话框 统计分析对话框可以分为主窗口和下级窗口 在该类对话框中 选择参与分析的各类变量及统计方法是对话框的主要任务 1 1 2spss的安装 一 启动Windows后 把SPSS系统安装软盘 或光盘 插入软驱 或光驱 并找到SPSS的安装程序的可执行文件Setup exe 二 双击Setup exe文件 安装程序向导将给出每一步操作的提示 在出现 Welcome 欢迎 窗口后 选择 Next 进入下一步 三 安装程序显示 SoftwareLicenseAgreement 对话框时 选择 Yes 接受显示的协议条款 1 2spss操作入门 1 2 1spss软件的启动与退出单击Windows的 开始 按钮 在 程序 菜单项 SPSSforWindows 中找到 SPSS10 0forWindows 并单击 1 2 2SPSS的5个窗口 1 数据编辑窗口 SPSSDataEditor Spss处理数据的工作全在此窗口进行 2 结果管理窗口 SPSSOutputviewer 此窗口用于存放分析结果 左边是目录区 右边是内容区 3 草稿结果窗口 SPSSDraftViewer 草稿结果是结果的一种简化文本格式 实际上就是WORD所兼容的rtf超文本格式 因此可以在没有安装SPSS的PC机上使用文字编辑软件打开 4 语法编辑窗口 SPSSSyntaxEditor 5 脚本窗口 SPSSScriptEditor 1 2 3SPSS的四种运行方式 一 菜单对话方式首先打开SPSS软件 然后选择菜单FileOpenfile 然后 利用菜单AnalyzeDescriptiveStatisticsFrequencies 二 程序方式 在Syntax编辑窗口中键入以下程序 Getfile c programfiles spss employeedata sav Frequenciesvariables jobcat order analysis 只需要选择菜单RunAll 运行该程序也一样会出现相同的分析结果 三 Include命令方式 当编写Syntax程序时 如果发现将要编写的程序语句正好是另一个Syntax文件的内容 或者发现所需要的程序语句其实是几个Syntax文件的总和是 除了可以通过 Copy Paste 的方法利用资源 生产一个新的Syntax文件外 还可以利用Include命令 Include c sytaxsample sps 四 spssProductionFaccility方式 在Windows的程序菜单中 spss菜单组除了有 spssforwindows 项之外 还有一个 spssproductionfacility 1 单击Syntax框下的 Add 按钮 到C盘根目录下打开 syntaxsample 2 单击Syntax框下的 Edit 按钮 对程序进行编辑 3 单击右下角的 uesrprompts 按钮 添加对程序的交互分析界面 4 单击 Browse 按钮制定结果保存路径 单击 exportoptions 按钮还可以制定结果保存格式 1 2 4spss的四种输出结果 1 表格格式2 文本格式3 标准图与交互图4 结果的保存和导出 第2章数据录入与数据获取 本章主要解决两个问题 第一个问题 根据问题类型的不同 将会从开放题 单选题和多选题的录入方式为例进行介绍 第二个问题 重点介绍如何用SPSS直接读取Excel类型和文本格式的数据 以及如何用ODBC接口读取数据库文件 2 1 1统计软件中数据的录入格式 1 不同观测对象的数据不能在同一记录中出现 即同一观测数据应当独占一行 2 每一个观测量指标或影响因素只能占据一列的位置 即同一指标的数量观测值都应当录入到同一个变量中去 2 1数据格式概述 即 一个观测占一行 一个变量占一列 在录入数据时 归纳为以下三步 第一步 定义变量名 第一步 指定每个变量的各种属性 第一步 录入数据 变量名不能与spss保留字相同 spss的保留字有ALL END BY EQ GE GT LE LT NE NOT OR TO WITH 2 1 2变量属性介绍 一 变量的储存类型 SPSS中 变量有三种的基本类型 数值型 字符型和日期型 标准数值型 逗号数值型 圆点数值型 科学技术法数值型 美元数值型 用户自定义型 数值型 数值型的数据是0 9的阿拉伯数字和其他符号 如美元符号 逗号或圆点组成的 字符型 字符型数据的默认显示宽度为8个字符位 系统不区分变量名中的大小写字母 并且不能进行数学运算 注意 在输入数据时不应输入引号 否则双引号将会作为字符型数据的一部分 日期型 日期型数据是用来表示日期或时间的 日期型数据的显示格式有很多 SPSS以菜单方式列出日期型数据的显示格式以供用户选择 事实上 SPSS存储中的日期型变量是该实践与1582年10月14日零点相差的秒数 关于日期型格式的几点说明 m 在年与日 字母y与d 之间表示月份 在时与秒 字母h与s 之间表示 分 钟 mmm 表示要求书写英文月份单词的前三个字母组成的缩写 ddd 三个字母d表示要求用从元月一日算起的日数表示日期 指定了日期变量的格式 不一定在输入时就使用指定的格式 可以输入用 或 作分隔符的具体日期 回车后 系统将自动将输入的格式转化为指定的格式 显示在单元各种 二 变量的测量尺度 在SPSS中使用Measure属性对变量的测量尺度进行定义 1 定类尺度 NominalMeasurement 定类尺度是对事物的类别或属性的一种测度 按照事物的某种属性对其进行分类或分组 特点 其值仅代表了事物的类别和属性 即能测度类别差异 不能比较各类之间的大小 所以各类之间没有顺序和等级 对定类尺度的变量只能计算频数和频率 在spss中 能适用定类尺度的数据可以是数值型 也可以是字符型变量 使用定类变量对事物进行分类时 必须符合穷尽原则和互斥原则 2 定序尺度 OrdinalMeasurement 定序尺度是对事物之间的等级或顺序差别的一种测度 可比较优劣或排序 特点 由于定序变量只能侧度类别之间的顺序 无法测出类别之间的准确差值 即测量数值不代表绝对的数量大小 所以其测量结果只能排序 不能进行运算 3 定矩尺度 IntervalMeasurement 定矩尺度是对事物类别或次序之间间距的测度 特点 不仅能将事物区分为不同类型并进行排序 而且可能准确指出类别之间的差距是多少 定居变量通常以自然或物理单位为计量尺度 因此测量结果往往表现为数值 所以计量结果可以进行加减运算 4 定比尺度 ScaleMeasurement 定比尺度是能够测算两个测度值之间比值的一种计量尺度 它的测量结果同定距变量一样表现为数值 特点 定必变量是测量尺度的最高水平 它除了具有其他三种测量尺度的全部特点外 还具有可计算两个侧度至之间笔直的特点 因此它可以进行加 减 乘 除运算 而定居变量值可进行加减运算 三 变量名与变量标签值 Label 定义变量名标签Value 定义变量值标签 四 缺失值 Spss中缺失值有用户自定义缺失值和系统缺失值两大类 在SPSS中 对字符型变量 默认的缺失值为空格 对数值型变量 默认的缺失值为零 2 2数据的直接录入 2 1 1操作界面说明 DataView表可以直接输入观测数据值或存放数据 表的左端列边框显示观测个体的序号 最上端行边框显示变量名 VariableView表用来定义和修改变量的名称 类型及其他属性 如图所示 如果输入变量名后回车 将给出变量的默认属性 如果不定义变量的属性 直接输入数据 系统将默认变量Var00001 Var00002等 在VariableView表中 每一行描述一个变量 依次是 Name 变量名 变量名必须以字母 汉字及 开头 总长度不超过8个字符 共容纳4个汉字或8个英文字母 英文字母不区别大小写 最后一个字符不能是句号 Type 变量类型 变量类型有8种 最常用的是Numeric数值型变量 其它常用的类型有 String字符型 Date日期型 Comma逗号型 隔3位数加一个逗号 等 Width 变量所占的宽度 Decimals 小数点后位数 Label 变量标签 关于变量涵义的详细说明 Values 变量值标签 关于变量各个取值的涵义说明 Missing 缺失值的处理方式 Columns 变量在DateView中所显示的列宽 默认列宽为8 Align 数据对齐格式 默认为右对齐 Measure 数据的测度方式 系统给出名义尺度 定序尺度和等间距尺度三种 默认为等间距尺度 为了在统计分析过程中能有效的利用其它软件产生的数据 SPSS软件编辑窗口除可以使用 sav扩展名数据文件 还可以直接打开和保存下述类型的文件 SPSSDOS版本产生的数据文件 sys Excel报表程序产生的数据文件 xls DBASE数据库格式文件 dbf SAS统计软件产生的数据文件 2 2 2开放题和简单单选题的录入 一 在spss中定义变量 录入数据的第一步是定义变量属性 随后才能进行数据录入 二 开放题的录入 三 单选题的录入单选题的录入可以采用字符直接录入 字符代码 值标签 数值代码 值标签三种方式 2 2 3多选题的录入 一 多重二分法 MultipleDichotomyMethod 所谓多重二分法 是在编码的时候 对应每一个选项都要定义一个变量 有几个选项就有几个变量 这些变量均为二分类 他们各自代表对一个选项的选择结果 二 多重分类法 MultipleCategoryMethod 多重分类法 也是利用多个变量对一个多选题的答案进行定义 应该用多少个变量 由被访者实际可能给出的最多答案数而定 三 多选题录入在spss中的实现 2 3外部数据的获取 SPSS读入非SPSS类型的文件数据 有三种主要方式 直接打开 利用文本导向读入文本数据以及利用数据库OBDC接口读入数据 2 3 1电子表格数据如何导入spss中 SPSS中可以直接读入许多常用格式的数据文件 选择菜单FileOpenData或直接单击快捷键工具栏上的快捷按钮 系统就会弹出OpenFile对话框 单击 文件类型 列表框 在里面能够看到可以直接打开的数据文件格式 2 3 2文本数据如何导入spss中 第一步 首先 在OpenFile文件框中选中文件 单击 打开 系统会自动启动文本倒入向导对话框 第二步 选择 NO 并单击 下一步 按钮 用某种字符区分 固定宽度 第三步 分别选择 Delimited 和 yes 然后单击 下一步 按钮 第四步 第五步 第六步 第七步 2 4数据的保存 2 4 1存为spss格式2 4 2存为其他数据格式 第3章数据管理 3 1变量级别的数据管理 对变量进行操作的内容主要集中于Transform菜单中 包括新变量的生成 记录的排序 对变量进行计数等 计算新变量 就是用Compute过程 变量转换 包括Recode VisualBander Count RankCase AutomaticRecode这五个过程 专用过程 包括建立时间序列 缺失值代替和设定随机种子三个过程 RunPendingTransforming 用于执行编程中被挂起的数据整理操作 计算产生新变量 变量值自动编码 设定随机数种子 创建代替缺失值变量 创建时间序列变量 运行其它转换程序 变量值重新编码 创建计数变量 观测量排秩 连续变量进行分段 3 1 1计算新变量 计算新变量的功能就是在原有spss数据文件的基础上 根据用户的要求 使用spss算术表达式及函数 对所有记录或满足SPSS条件表达式的记录 计算出一个新结果 并将结果存入一个用户指定的变量中 一 常用基本概念 1 spss算术表达式spss算术表达式是由常量 spss变量名 spss的算术运算符 圆括号等组成的式子 2 spss函数spss提供了多达70多种函数 分为八大类 算术函数 统计函数 分布函数 逻辑函数 字符串函数 日期时间函数 缺失值函数和其它函数 3 spss条件表达式通过spss的算术表达式和函数可以对所有记录计算一个结果 如果仅希望对部分记录进行计算 则应当利用spss的条件表达式指定对那些记录进行计算 二 compute过程的分析实例 例3 1统计英语成绩在60分以上的学生的数学和语文的平均成绩 例3 2计算工人工资的所得税 学生自己练习 3 1 2对变量值进行分组合并 一 对连续变量进行分组 在SPSS中可以将连续变量转换为离散 等级或定序 变量 按照某种一一对应的关系生成新变量值 可以将新值赋给原变量 Recode过程和VisualBander过程都可以完成这一任务 但前者给为简单和常用 例3 3当学生英语成绩小于60时取值为 不及格 大于等于60且小于70为 及格 大于等于70且小于80为 较好 大于等于80为 优秀 二 分类变量类别的合并 Recode过程也常用于合并某个分类变量的几个水平为一个水平 将上例grade中优秀 良好和及格三个等级合并为一个等级 PASS 将grade的等级 不及格 转换为 NOPASS 3 1 3连续变量的可视化分段 VISUALBander用于将连续变量进行分段 该过程使用百分位数 标准差范围或者等间距方式将连续变量划分为若干组段 并采用图形化操作的方式 例3 4对数学成绩进行分段 假设现在希望按变量math将学生分为5组 60分以下为第一组 60分以上的按照等间距的方式分为4组 3 1 4将字符变量转换为数值变量 用automaticrecode将字符变量转换为数值变量 3 1 5变量的编秩 所谓编秩 就是对记录按照某个变量值大小来排序 Rankcase过程就是用来排序的一个专用过程 例 根据性别分组计算数学成绩的秩次 3 1 6Transform菜单中的其它功能 1 count过程如果用户需要对满足某项条件的数据进行计数 可以使用Count命令 先在TargetVariable中指定一个变量 可以是已经存在的变量或新变量 并定义变量标签 然后指定要统计的变量加到NumericVariables框中 再单击DefineValues按纽 打开ValuetoCount对话框 Value 输入某个值为清点对象 System missing 以系统的缺失值为清点对象 System orusermissing 以系统或用户指定的缺失值为清点对象 Range 指定数值的计数区域 其中包括 through 在框内指定下限和上限lowestthrough 在框内只指定上限 highestthrough 在框内只指定下限 2 randomNumberSeed过程 用于设定伪随机函数的随机种子 3 2文件级别的数据管理 一 数据编辑窗口的Data菜单为用户创建和定义数据提供了方便的功能 这个菜单是SPSS统计软件数据整理的特有功能菜单 它的功能包括 对变量 观测量的编辑处理 对变量数据的变换 对观察量数据整理 1 简单命令 包括插入变量 插入记录和到达某条记录 他们的功能实际上都可以用鼠标在数据表界面上直接完成 很少会使用菜单来调用 2 常用的简单过程 包括排序 拆分文件 选择记录和加权记录 3 变量与数据文件属性导向 用于定义数据字典 或者将于定义的数据字典直接引入当前数据文件 4 数重构过导向 用于进行数据转置 或者对重复测量数据表进行长型 宽型记录间的转换 5 文件合并过程 将几个数据文件合并为一个大的spss数据文件 含横向合并和纵向合并两种情况 6 正交设计过程 实际上是联合分析模块的一部分 用于生成实施联合分析所需要的设计 7 其他过程 包括定义日期变量过程 数据汇总过程和查找重复记录导向 定义变量属性 定义变量日期 插入观测量 拷贝数据属性 插入一个变量 定位观测量 观测量排序 重构数据结构 分类或不分类汇总 正交设计 数据文件转置 合并数据文件 标识重复观测量 拆分数据文件 选择观测量 观测量加权 3 2 1记录排序 一 排序的两种方法 1 在数据表格的变量名处单击右键 弹出的右键菜单最后两项就是 sortAscending 和 SortDescending 2 对于多变量排序 则需要使用SortCases过程来进行 二 多变量排序需要注意的三点 1 在多重排序中 制定排序变量名是很关键的 先指定的变量在排序时必然优先于后制订的变量 2 可以指定按某变量值升序排序的同时按另一变量值降序排序 或相反 3 排序以后 原来记录数据的排列次序将被打乱 3 2 2记录拆分 SplitFile分割文件的功能是把当前工作分割成两个或两个以上的组 随后的分析将对每个组进行 3 2 3记录筛选 SelectCases 当用户不需要分析全部的数据 而是按要求分析其中的一部分 使用该选择 Allcase 选择所有数据 Ifconditionissatisfied 按指定条件选择数据 RandomSampleofcases 对观察值进行随机抽样 Usefiltervariable 用指定变量作过滤 先选择一个变量 系统自动在数据管理器中将该变量值为0的观测单位标上删除记号 系统对标有删除记号的观测单位不作分析 Basedontimeorcaserange 顺序抽样 单击Range按纽 打开SelectCase Range对话框 用户自行定义从第几个观察值开始抽到第几个观察值结束 3 2 4加权记录 WeightCases 设定某变量为频数变量 3 2 5数据汇总 所谓分类汇总就是按指定的分类变量对观测值进行分组 对每组记录的各变量求指定的描述统计量 结果可以存入新数据文件 也可以替换当前数据文件 一 汇总的概念 二 进行分类汇总的方法 1 打开 data 菜单 选择 Aggregate 展开aggregatedata 对话框 2 在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量 BreakVariable s 框中 3 在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量 AggregateVariable s 框中 即要求这些变量的值进行分类汇总 4 name label 名称与标签 单击此按钮可以修改组合后所生成新变量名称以及标签 可以在name后面的矩形框中输入新变量名 在Label后面的矩形框中输入新变量标签 单击 continue 按钮继续 5 Function 函数 选择此项可以确定汇总变量的描述内容 系统默认函数为平均数 3 3文件级别的数据管理 二 3 3 1数据字典的定义与应用在大型的数据分析项目中 数据管理是非常重要的一个环节 为了保证工作质量 数据处理人员往往会事先定义好一个非常详细的数据格式 包括变量格式 变量标签 标签值 缺失值定义等 这被称为数据字典 一 变量属性定义导向 DefineVariableProperties 具体说来 可以列出所选变量的所有值 分辨没有值标签的值 并且提供自动给出值标签的功能 可以将另一个变量的属性拷贝到所选变量 也可以将所选变量的属性拷贝到其他变量 二 复制数据文件属性导向 CopyDataProperties过程用于将定义好的数据字典直接应用到当前文件中 操作时不仅可以将一个外部数据文件相关属性拷贝到当前数据文件中 还可以进行自行定义 只选择某些变量 或者某些属性进行拷贝 这无疑大大提高了连续性项目对原有资源的利用程度 3 3 2查找重复记录 IdentifyingDuplicateCases 用于查找重复记录 运行结束后 结果窗口会给出本次操作的信息汇总 3 3 3数据文件的重新排列与转置 一 数据的长型与宽型格式 长型格式和宽型格式指的是重复测量数据的两种不同的排列方式 由于重复测量模型可以使用不同的统计模型加以分析 因此根据模型的要求进行长型格式和宽型格式之间的互转换是数据分析中经常要遇到的问题 二 长型格式转换为宽型格式 Restructure 选择DataRestructure 系统就会弹出下图导向 三 数据转置 Transpose 用于对数进行行列转置 数据文件的转置就是将数据编辑窗口中数据的行列互换 即将记录转为变量 将变量转为记录后 重新显示在数据编辑窗口中 Variable s 放入将要行列转置的变量名 在数据文件中 未放入栏中的变量会遗失 字符串变量不能转换 如强迫转换 变量值转变为系统缺失值 Namevariable 变量命名栏 在左侧源变量栏中选择一个变量 放入namevariable栏 技改变量的数据作为转置后的变量名 3 3 4多个数据文件的合并 纵向连接 几个数据集中的数据相加 组成一个新的数据集 新数据集中的记录是原来几个数据集中记录数的总和 横向连接 指的是按照记录的次序 或者某个关键变量的数值 将不同数据集中的不同变量合并为一个数据集 新数据集中的变量数是所有原数据集中不重名变量的总和 一 数据文件的纵向连接纵向合并实质就是将两个数据文件的变量列 按照各个变量名的含义 一一对应的进行首尾相接 纵向合并必须遵循两个条件 第一 两个合并的spss数据文件 其内容合并是有实际意义的 第二 为方便spss数据文件的合并 在不同的数据文件中 最好起相同的名字 变量类型和变量长度也要尽量相同 Unpairedvariable 不匹配变量栏 指变量名相同而变量定义不同的变量 或变量名不同的变量 Variableinnewworkingdata 新工作数据变量栏 Indicatecasesourceasvariable 指示记录来源的变量选项 二 数据文件的横向合并 横向合并的实质是将两个数据文件的记录 按照记录对应 一一进行左右对接 横向合并遵循三个条件 第一 如果不是按照记录号对应的规律进行合并 则两个数据文件必须至少有一个变量名相同的公共变量 这个变量是两个数据文件横向合并的依据 成为关键变量 第二 如果是使用关键变量进行合并的对应 则两个数据文件都必须事先按关键变量进行升序排列 第三 为方便SPSS文件的合并 在不同的数据文件中 数据含义不相同的列 变量名不应取相同的名称 ExcludedVariables 拒绝变量名 外部文件与当前数据的同变量 拒绝加到新工作区中 NewWorkingData 新工作数据变量栏 MatchCaseonKeyVariableinsort 排序文件中按关键变量匹配记录选项 Bothfilesprovidecase 由外部文件和当前数据量两者提供记录 Externalfileiskeyedtable 外部文件为关键表 以当前数据为基准 外部文件匹配当前数据的关键变量值 如匹配成功 外部文件的新变量值加入到当前数据的新变量中 匹配不成功则不加入 WorkingDataFileiskeyedtable 当前数据为关键表 KeyVariables 关键变量栏 在拒绝变量选择某变量作为关键变量 Indicatecasesourceasvariable 指示记录来源的变量选项 第4章连续性变量的统计描述与参数估计 4 1连续变量的统计描述概述4 1 1统计描述中的可用工具 1 各种初步汇总描述方法频数 百分位数 2 各种统计描述指标均值 标准差 四分位数间距 3 统计表 4 统计图 4 1 2连续变量的统计描述指标体系 1 集中趋势 CentralTrend 均数 Mean 中位数 Median 众数 Mode 总合 Sum 4 其他趋势百分位数指标 Percentile M统计量 M Estimators 极端值 Outlier 2 离散趋势 DispersionTrend 标准差 Std Deviation 方差 Variance 全距 Range 最小值 Minimum 最大值 Maximum 标准误 S E Mean 3 分布特征 DistributionTendency 偏度系数 Skewness 和峰度系数 Kurtosis 4 1 3spss中的相应功能 1 Spss的用于连续变量统计描述的过程 均集中在DescriptiveStatistics子菜单中 1 Frequencies 产生原始数据的频数表 并能计算各种百分位数 控制频数表输出范围类型的最大数目 2 Descriptive过程 该过程用于一般性的统计描述 相对于Frequencies过程而言 它不能绘制统计图 3 Explore过程 该过程用于对连续性资料分布状况不清楚时的探索性分析 它可以计算许多描述统计量 给出各种统计图 并进行简单的参数估计 4 Ratio过程 用于对两个连续性变量计算相对比指标 2 Comparesmeans均值比较 means过程 means过程的优势在于各组的描述指标被放在一起便于相互比较 并且如果需要 可以直接输出结果 无须再次调用其它过程 4 2集中趋势的的描述指标 4 2 1算术平均算术平均 ArithmeticMean 是最常用的描述输送距分布的集中趋势的统计良 总体均数 PopulationMean 用希腊字母表示 样本均数常用表示 一 算术平均数的定义和性质 二 均数的意义 任何一个平均数值首先是同类现象的平均数 任何一个平均数总是一个平衡点 但平均数在高度概括观测数据从而使问题简化的同时 却丢失了某些有用的信息 一方面它把各个观测数据之间的差异性掩盖了起来 另一方面由于平均数对于个别极端值反应比较灵敏 因而平均数在某些情况下可能具有一定的欺骗性 三 均数的适用范围 严格的讲平均数指示用于定距变量 但有时对于定序变量 求平均等级也可以使用平均数 4 2 2中位数 中位数 Median 是将总体各单位的标志值按大小顺序排列 处于中间位置的那个标志 一 中位数的定义对于未分组的原始资料 首先必须将标志值按大小顺序 设排序结果为 则中位数就可以按下列方式确定 二 中位数的适用范围 4 2 3其他集中趋势指标 一 截尾均数由于均数较易受极端之的影响 因此可以考虑将数据排序后 按照一定的比例去掉最两端的数据 只是用中部的数据来求均数 如果截尾均数河源均数相差不大 则说明数据不存在极端值 或者两侧极端值的影响正好抵消 反之 则说明数据中有极端值 此时截为均数更好地反映数据的集中趋势 常用的截尾均数有5 截尾均数 即两端各去掉5 的数据 二 几何均数 几何均数适用于原始数据分布不对称 但经过对数转换后称对称分布的资料 几何均数世纪上就是对数转换后的数据lgX的算术平均数的反对数 四 调和均数它实际上是观察值X倒数之均数的倒数 三 众数 Mode 众数指的是样本数据中出现频次最多的那个数 众数适用于任何层次的变量 特别适用于单峰对称的情况 是比较两个分布是否接近首先要考虑的参数 在SPSS中 众数可以在Report子菜单和Tables子菜单的全部报表过程和制表过程中计算出来 在SPSS中 调和均数可以在Report子菜单的4个报表过程过程中计算出来 4 3离散趋势的描述指标 4 3 1全距 Range 又称为极差 是一组数据中最大值 Maximun 与最小值 Minimum 之差 极差反映的是变量分布的差异范围或离散程度 在总体中 任何两个标志值之差都不可能超过极差 极差存在两点不足 一是它仅仅取决于两个极端之的水平 不能反映其间的变量分布情况 提供的信息太少 二是它容易受个别极端值的影响 不符合稳健型的要求 4 3 2方差和标准差 一 方差 Variance 和标准差 StandardDeviation 的定义将离均差平方和 SumofSquaresofDeviationfromMean SS 除以观察例数N 就得到方差 方差越大 数据分布离散程度越大 对于样本数据而言 方差的计算公式为 将方差开方 就得到标准差 对于同性质的数据来说 标准差越小 表明数据的变异程度越小 即数据越整齐 数据的分布范围越集中 标准差越大 表明数据的变异程度越大 即数据越参差不齐 分布越分散 二 方差和标准差的适用范围 方差和标准差的适用范围应当是正态分布 4 3 3百分位数 四分位数与四分位数间距 分位差是对极差指标的一种改进 是从变量数列中剔除了一部分极端值后重新计算的类似于极差的指标 常用的分位差有四分位差 十分位差 百分位差 一 分位数 分位数 是一种位置指标 用PX表示 一个百分位数PX将一组观测之分为两部分 理论上有x 的观测值比它小 100 x 的观测值比它大 四分位数 quartile 十分位数 decile 百分位数 percentile 他们分别是用3个点 9个点 99个点将数据4等分 10等分和100等分后各分位点上的值 二 四分位数 四分位数 实际上是三个数值的总称 分别是P25 P50 P75分位数 很显然 中间的分位数是中位数 因此通常所说的四分位数是指第一个四分位数 下四分位数 和第三个四分位数 上四分位数 上下四分位数的差值称为四分位数间距 QR Q3 Q1 4 3 4变异系数 当需要比较两组数据离散程度大小的时候 往往直接使用标准差来进行比较并不合适 这可以被分为两种情况 1 测量尺度相差太大 2 数据量纲不同 在以上情形中 就应当消除测量尺度和量纲的影响 而变异系数 CoefficientofVariance 它是标准差和其平均数的比率 4 4连续变量统计描述实例 4 4 1数据背景介绍4 4 2使用Explore过程进行分析探索分析是对数据进行初步的观察分析 主要的分析项目有 观察数据的分布特征 可通过绘制箱图和茎叶图等图形直观地反映数据的分布形式和数据的一些规律性 包括考察数据中是否存在异常值等 正态分布检验 检验数据是否服从正态分布 方差齐性的检验 用Levene检验比较各组的方差是否相等 1 单击Analyze Descriptivestatistics Explore 打开Explore主对话框 一 分析操作 3 在Display栏中选择输出项 依次是Both选择项 输出图形与描述统计量 系统默认 只输出描述统计量和只输出图形 本例中选择默认项 1 从左侧的变量列表中选出变量 身高 送入DependentList栏 2 选择 性别 作为因子变量 送入FactorList栏 有了因子变量 SPSS会把所有的观测个体按照因子变量的取值分成若干各组 再分组考察DependentList中的各个变量 如果不选择因子变量 SPSS会对全部观测来做探索分析 2 单击Statistics统计量按钮 打开Statistics对话框 选择统计输出量 1 Descriptives基本统计描述 同时指定均值的置信区间的置信度 系统默认为95 2 M 估计 M估计在计算时对所有观测量赋予权重 随观测量距分布中心的远近而变化 3 Outliers输出分析数据中五个最大值和五个最小值 4 Percentiles输出百分数 3 单击Plots图形按钮 打开Plots对话框 1 Boxplot箱图选择栏 Factorlevelstogether因变量按因素水平分组 系统默认 Dependentstogether所有因变量生成一个并列箱图 本例中选择项 None不显示箱图 2 Descriptive描述图形栏Stem and leaf茎叶图Histogram直方图 3 Normalityplotswithtest 复选项 正态分布检验并输出Q Q图 None 不产生回归直线的斜率和方差齐性检验 PowerEstimation转换幂值估计 对每组数据产生一个中位数自然对数及四个分位数的自然对数的散点图 选项 Transformed变换原始数据选择项 Untransformed不变换变换原始数据选择项 4 SpreadvslevelwithLeveneTest栏 对所有的散布 层次图 同时输出回归直线的斜率以及方差齐性的Levene s检验 4 单击Option按纽 打开Option对话框如图所示 可选择缺失值的处理方式 SPSS提供三种处理方式 1 Excludecaseslistwies剔除带缺失值的观测量 系统默认 2 Excludecasespairwise剔除带缺失值的观测量时还一并剔除与缺失值有成对关系的观测量 3 Reportvalues输出频数表时同时输出缺失值 5 单击OK 得到相应的输出结果如表所示 二 基本的分析结果 三 输出百分位数和极端值列表 身高Stem and LeafPlotforsex 男FrequencyStem Leaf1 0015 9 0016 9 0016 55577899920 0017 0000000001111233444424 0017 55555555555667777778888912 0018 0000001222343 0018 668Stemwidth 10Eachleaf 1case s 箱图中 最底部的水平线段是数据的最小值 奇异点除外 顶部的水平线段是数据的最大值 奇异点除外 中间矩形箱子的底所在位置是数据的第一个四分位数 即25 分位数 箱子顶部所在位置是数据的第三个四分位数据 即75 分位数 箱子中间的水平线段刻画的是数据的中位数 即50 分位数 4 4 3使用其他过程过程进行分析一 Descriptive过程的结果 二 Frequencies过程的结果 4 5连续性变量的参数估计 根据样本数据对总体的客观规律性作出合理估计的过程被称为统计推断 StatisticalInference 它可以被分为参数估计和假设检验两大类 4 5 1正态分布一 正态分布的定义若连续性随即变量X的概率分布密度函数为则称随机变量X服从正态分布 NormalDistribution 二 正态分布的特征 1 正态分布是一条对称曲线 关于均数对称 因此均数被称为正态分布的位置参数 2 曲线是单峰 在均值出达到最高点 3 正态分布曲线的尖削与标准差有关 因此标准差被称为正态分布曲线的尺度参数 4 曲线无论向左或向右延伸 都越来越接近横轴 但不会与横轴相交 以横轴为渐近线 5 约68 的个体的取值与平均数在距离一个标准差之内 6 约95 的个体取值与平均数的距离在1 96个标准差之内 7 99 个体的取值与平均数的距离在2 58个标准差 三 标准正态分布 StandardNormalDistribution 将原来的正态分布转换为标准正态分布 在SPSS中的Descriptive过程可以将原变量转换为标准正态分布的得分 只需要选中主对话框左下角的Savestandardizedvaluesasvariables复选框即可 四 偏度和峰度 1 偏度 Skewness 偏度是用来描述变量取值分布形态的统计量 只分布不对称的方向和程度 样本偏度系数 偏态的方向指的应当是长尾的方向 而不是高峰的位置 2 峰度 Kurtosis 峰度用来描述变量取值分布形态陡缓的统计量 是指分布图形的的尖削程度或峰凸程度 样本的峰度系数 4 5 2参数的点估计 参数的点估计就是选定一个适当的样本统计量作为参数的估计量 并计算出估计值 对于所选统计量是否适于作参数估计量 有无偏性 一致性和有效性三个评选标准 无偏性是指虽然估计量的值不全等于参数 但应在真实值附近摆动 一致性是指样本容量越大 估计值离真实值的差异应当越小 有效性是指如果两个统计量都符合上述要求 则应当选取误差更小的一个作为估计值 在许多种情况下 样本统计量本身往往就是相应的总体参数的最佳估计 此时就可以直接取相应的样本统计量作为总体参数的点估计 一 矩法 二 极大似然估计法该方法的原理是在已知总体的分布 但未知其参数值时 在待估参数的可能取值范围内进行搜索 使似然函数值最大的那个数值为极大似然估计值 三 稳健估计值稳健估计值的是该统计量具有稳健性 当数据存在异常值时受影响较小 而且对大部分的分布而言都很好 文件估计有M估计 R估计等不同方法 SPSS中数出的M估计量有4种 它们分别是Huber Andrews Hampel和Tukey所提出的 实际上就是所用的函数不同 一般而言 Huber适用于数据接近正态分布的情况 另外三种则适用于数据中许多异常值的情况 如果M估计量里平均数和中位数较远 则数据中可能存在异常值 此时 应该用M估计量替代平均数以反映集中趋势 4 5 3参数的区间估计 一 标准误标准误就是用来描述参数估计值可能离真实值究竟有多远的统计量 二 区间估计的计算结合样本统计量和标准误可以确定一个具有较大的可信度包含总体参数的区间 该区间称为总体参数的1 a可信区间或置信区间 ConfidenceInterval 对于任意可信度的区间情况 总体均值在100 1 a 可信区间为 第5章分类变量的统计描述与参数估计 5 1分类变量的统计描述概述5 1 1分类变量的统计描述指标体系一 频数分布情况描述各个类别的样本数和所占比例分别称为频数 绝对频数 和百分比 构成比 累计频数是指本类别及较低类别出现的次数之和 累计百分比则是指本类别及较低类别出现的次数之和占总次数的百分比 根据类别的有序性 分类变量可以分为有序分类变量 OrdinalVariable 和无序分类变量 NominalVariable 当集中趋势显著时 用众数 Mode 作为总体的代表值 二 集中趋势的描述 所谓众数 使之出现次数最多的那个数 如果只有一个众数称为单众数 多于一个的称为复众数 1 比 Ratio 比指的是两个有关指标之比A B 用于反映两个指标在数量 频数上的大小关系 三 使用相对数进行深入描述 2 构成比 Proportion 率是一个时间概念 或者说具有速度 强度含义的指标 用于说明某个时间发生的频率或强度 分观察对象为K部分 A1 A2 Ak 其中某一个 多个部分的例数占总例的比例未构成比 它描述某个事物内部各构成部分所占的比重 3 率 Rate 5 1 2分类变量的联合描述 当一共有两个分类变量时 这汇总因分类变量的各类别交叉而成的复合频数表被称为行 列表 也称列联表 当观察的现象与两个因素有关时 如某种服装的销量受价格和居民收入影响 某种产品的生产成本受原材料价格和产量的影响等等 交叉列联表分析可以比较好的反映出两个因素之间有无关联性 两因素与现象之间的相关关系 因此 数据交叉列联表分析主要包括两个基本任务 1 根据收集的样本数据 产生二维或多维交叉列联表 2 在交叉列联表的基础上 对两两变量间是否存在关联性进行检验 5 2分类变量的统计描述实例 5 2 1使用Frequencies过程输出频数表具体操作 AnalysisDescriptiveStatisticsFrequencies 1 打开数据 单击Analyze DescriptiveStatistics Crosstabs对话框 2 如果是二维列联表分析 可以将行变量选择进入Row s 中 将列变量选择进入Column s 框中 如进行三维以上的列联表 可以将其它变量作为控制变量选到Layer框中 多控制变量可以是同层次的也可以是逐层叠加的 5 2 2使用Crosstabs过程输出列联表 3 Displayclusteredbarchart选择项 可以指定绘制各变量交叉频数分布柱形图 Suppresstable表示不输出列联表 只有在分析行列变量间关系时选择此项 此例中不选择这一项 4 单击Cell按纽 打开Crosstabs CellDisplay对话框 如图所示 从对话框中指定列联表单元格中的输出内容 在Counts框中选择Observed观察值 系统默认 或Expected期望频数 在Percentages框内选择Row行百分比 Column列百分比及Total总百分比 在Residuals框中选择输出残差 其中Standardize为标准化残差 Adj standardize为修正的标准化残差 5 3多选题的统计描述 5 3 1多选题的描述指标体系 在多选题分析中比较特别的描述指标有 1 应答人数 是指选择了本项人数 2 应答人数百分比 PercentofCases 选择该项的人占总人数的比例 3 应答人次 选择本选项的人次 4 应答次数百分比 PercentofResponses 在作出的选择中 选择该项的人数占总次数的比例 5 3 2分析实例 操作步骤 AnalyzeMultipleResponseFrequencies 1 DefineSets过程该过程指定变量组成一个多重响应或多重两分数集 并应用于频数表和交叉列表 2 Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表 3 Crosstabs过程该过程提供带有另一种变量的 已定义的多重或多重两分数据集交叉表 5 4分类变量的参数估计 5 4 1二项分布的参数估计 一 二项分布 二项分布又称为贝努里 Bernoulli 分布 是一种具有广泛应用的离散型随机变量的概率分布 二项分布研究的是试验仅有两种结果的分布 这种试验称为贝努里试验 如某产品质量合格与不合格等 其定义为 设有n次试验 各次试验是相互独立的 每次试验某事件出现的概率都是p 某事件不出现的概率都是1 p 记为q 则对于某事件出现k k 0 1 2 n 次的概率分布为 二 二项分布检验 BinomialTest 当研究对象属于二项总体时 可以用二项分布来检验假设 判断所抽取的样本是否来自具有既定值的总体 其检验步骤如下 1 提出假设 2 计算统计量值和p值 3 根据p值作出统计判断 例 掷一枚球类比赛用的挑边器40次 出现A面和B面在上的次数 如表所示 试问这枚挑边器是否均匀 解 1 在SPSS中输入表中的数据 变量名为Y 选择主菜单的 Analyze NonparametricTests BinomialTest 2 显示如图所示的 BinomialTest 二项检验 主对话框 把Y选入 TestVariable 其它选项采用默认值 3 单击主对话框中的 OK 按钮 输出结果如下 从结果可以看出 p 0 017 0 05 认为该挑边器不是均匀的 第6章数据报表的呈现 6 1spss报表概述6 1 1spss中的报表功能1 base模块2 original模块3 CustomTables模块6 1 2报表的基本绘制步骤 6 2表格入门 6 2 1表格基本框架行 Row 指的是形成表格的横行元素 列 Column 指的是形成表格纵列的元素 行 列元素相交就会形成一个最简单的二维表 行 列元素不同取值的组合就确定了一个单元格 Cell 层 Layer 指的是表格中的第三个维度 6 2 3单元格的数据类型 1 分类变量 包括了名义型和有序尺度两大类 2 连续变量包括间距尺度和比率尺度两大类 1 集中趋势指标 均数 中位数 众数 最大值 最小值 2 离散趋势指标 全距 标准误 标准差 方差 3 百分位数 第5 25 75 95 99百分位数其任一指定的百分位数 4 百分比 按相应合计方向当前变量的行 列 层 表格合计百分比 5 其他 例数 有效例数 综合等 3 汇总项 6 2 4集中基本表格类型 1 叠加表 Stacking 叠加表指的是在同一张表格中对两个变量进行描述 或者说表格中有一个维度的元素是由两个以上的变量构成 2 交叉表 Crosstabulation 它的两个维度都是由两个分类变量的各类别构成 3 嵌套表 Nesting 两个变量被放置在同一个表格维度中 即该维度是由两个变量的各种类别组合而成 4 多层表 Layers 如果制定了层元素 表格就由二维扩展到三维 即多层表 5 复合表格 6 3用OriginalTables模块制表 6 3 1功能简介 1 MultipleResponseSets 2 BasicTables 3 GeneralTables 4 MultipleResponseTables 5 TablesofFrequencies 6 3 2BasicTables过程 例2 请将数据文件Cars sav中的汽车数据分为不同的产地和气缸数计算其引擎功率 引擎重量的频数和均数 用适当的报表形式给出 并要求给出类别合计 1 表格框架的设定 2 统计量的添加与格式的设置 3 添加汇总项 4 空单元格的设置 5 添加标题与说明文字 6 标签排列格式的调整 7 最终完成表格绘制 6 3 3GeneralTables过程 1 表格框架的设定 2 添加汇总项 6 4用CustomTables模块自由制作 6 4 1操作主界面 6 4 2简单实例分析 1 表格框架的绘制 选中左侧列表中变量的图标 按下左键不放 移动鼠标 此时鼠标携带着变量图标一起移动 将其拖入画布内 当鼠标接近行 列边框时 相应地边框会变红 表明该变量已经找到位置 2 连续变量统计量的设置 1 选中画布上的Horsepower图标 此时界面左下方Define框组中的SummaryStatistics浮动钮已经可以用 单击该钮后即弹出连续变量汇总统计量设定的对话框图 2 如果计算某一个统计量 使用连接两框的统计按钮将其移入右侧 例如如果希望先计算频数 则在用最右侧的上下移动钮将其移动到均数上方即可 3 分类变量汇总项的设置 选择分类变量Cylinder 则Define框组中的该浮动按钮可用 单击后弹出如下界面 TotalsandSubtotalsAppear框组 用于设定汇总和子项汇总的标签是在左上部显示还是在右下部显示 Show框组 用于设定某项是否显示 Ttotal选项用于要求计算汇总栏 Missing选项要求将用户定义的的缺失值按缺失值处理方式处理 该选择不影响系统缺失 Empty选项用于控制是否在表格中输出无案例的类别 而最右侧的Other选项则控制是否显示未提供值标签的类别 Exclude框 用于指定部显示某些类别 Display框组 直观的显示该分类变量各类的显示方式 顺序 汇总等 4 显示标签的调整 将表格画布切换为正常视图 然后在Cylingder的变量名标签出单击右键 则弹出相应的右键菜单 6 4 3其他选项卡功能 1 TestStatistics功能 2 Titles选项卡 3 Options选项卡 6 5表格的编辑 6 5 1基本编辑操作1 两种不同的编辑窗口 1 嵌套窗口编辑模式选中相应表格使用右键菜单上的SPSSPivottableObjectEdit 或者双击鼠标左键 2 单独窗口编辑模式选中相应表格使用右键菜单上的SPSSPivottableObjectOpe 2 表格元素的选择方式 3 单元格内容编辑 6 5 2主要编辑菜单功能介绍 1 Edit菜单 2 format菜单 对单元
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!