统计学基础知识培训.ppt

资源描述

统计学基础知识培训 2007年5月根据测量尺度数据的分类 1999年某公司员工情况明细表数据的分类根据数据测量的尺度分为定类数据定序数据定距数据定比数据根据描述对象与时间的关系分为截面数据和时间序列数据根据统计数据的收集方法分为观测数据和实验数据 4 你想要干什么一归纳描述或者显示数据二观察变量和数据的分布三比较组间数据的不同四变量之间显著性关系的测度五相似数据分组的测度六相似变量的压缩测度结束你要归纳整理的是什么类型的数据 1 已分类数据定类定序 2 连续数值型数据定距定比返回你想如何归纳整理数据 1 分类计算频数和百分比2 计算两分类变量下的频数和百分比3 计算比率值比率是各不同类别数值之间的比值返回分类变量的图形及图表显示 Analyze DescriptiveStatistics Frequencies 返回两分类变量数据的图表及图形显示 Analyze DescriptiveStatistics Crosstabs 返回比率值的计算及显示 Analyze Reports Casesummaries 返回如何整理连续数值型数据 1 描述连续数值型数据的统计量及数据分组法2 图表显示返回连续数值型数据统计量及数据分组法 1 统计量度量集中趋势的统计量包括平均数几何平均度量离散趋势的统计量包括极差方差和标准差等 3 数据分组分组是根据统计分析的需要将原始数据按照某种标准划分成不同的组别形成分组数据分组后计算数据出现的频数形成频数分布表各常用统计量的计算方法平均值 mean 一组数据之和除以数据个数几何平均值用于计算比率的平均实际应用中主要用于社会经济现象的年平均增长率极差 Range 也称全距是一组数据的最大值和最小值之差方差各变量与其均值离差平方的平均数标准差 std Deviation 即是方差的平方根与方差不同的是标准差具有与变量值一样的量纲实际的意义要比方差清楚 SPSS实现 Analyze DescriptiveStatistics Descriptives 数据分组法数据分组包括单变量分组和组距分组两种单变量适合离散变量分组一般数据都使用组距分组数据分组的步骤 1 确定组数可以按斯特奇斯 Sturges 提出的经验公式来确定组数K K 1 lgn lg2 n为数据的个数对结果四舍五入即为组数 2 确定各组的组距组距是上限与下限的差组距最大值最小值组数 3 根据分组整理成频数分布表分组需要不重不漏因此习惯上规定上组限不在内若有的值过大可以设置开口组等距分组由于各组的组距相等各组频数分布不受组距大小的影响可以从频数分布中直接观察频数分布的特征和规律而不等距分组就必须计算频数密度频数密度频数组距频数密度才能准确反映频数分布的实际情况返回连续数值型数据的显示方法分组数据的图形显示直方图这是406例汽车的马力的直方图 50 100 150 200 汽车马力 0 20 40 60 频数未分组数据的显示方法箱线图箱线图是由一组数据的5个特征值绘制而成的它由一个箱子和两条线段组成 5个特征值为最大值最小值中位数和两个四分位下面是406例产地为美国欧洲和日本三个地区的汽车马力值的箱线图欧洲箱线图有两个离群点连续数值型数据的显示方法返回你有何种数据 1 分类数据定类定序 2 连续数值型数据定距定比返回分类数据分布的统计量指标 1 集中趋势计算众数中位数众数是一组数据中出现次数最多的变量值中位数是一组数据排序后处于中间位置的变量值 2 离散趋势异众比率四分位差异众比率是指非众数组的频数占总频数的比率用Vr表示 Vr fi fm fi 四分位差也称内距或者四分间距计算方法 Qd QU Ql 四分位差反映的是50 数据的离散程度其数值越小说明中间数据越集中反之越分散 3 频数分布和百分比返回连续数值型数据分布的统计量指标 1 集中趋势平均值加权平均值算术平均值简单均值就是一组数据值之和除以其数据个数加权平均的均值与其各个数值的个数有关几何平均是适用于特殊数据的一种平均数只要用于比率的平均 2 离散趋势极差全距方差标准差极差也称全距为一组数最大值减去最小值得到方差是各变量值与其均值离差平方的平均数它是测度数值型数据离散程度的最主要的方法计算方法 s2 xi x平均 n 1 实际分析问题时我们常用标准差标准差为方差开根号 3 数据偏态与峰态的测度偏态及其测度计算公式SK n xi x平均值 3 n 1 n 2 s3 如果数据分布是对称的则偏态系数为0 如果偏态系数明显不等于0 表明分布是非对称的当SK为正值时可以判断为右偏当SK为负值时为左偏 SK越大说明偏斜的程度就越大峰态及其测度计算方法 K n n 1 xi x平均值 4 3 xi x平均值 2 2 n 1 n 1 n 2 n 3 s4 标准正态分布的峰态为0 当K 0时为尖峰分布当K 0时为扁平分布与数据分布相关的测度量总结常见的数据分布正态分布在社会经济问题中有许多随机变量的概率分布服从正态分布如身高体重等正态分布记作X N 为随机变量X的均值为随机变量X的标准差决定了正态分布图形的中心位置决定了图形中峰的陡峭程度当较大图形较缓当较小图形趋于陡峭所有的正态分布均能通过Z X 化成标准正态分布X N 0 1 均数为0 方差为1 随机变量X处在一个正负一个之内的概率为68 26 2个之内的概率为95 45 3个之内的概率为99 73 返回你要比较什么类型的数据 1 分类数据定比定序 2 已分组的连续数值型数据定距定比返回应用列联分析解决分类数据的组间比较频数分布表每次只能描述一个变量的情况而列联表是由两个以上的变量进行交叉分类的频数分布表是反映两个或多个变量联合分布的表格可用于各组比例值是否一在列联表中可以计算以列合计为基数的列百分比或以行合计为基数的行百分比卡方统计量提供对列联表中观察到的联系的统计显著性检验拟合优度和变量联系通过系数列联系数 Cramer sV和系数测量变量关系强度的指标 Analyze Descritives Crosstabs 举例说明某公司为了提高市场占有率某行业有两个主要的竞争对手 A和B公司同时开展了广告宣传在广告宣传之前 A公司的市场占有率为45 B公司市场占有率为40 其它公司为15 广告战后随机抽取了200名消费者其中102人准备买A公司产品 82人买B公司产品另外有16人准备买其它公司产品问以广告战前后各公司市场占有率是否发生了变化检验观察值和期望值的拟合优度计算卡方值为8 18 而显著性0 05 自由度为2时的卡方值5 99 因此说明占有率发生了显著的变化举例说明列联表格的卡方检验还用于判断两个分类变量之间是否存在联系的问题中一种原料来自不同的地区原材料质量被分为三个不同的等级从这批原料中随机抽取500件进行检验结果如下表计算卡方值为19 82大于显著性为0 05 自由度为4的的卡方值为9 488 所以地区和原材料等级之间存在依赖关系原材料的质量受地区影响存在关系的假设成立可以计算系数列联系数Cramer sV和系数测量变量关系强度的指标返回你想要比较多少组数据或多少个变量 1 一组数据或变量与一个已知数值进行比较2 两组数据或变量3 三组或者三个以上变量返回应用单样本T检验检验一组数据或变量与一已知数值是否相等工作中经常碰到根据已有的知识或者给定的标准对单个变量做出结论比如新产品的份额是否超过了15 等这样的问题就可以转化为通过单样本T检验进行检验的零假设单样本T检验检验的是抽样总体均值是否与给定假设一致根据样本计算得出的T统计量值与给定的0 05显著性水平下的临界值进行比较从而得出结论 SPSS实现 Analyze CompareMeans OneSampleTTest 返回你的数据是如何组织起来的 1 分成两不相关组的一个连续数值型变量2 具有相关关系的两连续数值型变量返回你想要进行何种独立的样本检验步骤 1 首先检测变量是否服从正态分布方法为通过Graphs Interactive Histogram 直方图进行观察2 如果变量服从正态分布那么应用独立样本T检验进行两样本均数的比较 Analyze CompareMeans IndependentSamplesTTest3 如果变量不服从正态分布那么应用非参数双独立样本检验进行两独立样本所在总体分布是否相同的检验 Analyze NonparametricTests 2IndependentSamples 返回你想要何种配对样本的检验步骤 1 同样通过直方图观察变量是否服从正态分布 2 如果服从正态分布那么应用配对样本的T检验进行配对设计的差值均数与总体均数0进行比较 Analyze CompareMeans PairedSamplesTTest 3 如果不服从正态分布那么应用双相关样本检验 Analyze NonparametricTests 2RelatedSamples 返回方差分析 ANOVA 前面介绍的方法均为一个因素水平下两组数据的比较方法当一个因素水平下有三个或者三个以上的组别时就需要用到方差分析方差分析适用于两组或者两组以上均值差异的检验方差分析必须有一个定量定距或定比尺度的因变量以及一个或者多个自变量定类定类自变量称为因子一个因子成为单因子方差分析若有n个自变量成为n因子方差分析其原理为通过对数据误差来源的分析来判断不同总体的均值是否相同方差分析的3个基本假定 1 每个总体都应该服从正态分布 2 各个总体的方差 2 3 观测值是相互独立的 SPSS实现 Analyze CompareMeans One WayANOVA 举例说明下表为一年内四个行业抽取的样本企业投诉次数表问这几个行业之间的服务质量是否有显著性差异下表为方差分析的结果表从F统计量值为3 4066大于给定0 05水平下的F分布的临界值3 1273 应该拒绝原假设说明各个行业的投诉之间的差异是显著的返回你有什么样的数据 1 分类数据定类定序 2 定序等级顺序或者非参数连续性数据3 连续数值型数据定距定比返回分类数据定类定序应用前面讲过的列联分析卡方对独立性进行检验进而计算通过系数列联系数 Cramer sV和系数测量变量关系强度的指标返回定序等级顺序或者非参数连续性数据计算Spearman相关系数和Kendall stau b相关系数看两变量的关系的密切程度计算排序的相关系数又称秩相关或者等级相关记作r 当 r 0 3 视为不相关当0 3 r 0 5 视为低度相关 0 5 r 0 8 视为中度相关 r 0 8 视为高度相关 SPSS实现 Analyze Correlate Bivariate选Spearman相关系数和Kendall stau b相关系数返回连续数值型数据定距定比 1 两变量计算Pearson相关系数来度量两变量关系的密切程度记作r 当 r 0 3 视为不相关当0 3 r 0 5 视为低度相关 0 5 r 0 8 视为中度相关 r 0 8 视为高度相关 SPSS实现Analyze Correlate Bivariate选择Pearson项 2 控制了一个或者两个的其他其变量的影响之后两变量的相关为偏相关也记作r Spss实现Analyze Correlate Partial选择要分析的两变量进入要分析的变量框选择要控制的变量进入要控制的变量框测度变量的因果关系回归分析前面介绍的数值型变量的相关系数或者偏相关系数主要了解两变量关系的密切程度而回归分析主要度量一个因变量与一个两个或两个以上的自变量的数量伴随关系是测度因变量和自变量的因果关系的方法回归分为线性回归和曲线回归以一元线性回归为例其回归方程形式为y ax b 回归直线的拟和优度的测度应用的是判定系数判定系数说明了因变量的数据变动中有多少是由自变量的的变动所决定的而估计标准误用于测度各实际观测点在直线周围的分散程度其越小说明回归直线对各观测点代表性好反之则代表性差另外还用F检验检验线性关系的显著性应用T检验检验回归系数的显著性检验检验自变量对因变量的影响是否显著 SPSS实现 Analyze Regression Linear 返回你有什么类型的数据 1 连续数值型数据定距定比 2 分类数据定类定序返回你想要判别分组还是判别已知组的特征 1 判别分组应用聚类分析聚类分析是一组将研究对象分成相对同质的群组的统计分析技术不区分自变量和因变量聚类分析的主要目的是根据聚类变量将对象分成相对同质的群组某一组的内部成员更加相似与其它组的成员不同当数据量小于200时应用系统聚类分析将数据分组 Analyze Classify HierarchicalCluster 当大于200个数据时应用K均数聚类法又称快速聚类法 Analyze Classify K meansCluster 已知分组的判别 2 判别已知组的特征应用判别分析判别分析是一种数据分析技术适用于标准变量或因变量为定类数据预测变量或者自变量为定距或者定比数据的情况就像医生看病的判断过程一样有各种各样的病症的症状检测结果值分类储存在脑子里医生根据现在来的病人的症状检测结果等判断病人得的是什么病判别分析就是构造判别函数然后判别新调查对象的组别 SPSS实现 Analyze classify Discriminant 返回分类数据的数据分组分类数据不可进行数据聚类分析 SPSS也未提供此项功能返回你有什么类型的数据 1 连续数值型数据定距定比 2 分类数据定类定序返回应用因子分析对变量进行压缩因子分析是一组主要用于数据提炼与概括地分析方法的总称在各种数据分析中可能涉及大量的变量其中大部分变量是相关的需要将变量的数目缩减到合适的水平以便进一步分析大量相互关联的变量之间的关系可以用几个潜在的因子表示比如在测量店面形象时可以让调查对象对商店的一系列指标打分然后用因子分析确定构成商店形象的主要因子方差分析回归分析和判别分析中需要确定一个因变量或者标准变量而将其它的变量作为自变量或者预测变量因子分析并不进行这样的区别它是全面考察全体变量之间的相互依赖关系的方法这与聚类分析相似常用于 1 识别解释一组变量之间相关关系的潜在维度或因子 2 用一组较少的相互独立的因子代替原始变量用于进一步的多元分析回归分析或者判别分析等 3 从一大组变量中找出数量较少的一组主要变量用于进一步的多元分析 Analyze DataReduction Factor 返回对于分类数据变量的压缩因子分析需要连续数值型变量分类变量不能进行因子分析返回谢谢

展开阅读全文

统计学基础知识培训.ppt

最新文档