描述性统计分析课件

上传人:无*** 文档编号:165189200 上传时间:2022-10-26 格式:PPT 页数:48 大小:742KB
返回 下载 相关 举报
描述性统计分析课件_第1页
第1页 / 共48页
描述性统计分析课件_第2页
第2页 / 共48页
描述性统计分析课件_第3页
第3页 / 共48页
点击查看更多>>
资源描述
L/O/G/O2012年3月20日 数据分析数据分析描述统计描述统计x前言前言 在做数据分析的时候,一般首先要对数据进行描述性统计分析,以便于描述测量样本的各种特征及其所代表的总体的特征以及发现其数据的内在规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布、以及一些基本的统计图形。目录目录 集中趋势 离散趋势 探索分析集中趋势集中趋势 定义 在统计学中是指一组数据向某一中心值靠拢的程度,它反映了一组数据中心点的位置所在。度量方法 集中趋势的度量包括了均值(mean),中位数(median),众数(mode)。均值、中位数、众数用那一个去度量平均水平呢?以及为什么?均值、中位数、众数的渊源均值、中位数、众数的渊源u定义均值均值:表示一系列数据或统计总体的平均特表示一系列数据或统计总体的平均特征的值征的值中位数中位数:将总体单位的某一数量标志的各个数值按照大小顺序排列,居于中间位置的那个数值就是中位数。众数众数:众数是指变量数列中出现次数最多或频率最大的变量值。均值比中位数、众数对数据的概括能力要强。相对于中位数和众数而言均值对数据的灵敏度较大。均值比中位数、众数偏于计算和分析。均值的抗耐性较差,极容易受个别和少数极端值的影响。均值适用范围比中位数、众数窄。2.众数、中位数、算术平均数数值关系众数、中位数、算术平均数数值关系(一)对称分布情况下(一)对称分布情况下(二)偏态分布情况下(二)偏态分布情况下数据类型与集中趋势测度值数据类型与集中趋势测度值为该数据类型最适合用的测度值.均值、中位数、众数的代表性衡量及使用均值、中位数、众数的代表性衡量及使用前面我们知道均值、中位数、众数的定义不同,特点和适用范围不同,在衡量这些平均指标的代表性时要根据不同的情况加以具体分析。1.对于不同的总体在平均指标相等的情况下,我们一般用总体的标准差这个指标来衡量这些平均指标的代表性大小,一般来说,标准差较大的总体其平均指标的代表性较小。2.对于不同的总体在其平均指标不相等的情况下,我们一般用离散系数来衡量这些平均指标的代表性,一般来说,这时离散系数较小的总体其平均指标的代表性较大。3.对于同一总体中算术平均数、中位数、众数的代表性高低的衡量。由于这些起代表意义的平均指标本身所具有的特点不同,应用范围不同,在描述和反映不同现象时的代表性也不同,只有根据它们的不同特点,正确恰当地根据不同的情况选择不同的平均指标,才能够提高这些平均指标的代表性,更客观、准确地反映和描述事物现象的本质特征。例子例子 找一个能够代表二次装修年限的代表性指标,均值、中位数、众数,哪一个更合理?作业3.savStatistics两次装修间隔时间NValid2,700Missing0Mean6.70Std.Error of Mean0.064Median6.00Mode10Std.Deviation3.337数据的均值是6.70,中位数是6.众数是10。如果一只脚放在摄氏如果一只脚放在摄氏1 1度的度的水里,另一只脚放在摄氏水里,另一只脚放在摄氏7979度的水里,平均水温度的水里,平均水温4040度。度。你感觉舒服极了!?你感觉舒服极了!?这只是一个笑话。说明了只了解数据的集中趋势是不够的。还需要看数据的离散程度。离散趋势离散趋势 1.离散趋势的各测度值是对数据离散程度所做的描述2.反映各变量值远离其中心值的程度,因此也称为离中趋势3.从另一个侧面说明了集中趋势测度值的代表程度。离散趋势离散趋势测度指标测度指标 1、全距 2、四分位差 3、平均差 4、标准差 5、方差 6、离散系数四分位差是四分位数中间两个分位之差。平均差是总体各单位标志值对其算术平数的离差绝对值的算术平均数。总体各单位标志值对其算术平均数离差平方的算术平均数的平方根又称均方差或均方根差标准差的平方即为方差一组变量值的最大值与最小值之差变异系数变异系数 定义:标准差与平均数的比值称为变异系数,是衡量资料中各观测值变异程度的另一个统计量。记为C.V。作用:反映单位均值上的离散程度,常用在两个总体均值不等的离散程度的比较上。若两个总体的均值相等,则比较标准差系数与比较标准差是等价的。变异系数又称离散系数。标准差解决了单位相同、平均数相同的数据离散程度,那么不满足这两点数据的离散度比较还能用标准差吗?标准差与标准误的区别标准差与标准误的区别标准差标准差u定义定义:总体各单位标志值对其算术平均数离差平方的算术平均数的平方根,又称均方差或均方根差。u计算公式:标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的,标准差未必相同。标准误标准误u定义:标准误差定义为各测量值误差的平标准误差定义为各测量值误差的平方和的平均值的平方根,故又称为均方误方和的平均值的平方根,故又称为均方误差差。u计算公式:为了描述由抽样所致的样本指标(均数或率)的离散程度。需要计算统计量的变异指标,称样本统计量的标准差为标准误。标准误的意义:反映样本统计量的离散程度,也反映抽样误差的大小。标准误越小,抽样误差越小,用样本均数估计总体均数的可靠性大。LOGO标准差和标准误的区别标准差衡量的是标准差衡量的是样本数据的离散样本数据的离散程度程度.标准差主要有两标准差主要有两点作用点作用:对样本对样本进行标准化处理进行标准化处理和确定异常值和确定异常值标准误是样本均值的标准误是样本均值的标准,标准,表示的是抽样的误差。标准误的作用主要是标准误的作用主要是用来做区间估计,常用来做区间估计,常用的估计区间是均值用的估计区间是均值加减加减n倍的标准误。倍的标准误。标准差标准误95%的参考值范围的参考值范围 参考值的概念 参考值的计算 参考值与置信区间的区别参考值的概念参考值的概念 医学参考值医学参考值是指包括大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。习惯上取该人群的95%的个体某项医学指标的界值。取单侧还是双侧根据指标的实际情况而定。例如人体血压,过高过低都为异常。参考值范围需要确定上下限。若指标仅过高和过低为异常,则取单侧。过低异常,则取下限;过高异常则单侧去上限。参考值的计算参考值的计算计算数据的95%参考值有两种方法:数据服从正态分布时可以从正态分布原理求出;数据非正态分布时否则就应当用百分数法求出。可信区间与参考值范围的区别可信区间与参考值范围的区别 1.从意义来看 95参考值范围是指同质总体内包括95个体值的估计范围,而总体均数95可信区间是指按95可信度估计的总体均数的所在范围。2.从计算公式看 若指标服从正态分布,95参考值范围的公式是:1.96s。总体均数95可信区间的公式是:。前者用标准差,后者用标准误。前者用1.96,后者用为0.05,自由度为v的t界值。可信区间的解释可信区间的解释从总体中做随即抽样,对于含量为n的每个样本而言。都可以算得一个区间。以95%的可信区间为例:理解1 意味着同一总体中做100次重复抽样,可得到100个可信区间,平均有95个可信区间包含总体均数。只有5个可信区间不包含总体均数。理解2 对于某一区间而言,它包含总体均数的可能性为95%,而不包含总体均数犯错误的概率仅为5%。例子 作业5.sav分别求两组数据95%的参考值范围和可信区间。对于第一组数据,因近似呈正态分布,所以95%的参考值为:(3.01,6.39)对于第二组数据,峰度和偏度不为0,即数据不服从正态分布,直接取2.5%和97.5%:即(63.40,97.02)第一组数据的置信区间为:(4.53,4.87)第二组数据的置信区间为(87.11,88.65)异常值的检验与处理异常值的检验与处理当一组数据对称分布时,经验法则表明:约有68%的数据在平均数加减1个标准差的范围之内;约有95%的数据在平均数加减2个标准差的范围之内;约有99%的数据在平均数加减3个标准差的范围之内。当一组数据不再是对称分布时,切比雪夫不等式表明:至少有75%的数据落在平均数加减2个标准差的范围以内;至少有89%的数据落在平均数加减3个标准差的范围以内;至少有94%的数据落在平均数加减4个标准差的范围以内。什么样的数值是异常值呢?1.异常值的定义异常值的定义 定义:一组测定值中与平均值的偏差超过两倍标准差的测定值。与平均值的偏差超过三倍标准差的测定值,称为高度异常的异常值。2.异常值的危害异常值的危害 异常值的存在对分析结果(均值和标准差)产生重要的影响,异常值的检验与正确处理是保证原始数据可靠性、平均值和标准差计算的准确性的前提。异常值的检验异常值的检验方法一:方法一:异常值的检验异常值的检验方案二:方案二:用SPSS绘制一组数据的箱线图。异常值:值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案。极端值:值距离框的上下边界超过3倍框的长度的个案。在箱线图里面异常值用“o”表述。极端值用“*”表示最小值四分之一分位数中位数四分之三分位数最大值异常值的检验异常值的检验方法三:方法三:计算统计量 (X1+X2+Xn)/n s=(Xi-)/(n-1)½(i=1,2n)Gn=(X(n)-)/s 注:式中样本平均值;s样本标准差;Gn格拉布斯检验统计量。确定检出水平,查表得出对应n,的格拉布斯检验临界值G1-(n)。当GnG1-(n),则判断Xn为异常值,否则无异常值 给出剔除水平的G1-(n),当当GnG1-(n)时,Xn为高度异常值,应剔除。SPSS中异常值检验的几种方法介绍中异常值检验的几种方法介绍 离群值(箱图探索)离群值(箱图探索).值与框的上下边界的距离值与框的上下边界的距离在在1.5倍框的长度到倍框的长度到3倍框的长度之间的个案。框倍框的长度之间的个案。框的长度是内距。的长度是内距。极端值(箱图)极端值(箱图).值距离框的上下边界超过值距离框的上下边界超过3倍框倍框的长度的个案。框的长度是内距的长度的个案。框的长度是内距 在回归模型诊断里面,一般称预测值与实际值的在回归模型诊断里面,一般称预测值与实际值的偏差为偏差为残差残差,残差有几种表示方法残差有几种表示方法:标准化残差标准化残差,学生化残差等等,按照需要取一种残差,再按照学生化残差等等,按照需要取一种残差,再按照某种标准取一个阀值来限定异常点,只要那个点某种标准取一个阀值来限定异常点,只要那个点的残差大于阀值,就可以认为它是异常点。的残差大于阀值,就可以认为它是异常点。正态性检验方法正态性检验方法1.直方图2.茎叶图3.箱线图4.P-P图5.Q-Q图6 偏度、峰度检验法:7.样本的四分位差和标准差的比值8.Kolmogorov-Smirnov正态性检验9.Shapiro-Wilk(W检验)1.直方图 直方图:用矩形的宽度和高度表示频数分布的图形。图为作业3第一次评 分结果直方图数据分组频数 2.茎叶图频数树茎树叶茎叶图相当于横置的直方图,但它可以保留原始数据的信息。3.箱线图中位数与上四分位数的距离下四分位数与众位数间的距离判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布如何看数如何看数据是否服据是否服从正态分从正态分布呢?布呢?4.P-P图 理论累积概率实际值计算的累积概率实际值计算的累积概率差值解读:若数据服从正态分布,P-P图样本数据点呈对角线分布。P-P趋势图应随机分布在Y=0的两侧。5.Q-Q图 以上两种方法以Q-Q图为佳,效率较高。观察值分位数观察值分位数理论分位数观察值分位数与理论分布分位数的差值解读:若数据服从正态分布,Q-Q图样本数据点呈对角线分布。Q-Q趋势图应随机分布在Y=0的两侧。6 偏度、峰度检验法:g1表示偏度,g2表示峰度,通过计算g1和g2及其标准误g1及g2然后作U检验。两种检验同时得出U0.05的结论时,才可以认为该组资料服从正态分布7.样本的四分位差和标准差的比值样本的四分位差和标准差的比值比值=表示四分位差,S表示标准差。若数据服从正态分布,则比值接近于1.3。SQd/dQ8.Kolmogorov-Smirnov正态性正态性检验检验 定义:K-S检验是检查单一样本是否来自某一特定分布的方法。检验方法:以样本数据的累积频数与特定理论分布比较,若两者间的差距较小,则推论该样本取自某特定分布族。8.Kolmogorov-Smirnov正态性正态性检验检验 定义:K-S检验是检查单一样本是否来自某一特定分布的方法。检验方法:以样本数据的累积频数与特定理论分布比较,若两者间的差距较小,则推论该样本取自某特定分布族。假设:)()()()(0:00:0 xFxFHxFxFHnn8.Kolmogorov-Smirnov正态性检正态性检验验 表示样本的累积概率函数,表示特定分布的分布函数 构建统计量 当原假设为真时,D的值应较小;对于给定的注:对于特定的样本量及显著性水平 可以查表得到d的值。nF0F|max0FFDnaadDPp)(a9.Shapiro-Wilk(W检验检验)W检验是建立再次序统计量的基础上,将 n个独立观测值按非降次序排列,记为:检验统计量为:其中系数 在样本容量为n时有特定的值另外,系数 还具有如下性质:nxxx.,21naaa,.219.Shapiro-Wilk(W检验检验)总体分布为正态分布时,W 的值应该接近1,因此,再显著性水平 下,如果统计量W的值小于其 分位数,则拒绝原假设。即拒绝域为 其中 分位数可查表。如若在计算中有,则在显著水平为 上未落入拒绝域,即可认为该批数据服从正态分布;若在计算中有,则在显著水平为 上落入拒绝域,认为该批数据不服从正态分布。aaaWWaa例子:例子:K-S方法和S-W方法是有区别的,一般情况下,K-S方法在心理测量中经常使用,S-W方法在样本容量小于50时可以使用判别:如果P值小于 0.05,则拒绝数据正态的原假设,即数据不是正态分布。方差齐性检验方差齐性检验 定义:方差齐性实际上是指要比较的两组数据的分布是否一致,通俗的来说就是两者是否适合比较 方法:常用Levene方差齐性检验,也称为Levene检验 优点:相较其他方法用途较广泛。可以对原始数据的数据转换;Levene检验既可以用于正态分布的资料,也可以用于非正态分布的资料或分布不明的资料 用处:Levene检验主要用于检验两个或两个以上样本间的方差是否齐性.要求样本为随机样本且相互独立。方差齐性检验方差齐性检验基于均数基于中位数中位数并调整自由度删除数据极值后均数P值均小于0.05,因此数据方差不齐。说明两次评分结果不一致。方差齐性检验方差齐性检验-水平分位图水平分位图 从图上可以看出,随着中位数的上升,四分位数间距呈下降趋势。相应的斜率为-0.551。更进一步证明方差不齐。四分位数间距中位数谢谢观赏
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!