统计描述与t检验-SPSS应用课件

上传人:痛*** 文档编号:241705762 上传时间:2024-07-17 格式:PPT 页数:70 大小:1.33MB
返回 下载 相关 举报
统计描述与t检验-SPSS应用课件_第1页
第1页 / 共70页
统计描述与t检验-SPSS应用课件_第2页
第2页 / 共70页
统计描述与t检验-SPSS应用课件_第3页
第3页 / 共70页
点击查看更多>>
资源描述
描述性统计分析描述性统计分析与与t检验检验流行病与卫生流行病与卫生统计学系教研室统计学系教研室研究生:周研究生:周洋洋1A教学目的掌握各集中趋势指标与离散趋势指标的意义和掌握各集中趋势指标与离散趋势指标的意义和应用;应用;掌握在掌握在SPSS上对资料进行描述性统计分析;上对资料进行描述性统计分析;掌握在掌握在SPSS上对资料进行正态性检验和方差上对资料进行正态性检验和方差齐性检验;齐性检验;掌握掌握t检验的应用条件及常用的检验方法。检验的应用条件及常用的检验方法。2A统计描述统计描述v 统计学分析主要有两个方面,一方面统计学分析主要有两个方面,一方面是统计描述,另一方面是统计推断。统是统计描述,另一方面是统计推断。统计描述是指用统计指标和适当的统计图计描述是指用统计指标和适当的统计图表来描述资料的分布规律及其数量特征表来描述资料的分布规律及其数量特征。通过描述性统计分析可以初步掌握数据通过描述性统计分析可以初步掌握数据的基本统计学特征,为采用其他统计学的基本统计学特征,为采用其他统计学分析方法打下基础,为进一步进行统计分析方法打下基础,为进一步进行统计学分析提供依据。学分析提供依据。v统计学描述的基本方法有数据频数分布统计学描述的基本方法有数据频数分布特征描述、集中趋势值和离散趋势值的计算特征描述、集中趋势值和离散趋势值的计算等等。3A资料分类资料分类v针对不同的资料类型,采用的统计学针对不同的资料类型,采用的统计学描述方法也不同。描述方法也不同。v那么,常见的资料类型有哪些呢?那么,常见的资料类型有哪些呢?资资料料类类型型计量资料计量资料计数资料计数资料等级资料等级资料4A资料分类资料分类v计量资料:可分为连续型和离散型,是指对每个观计量资料:可分为连续型和离散型,是指对每个观察对象的观察指标用定量方法测定其数值大小所得,一察对象的观察指标用定量方法测定其数值大小所得,一般带有度量衡单位。例如:血压值、身高、体重等。般带有度量衡单位。例如:血压值、身高、体重等。v计数资料:可分为二分类和多分类,是指将观察对计数资料:可分为二分类和多分类,是指将观察对象的观察指标按性质或类别进行分组,然后计数各组的象的观察指标按性质或类别进行分组,然后计数各组的数目所得。(注意:二分类变量两个分类之间相互对立,数目所得。(注意:二分类变量两个分类之间相互对立,互不相容;而多分类变量是互不相容的几个类别。)例互不相容;而多分类变量是互不相容的几个类别。)例如:某种疾病在个体中,发病或者不发病。如:某种疾病在个体中,发病或者不发病。v等级资料:是指按照观察对象的某种属性或者特征等级资料:是指按照观察对象的某种属性或者特征进行分类,但是这些分类之间本身具有强弱、轻重、大进行分类,但是这些分类之间本身具有强弱、轻重、大小程度的区分。例如:某治疗方法疗效,可以是治愈、小程度的区分。例如:某治疗方法疗效,可以是治愈、显效、好转和无效。显效、好转和无效。5A频率分布表与频率分布图频率分布表与频率分布图频率表和频率分布图是常用的综合描述频率表和频率分布图是常用的综合描述样本资料的方式。样本资料的方式。频率分布图能够直观地以图形的方式显频率分布图能够直观地以图形的方式显示样本数据的分布情况。示样本数据的分布情况。对于计量资料,频率表可以提示资料的对于计量资料,频率表可以提示资料的分布特征,描述资料的集中趋势和离散分布特征,描述资料的集中趋势和离散趋势,便于发现特大或特小的可疑值。趋势,便于发现特大或特小的可疑值。对于计数资料,频率表可以清楚的显示对于计数资料,频率表可以清楚的显示各个分类的数量或频率各个分类的数量或频率;6A算术均数算术均数(Mean)几何均数几何均数(GeometricMean)中位数中位数(Median)众数(众数(Mode)计量资料的统计描述计量资料的统计描述集集中中趋趋势势统统计计指指标标7A极差极差(Range)四分位数间距四分位数间距(Quartilerange)方差方差(Variance)标准差标准差(StandardDeviation)变异系数变异系数(Coefficientofvariation)计量资料的统计描述计量资料的统计描述离离散散趋趋势势统统计计指指标标8Aspss操作过程操作过程在在spss中,统计学描述主要采用中,统计学描述主要采用AnalyzeDescriptiveStatistic菜菜单完成,该菜单下的子菜单对应于不同单完成,该菜单下的子菜单对应于不同的统计学描述过程。的统计学描述过程。AnalyzeDescriptiveStatisticDescriptivesExploreFrequencies9AFrequencies操作过程操作过程vFrequencies:频数表过程的主要功能是:频数表过程的主要功能是编制频数表,计算描述统计量包含的百分位数,编制频数表,计算描述统计量包含的百分位数,统计图。利用它能产生原始数据的详细频数,统计图。利用它能产生原始数据的详细频数,取值结果还能用于数据清理。取值结果还能用于数据清理。10AFrequencies操作过程操作过程实例实例1:某年抽样调查某地:某年抽样调查某地120名名18-35岁岁健康男性居民血清铁含量(健康男性居民血清铁含量(umol/L),请),请大家利用大家利用spss软件进行统计性描述。软件进行统计性描述。11AFrequencies操作过程操作过程统计量统计图输入格式可选变量表分析变量表输出频数表一种抽样填补缺失值的方法,暂时不用。12AFrequencies操作过程操作过程vStatistics:设定要分析的统计量:设定要分析的统计量百分位数百分位数集中趋势统计量集中趋势统计量离散统计量离散统计量分布参数分布参数13AFrequencies操作过程操作过程vCharts:设定要绘制的统计图:设定要绘制的统计图14AFrequencies结果结果分析分析15AFrequencies结果结果分析分析Distribution计算分布参数计算分布参数Skewness偏度系数:理论上偏度系数为偏度系数:理论上偏度系数为0时时对称分布,取正值为正偏峰,取对称分布,取正值为正偏峰,取负值为负偏峰。负值为负偏峰。Kurtosis峰度系数:正态分布峰度系数为峰度系数:正态分布峰度系数为0;取正值时分布峰尖陡峭,取负取正值时分布峰尖陡峭,取负值时峰平阔。值时峰平阔。由偏度系数与峰度系数来判断资料是否属于正态分布。大家都知道,由偏度系数与峰度系数来判断资料是否属于正态分布。大家都知道,标准正态分布曲线下标准正态分布曲线下Z值在(值在(-1.96,+1.96)之间的时候,曲线下面积)之间的时候,曲线下面积为为0.95。对于偏度系数,。对于偏度系数,Z=偏度系数偏度系数/偏态系数的标准误;峰度系数偏态系数的标准误;峰度系数Z=峰度系数峰度系数/峰度系数的标准误。由此结果得知,偏度系数峰度系数的标准误。由此结果得知,偏度系数=-0.194,偏度,偏度系数标准误系数标准误=0.221,Z=-0.194/0.221=-0.878(P=0.3788);峰度系数);峰度系数=-0.018,峰度系数标准误,峰度系数标准误=0.438,Z=-0.018/0.438=-0.041(P=0.968)。结合两个结果,可以认为该资料服从正态分布。)。结合两个结果,可以认为该资料服从正态分布。16AFrequencies结果结果分析分析Frequency:频数:频数Percent:百分比:百分比当前频数当前频数/总数(包总数(包括缺失值)括缺失值)ValidPercent:有效:有效百分比百分比当前频数当前频数/有效总数有效总数(不包括缺失值)(不包括缺失值)CumulativePercent:累积百分比:累积百分比累积频数累积频数/有效总数有效总数(不包括缺失值)(不包括缺失值)17AFrequencies结果结果分析分析18AFrequencies实战演练实战演练试分析实例试分析实例2资料中身高的频数分布情资料中身高的频数分布情况。(数据见练习况。(数据见练习1.sav)。)。19ADescriptives操作过程操作过程vDescriptives:主要用于描述统计量计算主要用于描述统计量计算和变量标准化,与和变量标准化,与Frequencies过程相比,过程相比,其统计量不能计算百分位数,也不能绘制统其统计量不能计算百分位数,也不能绘制统计图。计图。20ADescriptives操作过程操作过程实例实例1:某年抽样调查某地:某年抽样调查某地120名名18-35岁岁健康男性居民血清铁含量(健康男性居民血清铁含量(umol/L),请),请大家利用大家利用spss软件进行统计性描述。软件进行统计性描述。21ADescriptives操作过程操作过程该界面类似于该界面类似于Frequencies的界面,其中的界面,其中Savestandardizedvaluesasvariables是指将标准化得分另存为变量(是指将标准化得分另存为变量(Z)。)。22ADescriptives操作过程操作过程选项选项说明说明DisplayOrder定义频数表中定义频数表中值的排列顺序值的排列顺序Variablelist按变量表中的按变量表中的顺序输出结果,顺序输出结果,默认默认Alphabetic按字母顺序排按字母顺序排列变量的输出列变量的输出顺序顺序Ascendingmeans按均数从小到按均数从小到大排列变量的大排列变量的输出顺序输出顺序Descendingmeans按均数从大到按均数从大到小排列变量的小排列变量的输出顺序输出顺序23ADescriptives结果分析结果分析v该该资资料料一一共共120个个有有效效数数据据,无无缺缺失失值值。血血清清含含量量的的最最小小值值为为7.42,最最大大值值为为29.64,均均数数18.6136,标标准准差差4.3432,方方差差为为18.863,偏偏 度度 系系 数数=-0.194,偏偏 度度 系系 数数 标标 准准 误误=0.221,Z=-0.194/0.221=-0.878(P=0.3788);峰峰度度系系数数=-0.018,峰峰度度系系数数标标准准误误=0.438,Z=-0.018/0.438=0.041(P=0.968)。结结合合两两个结果,可以认为该资料服从正态分布。个结果,可以认为该资料服从正态分布。24ADescriptives实战演练实战演练试分析实例试分析实例2资料中身高的频数分布情资料中身高的频数分布情况。(数据见练习况。(数据见练习1.sav)。)。25AExplore操作过程操作过程vExplore:探探索索性性分分析析使使用用图图形形、描描述述统统计计量量的的方方法法来来探探索索数数据据的的分分布布特特征征,主主要要适适用用于于连连续续性性资资料料。主主要要功功能能有有:分分离离特特异异值值、离离群群值值;绘绘制制多多种种统统计计分分布布图图,观观察察其其分分布布特特征征;描描述述统统计计量量的的计计算算,包包括括文文件件统统计计量量的的估估计计;特特定定分分布布特特征征的的假假设设检验;百分位数的估算。检验;百分位数的估算。26AExplore操作过程操作过程实例实例2,对照资料中不同性别(,对照资料中不同性别(XB)的身高)的身高(SG)进行分别描述。)进行分别描述。27AExplore操作过程操作过程要进行分析的应变量:身高要进行分析的应变量:身高分类变量:性别分类变量:性别28AExplore操作过程操作过程选项选项说明说明Descriptives输出描述统计输出描述统计量,默认量,默认ConfidenceintervalforMean:95%计算均数的计算均数的95%置信区间,置信区间,默认默认M-estimators描述平均水平,描述平均水平,其意义同均数其意义同均数和中位数和中位数Outliers列出极端值,列出极端值,即最大和最小即最大和最小的各五个数据的各五个数据Percentiles输出输出5%、10%、25%、50%、75%、90%、95%的百分的百分位数位数29AExplore操作过程操作过程箱式图箱式图以分组变以分组变量绘图量绘图分析变量分析变量一起绘图一起绘图茎叶图茎叶图直方图直方图正态概率图和正态性检验正态概率图和正态性检验离散水平图,离散水平图,Levene方差齐性检验方差齐性检验不绘图不绘图幂转换幂转换不转换不转换用幂转换进行数据用幂转换进行数据转换转换30AExplore操作过程操作过程缺失值设置,一般选择默认。缺失值设置,一般选择默认。按观察个体排除缺失值按观察个体排除缺失值将缺失值单独列成一组将缺失值单独列成一组成对排除缺失值成对排除缺失值31AExplore结果分析结果分析缺失值报告:缺失值报告:本例没有缺失值,男性有效人数为本例没有缺失值,男性有效人数为29人,女性有效人人,女性有效人数为数为77人。人。32AExplore结果分析结果分析探索性分析的统计探索性分析的统计描述跟前面两种分描述跟前面两种分析的统计描述相似,析的统计描述相似,需要注意的是需要注意的是95%ConfidenceintervalforMean(LowerRound/UpperRound)指的是)指的是95%可信区间上限可信区间上限/下限;下限;5%TrimmedMean指的是指的是5%调调整均数,去掉最大整均数,去掉最大和最小各和最小各5%的数据的数据后的均数;后的均数;InterquartileRange指的是四分指的是四分位数间距。位数间距。33AExplore结果分析结果分析极端值列表:极端值列表:分别列出男性女性分别列出男性女性的最高与最低的五的最高与最低的五组数据,其中组数据,其中CaseNumber指指的是极端值所在的的是极端值所在的编码,编码,Value指的指的是具体的数值是具体的数值34AExplore结果分析结果分析上图是按性别不同对身高进行的正态性检验,给出两种方法的结果:上图是按性别不同对身高进行的正态性检验,给出两种方法的结果:Kolmogorov-Smirnov检验和检验和Shapiro-Wilk检验。其中,检验。其中,Statistic为为统计量;统计量;df为自由度为自由度;sig.为为P值。经检验,男组两组值。经检验,男组两组P值均小于值均小于0.05,所以拒绝正态分析的假设,尚不能认为男组呈正态分布。而女组所以拒绝正态分析的假设,尚不能认为男组呈正态分布。而女组Kolmogorov-Smirnov检验中检验中p值小于值小于0.05,Shapiro-Wilk检验检验p值大值大于于0.05,应该再参考别的方法判定女组是否呈正态分布。,应该再参考别的方法判定女组是否呈正态分布。35AExplore结果分析结果分析上图是对按性别不同对身高进行的方差齐性检验,采用了四种上图是对按性别不同对身高进行的方差齐性检验,采用了四种方法计算统计量:方法计算统计量:BasedonMean(基于均数的统计量)、基于均数的统计量)、BasedonMedian(基于中位数的统计量基于中位数的统计量)、BasedonMedianandwithadjusteddf(基于中位数并调整自由度的统计量基于中位数并调整自由度的统计量)、BasedontrimmedMean(基于调整均数的统计量)。基于调整均数的统计量)。Df1是分子自由度、是分子自由度、df2为分母自由度。经检验,上述四种方法的计算出的为分母自由度。经检验,上述四种方法的计算出的P值均大于值均大于0.05,不拒绝零假设,可以认为两组总体方差相同。,不拒绝零假设,可以认为两组总体方差相同。36AExplore结果分析结果分析由上直方图可以看出,男组明显不是正态分布,女组与正态分布相近。由上直方图可以看出,男组明显不是正态分布,女组与正态分布相近。37A正态性检验正态性检验图图示示法法主主要要采采用用概概率率图图(Probability-probabilityPlot,P-P图图)和和分分位位数数图图(Quantile-quantilePlot,Q-Q图图)。其其中中,P-P图图是是以以样样本本的的累累计计频频率率作作为为横横坐坐标标,以以按按照照正正态态分分布布计计算算的的相相应应累累计计概概率率作作为为纵纵坐坐标标,把把样样本本值值表表现现为为直直角角坐坐标标系系中中的的散散点点。如如果果资资料料服服从从正正态态分分布布,则则样样本本点点应应该该围围绕绕第第一一象象限限的的对对角角线线分分布布。Q-Q图图则则是是以以样样本本的的分分位位数数作作为为横横坐坐标标,以以按按照照正正态态分分布布计计算算的的相相应应分分位位数数作作为为纵纵坐坐标标,把把样样本本表表现现为为直直角角坐坐标标系系的的散散点点。如如果果资资料料服服从从正正态态分分布布,则则样样本本点点应应该该呈呈一一条条围围绕绕第第一一象象限限对对角角线的直线。这两种方法中,以线的直线。这两种方法中,以Q-Q图法的效率较高。图法的效率较高。38A图中的直线是正态分布的标准参考线,散点越接近这图中的直线是正态分布的标准参考线,散点越接近这条直线,则该变量的分布越接近正态分布。本例中可以看条直线,则该变量的分布越接近正态分布。本例中可以看出女生的散点更接近标准参考线,说明女性更接近于正态出女生的散点更接近标准参考线,说明女性更接近于正态分布。分布。39AExplore结果分析结果分析茎茎叶叶图图40AExplore结果分析结果分析茎叶图结果分析:茎叶图结果分析:两茎叶图的茎宽(两茎叶图的茎宽(StemWidth)是)是10,茎叶图从左至右分别为频数(茎叶图从左至右分别为频数(Frequency)、)、茎(茎(Stem)及叶()及叶(Leaf):茎表示变量值的整茎表示变量值的整数部分,叶表示变量值的小数部分,每行的茎数部分,叶表示变量值的小数部分,每行的茎和每一个叶组成的数值相加后再乘以茎宽,就和每一个叶组成的数值相加后再乘以茎宽,就是茎叶所表示的实际数据的近似值。是茎叶所表示的实际数据的近似值。例如:性别为例如:性别为1的第三行,在这个变量的第三行,在这个变量值下频数为值下频数为4,茎为,茎为11,这行叶的组成是,这行叶的组成是6789,它表示在这一行的六个变量值大约是,它表示在这一行的六个变量值大约是116,117,118,119.41AExplore结果分析结果分析42AExplore结果分析结果分析箱式图结果分析:箱式图结果分析:男女生箱式图中中间长方形的底部与顶部分男女生箱式图中中间长方形的底部与顶部分别表示下四分位数(别表示下四分位数(p25)和上四分位数)和上四分位数(p75),中间的横线代表它们各自的中位数,),中间的横线代表它们各自的中位数,箱式图的上下柄分别代表最大值跟最小值。箱式图的上下柄分别代表最大值跟最小值。由上图结果可以看出,女生组的最大值、上由上图结果可以看出,女生组的最大值、上四分位数和下四分位数分别大于男生组,而中位四分位数和下四分位数分别大于男生组,而中位数与最小值均小于男生组。数与最小值均小于男生组。43A对练习实例对练习实例3中危重病人的中危重病人的APACHE评评分及其预后情况进行探索性分析,了分及其预后情况进行探索性分析,了解不同预后情况的解不同预后情况的APACHE评分情况。评分情况。(数据见练习(数据见练习.sav)。)。Explore实战演练实战演练44A(1)随机样本;随机样本;(2)来自正态分布总体;)来自正态分布总体;(3)两小样本均数比较时,要求两总体方)两小样本均数比较时,要求两总体方差相等(方差齐性)差相等(方差齐性)t检验应用条件检验应用条件45A几种不同资料几种不同资料的的t检验检验v1.单样本单样本t检验检验v2.配对样本配对样本t检验检验v3.两独立样本两独立样本t检验检验46A单样本单样本t检验检验目的目的:推断该样本来自的总体均数与已知的某一总体均数有推断该样本来自的总体均数与已知的某一总体均数有无差别。无差别。单样本资料单样本资料t t检验实例检验实例:根据大量调查,已知健康成年男子脉搏的根据大量调查,已知健康成年男子脉搏的均数为均数为7272次次/分,某医生在山区随机调查了分,某医生在山区随机调查了2525名健康成年男子,其名健康成年男子,其脉搏数分别为脉搏数分别为:7373,7676,7171,6464,6868,6969,6666,7373,7272,7171,7070,7070,7272,6666,69,67,67,70,72,71,73,74,73,72,7669,67,67,70,72,71,73,74,73,72,76问该山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数问该山区成年男子的脉搏均数是否高于一般成年男子的脉搏均数?47A单样本单样本t检验检验1.建立检验假设,确定检验水准建立检验假设,确定检验水准H0:=0,即该山区成年男子的脉搏总体均数即该山区成年男子的脉搏总体均数与一般成年男子脉搏总体均数与一般成年男子脉搏总体均数0相等;相等;H1:0(包括(包括0与与0与与d2与与10.05,可认为方差齐。本例中,两组膳食分组可认为方差齐。本例中,两组膳食分组的总体方差齐,应该看相应这一行的结果,的总体方差齐,应该看相应这一行的结果,t=1.973,df=17,P=0.065,差异没有显著性,尚不能认为差异没有显著性,尚不能认为高蛋白组与低蛋白组小白鼠间体重增加量有差别。高蛋白组与低蛋白组小白鼠间体重增加量有差别。Equalvariancesnotassumed即方差不齐条件下的即方差不齐条件下的t检检验,也就是验,也就是Satterthwaite近似近似t检验。结果还给出了两检验。结果还给出了两组均数的差值(组均数的差值(MeanDifference)、两组均数差值的标、两组均数差值的标准误(准误(Std.ErrorDifference)及及95%的置信区间(的置信区间(95%ConfidenceIntervaloftheDifference)69A今天的课到此结束,谢谢大家!今天的课到此结束,谢谢大家!70A
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!