统计描述和t检验

上传人:豆浆 文档编号:240721737 上传时间:2024-05-03 格式:PPT 页数:68 大小:689.50KB
返回 下载 相关 举报
统计描述和t检验_第1页
第1页 / 共68页
统计描述和t检验_第2页
第2页 / 共68页
统计描述和t检验_第3页
第3页 / 共68页
点击查看更多>>
资源描述
统计描述和统计描述和t t检验检验统计描述中可用的工具统计描述中可用的工具各种初步汇总描述方法分组汇总,最终汇总成相应的分组频数表,可以反应出数据的大致趋势多个百分位数组合起来,也能反应数据的分布特征对信息的利用仍然比较粗糙各种统计描述指标实际上是更复杂的各种描述工具的基础,是针对数据的某种特征进行精确的数字呈现的一系列指标对于样本而言,这些统计描述指标也可被称为统计量均数、标准差、四分位间距,比、率等2统计描述中可用的工具统计描述中可用的工具统计表当数据比较复杂,所计算的统计指标较多时,直接观察所计算出的数值比较麻烦,为此人们又会按照一定的排列方式将统计指标组织为一张表格,以方便使用。统计图统计表虽然能做到非常精确,但是不够直观,如果希望结果更为直观一些,则可以按照统计指标的大小将其绘制为一张图形,这就是所谓的统计图。3统计描述的模块统计描述的模块SPSS中所有专业的制表过程都能够完成统计描述的任务Reports菜单项:主要输出文本化报表Tables菜单项:输出标准的SPSS结果表格Multiple Response菜单:专门用于多选题数据描述但Descriptive菜单项中提供的是最基本的统计描述过程4统计描述的模块统计描述的模块Frequencies过程计算各种常用的描述指标特色是产生频数表对分类资料和定量资料都适用Descriptive 过程一般性的统计描述适用于服从正态分布的定量资料5统计描述的模块统计描述的模块Explore 过程用于对数据分布状况不清时的探索性分析功能极为强大Crosstabs过程完成分类资料和等级资料的统计描述完成分类资料各种各样“常规”的统计检验Ratio过程用于两个连续变量计算相对比指标,很少用PP图和QQ图6分类变量的统计描述分类变量的统计描述分类变量的常用描述指标分类变量的常用描述指标基本的描述方式原始数据:频数列表百分比累计频数累计百分比集中趋势众数8分类变量的常用描述指标分类变量的常用描述指标比:任意两个变量之比,这两个变量可以是性质相同的两个指标,如两个地区相同时期内某病新发病例数之比;也可以是性质不相同的两个指标之比 性别比,货物/销售人员比构成比:部分占总体的比例,分观察对象为k个部分(A1、Ak),其中某一个部分观察对象数与观察对象总数之比为构成比率:某个时期内某个事件发生的频率或强度,实际上有速度的概念在里面,可以和物理中速率的定义相对照9分类变量的联合描述分类变量的联合描述列联表常见的是二维,但三维及更高维列联表的使用原理是完全相同的频数行、列、总百分比行、列、总合计10多选题的描述多选题的描述对多选题进行分析时所遇到的最大困难就是各选项间存在着关联,将它们单独进行分析并不恰当。单独分析的结果仅反映选项自身情况,不能完全代表整个题目的情况因此在描述时就需要采用基于频次的百分比等一些特殊指标11常用分析指标常用分析指标应答人数与应答人次Case&Response应答人数百分比(Percent of Cases)选择该项的人占总人数的比例用于反映选项自身被选择的情况应答次数百分比Percent of Responses选择该项的次数占总次数(总反应数)的比例用于选项间受欢迎程度的比较12统计描述的统计描述的SPSS实现实现Frequencies过程专门为产生频数表而设计,默认选项即可给出需要的结果Crosstabs过程生成二、三维交叉表默认只输出频数,计算百分比需要更改选项Multiple Response菜单专门为多选题数据的描述而设计输出格式较为简单,但使用方便Tables模块为制表提供了全面的支持仍然只涉及数据描述13连续变量的统计描述连续变量的统计描述频数表频数表Frequency是一种非常直观的方法,但比较粗糙,如果希望进行深入的分析,则必须要使用一些严谨的统计指标对各方面特征加以描述操作步骤:确定组数;确定组距;确定各组段的上下限 各步骤的操作都存在着一些主观性,但因为只是进行初步的观察,这并无大碍15观察到的信息观察到的信息集中趋势离散趋势分布形状(是否对称,分布曲线的形状)分布特征(单、双峰,有无极端值等)16集中趋势集中趋势Centraltendency均数mean描述一组数据在数量上的平均水平,总体均数和样本均数用不同符号表示适用范围:对称分布,特别是正态分布资料几何均数G针对正偏态资料集中趋势的描述而提出适用范围:对数正态分布资料,但往往被进一步扩大到等比资料17集中趋势集中趋势Centraltendency中位数median 适用范围:万金油和均数相比较为迟钝,只有样本量较为充足时结果才稳定下来 众数mode所有数值中出现次数最多的一个适用范围:国外18离散趋势离散趋势Dispersiontendency全距Range适用范围最广,但是也最不稳定方差Variance离均差描述个体变异离均差和直接相加必然为0离均差绝对值之和数学推导困难离均差平方和19离散趋势离散趋势Dispersiontendency标准差 std.deviation解决了阅读时量纲的问题变异系数(coefficient of variation)解决了不同资料间变异程度对比的问题测量尺度相差太大:比较蚂蚁和大象的体重变异量纲不同:比较身高和体重的变异程度20百分位数百分位数一般的教科书上传统将其列为集中趋势的描述指标,但实际上不仅限于此,单独列为一类可能更为妥当适用于各种分布P2.5 P5 P10 P25 P50 P75 P90 P95 P97.5使用条件:只有样本量较大时结果才比较稳定,对位于两端的百分位数而言更是如此100例时,P95右侧只有5例!21百分位数百分位数四分位数实际上是P25、P50和P75分位数的总称,他们正好能够将全部总体单位按标志值的大小等分为四部分的三个数值上(P75)、下(P25)四分位数的差值被称为四分位间距22其他描述指标其他描述指标分布形状描述指标Distribution针对某种分布进行进一步的特征描述,主要是用于正态分布偏度系数Skewness 正态峰 正偏态 负偏态峰度系数Kurtosis 正态峰 平阔峰 尖峭峰离群值与极端值列表23Frequencies过程过程Statistics 子对话框Percentile Values组:输出的百分位数四分位数(Quartiles)、每隔指定百分位输出当前百分位数(Cut points for equal groups)、或直接指定某个百分位数(Percentiles)Central tendency组:描述集中趋势均数(Mean)中位数(Median)众数(Mode)总和(Sum)。24Frequencies过程过程Statistics 子对话框Dispersion复选框组:描述离散趋势标准差(Std.deviation)方差(Variance)全距(Range)、最小值(Minimum)最大值(Maximum)标准误(S.E.mean)。Distribution复选框组:描述分布特征偏度系数(Skewness)和峰度系数(Kurtosis)。分析实例信心指数的统计描述25Descriptive过程过程概述用于正态分布的连续型变量可直接计算标准化Z值分析实例同上26Explore过程过程概述可对变量进行更为深入详尽的描述性分析主要用于对资料的性质、分布特点等完全不清楚时常用描述性统计指标/图形更加详细、全面可分组进行描述27Explore过程过程Statistics 子对话框Descriptives复选框输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数及其标准误、偏度系数及其标准误,以及指定的均数可信区间。M-estimators复选框作中心趋势的最大似然估计,输出四个不同权重的最大似然估计值。Outliers复选框输出五个最大值与五个最小值。Percentiles复选框输出第5%、10%、25%、50%、75%、90%、95%位数。28Explore过程过程plot子对话框Boxplots单选框组:确定箱图的绘制方式按组别分组绘制(Factor levels together),不分组绘制(Dependents together)不绘制(None)Descriptive复选框组:茎叶图(Stem-and-leaf)和直方图(Histogram)。案例:分月份time对总指数index1进行统计描述,以详细了解其分布情况。29均数间的比较均数间的比较-t检验检验均数间的比较均数间的比较假设检验原理入门单样本t检验两样本t检验配对t检验31分析前的准备工作分析前的准备工作运用统计知识根据研究设计和资料的性质正确选择分析过程。初步的统计描述(集中趋势、离散趋势)和统计分析(资料的正态性、方差齐性)。Descriptive statistics 菜单Compare Meansmeans32连续性变量统计描述的常见指标连续性变量统计描述的常见指标集中趋势均数P50离散趋势标准差/方差四分位数间距分布特征异常值及其他33假设检验原理假设检验原理为什么要做检验为什么要做检验通过获得随机样本来实施抽样研究的例子很多,但此时研究中直接获取的只是样本的情况,而研究者关心的并不仅仅是样本,更希望了解相应的总体特征。参数估计:推估样本所在的总体特征假设检验:对提出的一些总体假设进行分析判断,做出统计决策。35假设检验原理假设检验原理分析实例某产品的口味测试中,历史数据表明满意度均数如果低于7.4分,则该产品基本无市场价值(可近似认为7.4分是总体均数),现有新产品进行了30例样本的测试,满意度均数为6.8,标准差为0.21,是否需要进一步测试?现有的样本均数和已知总体均数不同,其差别可能有两个方面的原因造成。样本来自已知总体,现有差别为抽样误差样本所来自的总体与已知总体不同,存在本质差异为识别这两种可能,应当对其做假设检验36生活中隐含的假设检验生活中隐含的假设检验掷骰子,猜到点数为胜其实大家都明白如果筛子没问题,则六个点的出现概率应当相等(均为1/6,这就是一个事先假设),我们只是看每次具体的试验中谁的运气好今天一共下了600次注,竟然一共只猜中了一次虽然平均应当赢约100次,但今天忘了查皇历,不宜搏彩,运气实在太差骰子有鬼,掷骰子的人可以人为控制结局,从而利用这种能力使自己得到了更多的收益。虽然第一种解释是可能的,但我们认为在筛子公平的前提假设下出现如此结果实在是太不可能了(概率小到不应当被我们一次就碰上),因此我们认为骰子实际上不均匀37假设检验原理假设检验原理基础:小概率原理,即一般认为小概率事件在一次随机抽样中不会发生。最经典的小概率事件:瞎猫碰到死耗子基本思想:先建立一个关于样本所属总体的假设,考察在假设条件下随机样本的特征信息是否属小概率事件,若为小概率事件,则怀疑假设成立有悖于该样本所提供特征信息,因此拒绝假设事实上,小概率事件在随机抽样中还是可能发生的,只是发生的概率很小。若正好碰上了,则假设检验的结论就是错误的。当然,犯这种错误的概率很小38假设检验的基本步骤假设检验的基本步骤一、建立假设根据统计推断的目的而提出的对总体特征的假设。统计学中的假设有两方面的内容:一是检验假设(hypothesis to be tested),亦称原假设或无效假设(null hypothesis),记为H0;二是与H0相对立的备择假设(alternative hypothesis),记为H1。后者的意义在于当H0 被拒绝时供采用。两者是互斥的,非此即彼。H0:=0,H1:0;H0:=7.4,H1:7.4。39假设检验的基本步骤假设检验的基本步骤二、确定检验水准实际上就是确定拒绝H0时的最大允许误差的概率。检验水准(size of test),常用表示,是指检验假设H0本来是成立的,而根据样本信息拒绝H0的可能性大小的度量,换言之,是拒绝了实际上成立的H0的概率。常用的检验水准为=0.05,其意义是:在所设H0的总体中随机抽得一个样本,其均数比手头样本均数更偏离总体均数的概率不超过5%40假设检验的基本步骤假设检验的基本步骤三、计算检验统计量和P值实际上在此之前还有一步叫做进行试验,所需的样本数据即从此得来统计量只是工具,概率值才是目的,它可以客观衡量样本对假设总体偏离程度从H0假设的总体中抽出现有样本(及更极端情况)的概率,即P值例如600次赢100次是H0假设的情况,只赢1次就是现有样本情况,更极端的情况就是连一次也没有赢41假设检验的基本步骤假设检验的基本步骤三、计算检验统计量和P值检验统计量的特点该统计量应当服从某种已知分布,从而可以计算出P值各种检验方法所利用的分布及计算原理不同,从而检验统计量也不同初学者往往本末倒置,很认真地在学工具,却忘记了统计学的本质是思维方式42假设检验的基本步骤假设检验的基本步骤四、得出推断结论按照事先确定的检验水准界定上面得到的P值,并按小概率原理认定对H0的取舍,作出推断结论若P 基于H0假设的总体情况出现了小概率事件则拒绝H0,接受H1,可以认为样本与总体的差别不仅仅是抽样误差造成的,可能存在本质上的差别,属“非偶然的(significant)”,因此,可以认为两者的差别有统计学意义。进一步根据样本信息引申,得出实用性的结论43假设检验的基本步骤假设检验的基本步骤四、得出推断结论若P基于H0出现了很常见的事件则样本与总体间的差别尚不能排除纯粹由抽样误差造成,可能的确属“偶然的(non-significant)”,故尚不能拒绝H0因此,认为两者的差别无统计学意义,但这并不意味着可以接受H0。44关于掷筛子的假设检验关于掷筛子的假设检验建立假设H0:筛子均匀,pi=1/6 H1:筛子不均匀确定检验水准=0.05进行试验,计算检验统计量和P值相应的试验结果在H0下对应的概率为1/600略多一点得出推断结论基于H0出现了小概率事件,结果有非常非常显著的统计学意义,你出老千!45假设检验应注意的问题假设检验应注意的问题结论不能绝对化本身就保留了犯错误的可能性样本量导致的检验效能问题样本量太小,导致检验效能不足,从而无法检出可能存在的差异样本量太大,得出的有统计学意义的结论可能根本就没有实际意义46单样本单样本t检验检验统计理论复习统计理论复习推断样本是否来自某已知总体,即要检验样本所在总体的均数是否等于已知的总体均数为了回答该问题,统计学上采用了小概率反证法的原理:我们有如下两种假设:H0:样本均数与总体均数的差异完全是抽样误差造成H1:样本均数与总体均数的差异除由抽样误差造成外,也反映了两个总体均数确实存在的差异48统计理论复习统计理论复习先假设H0成立,即一切都是抽样误差造成的。在这个前提下,我们的样本是从已知均数的大总体中抽出来的。显然,样本均数和假设总体均数之差就代表了偏离假设的程度但此差异所对应的概率究竟是大还是小?仅看这一个数字很难做出判断。因为这还和数据的离散程度有关,为此我们需要找到某种方式对这一差值进行标准化49统计理论复习统计理论复习显然,标准化的基本方式就是将差值除以表示样本均数离散程度的指标在单样本的情况下,样本的均数服从t分布这个被标化的差值,就是本次检验中所谓的统计量由于该统计量服从t分布,可利用该分布得到相应的概率值,故而此处的方法被称为为单样本t检验。最终求得的P值表示从假设总体中抽出当前样本均数(及更极端情况)的概率总和50统计理论复习统计理论复习如果该P值太小,成为了我们所定义的小概率事件(小于等于水准),则我们怀疑所做的假设不成立,从而拒绝H0。基本信念:小概率事件在一次实验中不可能发生反之,我们就不能拒绝H0,但一般也不太好说去接受它。51分析实例分析实例消费者信心指数以100作为基准值,现希望比较2007年12月的总消费者信心指数是否与基准值有差异52方法的适用条件方法的适用条件因为有中心极限定理,一般均数的抽样分布都不会有问题,真正会限制该方法使用的是均数是否能够代表相应数据的集中趋势。也就是说,只要数据分布不是强烈的偏态,一般而言单样本t检验都是适用的。基于计算统计学的新工具:Boostrap抽样53完全随机的两样本完全随机的两样本t检验检验完全随机的两样本完全随机的两样本t检验检验目的:推断两个样本是否来自相同的总体,更具体地说,是要检验两样本所代表的总体均数是否相等。检验假设 无效假设 H0:备择假设 H1:检验水准 =0.0555完全随机的两样本完全随机的两样本t检验检验统计理论复习和上面单样本的t检验的原理相同,我们也采用了小概率反证法,首先假设H0:两样本来自同一总体。当该总体服从正态分布时,我们就可以采用两样本t检验来计算从该总体中抽得这样两个样本(及更加极端情况)的概率为多少,从而做出统计推断。56完全随机的两样本完全随机的两样本t检验检验统计理论复习由于H0假设的是两样本来自同一总体,分析目的只涉及到均值,因此两样本t检验在推导过程中除了要求总体服从正态分布外,还要求两样本各自所在总体方差相同。应用条件不被满足情况较轻时可以采用校正t检验的结果否则应使用变量变换使之满足条件或采用非参数检验过程57分析实例分析实例现希望评价2007年4月第一次调查时不同收入人群的消费者信心指数是否存在差异分析:数据为定量资料,设计为成组设计,目的是两样本均数的比较。正态性:可作直方图等。方差齐性:系统在 t 检验结果中自动给出。58分析实例分析实例结论方差齐性检验的结果 T检验的结果方差齐性检验两样本均数的t检验F值 P值t值自由度P值均数差合并标准误可信区间下限 上限方差齐方差不齐59适用条件适用条件独立性:对结果的影响较大,但一般没问题正态性:有一定的耐受能力,可以通过直方图等进行观察,偏的不厉害就行注意应当要分组考察方差齐性:相对而言对结论的影响较大,需要进行方差齐性检验60配对配对t检验检验统计理论复习统计理论复习配对设计的两种情况 对同一个受试对象处理前后的比较 将受试对象按情况相近者配对(或者自身进行配对),分别给予两种处理,以观察两种处理效果有无差别。配对设计的特点在配对设计得到的样本数据中,每对数据之间都有一定的相关,如果采用成组的t检验就无法利用这种关系,浪费了大量统计信息对于这种情况,统计学上的解决办法是求出每对的差值,通过检验该差值总体均数是否为0,就可以得知两种处理有无差异。62基本思路基本思路H0:两总体均值无显著差异,差值序列均值u0=0构造统计量:同单样本均值检验D=X-u0 S为差值序列的标准差实质是先求出每对测量值的差值;然后检验差值序列的均值是否与0有显著差异.63统计理论复习统计理论复习如果差值的均值与0有显著差异,则认为两总体均值存在显著差异;否则,与0无显著差异,则认为两总体均值不存在显著差异功能实际上和单样本t检验重复,但数据输入格式不同和方差分析结果等价64分析实例分析实例用某药治疗10名高血压病人,对每一病人治疗前、后的舒张压(mmHg)进行了测量,结果如下,问该药有无降压作用?数据见文件pairedt.sav。这是一个典型的个体自身治疗前后的配对设计,应当采用配对设计差值的t检验来进行分析。按照配对t检验对数据格式的要求,这里在输入数据时应当每个变量(一列)代表一个组,而每条记录(一行)代表一对数据。65两个变量同时被选中后输送到变量框66对子间的差异均数标准差标准误可信区间下限 上限T值自由度P值67结束语结束语谢谢大家聆听!谢谢大家聆听!68
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!