常用统计学方法与应用6[1].25

上传人:e****s 文档编号:243645834 上传时间:2024-09-27 格式:PPT 页数:81 大小:1.59MB
返回 下载 相关 举报
常用统计学方法与应用6[1].25_第1页
第1页 / 共81页
常用统计学方法与应用6[1].25_第2页
第2页 / 共81页
常用统计学方法与应用6[1].25_第3页
第3页 / 共81页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,常用统计学方法与应用,吴彤宇,内容,统计工作步骤,根本统计概念,常用统计方法及应用,常用统计软件及使用,统计工作的步骤,统计学:是研究数据搜集、整理与分析的科学,面对不确定的数据作出科学的推断。,设计:,最关键的一步,搜集资料:,资料使用权限,整理资料:,修正数据错误,分析资料,统计描述:,统计指标、统计图表描述,统计推断:,样本信息推断总体,参数估计 :点值估计、区间估计,假设检验,根本统计概念,变量,总体,样本,概率,根本统计概念,变量与变量值,被观察单位的特征称为变量,变量的具体取值是变量值。,数值变量亦称计量资料,定量资料:表现为数值大小,一般有度量衡单位。,分类变量定性资料或计数资料):表现为不相容的类别或属性。,无序分类: 二项分类:两类互相对立,如阴性阳性,多项分类:互不相如类别,如血型,有序分类等级资料,根据需要各类变量可以互相转化。不同变量使用不同的统计方法进行分析。,根本统计概念,总体,总体是根据一定目确实定的所要研究的事物的全体。它是由客观存在的、具有某种共同性质的许多个别事物构成的整体。,根据总体所包含的单位数量,总体可以分为有限总体和无限总体两类。有限总体是由有限量的单位构成的总体。当总体单位数难以确定,其数量可能是无限时,便构成无限总体。,根本统计概念,样本,从总体中随机抽取局部观察单位,其实测值的集合成为样本。,样本也由一定数量的单位构成的,样本所包含的观察单位数称为样本量或称样本大小、医学常称样本例数。,根本统计概念,概率,描述随机事件发生的可能性大小的数值,,常用,P,表示,。,概率在,0-1,之间,即,0,P,1,,常用小数或百分数表示。,P,=0,时事件不可能发生,P,=1,时事件必然发生,统计学上的结论都是带有概率性的,,习惯上将,P,,,或,P,称为小概率事件,表示事件发生的可能性很小。,统计描述,计量资料,集中趋势,平均数算数均数、几何均数,中位数,百分位数,离散趋势,极差、四分位数间距、方差、标准差、变异系数,计数资料,比、构成比、率,常用统计方法,t检验计量资料,方差分析计量资料,卡方检验计数资料,直线相关计量资料,常用统计方法,统计推断:用样本信息推断总体特征。假设检验是统计推断的一种方式,假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。,统计推断假设检验步骤,1.建立假设和确定检验水平,2.选定检验方法和计算统计量,3.确定P值和做出推断结论,常用统计方法,两样本均数(其总体均数分别是,1,与,2,)比较,目的,H,0,H,1,双侧检验,是否12,1=2,12,单侧检验,是否12,1=2,12,是否12,1=2,150或n100,6.方差不齐时两样本均数的比较,方差齐性检验,t检验应用、秩和、变量变换,常用统计方法,1.样本均数与总体均数比较的t检验,样本均数与总体均数理论值、标准值或经过大量观察所得稳定值,推断样本均数与总体均数有无差异。,例,根据大量调查,健康成年男子脉搏均数为72次每分,在一山区调查25名健康成年男子,脉搏平均75次每分,能否认为该山区健康成年男子脉搏高于一般健康成年男子?,常用统计方法,2.配对设计的差值与总体均数0的比较t检验,1同对的两个受试对象分别给予两种处理,2同一受试对象处理前后比较,两种饲料喂养大白鼠肝中维生素A含量比较,大白鼠对号,饲料1,饲料2,差值,1,3550,2450,1100,2,2000,2400,-400,3,3000,1800,1200,4,3950,3200,750,5,3800,3250,550,6,3750,2700,1050,7,3450,2500,950,8,3050,1750,1300,6500,克矽平治疗前后的血清粘蛋白,患者号,治疗前,治疗后,差值,1,65,34,31,2,73,36,37,3,73,37,36,4,30,26,4,5,73,43,30,6,56,37,19,7,73,50,23,180,常用统计方法,3.成组设计的两样本均数比较的t检验,分别从两个总体抽样,做两样本均数比较,判断两总体均数有无差异,例,某克山区测得11例患者与13名健康人血磷值,问该地急性克山病患者与健康人血磷值是否不同?,4.成组设计的两样本几何均数比较的t检验,5.成组设计的两大样本均数比较的U检验n50或n100,6.方差不齐时两样本均数的比较,常用统计方法,方差分析计量资料分析,该统计分析方法能一次性地检验多个总体均值是否存在显著差异。,思路:,总变异:所有的观察值不等,组间变异:各组均数不相同,组内变异:不同组内各观察值与均数不等,总变异=组间变异+组内变异,同一总体,组间变异=组内变异,统计量F值=组间变异/组内变异,理论上为1,常用统计方法,方差分析应用条件,1.各样本是相互独立的随机样本,2.各样本来自正态总体,3.各处理组总体方差相等,方差分析常见用法,1.成组设计的多样本均数比较,2.配伍组设计的多样本均数比较,3.多样本均数间的两两比较,4.多个方差齐性检验,常用统计方法,1.成组设计的多样本均数比较单因素方差分析,多组,一个处理因素,多水平,三组石棉矿工的用力肺活量比较,石棉肺患者,可疑患者,非患者,1.8,2.3,2.9,1.4,2.1,3.2,1.5,2.1,2.7,2.1,2.1,2.8,1.9,2.6,2.7,1.7,2.5,3,1.8,2.3,3.4,1.9,2.4,3,1.8,2.4,3.4,1.8,3.3,2,3.5,常用统计方法,2.配伍组设计的多样本均数比较(两因素方差分析),多组,两个因素研究因素、配伍因素,数据无重复,氟作业工人不同时间尿氟浓度,工人编号,工前,工中,工后,1,90.53,142.12,87.38,2,88.43,163.17,65.27,3,47.37,63.16,68.43,4,175.8,166.33,210.54,5,100.01,144.75,194.75,6,46.32,125.53,65.27,7,73.69,138.96,200.02,8,105.27,125.33,100.01,方法:先将全部受试对象按某种特性分为假设干个组,使每个组内的观察对象水平尽可能相近。,目的:减少了个体间差异对结果的影响,比成组设计更容易检验出处理因素间的差异,提高了研究效率。,配伍组设计的多样本均数比较,常用统计方法,3.多样本均数间的两两比较,1研究时设计了两两比较,2研究后发现需要两两比较,两两比较的做法,1.多样本均数间每两个均数的比较 q检验,2.多个实验组与一个对照组均数间的两两比较,最小显著法LSD法,侧重减少第二类错误,新复极差法 q,侧重减少第一类错误,常用统计方法,2检验,用途广,仅介绍用于分类变量计数资料,推断两个或两个以上总体率或构成比之间有无差异,两变量间有无相关关系,常用的有:,四格表资料的2检验两样本率的比较,行列表资料的2检验,列联表资料的2检验,四格表资料的,2,检验,什么是四格表资料?,但凡两个率或构成比资料都可以看做四格表资料。,两组大白鼠发癌率的比较,处理,发癌鼠数,未发癌鼠数,合计,发癌率(%),鼻注组,52(57.18),19(13.82),71,73.24,鼻注组+VitB12,39(33.82,3(8.18),42,92.86,合计,91,22,113,80.53,52,19,39,3,2检验根本原理,统计量: 2 =A-T2/T,如果假设检验H0)成立,A与T不应该相差太大。可以证明 A-T2/T服从x2分布,计算出2值后,查表判断x2是否为小概率事件,以判断假设检验H0)是否成立。,实际上讲就是看实际频数和理论频数的吻合程度,吻合的好2值就不会太大,否那么就相反。,2检验根本原理,四格表专用公式,x,2,=(ad-bc),2,*N,/,(a+b)(c+d)(a+c)(b+d),校正四格表专用公式,x2 =(|ad-bc|-n/2)2 *N/(a+b)(c+d)(a+c)(b+d),或 x2 =2/T,1140,需计算校正2值,或用确切概率计算法,2T1或n0.05,丙,8,3,11,27.3,合计,38,17,55,2,乙+丙,38,17,55,17.83,0.05,甲,6,23,29,79.3,合计,44,40,84,17.92,列联表的,2,检验,对一组观察对象,分别观察其两种分类变量的表现,归纳成双向交叉排列的统计表,用于描述行变量和列变量之间的关系,特成为列联表。,检验假设的意思是两变量有无关系,不同期次矽肺患者肺门密度级别分布,矽肺期次,肺门密度级别,合计,+,+,+,43,188,14,245,1,96,72,169,6,17,55,78,合计,50,301,141,492,直线相关,直线相关又称简单相关,用于双变量正态分布资料,如果两变量变化趋势一致,称为正相关,反之为负相关。,相关用相关系数表示,说明具有直线相关的两个变量间,相关关系的密切程度与相关方向的指标。,相关系数没有单位,其值为-1r 1正值是正相关,负值是负相关,,0,为零相关,,1,为完全相关。,相关系数的假设检验,常用t检验。,Logistic回归分析,通常人们将“Logistic回归、“Logistic模型、“Logistic回归模型及“Logit模型的称谓相互通用,来指同一个模型。,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是或“否,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。,Logistic回归分析,Logistic回归分类,Logistic 回归分析根据因变量取值类别不同,又可以分为二分类Logistic 回归分析和多分类Logistic 回归分析,二分类Logistic 回归模型中因变量只能取两个值1 和0,而多分类Logistic 回归模型中因变量可以取多个值。,二分类,多分类,条件Logistic回归匹配资料,非条件Logistic回归成组资料,Logistic回归分析,logistic回归的主要用途,1.寻找危险因素,寻找某一疾病的危险因素等。,2.预测,如果已经建立了logistic回归模型,那么可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。,3.判别,实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。,统计学的思维模式,数据收集,数据整理,数据分析提纲,数据整理,数据判断,计量资料,计数资料,统计描述,统计描述,统计推断,统计推断,集中趋势:频数、均数、中位数、百分位数、众数,离散趋势:极差、四分位数间距、方差、标准差、变异系数,U检验,t检验,方差分析,相关,回归,相对比,率,构成比,动态数列,二项分布,Poisson分布,卡方检验,秩和检验,等级相关,如何做统计分析,资料获取的正常顺序与颠倒顺序,资料的补充与处理增加样本量、舍弃、平均值,分析内容确实定仁者见仁智者见智,方法选择统计的思维,结果的处理阴性与阳性,文章中常见的统计学问题,统计图表的格式问题统计表,数据的质量控制获得、标准、录入,P值及统计量的给出,统计的结论不能绝对,抽样方法描述方法阐述清楚,统计描述时率与构成比的混用,比较时是否标化,统计软件使用,常用统计学软件,Sas:功能强大,使用相对复杂,需要编程,Spss:功能比较强大,视窗操作,可编程,Epi date:建库、数据录入便捷,Epi infor:建库、数据录入便捷、适合于小型数据库,现场分析,Excel:不是数据库,但具有一些统计功能,文件名不同,但可以相互转化,注意版权使用问题,Spss应用,Spss软件可以进行编程操作也可以用窗口操作,1.数据来源:自建数据 ,引入数据,2.数据格式,横向为一条记录,纵向为一个变量的值,进行比较时数据的组织,通常有两种,横向排列和纵向排列,3.数据处理:数据文件与数据变换,3.统计处理:t,方差,卡方,回归、相关分析,数据来源,数据来源,数据来源,数据格式,数据处理,数据转换,t检验操作,SPSS提供了均值比较过程,在主菜单栏单击“Analyze菜单下的“Compare Means项,该项下有5个过程。,t检验操作,均数计算,均数计算,均数计算,单一样本T-检验,单一样本T-检验,单一样本T-检验,独立样本T-检验,独立样本T-检验,独立样本T-检验,配对T-检验,配对T-检验,单项方差分析,单项方差分析,卡方检验,卡方检验,卡方检验,相关,相关,相关,有意思的例子,富士康员工自杀的 logistic回归分析,统计步骤,1.没有设计起于突发奇想,先有资料试试看,2.搜集资料,所有富士康员工自杀的日期:列出如下表格:以07年6月18号,第一例自杀案例为原点,至今10年5月25日1072天,所有富士康员工自杀的日期,(自杀时间x/d),0,75,272,758,794,950,997,1003,1015,1023,1024,1024,1053,1061,1072,(自杀人数y),1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,有意思的例子,富士康近年来意外事件回忆(截至2021年5月27日)时间事件,2021年5月26日晚11点富士康深圳龙华厂区大润发商场前,C2宿舍一位男性,坠楼身亡。,2021年5月21日凌晨5时许,龙华员工宿舍一名男子坠楼,经送医院抢救于5点40宣布无效身亡,20岁,姓南。,2021年5月14日龙华厂区北大门附近的福华宿舍,晚间一名梁姓员工坠楼,2021年5月11日龙华厂区女工祝晨明从9楼出租屋跳楼身亡,24岁。,2021年5月6日龙华厂区男工卢新从阳台纵身跳下身亡,24岁。,2021年4月7日观澜樟村,富士康男员工身亡,22岁。,2021年4月7日观澜厂区外宿舍,宁姓女员工坠楼身亡,18岁。,2021年4月6日观澜C8栋舍女工饶淑琴坠楼,仍在医院治疗,18岁。,2021年3月29日龙华厂区,一男性员工从宿舍楼上坠下,当场死亡,23岁。,2021年3月17日8时富士康龙华园区,新进女员工田玉从3楼宿舍跳下,跌落在一楼受伤。,2021年3月11日晚富士康龙华基地内的生活区,一男子从五楼坠亡,2021年1月23日4时许19岁的员工马向前在富士康华南培训处的宿舍死亡,2021年8月20日富士康23岁员工郑鑫崧在游泳池溺水身亡,2021年7月15日富士康25岁员工孙丹勇跳楼自杀,2021年3月16日富士康烟台工业园28岁员工李某猝死在出租屋内,2007年9月1日富士康员工21岁的刘兵辞工两小时后突然死亡,2007年6月18日富士康一名侯姓女工在厕所上吊自杀,有意思的例子,整理资料与统计分析,有意思的例子,这是一个对数增长的曲线。,对此作者认为自杀和流行病一样,自杀也是一种病,而且是一种可以传染的疾病。因此其增长曲线与对数增长很接近。对其做对数函数拟合:General model Exp2: f(x) = a*exp(b*x) + c*exp(d*x)Coefficients (with 95% confidence bounds): a =7.569e-007 (-6.561e-006, 8.075e-006) b =0.01529 (0.006473, 0.0241) c =1.782 (0.5788, 2.984) d =0.001075 (2.37e-005, 0.002125)Goodness of fit: SSE: 8.846,R-square: 0.9684,可见相关度也是非常高的。,有意思的例子,有意思的例子,然而和所有疾病一样,一旦其事件引起了人们的关注,那么各方的反响作用,将阻碍其继续上升。因此,和很多流行病分析一样,该曲线很有可能呈S型。对于该曲线的分析,使用Logistic回归。首先我们假设Logis(B,x)=F(x),之中B为参数数组,那么由经验和可能的微分方程关系,回归曲线应该为Sx=m*LogisB,x+t/n+LogisB,x+t格式由于当LogisB,x较小时S(x)=LogisB,x,那么可以认为fx的参数可以直接引入Sx作为一种近似,而对于m,n确实定,我以1为间隔,画出m*n=40*20的所有曲线,选出其中最吻合的的一条m=22 n=20 t=50,有意思的例子,有意思的例子,有意思的例子,结论,富士康的跳楼人数最终会稳定在在22人左右,对此曲线的分析,我们借鉴微生物生长曲线的方法,将其分为:缓慢期,对数期,稳定期,衰亡期。,1.缓慢期,富士康员工虽然受到很大的工作压力,可是其自身的心理并没有崩溃,因此跳楼这种事件发生频率很少,而且呈线性关系,说明没有跳楼者受到别的跳楼者的影响。,2.对数期,富士康员工由于受到工厂巨大的工作压力,以及来自社会各方的压力,甚至加上上级的欺压,心理防线渐渐崩溃,无处发泄。而一旦有想不开者跳楼,那么为其提供了一个发泄的模板,这种情况下,很容易有相同经历的员工收到跳楼者的影响,从而一个接一个的跳楼自杀。,3.目前的富士康正处于此时期稳定期,由于社会、媒体各方面的关注,以及社会,广阔人民对工厂的压力,工厂不得不做出改变,员工的心理压力渐渐得到释放,从而员工跳楼轻生频率会很快下降。,4.衰亡期,由于资料长期保存,不小心遗失;或者某机关的辟谣;或者所有人的健忘,导致跳楼人数被修正,被减少。,总结,1.统计学干什么,2.统计学应用的步骤,3.统计处理的思维方式,4.统计学软件的使用,统计学只是一种方法,一种数学证明方法,是一种很固定的东西,使用上记住条件,操作上运用计算机计算,运用上它需要结合很多的其它知识。,错误之处敬请批评指正,谢谢!,邮箱:,:,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 幼儿教育


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!