资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,温州医科大学附属眼视光医院临床与流行病学研究中心,临床科研中数据分析的常见注意事项,毛广运,生物统计中心,临床科研中数据分析的常见注意事项毛广运,提纲,数据处理的一般原则与基本内容,统计方法选择的基本思路,具体案例分析,几种比较实用的方法,附录:常用数据分析的SAS程序,提纲数据处理的一般原则与基本内容,第一部分,数据处理的一般原则与基本内容,第一部分,数据处理,数据处理,定义:,对数据的采集、存储、检索、加工、变换和传输。,基本目的:,从,大量的、可能是杂乱无章的、难以理解,的数据中抽取并推导出对于某些特定的人们来说是,有价值、有意义,的数据。,组成,数据管理,(约占全部工作量的60%-80%),数据分析(约占全部工作量的20%-40%),数据处理数据处理,数据处理的一般原则与基本内容,数据库设计,数据录入,数据管理,数据审核,异常(缺失)值的处理,统计整理:根据研究目的对原始数据进行科学的,分类、汇总和显示,;使之,系统化、条理化,、,直观生动和反映总体的数量特征和规律,。,数据分析,统计方法的选择,统计描述与统计推断,数据处理的一般原则与基本内容数据库设计统计整理:根据研究目的,离群数据的处理,离群数据,严重偏离群体平均水平的数据,,多为错误,(如DBP=880mmHg),,少量为异常的真实值,可严重掩盖事实真相或扭曲两者间的关系,处理原则,手工处理:,正态分布:3|均数标准差|,偏态分布:99.5%或0.5%,软件处理,箱式图:距箱体底线或顶线距离超过箱体高度1.53倍者,离群数据的处理离群数据,缺失数据的处理,缺失值,部分研究指标记录不完整,导致其值缺失,后果:,导致研究效率的下降,数据的常见缺失机制,完全随机缺失:,缺失资料与完整资料的特征无显著性差异,非随机缺失:,缺失资料与完整资料的特征存在显著性差异,常见处理措施,直接剔除:,适用于缺失量极少且为完全随机缺失,单独列为一类:,适用于缺失量较大,且难以合理填补者,缺失值填补:,均数替代,中位数替代,最后观察值结转,回归算法,多重填补法,缺失数据的处理缺失值常见处理措施,统计方法前提条件的检查与描述,统计学,最难以掌握,之处,数据分析人员,最应该首先掌握,的技能,熟悉各种统计方法的,前提适用条件,合理选择,最合适的统计方法,统计方法前提条件的检查与描述统计学最难以掌握之处,第二部分,统计方法选择的基本思路,第二部分,统计方法选择的核心要素,研究目的,组间差异,显著性检验?优效性检验?等效性检验?非劣效性检验?,相互关系,相关与,回归,、关联性分析(OR、RR、AR)、其它,设计类型,完全随机设计?,配对设计?随机区组设计?,交叉设计?析因设计?其它设计?,数据类型,计量资料?分类资料?等级资料?,分布特征,正态分布?对数正态分布?其它偏态分布?,统计方法选择的核心要素研究目的,统计方法选择总结,统计方法选择总结,统计方法选择总结(续),统计方法选择总结(续),统计方法选择总结(续),统计方法选择总结(续),常见统计分析的错误,普查还是抽样调查?,普查无统计推断,随机抽样还是非随机抽样?,非随机抽样不能使用普通的统计推断方法,资料类型误认,未能满足所选择统计的前提适用条件,单因素ANOVA代替重复测量资料的方差分析,常见统计分析的错误普查还是抽样调查?,常见统计分析的错误,未进行数据审核,数据中存在逻辑错误,数据中存在异常值,数据中存在过多的缺失值,常见统计分析的错误未进行数据审核,常见统计分析的错误,统计方法选择不当,选择t检验时未考虑数据的分布类型,将方差分析拆分成多个t检验,用单因素方差分析解决重复测量资料,使用四格表卡方检验时未考虑N和T的大小,使用卡方检验解决等级资料问题,使用线性回归解决非线性问题,使用Logistic回归解决队列研究的资料,使用普通方差分析解决协方差/多元方差分析问题,多元统计时,未考虑自变量的共线性,主成分分析与因子分析误用,其它,常见统计分析的错误统计方法选择不当使用线性回归解决非线性问题,线性回归与非线性回归,线性回归与非线性回归,常见统计分析的错误,结果表述不当,过于看重P值的大小而,忽视Power,的影响,片面,夸大统计学意义,的作用,错误理解P0.01与P0.05的关系,显著性检验包打天下,优效、等效和非劣效性检验少为人知,Intervention,Control,t,p,example1,21.1,2.2(10),22.1,2.3(10),0.99,0.05,example2,21.1,2.2(50),22.1,2.3(50),2.22,0.05,example4,21.1,2.2(320),21.5,2.3(320),2.25,0.05,example5,21.1,2.2(3200),21.3,2.3(3200),3.55,0.01,常见统计分析的错误结果表述不当InterventionCon,常见统计分析的错误,未考虑多重共线性,回归模型中两个或两个以上的自变量彼此相关,多重共线性带来的问题有,可能会使回归的结果造成混乱,甚至会把分析引入歧途,可能对参数估计值的正负号产生影响,特别是各回归系数的正负号有可能同我们预期的正负号相反,常见统计分析的错误未考虑多重共线性,多重共线性的识别,最简单的方法,计算模型中各对自变量间的相关系数,并进行显著性检验,,若有一个或多个相关系数显著,就表示模型中所用的自变量之间相关,存在着多重共线性,如果出现下列情况,暗示存在多重共线性,模型中各对自变量之间显著相关。,当模型的线性关系检验(F检验)显著时,几乎所有回归系数的t检验却不显著,回归系数的正负号同预期的符号相反。,多重共线性的识别最简单的方法,第三部分,具体案例讨论,第三部分,案例1,ABC三组,不同时点,某指标的变化情况,应该选用何种统计学方法?,如果重复测量方差分析得出结论为差异有统计学意义,如何判断具体哪两个或多个时点间比较有统计学意义?,如何判断A、B、C三组各时点(T0、T1、T2、T3)间不同组别的变化情况?(如判断T2时点,A、B、C三组某指标的情况)如何两两比较?,若为随机区组资料,如何进行上述问题的统计?,组别,T0,T1,T2,T3,A,10020,9516,6010,9318,B,9818,9417,8515,9517,C,9921,9514,9517,9719,案例1ABC三组不同时点某指标的变化情况组别T0T1T2T3,重复测量设计,定义,将一组或多组受试者先后重复地施加不同的处理措施,或在不同场合和时间点进行多次测量(至少两次)的研究设计,配对设计是最简单的重复测量设计,重复测量设计为特殊的两因素设计,其中的一个因素固定为时间因素,分类,对每个对象在同一时间不同因子组合间测量,较为少见,如裂区设计,对每个对象在不同时间点上重复测量,临床研究中极为常用,重复测量设计定义,重复测量设计的方差分析,重复测量设计在临床研究中极为常见,(方法详见程序),可用普通线图描述不同组别某指标随时间变化的趋势,重复测量设计的方差分析重复测量设计在临床研究中极为常见(方法,重复测量设计,优点,每一个体作为自身的对照,克服了个体间的变异,减少了一个差异来源。,分析时可更好地集中于处理效应;,每一个体作为自身的对照,所需样本量相对较小,更加经济.,缺点,滞留效应(Carry-over effect),前面的处理效应有可能滞留到下一次的处理,潜隐效应(Latent effect),前面的处理效应有可能激活原本以前不活跃的效应,学习效应(Learning effect),由于逐步熟悉实验,研究对象的反应能力有可能逐步得到了提高,重复测量设计优点,重复测量设计,重复测量设计方差分析的统计前提,每个处理条件内的观察都是,独立,的;,每个处理条件内的总体分布是,正态分布或多元正态分布,;,每个处理条件内,方差齐,;,每个被试者的,多元观测值之间存在相关,(不能用单因素方差分析代替).,重复测量设计重复测量设计方差分析的统计前提,重复测量设计,为何要把测自不同时间点上的数据看成是多元的呢?,因为同1 个体的数据重复测自同1个受试对象,它们之间往往有,较高的相关性,。,这种相关性通常会减少误差项变异,从而使得F测验的分母变小,其后果是F检验更易于到达显著即使无效假设是正确的.换句话说,犯一类错误的概率加大了,重复测量设计为何要把测自不同时间点上的数据看成是多元的呢?,重复测量设计,样本必须为进行多次重复测量的数据。,可以是,对同一条件下同一因变量的重复测量,目的在于研究各种处理间差异是否有统计学意义的同时,研究受试着间的差异;,也可以是不同条件下同一因变量的重复测量,目的在于研究各处理间差异是否有统计学意义的同时,研究形成重复测量条件间的差异以及这些条件与处理间的交互效应。,GLM:,重复测量资料方差分析的主要手段,数据结构:,若干次重复测量结果作为不同因变量,出现在数据文件中。,重复测量设计样本必须为进行多次重复测量的数据。,重复测量设计,重复测量设计与随机区组设计,(时间为区组因素),相同点,数据结构极为相似,甚至完全一样,不同点,重复测量设计:,的处理因素在区组(受试者)间是随机分配的,区组内的各时间点是固定的,不能随机分配;,区组内的数据来自于同一受试者,;,随机区组设计,:区组内的受试者彼此独立,处理只能在区组内随机分配,每个受试者接受不同的处理,即,区组内的数据来自于不同的受试者,。,使用随机区组设计方差分析处理重复测量设计资料,会增大犯类错误的风险。,重复测量设计重复测量设计与随机区组设计(时间为区组因素),重复测量资料的方差分析,将不同时点的测量值作为不同的变量,data ex12_3;input t0-t4 g;cards;,120 108 112 120 117 1 118 109 115 126 123 1,119 112 119 124 118 1 121 112 119 126 120 1,127 121 127 133 126 1 121 120 118 131 137 2,122 121 119 129 133 2 128 129 126 135 142 2,117 115 111 123 131 2 118 114 116 123 133 2,131 119 118 135 129 3 129 128 121 148 132 3,123 123 120 143 136 3 123 121 116 145 126 3,125 124 118 142 130 3,;,proc glm;class g;model t0-t4=g;repeated time 5,contrast(1);run,;,重复测量资料的方差分析将不同时点的测量值作为不同的变量,SAS分析结果,SAS分析结果,重复测量资料统计分析常见错误,重复进行各时间点不同组别间的t(或F)检验,忽略个体曲线变化特征,重复测量数据不满足常规曲线拟合方法所要求的独立性假设,差值比较缺乏信度,用差值做组间比较须慎重,须与协方差分析区别开来,重复测量资料统计分析常见错误重复进行各时间点不同组别间的t(,案例2,不同处理措施和时间对某一指标的影响,试验对象:大鼠(每个时点宰杀一批),问题,A、B处理效果间有无差异?,AT2、BT2间有无差异?,处理,T1,T2,T3,T4,A,xa11,xa12,xa13,xa1i,xa21,xa12,xa23,xa2i,xa31,xa32,xa33,xa3i,xa41,xa42,xa43,xa4i,B,xb11,xb12,xb13,xb1i,xb21,xb12,xb23,xb2i,xb31,xb32,xb33,xb3i,xb41,xb42,xb43,xb4i,案例2不同处理措施和时间对某一指标的影响处理T1T2T3T4,案例2,研究设计,重复测量设计?,两因素两水平的析因设计?,随机区组设计?,三者的异同点是什么?,案例2研究
展开阅读全文