医学科研数据的整理与分析学习

上传人:zuime****idai 文档编号:243493662 上传时间:2024-09-24 格式:PPT 页数:66 大小:1.52MB
返回 下载 相关 举报
医学科研数据的整理与分析学习_第1页
第1页 / 共66页
医学科研数据的整理与分析学习_第2页
第2页 / 共66页
医学科研数据的整理与分析学习_第3页
第3页 / 共66页
点击查看更多>>
资源描述
,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,检查,整理,分析,结果,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,医学科研数据的整理与分析学习,主要内容,科研数据分析前的准备工作,1,2,科研数据分析方法的选择,3,论文中统计结果的表达与解释,4,不同设计类型的数据分析方法,数据分析中存在的问题,5,原始数据的检查,第一节 科研数据分析前的准备工作,数据的计算机录入,数据的整理,缺失及可疑数据,主要检查内容:,有无缺失(漏填)数据。,有无字迹不清。,有无用错单位的数据。,有无数据超出范围。如年龄超出入组标准的允许范围。,有无不合逻辑数据。如舒张压大于收缩压。,一、原始数据的检查,原始记录的修改:,发现错误应当由研究人员在原始记录上修改。,修改时不可覆盖原数据,以便以后了解。,一般用一条细线条划过原来的数据,写上正确数据,修改者必须在修改处旁边签名并写明修改日期。,常用的数据管理软件有:,Microsoft FoxPro,、,Microsoft Access,、,Microsoft Excel,应用广泛的数据分析软件有:,SAS,和,SPSS,二、数据的计算机录入,二、数据的计算机录入,录入数据之前有要做:,给每一个对象一个编号以识别录入的数据与对象的对应关系,给输入的变量定义名称,需要对变量的调查结果进行数量化,数据的双份输入:,为避免输入错误,由,2,名输入员独立地对同一批数据输入,由此应该形成,2,个相同的数据文件。,数据的计算机检查,当,2,份数据完全一致后,应当再进行数据的计算机检查,即由数据管理人员编写检查程序并检查,检查内容主要是范围检查和逻辑检查。,运行检查程序可以检查出在目视检查时没有查出的超出范围、不合逻辑和各变量数据间互相矛盾的数据。,对于检查出来的错误,需再次送往研究者进行改正。数据管理人员以改正后的数据再次更正数据文件,如此反复,直至再也找不出错误。,三、缺失及可疑数据,缺失数据是指其测量结果缺失。,例如在问卷调查时遗漏出生日期和年龄,调查结束后又无法补救而使个别研究对象的年龄成为缺失数据;血脂或血糖因为血清量不足或研究对象拒绝采血而导致某些研究对象实验室的检测结果成为缺失数据。,过大或过小的数据称为可疑值。可疑值可能是测定值随机波动的极度表现,它虽与其它数据相差较远,也可能同属一个总体。,发现可疑值后,首先应从专业、技术与操作方面进行检查,寻找可能发生失误的原因。若查明属于粗枝大叶、中途条件改变、未遵守操作规程、仪器或试剂失灵等,则应舍弃该可疑值。若进行认真检查,未发现可以解释的原因,则应以统计方法判断取舍。,可疑数据的处理,例:在一个滴眼药的临床试验中,入选者,58,人,其中,3,例失访,另有,5,例因未能坚持定期随诊而被淘汰。作者以,50,例计算不良反应率。结果,国产制剂组,30,例,不良反应率为,13/30=43.3%,。进口制剂组,20,例不良反应率为,2/20=10%,。作者说:“患者失访及淘汰的,8,例中,主要原因之一是点药后疼痛感明显”。,显然,这,8,例都曾用药,而且反应不良,应该参加不良反应的分析。由于排除了这,8,例,大大地缩小了不良反应率。由于作者未能说明这,8,例各用的是什么药,因而,我们也无法计算这,2,种药真正的不良反应率。作者的结论为:“药物的不良反应以疼痛为主,但大多数患者均能忍受”。这一结论显然是不够确切的,因为太多的人不能忍受。,(,一,),数据的转换,偏态分布资料数据转换,数据变量转换的方法很多,可以根据数据的分布特征,选择合适的数据转换方法。常用的方法有对数变换,平方根变换或倒数变换等。,数据转换的目的:,使偏态分布接近正态分布;,消除多组资料均数与标准差的正比关系。多见于用百分比做观察结果的数值变量资料。,资料类型的转换,四、数据的整理,数值变量资料:频数分布表,分类变量资料:行,列表,有序分类资料,无序分类资料,资料的类型,(二)数据的分组,五、数据的整理,第二节 科研数据分析方法的选择,统计分析,变量间关系的研究、判别分析等,统计指标,统计表,统计图,区间估计,假设检验,Text,统计描述,统计推断,统计描述,数值变量资料,分类变量资料,绝对数,相对数:率 相对比 构成比,RC,表,样本不是过小时,按正态分布规律,平均数减,3,个标准差仍应是正数。,此例应采用适合偏态分布的中位数和四分位数间距。,统计推断,总体,样本,样本,统计量,估计与检验,统计推断:区间估计,概念:根据样本统计量,按一定的可信度计算 出总体参数很可能在的一个数值范围,这个范围称为参数的可信区间。,区间估计,总体均数(,)的,100(1-,)%,可信区间,(CI),:,(1),已知总体标准差,,按正态分布原理,计算公式为:,(2),未知,,n,较小,按,t,分布原理计算:,(3),未知,,n,足够大,(,如,n,100),,按正态分布原理计算:,总体率的可信区间估计,查表法,当,n,50,时,正态近似法,当样本含量足够大,且样本率,p,和(,1-,p,),均不太小。一般认为,np,和,n,(1-,p,)5,。,p,u,s,p,区间估计,什么是假设检验?,已知健康成年男子脉搏均数为,72,次,/min,。某医生随机抽查了,25,名某病成年男性病人,求得脉搏的均数为,75.5,次,/min,,标准差为,5.0,次,/min,,能否据此认为该病病人的脉搏均数与一般健康成年男子的脉搏均数有差别,?,统计推断:假设检验,这里样本均数与总体均数的差异有两种可能:,差异仅仅是由抽样误差引起的。,差异不仅仅是由抽样误差引起的,还有疾病的影响。,假设检验就是要回答“差别是否仅仅由于抽样误差所引起”这样一个问题。,假设检验,应根据分析目的、资料类型以及分布、设计方案的种类、样本含量大小等选用适当的检验方法。,二、统计检验方法的选择,单组试验,样本与总体,自身前后,配对设计,自身左右,配对设计,分类变量资料,数值变量资料,u,检验,t,检验,正态分布,配对,t,检验,符号秩和检验,配对,t,检验,,u,检验,2,检验或,方差分析,是,否,配对试验,分类变量资料,数值变量资料,差异性检验,配对,2,检验,一致性试验,(Kappa,检验,),正态分布,与方差齐性,符号秩和检验,配对,t,检验,是,否,完全随机设计,两组试验,分类变量资料,数值变量资料,有序分类,无序分类,正态分布与,方差齐性,秩和检验,N,60,成组,t,检验,u,检验,2,检验,秩和检验,否,是,是,否,完全随机设计,多组试验,分类变量资料,数值变量资料,有序分类,无序分类,正态分布与,方差齐性,秩和检验,方差分析,2,检验,秩和检验,否,是,第三节 不同设计类型的数据分析方法,完全随机设计,配对设计,完全随机设计与分析,:,案例,1,(,数值变量资料,),案例1,案例,1,案例,1,多组比较呢,?,完全随机设计与分析,:,案例,2,(,数值变量资料,),案例,2,完全随机设计与分析,:,案例,3,(,分类变量资料,),案例,3,多组比较呢,?,测得某地,5801,人的,ABO,血型和,MN,血型结果如表,问两种血型系统之间是否有关联?,疗法,M,N,MN,合计,O,431,490,902,1823,A,388,410,800,1598,B,495,587,950,2032,AB,137,179,32,348,合计,1451,1666,2684,5801,表,.,某地,5801,人的血型,完全随机设计与分析,:,案例,4,(,分类变量资料,),案例,4,若分组项有序呢,?,对双向有序且属性不同的,RC,表的两个分组变量,如年龄组别与某种疾病发生程度都是有序的,但属性不同,此时,也不适合选用,2,检验分析资料,因为,2,检验与两个变量的有序性之间没有任何联系,应改用与两个变量的“有序性”有联系的等级相关分析、典型相关分析或线性趋势检验。,对双向有序且属性相同的,RC,表的两个分组变量,如两种方法对某种疾病发病程度诊断结果,它们都是有序的,且属性也相同。此时,研究的目的是要考察两种测定方法的测定结果之间是否具有一致性,故仍不适合选用一般的,2,检验分析资料,应采用与两个变量的有序性有联系的一致性检验或称,Kappa,检验,还可以用特殊的模型分析方法。,配对设计与分析,单组试验,样本与总体,自身前后,配对设计,自身左右,配对设计,分类变量资料,数值变量资料,u,检验,t,检验,正态分布,配对,t,检验,符号秩和检验,配对,t,检验,,u,检验,2,检验或,方差分析,是,否,配对试验,分类变量资料,数值变量资料,差异性检验,配对,2,检验,一致性试验,(Kappa,检验,),正态分布,与方差齐性,符号秩和检验,配对,t,检验,是,否,配对设计与分析,:,案例,(,异体配对,),配对设计与分析,:,案例,(,异体配对,),配对设计与分析,:,案例,(,异体配对,),配对设计与分析,:,案例,(,异体配对,),配对设计与分析,:,案例,(,异体配对,),一、“材料与方法”的统计表达,描述研究对象的来源和选择方法,包括观察对象的基本情况、有无随机分组(随机抽样)及样本量估计的依据等。,若进行了随机化分组,应说明具体的随机化方法。,对于非随机化分组的观察性研究,除要明确说明观察对象的选择方法外(如是否配对、随机抽样),还应给出影响因素(如年龄、性别及病情)的均衡性分析结果。,对于临床试验,还需要特别说明诊断标准、疗效评价标准、病例入选标准、病例剔除标准、有无失访(失访比例)、有无“知情同意”及评价疗效有无遮蔽(“单盲”、“双盲”或“多盲”)等,以使读者确认论文中所有统计分析结果的可靠性和研究结论的合理性。,说明采用的统计分析方法和统计计算的软件名称。,第四节 论文中统计结果的表达与解释,“材料与方法”中统计表达常见的问题,对研究对象的来源和选择方法没有任何说明,或说明的非常简单。例如,动物实验只说明经随机化分组,未说明具体的随机化分组方法(如完全随机、配对或分层随机分组等);,观察对比的研究只说明组间均衡,未给出反映均衡性的统计指标;,临床试验的疗效评价只说明采用了“盲法”,未说明是受试者遮蔽还是评价者遮蔽等;,统计分析方法没有任何说明,特别是一些特殊的统计方法;,试验的样本量非常小,如每组,2,例,不说明任何理由等。,二、“结果”的统计表达,(一)统计表的应用,(二)数据的精确度:,数值变量资料的统计指标的保留小数位数,应该与原始数据的保留小数位数相同;分类变量资料的百分比保留,1,位小数,一般不超过,2,位小数;相关系数保留,2,位小数检验统计量,如,2,值、,t,值保留,2,位小数即可。,(三)选择最能说明问题的统计指标:,数值变量资料常用 描述研究结果的数据特征,但必须注意前提是要求资料近似服从正态分布。,分类变量资料常用的统计指标有率和构成比(百分比)。,注意分母不能太小时及不要将构成比误用为率。,在临床疗效比较时还应注意,两组平均疗效有差别,并不意味着治疗组每个受试者都有效,对照组每个受试者都无效。要回答后一个问题,必须计算有效率。,如比较盐酸西布曲明治疗单纯性肥胖的疗效,试验,24,周后,治疗组和对照组的平均疗效(体重下降值,kg),分别为,6.800.31,和,0.482.60(P=0.0001,。按体重下降大于原体重的,5%,者为有效的疗效判定评价标准,治疗组和对照组的有效率分别为,85.59%,和,7.84%,,尽管平均疗效相差约,6kg,,但也要看到盐酸西布曲明对部分患者无效(,14.41,%,)。,(四)假设检验结果的表达,假设检验的具体,P,值;,理由,:,用统计软件可自动给出精确的,P,值。,研究者不能年复一年、不顾具体情况的只用一个固定的界值判断问题,应该根据自己对问题的认识程度,具体问题具体分析。例如,P,= 0.053,与,P,= 0.049,都是小概率,不能一概而论,P,= 0.053,无统计学意义,P,= 0.049,有统计学意义。,P,值是循证医学最重要的“证据”之一,一些,meta,分析方法必须根据精确的,P,值对同类研究结果进行综合。因此,如果提供精确,P,值实在有困难,应给出实检验统计量,以便他人在,meta,分析时转换为精确的,P,值。,列出统计检验结果时应同时列出可信区间,可信区间与假设检验的区别和联系,可信区间用于推断总体参数所在的范围,假设检验用于推断总体参数是否不同。前者估计总体参数的大小,后者推断总体参数有无质的不同。,可信区间也可回答假设检验的问题。但可信区间不能提供确切的,P,值范围。只能给出在,水准上有无统计意义。,可信区间还可提示差别有无实际意义。,假设检验与可信区间的区别和联系,1,结论不能绝对化:正确理解,P,的意义,2,正确区分统计意义与专业意义,3,关联和因果的解释,三、统计结果的解释,正确理解,P,的意义,P,0.05,指的是在假定,H,0,真实存在的条件下,组间出现这样大甚至更大差异来自误差造成的概率大于,5%,,因此不能拒绝,H,0,,但不意味着被试因素的确一定无效。,P,0.05,,结论为拒绝,H,0,,接受,H,1,,这种推断隐藏着,5%,的假阳性错误,切不可误解为被试因素一定是,100%,有效。,正确区分统计意义与专业意义,具有统计意义并不一定在专业上有意义,也不能认为统计意义高低必然与组间差异大小成正比。,例如:现有两个降压实验,它们的实验结果如表,12-2,(,C,为对照组,,T,为试验组),关联和因果的解释,对于随机化的试验,由于随机化分组保证了“无效假设”的正确性,,p,值大小可以用来推论处理(干预)对试验结果的影响是因果关系。但对于非随机化的观察性研究,组间差异解释为关联较为稳妥。关联的结论意味着可能有因果联系,也可能没有,需要进行更深入地研究。,例如,有人曾观察到眼晶状体后纤维增生的新生儿,注射促肾上腺皮质激素后,治愈率为,75%,,说明促肾上腺皮质激素与患儿治愈有关联,(,前后比较,,P,0.01,)。,再进行前瞻性的临床试验,发现患儿脱离富氧环境后,,75%,的患儿自然痊愈(组间比较,,P,0.55,),注射促肾上腺皮质激素与患儿痊愈有因果联系的证据不足。,统计分析表达的常见错误,资料未作任何统计处理,仅根据实际数据的大小,凭经验做出某组与另一组之间的差别有显著性的结论;,虽然做了统计处理,但未交代所选用的统计分析方法,仅仅给出了,P,值;,做了统计学处理,也交代了所用统计分析方法,并给出了,P,值,未给出统计量的具体值。,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!