资源描述
医学统计学医学统计学2024/6/301研究生用 医学统计学医学统计学2023/8/111研究生用研究生用授课内容邮箱1234567892024/6/302授课内容邮箱授课内容邮箱yixuetongjixue2007126.c授课内容及特点授课内容及特点?本课程主要介绍统计学的基本概念,并着本课程主要介绍统计学的基本概念,并着重讲解统计学方法在医学科研中的应用。重讲解统计学方法在医学科研中的应用。?本课程的特点是通过书中的实例,分析讲本课程的特点是通过书中的实例,分析讲解本课程的统计方法,并掌握统计软件解本课程的统计方法,并掌握统计软件SPSS基本操作过程,以及理解其分析结基本操作过程,以及理解其分析结果。果。2024/6/303授课内容及特点本课程主要介绍统计学的基本概念,并着重讲解统计授课内容及特点本课程主要介绍统计学的基本概念,并着重讲解统计授课目的授课目的C最终能应用最终能应用SPSS统计软件,将学过的各统计软件,将学过的各种统计分析方法结合具体实际问题或有关种统计分析方法结合具体实际问题或有关的数据指标进行分析的数据指标进行分析,领会各种统计数量领会各种统计数量分析过程和应用中的意义分析过程和应用中的意义,合理地解释各合理地解释各种分析结果。种分析结果。C能看懂医学文献中常见的统计分析方法、能看懂医学文献中常见的统计分析方法、结果及其意义。结果及其意义。C毕业论文及发表的文章无明显统计缺陷和毕业论文及发表的文章无明显统计缺陷和错误错误2024/6/304授课目的最终能应用授课目的最终能应用SPSS统计软件,将学过的各种统计分析方法统计软件,将学过的各种统计分析方法据统计:我国的医学期刊大约有我国的医学期刊大约有 1000 1000多多种,其中绝大多数论文都要用到统计学种,其中绝大多数论文都要用到统计学知识,统计学知识应用得正确与否关系知识,统计学知识应用得正确与否关系到论文的科学性与严谨性。到论文的科学性与严谨性。6060年代到年代到8080年代,国外医学杂志调查结果:年代,国外医学杂志调查结果:有统计错误的论文有统计错误的论文20%20%72%72%。19961996年对年对45864586篇论文统计(中华医学会系篇论文统计(中华医学会系列杂志占列杂志占6.9%6.9%),数据分析方法误用达),数据分析方法误用达55.7%55.7%。这一严峻的现象值得科研工作者重视。这一严峻的现象值得科研工作者重视。2024/6/305据统计:我国的医学期刊大约有据统计:我国的医学期刊大约有1000多种,其中绝大多数论文多种,其中绝大多数论文 医学统计学的定义与内容 统计方法的几个基本概念 统计工作的基本步骤 学习中应注意的问题第一章 绪论2024/6/306医学统计学的定义与内容第一章医学统计学的定义与内容第一章绪论绪论2023/8/116第一节第一节 医学统计学的医学统计学的定义与内容定义与内容1.统计的基本含义统计的基本含义统计是对客观事物的数量方面进行核统计是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分现、数量关系和数量变化进行描述和分析的一种计量活动。析的一种计量活动。2.统计的基本特点:统计的基本特点:数量性数量性3.统计的目的:统计的目的:探索客观事物的数量规律探索客观事物的数量规律性,以便达到对客观事物的认识。性,以便达到对客观事物的认识。2024/6/307第一节第一节医学统计学的医学统计学的定义与内容定义与内容1.统计的基本含义统计的基本含义2023 统计学:统计学:是研究如何收集准是研究如何收集准确可靠的资料和选择正确方法确可靠的资料和选择正确方法进行整理分析的科学。进行整理分析的科学。医学统计学:医学统计学:根据统计学的原根据统计学的原理和方法,研究医学数据的收集、理和方法,研究医学数据的收集、表达和分析的一门应用学科。表达和分析的一门应用学科。2024/6/308统计学:是研究如何收集准确可靠的资料和选择正确方法进统计学:是研究如何收集准确可靠的资料和选择正确方法进Statistics:“a science dealing with the collection,analysis,interpretation and presentation of masses of numerical data”-Webster 国际大辞典国际大辞典统计学统计学是是收集收集、分析分析、解释解释与与呈现呈现数据数据资料的一门科学。资料的一门科学。2024/6/309Statistics:“asciencedealin收集收集数据数据:实验设计、调查设计实验设计、调查设计分析分析数据数据:统计学描述、统计学推断统计学描述、统计学推断解释解释数据数据:根据专业等解释统计结果根据专业等解释统计结果(穿插各穿插各个章节个章节)呈现呈现结果结果:向杂志社、上级部门发表结果向杂志社、上级部门发表结果收集数据:实验设计、调查设计分析数据:统计学描述、统计学推断收集数据:实验设计、调查设计分析数据:统计学描述、统计学推断10Statistics:The science and art of dealing withvariationindatathroughcollection,classification andanalysis insuch awayastoobtainreliableresults(JMLast).Thedisciplineconcernedwiththetreatment of numerical data derived fromgroupsofindividuals(P.Armitage).2024/6/3011Statistics:Thescienceandar1.采用统计学方法,发现不确定现象背采用统计学方法,发现不确定现象背后隐藏的规律。后隐藏的规律。变异变异(variationvariation)是社会和生物医学中的普遍现象。)是社会和生物医学中的普遍现象。变异使得实验或观察的结果具有变异使得实验或观察的结果具有不确定性不确定性,如每个人的身,如每个人的身高、体重、血压等各有不同。高、体重、血压等各有不同。医学研究的对象是人或生物体,具有较大的生物医学研究的对象是人或生物体,具有较大的生物变异性,并受许多社会心理因素的影响。变异性,并受许多社会心理因素的影响。借助统计借助统计分析,可透过偶然现象认识其内在的规律性。分析,可透过偶然现象认识其内在的规律性。一个科学结论,除了理论机制的阐述外,一个科学结论,除了理论机制的阐述外,还要有还要有一定数量的重复观察结果和合理的对照等。一定数量的重复观察结果和合理的对照等。为什么要学习医学统计学?为什么要学习医学统计学?2024/6/30121.采用统计学方法,发现不确定现象背后隐藏的规律。为什么要采用统计学方法,发现不确定现象背后隐藏的规律。为什么要 最大值最大值=6.18,=6.18,最小值最小值=3.29,=3.29,极差极差=2.89 =2.89 算术均数算术均数=4.72=4.72,标准差,标准差=0.57=0.57。2024/6/3013最大值最大值=6.18,最小值最小值=3.29,极差极差=2.892.用统计学思维方式考虑有关医学研用统计学思维方式考虑有关医学研究中的问题究中的问题 “阳性阳性”结果是否是虚假联系?结果是否是虚假联系?某感冒药治疗某感冒药治疗1 1周后,治愈率为周后,治愈率为90%90%,能否说该感,能否说该感冒药十分有效?冒药十分有效?“阴性阴性”结果是否是样本含量不足?结果是否是样本含量不足?有人曾对发表在有人曾对发表在Lancet,N Engl J MedLancet,N Engl J Med,JAMAJAMA等等著名医学杂志上的著名医学杂志上的7171篇阴性结果的论文作过分析,发篇阴性结果的论文作过分析,发现其中有现其中有6262篇(篇(93%93%)可能是由于)可能是由于样本含量样本含量不足造成不足造成的假阴性。的假阴性。2024/6/30142.用统计学思维方式考虑有关医学研究中的问题用统计学思维方式考虑有关医学研究中的问题2023乙药是否比甲药有效?乙药是否比甲药有效?乙药是否比甲药有效?乙药是否比甲药有效?2024/6/3015乙药是否比甲药有效?乙药是否比甲药有效?2023/8/1115要求设立具有可比性的对照要求设立具有可比性的对照组组某文献报道:用某种中草药治疗玫瑰糠疹,有效率为78%,平均疗程为3周左右。问此药治疗玫瑰糠疹的确有效吗?玫瑰糠疹具有自然治愈的情况,一般不服药,多喝水,到3周左右有些患者也会自愈。2024/6/3016要求设立具有可比性的对照组某文献报道:用某种中草药治疗玫瑰糠要求设立具有可比性的对照组某文献报道:用某种中草药治疗玫瑰糠某处报导:某处报导:“据统计,城市人的寿命要比据统计,城市人的寿命要比农村少农村少5年。湖北地区曾调查了年。湖北地区曾调查了90岁以上岁以上的长寿者的长寿者125人,其中住在城市的占人,其中住在城市的占24,农村占农村占76。可能城市的紧张生活及噪。可能城市的紧张生活及噪音对寿命均有影响音对寿命均有影响”。你认为这个结论对。你认为这个结论对不对,并说明理由。不对,并说明理由。用某药治疗某病,治疗用某药治疗某病,治疗10例,其中例,其中9人有人有效,能说效,能说90%有效吗?有效吗?有关统计的其他问题有关统计的其他问题有关统计的其他问题有关统计的其他问题2024/6/3017某处报导:某处报导:“据统计,城市人的寿命要比农村少据统计,城市人的寿命要比农村少5年。湖北地区曾调年。湖北地区曾调3.保证你的研究论文能通过统计学审查保证你的研究论文能通过统计学审查 据国外据国外6080年代对不同医学杂志发表论文年代对不同医学杂志发表论文的调查结果显示,有的调查结果显示,有统计错误的论文所占比例高达统计错误的论文所占比例高达72%,最低也有,最低也有20%。国内国内1984年对年对中华医学杂志中华医学杂志、中华内中华内科杂志科杂志、中华外科杂志中华外科杂志、中华妇产科杂志中华妇产科杂志、中华儿科杂志中华儿科杂志595篇论文的调查结果,相篇论文的调查结果,相对数误用为对数误用为11.2%,抽样方法误用,抽样方法误用15.9%,统计图,统计图表误用表误用11.7%。某研究者某研究者1996年对年对4586篇论文统计(中华医篇论文统计(中华医学会系列杂志仅占学会系列杂志仅占6.9%),数据分析方法误用达),数据分析方法误用达55.7%。2024/6/30183.保证你的研究论文能通过统计学审查保证你的研究论文能通过统计学审查2023/8/1118 JAMA,新新英英格格兰兰医医学学杂杂志志(NEJM)、英英国国医医学学杂杂志志、中中华华医医学学会会杂杂志志对对来来稿稿都都有有统计学要求统计学要求或统计学指导。或统计学指导。国国际际生生物物医医学学杂杂志志编编辑辑协协会会在在其其生生物物医医学学期期刊刊投投稿稿的的统统一一要要求求中中也也包包含含了了统统计计学要求。学要求。Uniform Requirements for Manuscripts Submitted to Biomedical Journals http:/www.acponline.org2024/6/30JAMA,新英格兰医学杂志(,新英格兰医学杂志(NEJM)、英国医学杂志)、英国医学杂志194.获得循证医学证据的主要手段获得循证医学证据的主要手段“良良 好好 愿愿 望望 的的 医医 学学”(well-meaning medicine)转转入入“以以证证据据为为基基础础的的医医学学”(evidence-based medicine,EBM)需要有统计学方法的支持。需要有统计学方法的支持。全全世世界界的的医医学学期期刊刊每每年年大大约约刊刊登登600600万万学学术术论文,但能作为论文,但能作为可靠可靠“证据证据”的论文并不多。的论文并不多。2024/6/30204.获得循证医学证据的主要手段获得循证医学证据的主要手段2023/8/1120学习医学统计学的用途学习医学统计学的用途累计和表达经验:累计和表达经验:将积累的经验从感性认识上升到理性认识(如阑尾根部化脓及穿孔手术50例分析)。完成科研工作:完成科研工作:如何分组?分组是否有可比性?样本含量是否足够?实验结果的误差有多大?研究结果是否可推广?研究报告如何撰写?阅读医学书刊:阅读医学书刊:继续教育的需要;识别他人研究结果的可靠性。2024/6/3021学习医学统计学的用途累计和表达经验:将积累的经验从感性认识上学习医学统计学的用途累计和表达经验:将积累的经验从感性认识上第二节第二节第二节第二节 医学统计的基本概念医学统计的基本概念医学统计的基本概念医学统计的基本概念同质与变异同质与变异总体与样本总体与样本抽样抽样误差及种类误差及种类变量及其分类变量及其分类概率与频率概率与频率2024/6/3022第二节第二节医学统计的基本概念同质与变异医学统计的基本概念同质与变异总体与样本总体与样本22024/6/30232023/8/11232024/6/30242023/8/1124一、同质和变异一、同质和变异(homogeneity,variation)homogeneity,variation)观察单位观察单位:observationunit。由根据研究目的而确定,是统计研究中最基由根据研究目的而确定,是统计研究中最基本的单位。本的单位。同质同质:是指被研究指标的可控制影响因是指被研究指标的可控制影响因素相同或基本相同。素相同或基本相同。例:研究儿童的身高:易控制的因素(性例:研究儿童的身高:易控制的因素(性别、年龄、身高、地区,等)别、年龄、身高、地区,等)、不易控制、不易控制的因素(遗传、营养,等)的因素(遗传、营养,等)变异变异:同质的基础上的个体差异同质的基础上的个体差异。如某年某地如某年某地7岁男孩的身高。岁男孩的身高。2024/6/3025一、同质和变异一、同质和变异(homogeneity,variatio医学研究中同质的重要性医学研究中同质的重要性组间具有可比性是指对比组之间组间具有可比性是指对比组之间除对比除对比因素外,其他特征基本相同,即所谓组因素外,其他特征基本相同,即所谓组间均衡间均衡。组间均衡,则差异有统计学意义的结果组间均衡,则差异有统计学意义的结果可解释为对比因素的作用;可解释为对比因素的作用;否则,差异有统计学意义的结果不能解否则,差异有统计学意义的结果不能解释为对比因素的作用,因为其他因素也释为对比因素的作用,因为其他因素也可能造成组间差异。可能造成组间差异。2024/6/3026医学研究中同质的重要性组间具有可比性是指对比组之间除对比因素医学研究中同质的重要性组间具有可比性是指对比组之间除对比因素二、总体与样本二、总体与样本(population and sample)总体总体:根据研究目的确定全部根据研究目的确定全部同质同质个体,个体,这些个体的某项变量值。这些个体的某项变量值。研究1999年某农村地区14岁女孩身高研究糖尿病人的血压测量值总体有三大特点:总体有三大特点:同质性同质性大量性大量性差异性差异性 2024/6/3027二、总体与样本(二、总体与样本(populationandsample)样本样本sample样本样本:根据根据随机化原则随机化原则从总体中抽从总体中抽出出有代表性有代表性的一部分观察单位。的一部分观察单位。样本含量样本含量:样本包含的观察单位数样本包含的观察单位数统计推断统计推断:用样本推断总体的特征用样本推断总体的特征2024/6/3028样本样本sample样本:根据随机化原则从总体中抽出有代表性的一样本:根据随机化原则从总体中抽出有代表性的一有限总体有限总体 finite population 在确定的时间、空间范围内有限个观察单在确定的时间、空间范围内有限个观察单位的总体。位的总体。如:调查某地1999年正常成年男子的红细胞数。观察对象:该地1999年的正常成年男子;观察单位:每个人;同质:同一地区、同一年份、同一性别、同为正常人、同为男性。观察值(变量值):每个人测得的红细胞数;总体:该地1999年的正常成年男子的红细胞数。又如:暨南大学大学生近视发病率2024/6/3029有限总体有限总体finitepopulation在确定的时间、在确定的时间、无限总体infinite population无时间和空间范围限制的总体,此总体是无时间和空间范围限制的总体,此总体是抽象的,观察单位数是无限的。抽象的,观察单位数是无限的。如:研究用某药治疗缺铁性贫血的疗效。同质:贫血患者、同时使用某药治疗;总体:使用该药治疗的所有贫血患者的治疗效果,无时间和空间的限制。2024/6/3030无限总体无限总体infinitepopulation无时间和空间范无时间和空间范Target population and accessible population:Target population:Target population:研究者最想推论最想推论的真正的的真正的群体群体(称为目标总体),常常是不可得,是研究者理想上的选择理想上的选择。Accessible populationAccessible population:研究者真正能将研究真正能将研究结果推论到的群体结果推论到的群体(称为可及总体),是研究者实际拥有的选择实际拥有的选择。targetpopulation:well suited to the research questionaccessiblepopulation:representative of the target population and easy to study2024/6/3031TargetpopulationandaccessibTarget population and accessible population:Target population and accessible population:Target population and accessible population:Target population and accessible population:例如:计算机辅助教学对于广州地区小学地区小学一、二年级一、二年级(target population)(target population)学生阅读成就的影响。而暨南大学附属小学的一暨南大学附属小学的一二年级学生是二年级学生是accessible populationaccessible population;一二年级中一二年级中1010的学生是样本的学生是样本。2024/6/3032Targetpopulationandaccessib总体与样本的关系2024/6/3033总体与样本的关系总体与样本的关系2023/8/1133推论与推论与外部效度外部效度推论推论(generalize):将某个研究的发现应用在该研究的人物或情境之外。外部效度外部效度(externalvalidity):研究结果能推论到怎样的程度,就是该研究的外部效度。总体可推论性总体可推论性(populationgeneralizability):样本可以代表总体的程度,若研究结果只适用该研究所使用的样本(如样本太小),则研究发现的用处受到限制。生态可推论性生态可推论性(ecologicalgeneralizability):研究结果可以被延用到其它的情境或状况的程研究结果可以被延用到其它的情境或状况的程度。度。2024/6/3034推论与外部效度推论推论与外部效度推论(generalize):将某个研究的发现将某个研究的发现抽样抽样:从总体中抽取样本的过程。:从总体中抽取样本的过程。代表性:代表性:样本中的每一个个体必须符合总体的规定。如研究1999年某农村地区14岁女孩身高。随机性:随机性:保证总体中的每个个体有相同的机会被抽作样本。方法有:抽签、机械抽样、分层抽样、随机数字表。可靠性:可靠性:实验的结果要具有可重复性。由于个体之间存在差异,只有观察一定数量的个体才能揭示客观规律性。2024/6/3035抽样:从总体中抽取样本的过程。代表性:样本中的每一个个体必须抽样:从总体中抽取样本的过程。代表性:样本中的每一个个体必须非随机抽样法(非概率抽样)方便抽样:方便抽样:依赖于可以纳入样本的可获得性的研究对象。速度快、简单。通常不能很好的代表总体目标人群。定额抽样:定额抽样:对人群要素的特征做了规定,并从满足这些特征的人群中抽取合适比例作为样本。花费少,简单,方便。缺乏代表行。目的抽样:目的抽样:基于对总体的了解以及研究的特殊目的,研究者根据对人群要素的代表性或者主要特征的判断和研究目的选择样本。滚雪球抽样:滚雪球抽样:依赖于一些能将其他相关的研究对象纳入研究的信息。例如,感染HIV/AIDS的人或者吸毒的人。2024/6/3036非随机抽样法(非概率抽样)方便抽样:依赖于可以纳入样本的可获非随机抽样法(非概率抽样)方便抽样:依赖于可以纳入样本的可获三、参数与统计量三、参数与统计量 parameter and statistic参数:参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。固定的常数固定的常数 总体总体样样本本抽取部分观察单位抽取部分观察单位 统计量统计量统计量统计量 参参参参 数数数数 推断推断inference统计量统计量:样本样本的统计指标,如样本均数、标准差,采用英的统计指标,如样本均数、标准差,采用英文字母分别记为文字母分别记为。参数附近波动的随机变量参数附近波动的随机变量。三、参数与统计量三、参数与统计量parameterandstat37四、误差:四、误差:观察值与真实值之差观察值与真实值之差随机误差随机误差:过失误差(过失误差(非系统误差)非系统误差)随机测量误差随机测量误差:抽样误差抽样误差系统误差系统误差非随机误差非随机误差:2024/6/3038四、误差:观察值与真实值之差随机误差:过失误差(非系统误差)四、误差:观察值与真实值之差随机误差:过失误差(非系统误差)系统误差系统误差 systematic error在实际观测过程中,由受试对象、研究者、仪在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之的有一定倾向性或规律性的误差。流行病学称之为为偏倚偏倚(bias)。)。特点:观察值有特点:观察值有系统性系统性、方向性方向性、周期性周期性的偏的偏离真值。离真值。可以通过严格的可以通过严格的实验设计实验设计和和技术措施技术措施消除消除。系统误差系统误差systematicerror在在39过失误差过失误差:gross errorA由于观察过程中不仔细造成的错误判断由于观察过程中不仔细造成的错误判断或记录。或记录。应认真检查核对,否则将会影响研究结应认真检查核对,否则将会影响研究结果的准确性。果的准确性。2024/6/3040过失误差:过失误差:grosserror由于观察过程中不仔细造成的错由于观察过程中不仔细造成的错随机测量误差随机测量误差:random measurement errorrandom measurement errorA各种偶然因素(电压、环境温度等)的影各种偶然因素(电压、环境温度等)的影响造成同一对象多次测定的结果不完全一响造成同一对象多次测定的结果不完全一样。样。A或同一样品不同观察者之间的差异。该误或同一样品不同观察者之间的差异。该误差不可避免,但要控制在容许范围内。差不可避免,但要控制在容许范围内。提高操作者熟练程度可以减少这种误差提高操作者熟练程度可以减少这种误差2024/6/3041随机测量误差:随机测量误差:randommeasurementerr抽样误差抽样误差:random sampling errorA在排除了系统误差,控制了随机测量误差在排除了系统误差,控制了随机测量误差后,由于抽样过程造成的样本指标与总体后,由于抽样过程造成的样本指标与总体指标之间的差异。指标之间的差异。A该误差不可避免,该误差不可避免,但有一定的分布规律,但有一定的分布规律,可估计。可估计。A原因:个体差异的存在。原因:个体差异的存在。2024/6/3042抽样误差:抽样误差:randomsamplingerror在排除在排除系统误差、随机测量误差系统误差、随机测量误差系统误差、随机测量误差系统误差、随机测量误差准确性、精确性准确性、精确性准确性、精确性准确性、精确性2024/6/3043系统误差、随机测量误差系统误差、随机测量误差准确性、精确性准确性、精确性2023/8/1143准确度与可靠度准确度与可靠度准确度准确度(accuracy)或真实性(或真实性(validity):观察值与观察值与真值真值的接近程度,受的接近程度,受系统误差系统误差的影响的影响(常用指标:如灵敏度、特异度常用指标:如灵敏度、特异度)。可靠度(可靠度(reliabiliy)也称精密度也称精密度(precision)或重复性(或重复性(repeatability):重复观察时重复观察时观察值观察值与其均值与其均值的接近程度,受的接近程度,受随机随机误差误差的影响(常用指标:一致百分率、的影响(常用指标:一致百分率、Kappa值)。值)。2024/6/3044准确度与可靠度准确度准确度与可靠度准确度(accuracy)或真实性(或真实性(valid2024/6/30452023/8/1145五、概率与频率五、概率与频率随机现象与随机事件随机现象与随机事件随机现象:随机现象:在相同的条件下,重复进行试在相同的条件下,重复进行试验,每次的结果未必相同,且将来的结果验,每次的结果未必相同,且将来的结果事前不能完全肯定。事前不能完全肯定。随机事件随机事件:随机现象发生的结果。:随机现象发生的结果。随机事件的特征:随机事件的特征:随机性随机性;规律性规律性:每次发生的可能性的大小是确定的。产生随机现象的原因:产生随机现象的原因:随机误差所致(包随机误差所致(包括个体差异和偶然测量误差)括个体差异和偶然测量误差)2024/6/3046五、概率与频率随机现象与随机事件随机现象:在相同的条件下,重五、概率与频率随机现象与随机事件随机现象:在相同的条件下,重概率概率 probability:是描述是描述随机事件随机事件(可能发生也可能不发生的(可能发生也可能不发生的事件)发生可能大小的量。事件)发生可能大小的量。用大写的用大写的P P表示;取值表示;取值00,11。确定性现象确定性现象:在一定条件下,:在一定条件下,一定一定会发会发生或一定不会发生的现象。其表现结果为两生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫种事件:肯定发生某种结果的叫必然事件必然事件;肯定不发生某种结果的叫肯定不发生某种结果的叫不可能事件不可能事件。2024/6/3047概率概率probability:是描述随机事件(可能发生也是描述随机事件(可能发生也必然事件必然事件 P P=1 =1 不可能事件不可能事件 P P=0 =0 随机事件随机事件 00P P11 P P 0.05 0.05(5 5)或)或P P 0.01 0.01(1 1)称为称为小概率事件小概率事件(习惯习惯),统计,统计学上认为不大可能发生。学上认为不大可能发生。小概率事件小概率事件必然事件必然事件P=148样本的实际发生率称为样本的实际发生率称为频率频率。设在相同。设在相同条件下,独立重复进行条件下,独立重复进行n次试验,事件次试验,事件A出出现现f 次,则事件次,则事件A出现的频率为出现的频率为f/n。频率与概率间的关系:频率与概率间的关系:样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动样本含量样本含量n越大,波动幅度越小,频率越接越大,波动幅度越小,频率越接近概率。近概率。频率频率 frequency样本的实际发生率称为频率。设在相同条件下,独立重样本的实际发生率称为频率。设在相同条件下,独立重49频率与概率的关系:频率与概率的关系:抛掷硬币的历史抛掷硬币的历史抛掷硬币的历史抛掷硬币的历史试验记录试验记录试验记录试验记录当样本含量较大时,可将频率作为概率的估计值2024/6/3050频率与概率的关系:抛掷硬币的历史试验记录当样本含量较大时,可频率与概率的关系:抛掷硬币的历史试验记录当样本含量较大时,可第三节第三节 统计资料的类型统计资料的类型统计统计资料资料的类型分为三种的类型分为三种1、数值变量、数值变量资料资料2、分类变量、分类变量资料资料v二项分类二项分类二项分类二项分类v多项分类多项分类多项分类多项分类3、等级、等级资料资料2024/6/3051第三节第三节统计资料的类型统计资料的类型分为三种统计资料的类型统计资料的类型分为三种2023/8/1(一)数据类型(一)数据类型1.1.计量资料计量资料2.2.计数资料计数资料3.3.等级资料等级资料 (一)数据类型(一)数据类型1.计量资料计量资料521.1.计计量量资料资料 用仪器、工具等用仪器、工具等测量测量(measure)方法获方法获得的数据,即为得的数据,即为计量资料计量资料measurment data。也叫定量数据。也叫定量数据Quantitative data特点:特点:有计量单位有计量单位,如患者的身高(,如患者的身高(cm)、)、体重(体重(kg)、血压()、血压(mmHg)、脉搏(次)、脉搏(次/分)、红细胞计数(分)、红细胞计数(10/L)1.计量资料计量资料用仪器、工具等测量用仪器、工具等测量(measure532.2.计计数数资料资料 按某种属性分类,然后清点每类的数据,按某种属性分类,然后清点每类的数据,称称计数资料计数资料(count datacount data)或)或enumeration enumeration datadata。也叫定性数据。也叫定性数据Qualitative dataQualitative data 特点:特点:特点:特点:无固有计量单位无固有计量单位无固有计量单位无固有计量单位,如肤色(黑、白)、,如肤色(黑、白)、,如肤色(黑、白)、,如肤色(黑、白)、血型(血型(血型(血型(ABOABO)、职业(工农兵)、性别(男女)、职业(工农兵)、性别(男女)、职业(工农兵)、性别(男女)、职业(工农兵)、性别(男女)2.计数资料计数资料按某种属性分类,然后清点每类的数据按某种属性分类,然后清点每类的数据543.3.等级资料等级资料 Rank dataRank data半定性或半定量的观察结果。有大小顺序,半定性或半定量的观察结果。有大小顺序,所以也叫所以也叫有序分类资料有序分类资料(ordinal category ordinal category datadata)。)。癌症分期:早、中、晚。癌症分期:早、中、晚。药物疗效:治愈、好转、无效、死药物疗效:治愈、好转、无效、死亡。亡。尿蛋白:尿蛋白:、+、+及以及以上上3.等级资料等级资料Rankdata半定性或半定量的观察结果。半定性或半定量的观察结果。55住院号住院号年龄年龄身高身高体重体重住院天数住院天数职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局272716516571.571.55 5无无中学中学顺产顺产足月足月222216016074.074.05 5无无小学小学助产助产足月足月252515815868.068.06 6管理员管理员大学大学顺产顺产足月足月232316116169.069.05 5无无中学中学剖宫产剖宫产足月足月252515915962.062.01111商业商业中学中学剖宫产剖宫产足月足月272715715768.068.02 2无无小学小学顺产顺产早产早产202015815866.066.04 4无无中学中学助产助产早产早产242415815870.570.53 3无无中学中学助产助产足月足月292915415457.057.07 7干部干部中学中学剖宫产剖宫产足月足月观察单位observations个体individuals变量variablesQuantitative data Quantitative data 计量资料计量资料Qualitative data Qualitative data 计数资料计数资料Units;elements住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局住院号年龄身高体重住院天数职业文化程度分娩方式妊娠结局27156(二)变量与随机变量(二)变量与随机变量Variable and random variableVariable and random variable变量变量可以测量的任何特征或属性可以测量的任何特征或属性 Any Any characteristic characteristic or or attribute attribute that that can can be be measuredmeasured。(不不同同个个体体结结果可能不同)果可能不同)随机变量随机变量在概率论中称变量为随机变量在概率论中称变量为随机变量2024/6/3057(二)变量与随机变量(二)变量与随机变量Variableandrandom 随机变量的分类随机变量的分类连续性变量连续性变量(continuous variablecontinuous variable)相当于计量资相当于计量资料料离散型变量离散型变量(discrete variablediscrete variable)相当于计数资相当于计数资料料有有 序序 变量变量(ordinal variableordinal variable)相当于等级资相当于等级资料料 根据观察数据之间有无缝隙(根据观察数据之间有无缝隙(gapgap),常将数),常将数据分类为离散型(据分类为离散型(discretediscrete)变量(有缝隙)与)变量(有缝隙)与连续型(连续型(continuouscontinuous)变量(无缝隙)两大类。)变量(无缝隙)两大类。虽然如脉搏、白细胞计数等测量值只能是正整数,但为研究方便习惯上也视虽然如脉搏、白细胞计数等测量值只能是正整数,但为研究方便习惯上也视为连续变量。为连续变量。2024/6/3058随机变量的分类连续性变量(随机变量的分类连续性变量(continuousvar2024/6/30592023/8/1159各类变量间的互相转化各类变量间的互相转化有序分类变量转化为数值变量:有序分类变量转化为数值变量:如:治愈3、显效2、好转l、无效0数值变量也可转化为分类变量:数值变量也可转化为分类变量:如:按血压测量值大小将血压分为:低血压、正常、高血压 或正常、异常2024/6/3060各类变量间的互相转化有序分类变量转化为数值变量:各类变量间的互相转化有序分类变量转化为数值变量:2023/8第四节第四节 统计工作的基本步骤统计工作的基本步骤设计设计搜集资料搜集资料整理资料整理资料分析资料分析资料2024/6/3061第四节第四节统计工作的基本步骤设计统计工作的基本步骤设计2023/8/1161一、设计(一、设计(designdesign)医学科研设计按是否对医学科研设计按是否对 研究对象施加研究对象施加干预分为:实验设计和调查设计。干预分为:实验设计和调查设计。所谓设计所谓设计就是关于研究计划方案的制定,就是关于研究计划方案的制定,任一项研究,除专业设计之外,还应包任一项研究,除专业设计之外,还应包括括统计设计统计设计,如果设计出现错误,那么,如果设计出现错误,那么,不论用什么统计分析方法进行数据处理不论用什么统计分析方法进行数据处理都无法得到正确的结论。都无法得到正确的结论。2024/6/3062一、设计(一、设计(design)医学科研设计按是否对)医学科研设计按是否对研究对象施加干研究对象施加干实验设计必须遵循的基本原则:实验设计必须遵循的基本原则:随机化原则(随机化原则(randomization)对照原则(对照原则(control)重复原则重复原则(replication)2024/6/3063实验设计必须遵循的基本原则:随机化原则(实验设计必须遵循的基本原则:随机化原则(randomizat医学论文统计设计方面存在的常见问题组间的可比性问题组间的可比性问题对照的设立问题对照的设立问题 只有设立除处理因素之外其他实验条件相同(或基本相同)只有设立除处理因素之外其他实验条件相同(或基本相同)的对照组,才能说明处理组的干预措施有无作用。的对照组,才能说明处理组的干预措施有无作用。样本含量的问题:样本含量的问题:样本代表性问题:对象的选择与标准?样本代表性问题:对象的选择与标准?医学伦理学问题:世界医学大会赫尔辛基医学伦理学问题:世界医学大会赫尔辛基宣言宣言2024/6/3064医学论文统计设计方面存在的常见问题组间的可比性问题医学论文统计设计方面存在的常见问题组间的可比性问题2023/二、搜集资料二、搜集资料(data collection)(一一)统计数据来源渠道统计数据来源渠道1.统计数据的直接来源统计数据的直接来源(1)来源于为管理和研究需要而专门组织调查)来源于为管理和研究需要而专门组织调查(2)来源于科学实验方法)来源于科学实验方法2.统计数据的间接来源统计数据的间接来源(1)内部资料的收集)内部资料的收集业务资料:统计资料:疾病分类报表财务资料:内部积累的其他资料:如病历,X光片(2)外部资料的收集:)外部资料的收集:年鉴,政府报告等 2024/6/3065二、搜集资料(二、搜集资料(datacollection)(一一)统计数据统计数据Source of dataPrimarycollect original data by the researcher him or herselfSecondaryuse existing dataTertiaryuse existing studies2024/6/3066SourceofdataPrimary2023/8/11(二)统计数据的收集组织形式(二)统计数据的收集组织形式1.统计报表制度统计报表制度2.普查普查 3.典型调查典型调查4.重点调查重点调查5.抽样调查抽样调查2024/6/3067(二)统计数据的收集组织形式(二)统计数据的收集组织形式1.统计报表制度统计报表制度2023/8/(三三)数据资料的收集方法数据资料的收集方法1.直接观察法直接观察法 2.报告法报告法 3.采访法采访法 4.邮寄法邮寄法 5.电话访问电话访问6.网上调查网上调查:电子邮件法视讯会议法站点法7.计算机辅助调查(计算机辅助调查(Computer Assisted Interviewing):):计算机辅助的电话调查(CATI)计算机辅助的个人访问调查(CAPI)计算机辅助的填报调查(CASI)2024/6/3068(三三)数据资料的收集方法数据资料的收集方法1.直接观察法直接观察法2.报告法报告法3.采采三、整理资料三、整理资料(data sortingdata sorting)使原始数据条理化,便于进一步的计使原始数据条理化,便于进一步的计算和分析。算和分析。对资料进行检查、核对对资料进行检查、核对设计分组:质量分组、数量分组设计分组:质量分组、数量分组按分组要求设计整理表。按分组要求设计整理表。2024/6/3069三、整理资料(三、整理资料(datasorting)使原始数据条理化使原始数据条理化四、分析资料四、分析资料(data analysis)按设计的要求,根据研究目的和资按设计的要求,根据研究目的和资料的类型,对整理出的基础数据作进料的类型,对整理出的基础数据作进一步的计算分析和统计处理,一步的计算分析和统计处理,并用适并用适当的统计图表表达出来,最后结合专当的统计图表表达出来,最后结合专业做出结论。业做出结论。2024/6/3070四、分析资料(四、分析资料(dataanalysis)按按国际通用统计软件包国际通用统计软件包SAS(StatisticalAnalysisSystem)SPSS(StatisticalPackagefortheSocialScience)BMDP(BiomedicalComputerPrograms)GLIM(GeneralisedLinearInteractiveModelling)Genstat(GeneralStatisticalProgram)EpilogMinitab2024/6/3071国际通用统计软件包国际通用统计软件包SAS(StatisticalAnaly学习中应注意的问题学习中应注意的问题?应多联系实际,结合专业,分析评价实应多联系实际,结合专业,分析评价实际工作、医学文献和医学科研中的统计际工作、医学文献和医学科研中的统计问题,才能学好医学统计学。问题,才能学好医学统计学。?要能够应用恰当的统计方法处理各种数要能够应用恰当的统计方法处理各种数据,对统计公式主要了解其意义、用途据,对统计公式主要了解其意义、用途和应用条件,不必深究其数学推导。和应用条件,不必深究其数学推导。2024/6/3072学习中应注意的问题应多联系实际,结合专业,分析评价实际工作、学习中应注意的问题应多联系实际,结合专业,分析评价实际工作、?不能仅凭表面数字上的差异就下结论不能仅凭表面数字上的差异就下结论掌握医学统计学的基本知识、基本技能、掌握医学统计学的基本知识、基本技能、基本概念和基本方法。基本概念和基本方法。建立逻辑思维方法和提高分析问题的能力。建立逻辑思维方法和提高分析问题的能力。懂得假设检验的逻辑推理,理解统计结论懂得假设检验的逻辑推理,理解统计结论的概率性。的概率性。2024/6/3073不能仅凭表面数字上的差异就下结论掌握医学统计学的基本知识、基不能仅凭表面数字上的差异就下结论掌握医学统计学的基本知识、基?反对伪造和篡改统计数字反对伪造和篡改统计数字掌握调查设计和实验设计的原则,培养收掌握调查设计和实验设计的原则,培养收集、整理、分析统计资料的系统工作能力。集、整理、分析统计资料的系统工作能力。重视原始资料的完整性和准确性,对数据重视原始资料的完整性和准确性,对数据处理持严肃、认真、实事求是的科学态度,处理持严肃、认真、实事求是的科学态度,反对伪造和篡改统计数字。反对伪造和篡改统计数字。2024/6/3074反对伪造和篡改统计数字掌握调查设计和实验设计的原则,培养收集反对伪造和篡改统计数字掌握调查设计和实验设计的原则,培养收集伪造统计数据违反科学道德伪造统计数据违反科学道德19761976年年New Science New Science 杂志关于科研舞弊杂志关于科研舞弊行为的调查行为的调查(1 1)74%74%的调查表反映有不正当修改数据的调查表反映有不正当修改数据 的情况的情况(2 2)17%17%拼凑实验结果拼凑实验结果(3 3)7%7%凭空捏造数据凭空捏造数据(4 4)2%2%故意曲解结果故意曲解结果伪造统计数据违反科学道德伪造统计数据违反科学道德1976年年NewScience杂杂75统计学发展简史统计学发展简史古典统计学、近代统计学、现代统计学古典统计学、近代统计学、现代统计学统计学发展过程中出现过几次重大的争论:统计学发展过程中出现过几次重大的争论:“政治算术”与“国势学”的争论,明确了统计学的学科性质;“描述统计学”与“推断统计学”的争论,构筑了统计学的完整体系;“经典统计学”与“贝叶斯统计学”的争论,带来了统计哲学观的新变化;信念统计学与经典统计学、贝叶斯统计学的争论,使统计推断科学化问题的研究日趋深入。正是通过这些争论完善了现代统计学的思想和方法体系。2024/6/3076统计学发展简史古典统计学、近代统计学、现代统计学统计学发展简史古典统计学、近代统计学、现代统计学2023/8“政治算术”与“国势学”之争17 世纪中叶,以英国的配第(配第(E PettyE Petty)和格朗特(和格朗特(J J GrantGrant)为代表创立的“政治算术”,标志着统计学的诞生。首次出现了有意识地用大量的数字资料说话,注首次出现了有意识地用大量的数字资料说话,注重从数量角度探讨社会经济现象规律的活动。重从数量角度探讨社会经济现象规律的活动。与“政治算术”产生的时期差不多,在德国也出现了一门“统计学”“国势学”。“国势学”主要研究“国家的有关显著事项”,其主要特征是对问题的研究和阐述,基本上采用文字记述和逻辑比较,那么它之所以也被认为是统计学,在很大程度上是因为“国势学”发展到顶峰时期的代表性人物阿肯瓦尔(阿肯瓦尔(G Achenwall)G Achenwall)给它起了一个新名称“STATISTIKSTATISTIK”2024/6/3077“政治算术政治算术”与与“国势学国势学”之争之争17世纪中叶,以英国的配第(世纪中叶,以英国的配第(E到到到到1850 1850 1850 1850 年,德国人克尼斯(年,德国人克尼斯(年,德国人克尼斯(年,德国人克尼斯(G A Knies)G A Knies)G A Knies)G A Knies)根据当时统计学发展的实践,概括大多数人的意根据当时统计学发展的实践,概括大多数人的意见,认为见,认为“国势学国势学”尽管有统计学之名但没有统尽管有统计学之名但没有统计学之实,应该仍叫计学之实,应该仍叫“国势学国势学”,而,而“政治算术政治算术”虽然没有统计学之名但有统计学之实,所以虽然没有统计学之名但有统计学之实,所以“政治算术政治算术”才称得上是统计学的真正起源。统计才称得上是统计学的真正起源。统计史上,一般把克尼斯史上,一般把克尼斯“独立科学之统计学独立科学之统计学”一文一文的发表,作为的发表,作为“政治算术政治算术”和和“国势学国势学”争论的争论的结束。结束。2024/6/3078到到1850年,德国人克尼斯(年,德国人克尼斯(GAKnies)根据当时统根据当时统“描述统计学”与“推断统计学”之争从从1919世纪中后期到世纪中后期到2020世纪前半叶,是统世纪前半叶,是统计学发展过程中一个非常重要的时期。计学发展过程中一个非常重要的时期。一方面是兴起于生物遗传学、农业田间试一方面是兴起于生物遗传学、农业田间试验等领域的验等领域的“生物统计学生物统计学”的发展,的发展,另一方面是建立在另一方面是建立在“小样本小样本”观察基础上观察基础上的统计推断方法的发展。的统计推断方法的发展。2024/6/3079“描述统计学描述统计学”与与“推断统计学推断统计学”之争从之争从19世纪中后期到世纪中后期到20生物统计学的创立是英国人是英国人高尔顿(高尔顿(高尔顿(高尔顿(F GaltonF GaltonF GaltonF Galton)最早创立的,最早创立的,为了研究人的智力遗传和进化规律,高尔顿在伦敦开设为了研究人的智力遗传和进化规律,高尔顿在伦敦开设了了“人体测量研究所人体测量研究所”,广泛招募志愿人员,采集到大,广泛招募志愿人员,采集到大量的有关人的自然属性的资料。量的有关人的自然属性的资料。先后出版了两本著作,一本是关于人的能力及其发展先后出版了两本著作,一本是关于人的能力及其发展问题,另一本是遗传的自然规律。问题,另一本是遗传的自然规律。在这两本书及相关的论文中,高尔顿提出了诸如在这两本书及相关的论文中,高尔顿提出了诸如“相关相关”、“回归回归”、“中位数中位数”、“四分位数四分位数”、“四分位四分位数差数差”、“百分位数百分位数”等概念和计算方法。等概念和计算方法。2024/6/3080生物统计学的创立是英国人高尔顿(生物统计学的创立是英国人高尔顿(FGalton)最早创立的)最早创立的皮尔逊皮尔逊皮尔逊皮尔逊(K Pea
展开阅读全文