卫生统计学网上教案.doc

资源描述

卫生统计学网上教案2第一章绪论2第一节卫生统计学的定义和内容3第二节统计工作的步骤4第三节统计学中的几个基本概念5第四节学习卫生统计学应注意的问题8第二章定量资料的统计描述8第一节数值变量资料的频数表8第二节集中趋势的统计描述指标10第三节离散程度的统计描述指标12第三章正态分布及其应用14第一节正态分布的概念和特征14第二节正态分布的应用16第四章总体均数的估计和假设检验18第一节抽样研究与抽样误差18第二节 t分布21第三节总体均数的估计23第四节假设检验的基本步骤24第五节样本与总体比较的假设检验26第六节配对设计（paired design）资料的假设检验27第七节两样本比较的假设检验28第八节第一类错误与第二类错误29第五章方差分析30第一节方差分析的基本思想31第二节完全随机设计的单因素方差分析（one-way ANOVA）34第三节随机区组设计的两因素方差分析（two-way ANOVA）36第四节多个样本均数间的多重比较39第五节多个样本的方差齐性检验43第六节变量变换44第六章定性资料的统计描述45第七章二项分布与Poisson分布及其应用48第一节二项分布的概念与特征48第二节二项分布的应用51第三节 Poisson分布的概念与特征52第四节 Poisson分布的应用55第八章 c2检验58第一节四格表资料的c2检验58第二节配对四格表资料的c2检验60第三节四格表资料的Fisher确切概率法62第四节行列表资料的c2检验64第五节多个样本率比较的c2分割法65第六节频数分布拟合优度的c2检验69第九章秩和检验70第一节配对设计和单样本资料的符号秩和检验71第二节完全随机化设计两独立样本的秩和检验73第三节完全随机化设计多组独立样本的秩和检验74第四节随机化区组设计资料的秩和检验75第五节多个样本间的多重比较77第六节小结80第十章直线回归与相关81第一节直线回归81第二节直线相关分析90第三节等级相关94第四节曲线拟合96第十二章统计表和统计图99第十三章实验设计105第一节实验设计的特点及分类106第二节实验设计的基本要素106第三节实验设计的基本原则109第四节常用的实验设计方法123第十四章调查设计131第一节调查研究的特点131第二节调查设计的基本原则与内容132第三节常用的抽样方法134第四节调查的质量控制134第十五章医学人口统计学与疾病统计常用指标135第一节医学人口统计常用指标135第二节疾病统计常用指标140卫生统计学网上教案第一章绪论学时分配：2学时掌握内容：1、卫生统计学的定义2、统计工作的步骤3、统计学中的几个基本概念4、学习卫生统计学应注意的问题了解内容：卫生统计学的内容第一节卫生统计学的定义和内容1、卫生统计学的定义统计学（statistics）是研究数据的收集、整理和分析的一门科学，帮助人们分析所占有的信息，达到去伪存真、去粗取精、正确认识世界的一种重要手段。卫生统计学（health statistics）是应用数统计学的原理与方法研究居民健康状况以及卫生服务领域中数据的收集、整理和分析的一门科学。Webster国际大辞典（第三版）对统计学的定义是“a science dealing with the collection , analysis , interpretation and presentation of numerical data” 。Last JM 主编的一本流行病学辞典对统计学的定义是“the science and art of dealing with variation in data through collection , classification and analysis in such a way as to obtain reliable results” 。由此看出：统计学是处理资料中变异性的科学和艺术，是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科。这里强调了“过程”，但在实际工作中，许多人往往是忽略了设计、收集和归类（整理），到了分析数据时才想到统计学，此时难免发生“悔之晚矣”的憾事。作为统计学的应用者应充分认识到这一点。2、卫生统计学的内容：1）健康统计：医学人口统计、疾病统计和生长发育统计等；2）卫生服务统计：包括卫生资源利用、医疗卫生服务的需求、医疗保健体制改革等方面的统计学问题。本教材的主要内容为：1）卫生统计学的基本原理和方法：包括统计描述（定量资料和分类资料的描述性指标以及常用统计图表）、常见的理论分布及其应用（正态分布、二项分布与Poisson分布）、总体参数的估计（分总体均数、总体率和总体平均数）、假设检验（t检验、u检验、方差分析、2检验、秩和检验等）、回归与相关、多元线性回归与logistic回归、实验设计和调查设计（第2第14章）；2）健康统计：医学人口与疾病统计中常用的指标（第15章）、寿命表（第16章）、生存率分析（第17章）；3）常用的综合评价方法（第18章）。第二节统计工作的步骤统计学对统计工作的全过程起指导作用，任何统计工作和统计研究的全过程都可分为以下四个步骤：1、设计（design）：在进行统计工作和研究工作之前必须有一个周密的设计。设计是在广泛查阅文献、全面了解现状、充分征询意见的基础上，对将要进行的研究工作所做的全面设想。其内容包括：明确研究目的和研究假说，确定观察对象、观察单位、样本含量和抽样方法，拟定研究方案、预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中最关键的一环，也是指导以后工作的依据（详见第13、14章）。2、收集资料（collection）：遵循统计学原理采取必要措施得到准确可靠的原始资料。及时、准确、完整是收集统计资料的基本原则。卫生工作中的统计资料主要来自以下三个方面：统计报表：是由国家统一设计，有关医疗卫生机构定期逐级上报，提供居民健康状况和医疗卫生机构工作的主要数据，是制定卫生工作计划与措施、检查与总结工作的依据。如法定传染病报表，职业病报表，医院工作报表等。经常性工作记录：如卫生监测记录、健康检查记录等。专题调查或实验。3、整理资料（sorting data）：收集来的资料在整理之前称为原始资料，原始资料通常是一堆杂乱无章的数据。整理资料的目的就是通过科学的分组和归纳，使原始资料系统化、条理化，便于进一步计算统计指标和分析。其过程是：首先对原始资料进行准确性审查（逻辑审查与技术审查）和完整性审查；再拟定整理表，按照“同质者合并，非同质者分开”的原则对资料进行质量分组，并在同质基础上根据数值大小进行数量分组；最后汇总归纳。4、分析资料（analysis of data）：其目的是计算有关指标，反映数据的综合特征，阐明事物的内在联系和规律。统计分析包括统计描述（descriptive statistics）和统计推断（inferential statistics）。前者是用统计指标与统计图（表）等方法对样本资料的数量特征及其分布规律进行描述（详见第2、6、12章）；后者是指如何抽样，以及如何用样本信息推断总体特征（详见第4、5、7、8、9、10、11、17、18章）。进行资料分析时，需根据研究目的、设计类型和资料类型选择恰当的描述性指标和统计推断方法。统计工作的四个步骤紧密相连、不可分割，任何一步的缺陷，都将影响整个研究结果。第三节统计学中的几个基本概念1、同质（homogeneity）与变异（variation）严格地讲，同质是指被研究指标的影响因素完全相同。但在医学研究中，有些影响因素往往是难以控制的（如遗传、营养等），甚至是未知的。所以，在统计学中常把同质理解为对研究指标影响较大的、可以控制的主要因素尽可能相同。例如研究儿童的身高时，要求性别、年龄、民族、地区等影响身高较大的、易控制的因素要相同，而不易控制的遗传、营养等影响因素可以忽略。同质基础上的个体差异称为变异。如同性别、同年龄、同民族、同地区的健康儿童的身高、体重不尽相同。事实上，客观世界充满了变异，生物医学领域更是如此。哪里有变异，哪里就需要统计学。若所研究的同质群体中所有个体一模一样，只需观察任一个体即可，无须进行统计研究。2、总体（population）与样本（sample）任何统计研究都必须首先确定观察单位（observed unit），亦称个体（individual）。观察单位是统计研究中最基本的单位，可以是一个人、一个家庭、一个地区、一个样品、一个采样点等。总体是根据研究目的确定的同质观察单位的全体，或者说，是同质的所有观察单位某种观察值（变量值）的集合。例如欲研究山东省2002年7岁健康男孩的身高，那么，观察对象是山东省2002年的7岁健康男孩，观察单位是每个7岁健康男孩，变量是身高，变量值（观察值）是身高测量值，则山东省2002年全体7岁健康男孩的身高值构成一个总体。它的同质基础是同地区、同年份、同性别、同为健康儿童。总体又分为有限总体（finite population）和无限总体（infinite population）。有限总体是指在某特定的时间与空间范围内，同质研究对象的所有观察单位的某变量值的个数为有限个，如上例；无限总体是抽象的，无时间和空间的限制，观察单位数是无限的，如研究碘盐对缺碘性甲状腺病的防治效果，该总体的同质基础是缺碘性甲状腺病患者，同用碘盐防治；该总体应包括已使用和设想使用碘盐防治的所有缺碘性甲状腺病患者的防治效果，没有时间和空间范围的限制，因而观察单位数无限，该总体为无限总体。在实际工作中，所要研究的总体无论是有限的还是无限的，通常都是采用抽样研究。样本是按照随机化原则，从总体中抽取的有代表性的部分观察单位的变量值的集合。如从上例的有限总体（山东省2002年7岁健康男孩）中，按照随机化原则抽取100名7岁健康男孩，他们的身高值即为样本。从总体中抽取样本的过程为抽样，抽样方法有多种，详见第14章。抽样研究的目的是用样本信息推断总体特征。统计学好比是总体与样本间的桥梁，能帮助人们设计与实施如何从总体中科学地抽取样本，使样本中的观察单位数（亦称样本含量，sample size）恰当，信息丰富，代表性好；能帮助人们挖掘样本中的信息，推断总体的规律性。3、资料（data）与变量（variable）及其分类总体确定之后，研究者应对每个观察单位的某项特征进行测量或观察，特征称为变量。如“身高”、“体重”、“性别”、“血型”、“疗效”等。变量的测定值或观察值称为变量值（value of variable）或观察值（observed value），亦称为资料。按变量的值是定量的还是定性的，可将变量分为以下类型，变量的类型不同，其分布规律亦不同，对它们采用的统计分析方法也不同。在处理资料之前，首先要分清变量类型。1）数值变量（numerical variable）：其变量值是定量的，表现为数值大小，可经测量取得数值，多有度量衡单位。如身高（cm）、体重（kg）、血压（mmHg kPa）、脉搏（次/min）和白细胞计数（10 9 /L）等。这种由数值变量的测量值构成的资料称为数值变量资料，亦称为定量资料（quantitative data）。大多数的数值变量为连续型变量，如身高、体重、血压等；而有的数值变量的测定值只能是正整数，如脉搏、白细胞计数等，在医学统计学中把它们也视为连续型变量。 2）分类变量（catagorical variable）：其变量值是定性的，表现为互不相容的类别或属性。分类变量可分为无序变量和有序变量两类：（1）无序分类变量（unordered categorical variable）是指所分类别或属性之间无程度和顺序的差别。，它又可分为二项分类，如性别（男、女），药物反应（阴性和阳性）等；多项分类，如血型（O、A、B、AB），职业（工、农、商、学、兵）等。对于无序分类变量的分析，应先按类别分组，清点各组的观察单位数，编制分类变量的频数表，所得资料为无序分类资料，亦称计数资料。（2）有序分类变量（ordinal categorical variable）各类别之间有程度的差别。如尿糖化验结果按、分类；疗效按治愈、显效、好转、无效分类。对于有序分类变量，应先按等级顺序分组，清点各组的观察单位个数，编制有序变量（各等级）的频数表，所得资料称为等级资料。变量类型不是一成不变的，根据研究目的的需要，各类变量之间可以进行转化。例如血红蛋白量（g/L）原属数值变量，若按血红蛋白正常与偏低分为两类时，可按二项分类资料分析；若按重度贫血、中度贫血、轻度贫血、正常、血红蛋白增高分为五个等级时，可按等级资料分析。有时亦可将分类资料数量化，如可将病人的恶心反应以0、1、2、3表示，则可按数值变量资料（定量资料）分析。4、随机事件（random event）与概率（probability）医学研究的现象，大多数是随机现象，对随机现象进行实验或观察称为随机试验。随机试验的各种可能结果的集合称为随机事件，亦称偶然事件，简称事件。例如用相同治疗方案治疗一批某病的患者，治疗转归可能为治愈、好转、无效、死亡四种结果，对于一个刚入院的患者，治疗后究竟发生哪一种结果是不确定的，可能发生的每一种结果都是一个随机事件。对于随机事件来说，在一次随机试验中，某个随机事件可能发生也可能不发生，但在一定数量的重复试验后，该随机事件的发生情况是有规律可循的。概率是描述随机事件发生的可能性大小的数值，常用P表示。例如，投掷一枚均匀的硬币，随机事件A表示“正面向上”，用 n表示投掷次数；m表示随机事件A发生的次数；f表示随机事件A发生的频率（f=m/n），0mn, 0f1。用不同的投掷次数n作随机试验，结果如下：m/n=8/10=0.8, 7/20=0.35, , 249/500=0.498, 501/1000=0.501, 10001/2000=0.5000，由此看出当投掷次数n足够大时,f=m/n0.5，称P(A)=0.5，或简写为：P=0.5。当n足够大时，可以用f估计P。随机事件概率的大小在0与1之间，即0P100）时由t分布可知，当自由度越大，t分布越逼近u分布，此时t曲线下有95%的t值在1.96之间，即：P（-1.96t+1.96）=0.95P（-1.96+1.96）=0.95 P（）=0.95 故总体均数的95%可信区间为（，）（4.6）3未知且n小时某自由度的t曲线下有95%的t值在之间，即：故总体均数的95%可信区间为（，）（4.7）例3.3 对某人群随机抽取20人，用某批号的结核菌素作皮试，平均浸润直径为10.9cm，标准差为3.86cm。问这批结核菌素在该人群中使用时，皮试的平均浸润直径的95%可信区间是多少？该例n=20, n较小，按公式（4.7）计算。=20-1=19，查t界值表，得=2.093 估计这批结核菌素在该人群中使用，皮试的平均浸润直径的95%可信区间为（10.9-2.093*3.86/，10.9+2.093*3.86/）cm即(9.1，12.7)cm。（三）可信区间的注意问题 1可信区间的涵义意思是从总体中作随机抽样，每个样本可以算得一个可信区间。如95%可信区间意味着做100次抽样，算得100个可信区间，平均有95个估计正确，估计错误的只有5次。5%是小概率事件，实际发生的可能性很小，当然这种估计方法会有5%犯错误的风险。2可信区间的两个要素:一是准确度，反映在可信度的大小，即区间包含总体均数的概率的大小，愈接近1愈好。二是精密度，反映在区间的长度，长度愈小愈好。在样本含量确定的情况下，二者是矛盾的，若只管提高可信度，会把区间变得很长，故不宜认为99%可信区间比95%可信区间好，需要兼顾准确度和精密度，一般来说95%可信区间更为常用，在可信度确定的情况下，增加样本含量，可减少区间长度，提高精密度。（王淑康）第四节假设检验的基本步骤一、假设检验的基本思想在抽样研究中，由于样本所来自的总体其参数是未知的，只能根据样本统计量对其所来自总体的参数进行估计，如果要比较两个或几个总体的参数是否相同，也只能分别从这些总体中抽取样本，根据这些样本的统计量作出统计推断，籍此比较总体参数是否相同。由于存在抽样误差，总体参数与样本统计量并不恰好相同，因此判断两个或多个总体参数是否相同是一件很困难的事情。如医生在某山区随机测量了25名健康成年男子的脉搏，平均次数为74.2次分钟，标准差为5.2次分钟，但是根据医学常识，一般男子的平均脉搏次数为72次分钟，问该山区男子脉搏数与一般男子是否不同？要回答这个看似简单的问题并非易事。这个问题难以从正面直接回答，可以先假定该山区所有男子脉搏数数值组成一个总体，其总体均数和标准差均为未知数，不妨分别以、表示。如果我们假设该山区男子的脉搏数与一般地区的男子相同，即属于同一总体，72，所测量的25名男子的平均脉搏数（样本均数）之所以不恰好等于72次分，是由于抽样误差所致。如果上述假设成立，则理论上讲，样本均数很可能在总体均数（72）的附近，样本均数远离总体均数的可能性很小。如果将样本均数变换为值，则值很可能在0的附近，值远离0的可能性很小。如果值很小上述假设可能不正确，可拒绝上述假设。假设检验包括单侧检验和双侧检验两种情况，当根据专业知识已知两总体的参数中甲肯定不会小于乙，或甲肯定不会大于乙时，可考虑用单侧检验，否则，宜用

展开阅读全文

卫生统计学网上教案.doc

最新文档