资源描述
卫生统计学考试大纲串讲文字材料注:以下内容为当初老师串讲的文字材料,仅供同学进行复习时,参考使用。第一部分 绪论一、总体与样本的概念例1:某地2002年正常成人血压的研究中,其研究总体是该地2002年所有正常成人血压值的全体。对这样的总体作研究时,观察单位的数量N多数情况下是巨大或不清楚的,统计上称之为无限总体。此时的两个重要参数:总体均数与总体标准差往往未知,为了获得对它的估计,需要作抽样研究。例1的样本是指从该地2002年正常成人的血压值的总体中随机抽出的一部分血压值的集合。二、误差、随机抽样、概率与小概率事件的概念抽取样本时应遵循随机化原则,使得样本具有足够的代表性,能较准确地代表总体。对样本作描述性统计时经常采用的统计量是样本均数与样本标准差s。用样本均数来估计未知总体均数时不可避免地会存在差异,各个随机样本所算得的样本均数之间也会存在差异,统计上称之为抽样误差。抽样误差属于随机误差的一种,随机误差的特点是由偶然因素所致,所得结果或大或小,如果增加观测次数,偏大或偏小的结果会互相中和甚至消除。与随机误差相对立的另一种误差是系统误差,其典型例子是用未校准的天平测量物品时所产生的误差。概率是反映事件发生的可能性大小的量,用P表示。P0.05的事件称为小概率事件,可以认为在一次试验中该事件不可能发生。 均数 标准差 s率p未知参数三、不同类型的统计资料(计量/计数/等级)及相应的统计方法例1:为调查某地2002年正常成人的血压情况,随机抽取该地100名正常成人血压值作为样本。例2:为研究某市1995年住院分娩产妇中妊高症发生情况及可能影响因素,故将总体定义为该市1995年所有住院分娩产妇,该总体中妊高症发生率用表示(未知)。现随机抽取该市1000名住院分娩产妇,并清点其中发生妊高症的产妇人数所获得的资料。例3:对新药与传统药作疗效对比,观察的主要指征是患者的贫血程度有无改善。两组患者均被分为轻度、中度、重度或恶性贫血四种类型,并分别清点人数。治疗前后分别统计所获得的资料。第二部分 计量资料的统计描述四、掌握各种集中、离散趋势指标的计算、适用条件及意义1为了解计量资料的分布规律,可将观察值编制频数表、绘制直方图,以描述资料的分布特征(集中趋势和离散趋势),以及分布类型(对称分布、偏态分布)。2描述计量资料集中趋势(集中位置)常用的指标有均数,几何均数,中位数常用描述集中趋势的指标指标计算公式适用条件均数适用于对称分布,尤其正态分布几何均数G等比资料,对数正态分布中位数M偏态分布,末端无确定值 3描述频数分布离散趋势的指标有:极差和四分位数间距,后者较稳定,但均不能综合反映全部观察值的变异程度。方差和标准差,能综合反映全部观察值的变异程度。变异系数,可用于单位不同或均数相差悬殊时资料的变异度的比较。以上指标均为数值越小,说明观察值的变异度越小。常用描述离散趋势的指标指标计算公式适用条件极差R最大值-最小值任何分布四分位数间距QQ=P75-P25偏态分布,末端无确定值方差s2、s2 对称分布,尤其正态分布标准差s、s 对称分布,尤其正态分布变异系数CV量纲不同的资料均数相差悬殊的资料五、对称分布与偏态分布资料的频数分布特征120名20岁男大学生身高资料身高组段频数,f(1)(2)1622 1643 16610 16813 17019 17228 17420 17610 17810 1804 1821841 合计(f)120 某校急性食物中毒潜伏期资料潜伏期(天)(1)人数(f)(2)011723231141154627181合计70六、正态分布与标准正态分布的特征:见预防医学P112或实用卫生统计学P21。七、正态分布与标准正态分布曲线下特殊的面积规律正态分布曲线下面积规律是,理论上1.96、2.58区间的面积(观察单位数)各占总面积(总观察单位数)的95%和99%。标准正态分布曲线下面积规律是,理论上(-1.96,1.96)和(-2.58,2.58)区间内的面积占总面积的95%和99%。八、正态分布法计算95%、99%正常值范围的公式实际应用中却很少已知和,当样本含量n较大时,可用和s作为和的估计值,则有:(, )包括所有观察值的95%;包括所有观察值的99%。第三部分 计数资料的统计描述九、常用相对数指标及其应用时注意事项常用相对数的公式和用途相对数公式说明问题率发生某现象的观察单位数可能发生某现象的观察单位总数 某现象的发生频率或强度构成比A/(A+B+) 事物内部各组成部分所占比重 或分布比A/BA为B的若干倍或百分之几相对数在应用时应注意:分母不宜过小、不能以构成比代替率,平均率的计算及资料的可比性问题。十、率的标准化法的意义当比较两组资料时内部构成有不同以致影响结果时,需要进行率的标准化,其目的是消除内部构成因素对总率的影响。标准化法的基本思想是选择统一构成的人群作为标准人口,对资料进行校正,重新计算标化率并作相互比较。 第四部分 计量与计数资料的统计推断十一、标准误的概念、计算、意义及应用均数的标准误是反映均数抽样误差大小的指标,即样本均数的标准差。均数的标准误越小,抽样误差就越小,用此样本均数估计总体均数就越可靠。据标准误的计算公式可看出,在标准差一定的条件下,标准误的数值与样本含量的平方根成反比,因此适当增加样本含量可以减少均数抽样误差。率的标准误是反映率的抽样误差大小的指标。其数值越小,表示率的抽样误差越小,从率的标准误计算公式看出,适当增加样本含量同样可以减少率的抽样误差。标准差与均数标准误的区别意义计算主要应用标准差衡量个体观察值离散程度的指标 直接法: 估计参考值范围 加权法:均数标准误是样本均数的标准差,衡量样本均数的离散程度,反映了抽样误差的大小估计总体均数的可信区间参考值范围和总体参数可信区间的区别意义计算主要应用参考值范围包括绝大多数人某项指标的数值范围正态分布: ua/2s (双侧)判断观察对象某项指标正常与否(辅助诊断)总体均数可信区间按一定的概率估计总体均数所在的可能范围s 未知: ta/2, ns 已知: ua/2s 未知但n足够大: ua/2估计未知的总体均数所在范围总体率可信区间按一定的概率估计总体率所在的可能范围(1)n 50,特别是p很接近0或100%:查表法;(2)n足够大,且np与n(1-p) 均大于5:正态近似法,即p ua/2sp 。估计未知的总体率所在范围当计算双侧95%可信区间公式时,ua/2 取1.96;当计算99%可信区间时,ua/2 取2.58。总体均数、总体标准差及总体率统称为总体参数。参数估计是指按一定的概率估计总体参数所在的可能范围的方法,又称为区间估计。总体参数的所在范围通常称为参数的可信区间,即该区间以一定的概率(如95%或99%)包含总体参数。十二、假设检验的基本思想与基本步骤统计推断的主要内容有两个:参数估计与假设检验。这两种统计方法都是在研究总体,即利用样本信息来对总体特征进行推断。但参数估计的主要任务是找总体参数值等于几;假设检验的兴趣主要是看总体参数的值等于某个特殊值的可能性到底有多大。下面举一个完全随机设计的两样本均数的比较的例子。例:某研究者欲研究冠心病与微量元素的关系,用随机抽样方法比较了10例冠心病患者与15例健康人血清中锌含量(mmol/L),算得:冠心病患者:n1=10 =20.163 =20.453健康人: n2=15 =15.732 =9.235试问冠心病患者与健康人血清中锌含量均数有无不同?分析思路:第一步:发现两样本均数之间存在差异,冠心病患者血清样本的平均锌含量不同于健康人,即 第二步:希望借助样本信息来回答,从总体角度看冠心病患者平均血清锌是否与健康人不同,即m1=m2。换一句话说,即想看两样本均数之间的差异有无显著性(或统计学意义)。第三步:建立无效假设H0与备择假设H1,采用小概率反证法思想,先假定H0成立,两样本均数间的差异无显著性,源于抽样误差。这样的话,算出的u或t统计量应该是小的,假如假设检验公式得到的统计量太大,超出相应的u或t界值,P0.05,就只好认为H0成立。方差分析、卡方检验等各种类型的假设检验方法的基本思想都基于此,只是将相应的统计量改为F或2,并选用相应的检验公式。十三、各种类型检验方法的适用条件各种假设检验的方法总结组别资料类型计量资料计数资料对称分布(正态或近似正态分布)偏态分布或分布不清正态近似成组设计配对设计两组比较大样本资料:u检验小样本资料:t检验秩和检验等非参数统计方法u检验四格表2检验配对2检验多组比较方差分析不常见行列2检验不常见注:对等级资料,多采用秩和检验(一)计量资料的u、t检验t检验的适用条件:当总体标准差s未知,样本含量n较小时,理论上要求样本来自正态分布的总体。完全随机设计的两个小样本均数比较时还要求两总体方差相等。但在实际应用时,与上述条件略有偏离,对结果也影响不大。习惯规定样本含量小于或等于50(n 50)为小样本。u检验的适用条件:当总体标准差s未知,但样本含量n较大(一般n 50)或总体标准差s 已知(该情况不常见)时,选用u检验。u检验在手工计算时的方便之处是计算结果不用查u界值表,只要记住几个常用的u界值。(二)计数资料的u检验样本率与总体率比较的u检验或两个样本率比较的u检验的适用条件是:样本含量n足够大,且样本率p和(1p)均不太小,如np 与n(1p)均大于5,此时样本率的分布近似正态分布,可利用正态分布的原理作u检验。(三)四格表资料的2检验 1当n40,且所有T5时,用2检验的基本公式或四格表专用公式。 2当n40,但有1T5时,需用四格表2检验的校正公式。3若n40,或T1时,需用确切概率计算法(四)行列表资料的2检验行列表2检验对理论频数的要求是:一般认为不宜有1/5以上格子数的理论频数小于5,或有1个格子的理论数小于1,否则将导致分析的偏性。(五)配对计数资料的2检验b+c40时需作连续性校正。应能结合实例,掌握各种常见类型的假设检验方法,并能正确选择公式并对结果作合理解释。十四、统计图表按资料性质和分析目的选用适合的统计图形图形资料性质分析目的普通线图随时间呈连续变化的资料用线段的升降表达事物的动态(差值)变化直条图相互独立资料用直条长短表达数值大小直方图连续性变量的频数表资料用矩形面积表达各组段的频数(或频率)圆图及百分条图构成比资料用圆的扇形面积或直条各段的长度表达内部构成比散点图双变量资料用点的密集度和趋势表达两变量间相关关系十五、直线相关回归分析的基本概念1. 直线相关分析是研究两个连续型变量间有无线性关系以及关系密切程度的统计方法,而直线回归分析是研究两个连续型变量间的数量依存关系的。2. 在进行直线相关分析之前,应首先绘制散点图,对两变量间的关系作直观描述。两变量间的相关密切程度的定量研究需要计算直线相关系数,并作r值的假设检验。只有当拒绝H0时,才能认为X与Y之间存在相关关系。3. 直线回归分析的主要内容是建立直线回归方程:=a + bX,其中b称为直线回归系数。对求得的样本回归系数要作假设检验。只有当拒绝H0时,才能认为X与Y之间存在直线回归关系。4. 直线相关与回归分析既有区别又有联系,最主要的区别是两者的研究目的不同,说明两变量间依存变化的数量关系用回归,说明变量间的相互关系用相关。主要联系有两个:对同一批资料,相关系数r与回归系数b的符号相同以及r与b的显著性检验结果是等价的,有tr=tb的关系。试卷形式试卷总分:60分考试时间:60分钟答题方式:试卷分为试题册、答题卡,所有客观题答案涂在答题卡上。试卷题型比例: 客观题: 100%试卷结构一览表部 分名 称题 号题 量分 值I单选题1303045II多选题3135510III判断题364055合 计4060
展开阅读全文