《医学统计学》复习资料与习题答案.doc

资源描述

教学提要（一）医用统计学基本概念 1、变异：宇宙中的事物，千差万别，各不相同。即使是性质相同的事物，就同一观察指标来看，各观察指标（亦称个体）之间，也各有差异，称为变异。同质观察单位之间的个体变异，是生物的重要特征，是偶然性的表现。 2、变量：由于生物的变异特性，使得观察单位某种指标的数值互相不等，所以个体值称为变量值或观察值。 3、总体：即根据研究目的确定的同质的研究对象的全体。更确切地说，是性质相同的所有观察单位的某种变量值的集合。 4、样本：即从总体中抽取一部分作为观察单位进行观察，这部分观察单位称为样本。为了使样本对总体有较好的代表性，抽样必须遵循随机化的原则，即总体中每一观察单位均有相同的机会被抽取到样本中去。 5、计量资料（数值变量资料）：对每个观察单位用定量方法测定某项指标量的大小，所得的资料称为计量资料，一般有度量衡等单位。 6、计数资料（分类变量资料）：将观察单位按某种属性或类别分组，所得各组的观察单位数，称为计数资料。可分为二项式或多项式分类变量。 7、等级资料：将观察单位按某种属性的不同程度分组，所得各组的观察单位数，称为等级资料。这类资料与计数资料不同的是：属性的分组有程度的差别，各组按大小顺序排列；与计量资料不同的是：每个观察单位未确切定量，因而称为半定量资料。 8、抽样误差：由于总体中各观察单位间存在个体差异, 抽样研究中抽取的样本, 只包含总体的一部分, 因而样本指标不一定等于相应的总体指标, 这种样本统计量与总体参数间的差别称为抽样误差。(二)统计工作的基本步骤 1、设计: 这是关键的一步。要求科学、周密、简明。 2、搜集资料: 要求完整、准确、及时。医学统计资料的来源主要有三个方面:(1) 统计报表; (2) 日常医疗工作的原始记录和报告卡片; (3) 专题调查 3、整理资料: 核查资料; 按性质或数量分组, 拟定整理表。 4、分析资料: 包括指标的计算、统计图表的绘制, 用统计方法如参数估计、假设检验等对资料作统计分析。(三) 计量资料的分析 1、平均数: 用以描述同质计量资料频数分布的集中趋势, 反映一组变量值的平均水平, 是一组变量值的代表值。(1) 算术均数: 简称均数。用于描述对称分布(特别是呈正态分布)的变量值的平均水平。直接法: x=Sx/n 加权法: x=Sx/S=Sx/n 要点: 频数表的制作(2) 几何均数: 用G表示。用于描述变量值呈等比数列, 或呈对数正态分布或近似对数正态分布资料。直接法: G=x1x2 x3 xn , G=lg-1( Slgx/n ) 加权法: G=lg-1 ( Slgx/S )(3) 中位数和百分位数: 中位数是一组从小到大顺序排列的变量值, 位于中间位置的数值，亦称为位置平均数, 代号为M。多用于描述偏态分布资料, 或分布不明资料, 或一端或两端无确定数值的开口资料的集中趋势。百分位数代号为PX, 是一种位置指标。小样本资料中位数计算方法: 当n为奇数时 M=X(n+1/2) 当n为偶数时 M= X(n/2)+X(n/2+1) 大样本资料中位数和百分位数计算方法: PX =L+I ( nx% - SL )2、变异指标(1) 全距: R, 亦称极差。即一组变量值中最大值与最小值之差。(2) 标准差: 是最常用来衡量变量值间离散程度的变异指标。总体标准差代号s，样本标准差代号s。运用:” 用来描述正态分布资料的变异程度。当资料呈正态或近似正态资料时往往将均数与标准差同时写出: X S, 表示均数的代表性。(3) 变异系数: 又称离散系数。代号为CV。CV= 运用: 比较均数相差悬殊的几组资料的变异程度; 比较度量衡单位不同的几组资料的变异程度。3、正态分布及其应用(1) 正态分布: 是医学和生物学中最常见的总体频数分布, 以均数为中心, 对称，两侧逐渐下降, 两端永远不与横轴相交。正态分布用N(m, s2)表示, 为了应用方便, 常对变量X作u=( X - m )/ s变换, 使m=0, s=1, 则正态分布转换为标准正态分布( 或呈U分布), 用N(0, 1)表示。特征: 均数处最高; 以均数为中心, 左右对称; 有两个参数: m和s; 态曲线下的面积分布有一定规律: 变量值范围正态曲线下面积(变量值出现的概率) m 1.0 s 68.27% m 1.96 s 95.00% m 2.58 s 99.00%(2) 正态分布的应用: 常用于估计频数分布情况; 制定正常值范围。正常值: 指正常人的各种生理常数。当资料呈正态分布时, 最常用X 1.96S估计95%正常值范围, 其含义是指绝大多数正常的变量值都在这个范围内, 绝大多数是包括正常的80%、90%、95%和99%, 最常用95%。4、均数的抽样误差和标准误(1) 标准误的概念即样本均数的标准差, 是说明均数抽样误差大小的指标。标准误愈小, 表示抽样误差愈小, 样本统计量对总体参数的估计愈可靠。(2) 标准误的计算 sx=s/n(总体标准误) sx=s/n(样本标准误)(3) 标准误的应用表示样本均数的散布情形; 估计总体均数的可信区间; 进行假设检验5、t分布和总体均数的估计(1) t分布的概念对正态变量X采用u=( X - m )/ sx变换, 将N(m, sx2)变换为标准正态分布, 即U分布, 而实际中sx往往用sx来估计, 这时对正态变量X采用的不是U变换而是t变换, 即t = ( X - m )/ sx其结果也不是U分布而是t分布。(2) t分布的特征与标准正态分布相比有以下特征: a.二者都是单峰分布, 以0为中心, 左右对称; b. t分布的峰部较矮而尾部翘得较高, 说明远侧的t值的个数相对较多, 即尾部面积 (概率P) 较大。自由度u越小这种情况越明显, u逐渐增大时, t分布逐渐逼近标准正态分布; 当u=时, t分布就完全成为标准正态分布了。(3)t界值 t界值表, 横标目为自由度u, 纵标目为概率P, 表中数字表示自由度为u, P为a(检验水准)时, t的界值, 常记为ta,u。理论上单侧: P( t - ta,u)= a, 或P(t ta,u)= a双侧: P( t - ta,u)+P(t ta,u)= a; P( - ta,u t ta,u)= 1 - a(4)总体均数的估计包括点值估计和区间估计。 a.区间估计的涵义: 意思是从总体中作随机抽样, 每个样本可以算得一个可信区间, 如95%可信区间, 意味着做100个可信区间, 平均有95个可信区间包括总体均数(估计正确), 只有5个可信区间不包括总体均数(估计错误)。 b.区间估计的方法: X - ta,u sx m X + ta,u sx ; s已知 X - Ua,sx m X + Ua,sx ; s未知但n足够大 X - Ua,sx m 40, T 1 b. 校正条件: n 40, 5 T 1(4) 行列表的c2检验( 多个样本率或构成比的比较) a. c2值的计算: c2 = n( A2/nRnC - 1 ) b. 注意事项: c2检验要求理论频数不宜太小, 一般认为不宜有1/5以上格子理论数小于5, 或有一个理论数小于1, 处理办法有: 增大一般含量, 最好; 删去理论频数太小的行或列; 合并性质相近的行或列。等级资料宜用秩和检验。当结论为拒绝检验假设, 只能认为各总体率( 或总体构成比 )之间总的来说有差别, 但不能说明它们彼此之间都有差别。(5) 配对计数资料的c2检验 a. H0 : b = c b. c2 =( b - c )2/ b + c c. b + c 40, 需校正, c2 =( b - c - 1)2/b + c d. u = 1(五) 统计表与统计图1、统计表(1) 基本结构与要求: 由标题、标目、线条、数字等组成 a. 标题: 要求中心内容突出, 必要时注明资料的时间、地点。 b. 标目: 横标目: 在表的左侧, 是表的主语位置。纵标目: 在表的上方, 是表的谓语位置。 c. 线条: 分顶线、底线、纵标目下面与合计上面的横线，斜线、竖线省略。 d. 数字: 一律用阿拉伯数字。 e. 备注: 列于表的下面, 对表中标有 ( * )的数字加以描述。(2) 种类 a. 简单表: 被研究的事物只按一个特征或指标分组。 b. 复合表: 被研究的事物按两个或两个以上相关联的特征或指标分组。2、统计图(1) 基本要求: a. 依据资料的性质选择适当的图形; b. 要有标题, 扼要说明资料的内容, 必要时注明时间、地点; c. 以纵轴和横轴为坐标的图形, 横轴尺度自左而右, 纵轴尺度自下而上, 数量一律由小到大, 并需等距标明。纵横坐标长度的比例一般为5: 7。 d. 比较不同事物时, 用不同的线条或颜色表示, 要附图例说明。3、常用统计图(1) 直条图: 用相同宽度条形的长短.来表示资料数值大小比例关系, 适用于按性质分组, 各个独立的、无连续关系的统计图。(2) 百分条图: 适用于表达构成比的资料。(3) 线图: 用线条的上升和下降来表示某事物( 或某现象 )因时间或条件而变化的趋势。适用于连续性的变量资料。(4) 直方图: 用于表示连续变量的频数分布。常以横轴表示被观察现象, 纵轴表示频数或频率, 以各矩形( 宽度为组距 )的面积代表各组段的频数。(六) 调查设计1、调查方法(1) 普查( 全面调查 ): 将组成总体的所有观察单位全部加一调查。(2) 抽样调查: 从总体中随机抽取一定数量的观察单位组成样本, 然后用样本信息来推断总体特征。(3) 典型调查( 案例调查 ): 即在对事物作全面分析的基础上, 有目的地选定典型的人、典型的单位进行调查。2、调查项目和调查表(1) 分析项目: 直接用于计算调处指标, 以及分析时排除混杂因素影响所必须得分内容。(2) 备查项目: 便于核查、补填和更正而设置的, 通常不直接用于分析。(3) 调查表的格式: 分为一览表和单一表。(4) 随机抽样的方法: a. 单纯随机抽样; b. 系统抽样; c. 整群抽样; d. 分层抽样;根据抽样误差的大小, 分层抽样系统抽样单纯随机抽样 =40,T=5 卡方检验2）n=40,1T5 校正卡方检验3）n40,或T 。5、频数分布可分为和。6、和可全面描述正态分布的频数特征。7、若频数分布明显呈偏态分布, 各观察值之间呈倍数关系, 宜用反映其平均增减倍数。8、比较度量衡单位不同的各组资料的变异度, 宜用指标。9、对于两组正态分布资料, 且均数相近, 度量单位相同, 大, 的代表性较差。10、正态分布的特征有: ;。11、正常值指。制定正常值范围的方法根据指标的而判断, 可有法和。12、标准误是的标准差, 与标准差的关系可用公式表示。13、对于相同的a值, 越大, ta,u值 , 当u= , ta,u= 。14、统计推断包括两个重要方面: 和。 15、假设检验的目的是推断。 16、假设检验结果具有显著性意义, 是根据而判定的, 结论具有性。17、两样本均数比较的t检验, 要求(1) ;(2) 。18、两个或两个以上样本均数的比较, 可用。应用时要求: (1)(2)(3)。19、假设检验时根据检验结果作判断, 可能发生两种错误, 第一类错误的概率为, 第二类错误的概率为 , 同时减少两类错误的唯一方法是。20、构成比有两个特点: (1) , (2) 。21、率的标准化的目的是，常用的计算方法有和。22、率的标准误Sp = , 是描述的统计指标。23、c2检验的基本思想是比较和的吻合程度, 其基本公式是。24、c2的大小由和两方面因素决定。25、四格表c2检验的基本数据是两对和两对。26、四格表c2检验的基本条件是, 当时, 需用校正公式。27、配对计数资料c2检验的无效假设是 , c2检验的公式是。28、统计表由、和构成。编制统计表的总的原则是、、、。29、绘制统计表要求线条不宜过多, 除有线和线以及线以外, 其余如竖线、斜线均不宜有。30、统计图除圆图外, 长宽比例一般以为宜, 标题的位置是。31、频数分布的两个重要特征是和。32总体标准差的含义是。331-是指。34三个样本率比较得到X2 X20.05，v ,可认为。35计数资料统计描述的主要指标有等。36行X列表X2检验应注意，否则，则应增大样本量，。37两率比较U检验应用条件是。38率的标准误可应用于。39几何均数是将原始变量值作变换，可使其成为分布，再按类似于算术均数计算公式作计算。40. 今已知甲、乙两地肝癌死亡率相等，但甲地老年人比重较大，若要比较两地肝癌死亡率情况，需求。41.方差分析的基本思想是。42. 方差分析的应用条件是。43.调查设计一般包括设计和设计,二者是紧密结合的。44.调查可分为和 ,后者又以和最为常用。45.调查项目包括和 ,前者直接用于 ,后者是为了。46.调查项目的答案有两种设计: 和。47.资料的设计分组有两种方法，它们是和。48.实验设计的三个基本要素是、、。49.单纯随机抽样，估计总体均数所需样本数n时，需要实现确定、、。50.调查中系统误差的来源有、、、。51.调查研究又称，其特点、。52.概率是描述随机事件发生可能性的大小，用表示。随机事件发生概率在和之间。53.某市159名15岁女生体重均数X=46.8Kg，标准差S=5.5Kg，估计本市15岁女生体重正常值应在。54.标准差的大小受的影响，标准误的大小受的影响。(三)是非题：卫生统计学研究的主要内容是社区医疗。随机事件发生的概率小于0.05或0.01时，可认为在一次抽样中它不太可能发生。变异系数越大表示标准差越大。正态分布的特点有算术均数等于中位数。在假设检验中，本应是双侧检验的问题而误用了单侧检验水准，当拒绝H0时，则增大了第二类错误。率是说明某现象发生强度的指标。配对设计四格表资料比较两个率有无差别的无效假设是b=c.四格表资料的自由度为1。随着样本含量的逐渐加大，标准误与标准差则逐渐变小。 10.只研究某一种药物预防、治疗某疾病时，可以不设置对照组。如果有少数几个数据比大部分数据大几百倍，这组资料就不宜计算算术均数。标准误越大，说明样本均数的抽样误差越大。两组计量资料的假设检验是否采用t检验，主要取决于样本含量。两个大样本（一般n30例）均数的比较可用样本均数与总体均数差异的显著性检验。构成比可说明某种事物发生的可能性大小。x2值反映了实际数与理论数之吻合程度，如果假设成立，则A与T之差一般不会很大，因而P值也不会很大。两样本比较得P0.05，此时一定可认为两总体率不同。2行3列X2检验，理论数不可小于5。行列表x2检验，若1/5格子以上1T5或任一格子

展开阅读全文

《医学统计学》复习资料与习题答案.doc

最新文档