硕士医学统计学知识点总结材料

资源描述

第2章统计描述1.对定量资料进行统计描述时，如何选择适宜的指标？定量资料统计描述常用的统计指标及其适用场合描述内容指标意义适用场合平均水平均数几何均数个体的平均值平均倍数对称分布取对数后对称分布中位数位次居中的观察值非对称分布；半定量资料；末端开口资料；分布不明众数频数最多的观察值不拘分布形式，概略分析调和均数基于倒数变换的平均值正偏峰分布资料变异度全距观察值取值范围不拘分布形式，概略分析标准差（方差）观察值平均离开均数的程度对称分布，特别是正态分布资料四分位数居中半数观察值的全非对称分布；半定量资料；末端开间距距口资料；分布不明变异系数标准差与均数的相对不同量纲的变量间比较；量纲相同但比数量级相差悬殊的变量间比较定性资料：阳性事件的概率，概率分布，强度和相对比。2.应用相对数时应注意哪些问题？答:（1）防止概念混淆相对数的计算是两部分观察结果的比值，根据这两部分观察结果的特点，就可以判断所计算的相对数属于前述何种指标。（2）计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。（3）观察单位数不等的几个相对数，不能直接相加求其平均水平。（4）相对数间的比较须注意可比性，有时需分组讨论或计算标准化率。3. 常用统计图有哪些？分别适用于什么分析目的？常用统计图的适用资料及实施方法图形适用资料实施方法条图组间数量对比用直条咼度表示数量大小直方图定量资料的分布用直条的面积表示各组段的频数或频率百分条图构成比用直条分段的长度表示全体中各部分的构成比饼图构成比用圆饼的扇形面积表示全体中各部分的构成比线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系散点图双变量间的关联点的密集程度和形成的趋势，表示两现象间的相关关系箱式图疋量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布用茎表示组段的设置情形，叶片为个体值，叶长为频数第3章概率分布1. 服从二项分布及 Poisson分布的条件分别是什么?二项分布成立的条件：每次试验只能是互斥的两个结果之一；每次试验的条件不变；各次试验独立。Poisson分布成立的条件：除二项分布成立的三个条件外，还要求试验次数n很大，而所关心的事件发生的概率二很小。2. 二项分布、Poisson分布分别有什么特征？二项分布、Poisson分布都是离散型分布。二项分布的形状取决于n与n的大小。n =0.5时，不论n大小，对称分布。冗工 0.5时,图形呈偏态，随n增大而逐渐对称。当n足够大，n或1- n不太小，二项分布近似正态。 Poisson分布卩越小，分布越偏。越大，分布越对称。当n足够大时，分布接近正态。4、正态分布应用估计变量值的频数分布制定参考值范围质量控制正态分布是很多统计方法的基础5. 正态分布特征以均数为中心，左右对称正态曲线在横轴上方均数处取得最高点正态分布有两个参数，即均数(位置参数)和标准差(变异度参数) 正态曲线下面积有一定规律第4章参数估计1. 标准误与标准差的区别(1) 标准差反映个体值散布的程度；标准误反映估计总体参数的精确程度。(2) 标准误小于标准差。(3) 样本含量越大，标准误越小，其样本均数更有可能接近于总体均数，随着样本含量的增大，标准差有可能增大，也有可能减小。(4) 用途不同。标准差的用途：反映一组资料的离散程度计算变异系数结合均数与正态分布的规律，估计参考值范围标准误的用途：衡量样本均数的可靠性与样本均数结合，估计总体均数的置信区间可用于进行均数的假设检验标准误与标准差的区别与联系标准差标准误区别含义描述个体观察值的离散程度反应总体参数被估计的精确程度范畴统计描述统计推断用途估计参考值范围估计置信区间nn越大，标准差越稳定n越大，标准误越小联系1.标准误大小与标准差成正比；2.n一定时，标准差越大，标准误也越大。3.简述置信区间与医学参考值范围的区别。区别置信区间参考值范围含义总体参数的波动范围，即按事先给个体值的波动范围，即按事先给定的概率100(1 一a )%所确定的包定的范围100(1 一 a )%所确定含未知总体参数的一个波动范围的“正常人”的解剖、生理、生化指标的波动范围用途估计未知总体均数所在范围供判断观察个体某项指标是否“正常”时参考(辅助诊断)计算公式二未知：X _t；2,Sc正态分布：X_z“s偏峰分布：PP100 X；一已知或：一未知但n30,有x _z一/2；_X或 X 士Z -,/2Sx4何谓置信区间准确度与精确度？如何协调两者间的关系。置信区间有准确度与精密度两个要素。(1 )准确度由置信度 (1 - a )的大小确定，即由置信区间包含总体参数的可能性大小来反映。从准确度的角度看，置信度愈接近于1愈好，(2) 精密度是置信区间宽度的一半，意指置信区间的两端点值离样本统计量(如X、p)的距离。从精密度的角度看，置信区间宽度愈窄愈好。(3) 在抽样误差确定的情况下，两者是相互矛盾的。为了同时兼顾置信区间的准确度与精密度，可适当增加样本含量。3、参考值范围估计的基本步骤从正常人的总体中进行随机抽样对选定的正常人进行准确的测定确定取单侧还是双侧范围确定范围常用95% 根据资料的分布类型选用恰当的界值估计方法第5章假设检验1 .试述假设检验中 a与P的联系与区别。区别：(1)值是事先确定的一个小的概率值。为一次检验中，甘愿冒的风险。(2) P值是在Ho成立的条件下，出现当前检验统计量以及更极端状况的概率。为一次检验中，实际冒的风险。联系：以t检验为例，P、：都可以用t分布尾部面积大小表示。PW 时，拒绝Ho假设。2. 试述假设检验与置信区间的联系与区别。联系：区间估计与假设检验是由样本数据对总体参数做出统计学推断的两种主要方法。区别：置信区间用于说明量的大小，即推断总体参数的置信范围；假设检验用于推断质的不同，即判断两总体参数是否不等。3. 怎样正确运用单侧检验和双侧检验？需要根据数据的特征及专业知识进行确定。若比较甲、乙两种方法有无差异，则应选用双侧检验。若需要区分何者为优，则应选用单侧检验。在没有特殊专业知识说明的情况下，一般采用双侧检验即可。4. 试述两类错误的意义及其关系。I类错误：如果检验假设 H 实际是正确的，由样本数据计算获得的检验统计量得出拒绝Ho的结论，此时就犯了错误，统计学上将这种拒绝了正确的零假设Ho （弃真）的错误称为I类错误。I类错误的概率用 :表示。n类错误：若检验假设Ho原本不正确（Hl正确），由样本数据计算获得的检验统计量得出不拒绝Ho （纳伪）的结论，此时就犯了n类错误。n类错误的概率用表示。在假设检验时，应兼顾犯I类错误的概率（a ）和犯n类错误的概率（P）o犯I类错误的概率（）和犯n类错误的概率（1 ）成反比如果把I类错误的概率定得很小，势必增加犯n类错误的概率，从而降低检验效能；反之，如果把n类错势必增加犯I类错误的概率，从而降低了置信度。为了同时减小:-和，只有通过增加样本含量，减少抽样误差大小来实现。5. 试述检验功效的概念和主要影响因素。(power of test)，记为 1 ：答：拒绝不正确的 Ho的概率，在统计学中称为检验功效检验功效的意义是：当两个总体参数间存在差异时（如备择假设H! ：成立时），所使用的统计检验能够发现这种差异（拒绝零假设Ho :二）的概率，一般情况下要求检验功效应在0.8以上。影响检验功效的四要素为总体参数的差异、：、总体标准差匚、检验水准:-及样本量n 6简述假设检验的基本思想。假设检验是在 H）成立的前提下，从样本数据中寻找证据来拒绝 Ho、接受H!的一种“反证”方法。如果从样本数据中得到的证据不足，则只能不拒绝Ho，暂且认为H。成立，即样本与总体间的差异仅仅是由于抽样误差所引起。拒绝Ho是根据某个界值，即根据小概率事件确定的。所谓小概率事件是指如果比检验统计量更极端（即绝对值更大）的概率较小，比如小于等于0.05，则认为零假设的事件在某一次抽样研究中不会发生，此时有充分理由拒绝H ，即有足够证据推断差异具有统计学意义。7.建设检验四步骤：建立检验假设H0和备择假设H （判断是单侧检验还是双侧检验再作假设）确定检验水准选定检验方法和计算检验统计量确定P值和作出推断结论8.参数及非参数检验优缺点参数检验非参数检验适用条件资料正态分布，方差齐性1.分布未知或偏态分布资料2.总体方差不齐3.等级资料 4.开口资料检验方法1.t检验2.U 检验3.方差分析1. 符号秩和检验（配对资料）2. 秩和检验 3.K-W 检验（多组资料）优点：充分利用原始数据信息，检验效能高缺点：受资料总体分布限定优点：不受资料总体分布限定缺点：只利用秩次，损失原始数据，检验效能低。第6章两样本定量资料的比较1. 对于完全随机设计两样本定量资料的比较，如何选择统计方法？答：完全随机设计两样本定量资料比较统计方法的选择最关键的是看是否满足正态性（样本量较大时不必进行正态性检验）和方差齐性。如果资料来自正态总体且总体方差齐，采用t检验；如果满足正态性但总体方差不齐，采用t 检验；当两者都不满足时，才考虑选用秩和检验。当然，我们也可采用变量变换的方法使其满足t或t 检验的条件。2. t检验有几种，适用条件是什么？t检验是以t分布为理论基础。小样本时，要求资料符合正态分布和方差齐性。一般有以下三种：? 样本均数与总体均数的比较? 配对资料的比较? 两个样本均数的比较此外，还有相关系数，回归系数的t检验。3. 两组定量独立样本的比较（1）两独立样本的t检验（满足正态性和方差齐性）（2）校正的t检验（正态但方差不齐）（3）u检验（大样本，且方差齐）（4）秩和检验（小样本，不正不齐）p值确定分为T值在范围内还是范围外4. 配对定量资料的比较（1）配对资料的t检验（差值服从正态）（2）符号秩和检验（不正）p值确定类似于t检验第7章多组定量资料的比较1. 方差分析的基本思想和应用条件是什么？基本思想将处理间平均变异与误差平均变异比较。根据试验设计的类型和研究目的, 总的离均差平方和及其自由度分解为两个或多个部分，除随机误差作用外, 异可由某个因素的作用加以解释，通过比较不同变异来源的均方，借助断，从而推论各种研究因素对试验结果有无影响。应用条件各样本是相互独立的随机样本，均服从正态分布；各样本的总体方差相等，即方差齐性。2. 方差分析的步骤3.建立假设检验和检验水准（总体均数都相等）计算统计量F确定P值和作出推断结论作两两均数之间的比较（若P0.05,可省略此步）多组定量资料比较时，统计处理的基本流程是什么？多组定量资料比较时首先应考虑用方差分析。（1）若方差齐性，且各样本均服从正态分布，选单因素方差分析。（2）若方差不齐，或某样本不服从正态分布，选Kruskal-Wallis 形式的数据变换使其满足方差分析的条件。若方差分析或秩和检验结果有统计学意义，则需选择合适的方法（如等）进行两两比较。将全部观测值每个部分的变F分布做出统计推秩和检验，或通过某种Bonferonni 、LSD法3. 方差分析的应用？多组定量资料比较，即两个或两个以上均数的比较方差齐性检验两个或多个研究因素的交互作用回归方程的线性假设检验第8章定性资料的比较1. 简述 2检验适用的数据类型，基本思想，检验步骤。答：卡方检验是应用较广的一种定性资料的假设检验方法，用于检验两个或多个样本率(或构成比)之间有无差别，交叉分类资料两属性间的关联性检验频数分布的拟合优度X 2检验的基本思想：X 2值反映的是实际频数与理论频数的吻合程度，在检验假设H)成立的情况下，实际频数与理论频数差别仅由随机误差所致，其X2值会比较小，反之亦然，X 2值越大，越有理由认为检验假设检验步骤：H0不成立。建立假设检验和检验水准(Hd :总体分布/某情况/某率相等)计算统计量2确定P值和做出推断结论作两两之间的比较(若 P0.05,可省略此步)2. 四格表资料X 2检验的条件有哪些？(注意 T为理论频数)完全随机设计公式，X 2 = (ad-bc ) 2. n/(a+b) (c+d) (a+c) (b+d) 总例数n40,且T 5,直接计算x 2不用校正 n40,且1 40,无需校正 b+c 25,用正态近似法。8.参数检验和非参数检验的优缺点比较参数检验非参数检验适用条件资料正态分布，方差齐性1.分布未知或偏态分布资料2.总体方差不齐3.等级资料 4.开口资料检验方法1.t检验2.U 检验3.方差分析1. 符号秩和检验（配对资料）2. 秩和检验 3.K-W 检验（多组资料）优点：充分利用原始数据信息，检验效能高缺点：受资料总体分布限定优点：不受资料总体分布限定缺点：只利用秩次，损失原始数据，检验效能低。13.非参检验适用范围各种资料初步分析等级资料，如严重程度，优劣等级，成效大小等。资料分布类型不能确认或偏态分布。综合分析同质性较差的资料组内个别数据偏离较大，或组内相差悬殊。第9章关联性分析第10章简单线性回归分析1. Pearson积距相关系数r的特点相关系数P是一个无量纲的数值，且-1 WpW 1 p 0为正相关，pv 0为负相关。 | p |越接近1，说明相关性越好；| p |越接近0,说明相关性越差。2. 线性回归分析的前提条件 LINE 线性指反应变量丫与自变量X呈线性变化趋势。一般通过散点图来考察。独立性任意两个观察值相互独立。一个个体的取值不受另外一个个体的影响。正态性指给定X值时，丫的取值服从正态分布。等方差性指对应于不同的X值，丫值的总体变异相同。Pearson秩相关（即等级相关）的应用条件双变量不服从正态分布的资料总体分布类型未知的资料数据本身有不确定值等级资料直线回归及其回归方程有何用途描述丫对X的依存关系预测。由自变量X预测应变量丫。统计控制。通过控制自变量 X的取值，从而使 Y在一定范围内波动。简述做直线相关与回归分析时的注意事项回归方程要有实际意义分析前先绘散点图，观察是否存在直线趋势或异常点直线回归的适用范围一般以自变量 X的取值范围为限，不能随便外延。直线相关与直线回归的区别与联系区别资料要求不同。相关分析要求X，Y均服从正态分布，而回归分析时，要求丫服从正态分布。应用不同。相关是只说明两个变量间是否有关联。回归是由一个变量推算另外一个变量，说明依存变化的数量关系。相关系数与回归系数 r与b 不同。A. 意义不同：b表示X每增（减）一个单位，丫改变b个单位；r说明具有直线关系的两个变量关系的密切程度和方向。B. 取值范围不同-bv +8, -1 0.05 )时，对样本含量和检验功效进行复核有何意义？答：当假设检验的结果为“阴性”(P 0.05 )时，对样本含量和检验功效进行复核具有重要意义。通过对样本含量和检验功效进行复核(主要是计算检验功效)，可以检查样本含量和检验功效是否偏低，以便正确认识假设检验的结果，避免得出错误的研究结论。若检验功效偏低，则说明样本含量不足，应加大样本含量，重新进行实验。第16章随机区组设计和析因设计资料的分析1 随机区组设计与完全随机设计资料在设计和分析方面有何不同？在设计上，与后者比，前者在设计阶段按照一定条件将受试对象配成区组，平衡了某些因素效应对处理因素效应的影响，更好地控制了其他因素对处理因素效应的影响，设计效率较高。在分析上，随机区组设计资料的方差分析将总变异分解为3部分，将由区组因素导致的变异分离出来，使得误差更接近“随机误差”，假设检验的结果更敏感。2. 随机区组设计的 Friedman检验，H0如何写？请解释之。答：各种处理的总体分布相同。Friedman检验的前提为在各区组内部变量值的秩次是随机的，因此由这些秩次算得各种处理总体的秩次值之和相等。4对于两因素的析因设计资料和随机区组设计资料，假定两个因素分别用A和B表示，可否先单独分析 A因素，再单独分析 B因素？为什么？答：不可以。如果分别应用单因素的方法(方差分析方法、t检验或秩和检验等)分析A、B两因素，就会出现以下结果：没有按照实验设计的方法选择分析资料，达不到设计时的目的，信息利用率低。不能同时分析两个因素，即控制一个因素影响后分析另一个因素的实验效应。对于析因设计资料，无法分析因素间的交互效应。第17章重复测量设计和交叉设计资料1. 交叉设计所收集的资料是否属于非独立资料？答：交叉设计所收集的资料是属于非独立资料。2. 能否从某个药物的交叉设计所观察资料的统计分析结果推断临床的实际疗效？答：交叉设计的某个药物的效果平均是多阶段的平均疗效评价，而临床的实际疗效往往是针对某个阶段的疗效评价，所以有时交叉试验的评价结果与临床的实际疗效评价有一些差异。3. 能否用析因设计的方差分析方法分析重复测量资料？为什么？答：不能，因为重复测量的资料是不独立的，析因设计的方差分析要求资料是独立的第18章Logistic 回归ABCD优势 odds = a / b = p/(1-p)优势比OR = oddsl / oddsO =ad /cb具有风险概率的含义，以0条件为参考类，1条件发生某事件的优势是0条件的OR倍。Logistic P =3 0 + 3 1X1 + 3 2X2 + + 3 卩人Oddsx = exp (3 0 + 3 1X1 + )P = exp (3 0 + 3 1X1 + )/ 1 + exp (3 0 + 3 1X1 + )在单变量的 Logistic 回归 Logistic P =3 0 + 3 1X1 中 lnOR = 3 1,3 0 为没有 1条件下某事件发生的优势的对数。多自变量 Logistic 回归 Logistic P =3 0 + 3 1X1 + 3 2X2 + + 3 pXp中，回归系数3 j的含义，在其他条件不变的情况下，自变量X每增加一个单位与未增加时的优势比的自然对数。(自变量X每增加一个单位所产生的优势比的自然对数)哑变量回归系数的含义是各类别与参照类优势比的自然对数。Logistic回归的应用校正混杂因素筛选影响因素疾病预测与预后。条件Logistic 回归不能用于预测。Cox 模型 h(t) = h第19章生存分析o(t)exp( 3 iX)生存资料包括三部分：可能的影响因素和协变量、生存结局和生存时间。生存资料的特点如下同时考虑生存结局和生存时间。生存时间可能含删失数据。生存时间的分布和常见的统计分布有明显不同，如呈指数分布等。生存资料的要求样本由随机抽样获得，且数量足够死亡例数不能太少(30) 删失数据比例不能太大生存时间尽可能精确到天数缺项要尽量补齐死亡概率、生存概率与生存率的关系q。p ,p =1-q 。S = p 1 * p 2 *p3 死亡概率指某时间段内死亡的可能性，记作生存概率指某时间段内仍生存的概率，记为生存率为经历若干个时间段后仍生存的可能性,1. 生存分析的主要用途及其统计学方法有哪些？(1) 估计：即根据一组生存数据估计它们所来自的总体的生存率及其他一些有关指标。估计生存率常用寿命表法和Kaplan-Meier ( K-M)法。(2) 比较：即比较不同受试对象生存数据的相应指标是否有差别。生存曲线比较常用log-rank 检验和 Breslow 检验。(3) 影响因素分析：其目的是为了研究影响生存时间长短的因素，或在排除一些因素影响的情况下，研究某个或某些因素对生存率的影响。影响因素分析常用Cox回归。(4 )生存预测：具有不同因素水平的个体生存预测估计。生存预测常用Cox回归。2. 生存率估计的K-M法和寿命表法是如何利用删失数据的？生存率估计的K-M法和寿命表法计算期初例数时，都利用了删失数据提供的这部分信息。3. Cox回归与logistic回归都可作临床研究中的预后分析，两者的主要区别何在？Logistic 回归模型可以作多因素预后分析，控制混杂因素效应；进行相对危险度估计；不能处理随访中常见的删失数据；仅考虑随访结局(生存或死亡、有效或无效)，而未考虑出现该结局的时间长短。Cox比例风险回归模型(1) 不仅可以从事件结局的好坏，而且可以从发生事件的时间长短进行分析比较。(2) 可以处理删失数据，能够更全面地作预后分析。但当数据失访较少或结局事件发生数较少时，宜用logistic回归分析。4. Cox回归中的RF表示什么？如何解释 RR勺大小？RR = h (t) i/h(t) j =exp 3( Xi-Xj ) 与 ho 无关Cox回归中的RR表示相对危险度(relative risk )或风险比(risk ratio ),其含义是在其他协变量不变条件下，变量Xj每增加一个单位所引起的终点事件发生风险增加到的倍数。5. 参数解释3j在其他协变量不变条件下，变量Xj每增加一个单位所引起的相对危险度的自然对数。RR =exp (3 j )在其他协变量不变条件下，变量X j每增加一个单位所引起的相对危险度当3 j 0时，exp (3 j ) 1, X j为危险因素，反之为保护因素。当3 j = 0时，exp (3 j ) =1,则为无关因素。第25章 Meta分析1. Meta分析的基本步骤有哪些？答：Meta分析的基本步骤包括：提出问题，制定研究计划；检索相关文献；选择符合要求的纳入文献；提取纳入文献的数据信息；纳入研究的质量评价；资料的统计学处理；敏感性分析；结果的分析和讨论。2. Meta分析的目的和意义是什么？答：通过meta分析能增加统计功效，评价研究结果的一致性，增强结论的可靠性和客观性，通过亚组分析，得出新结论，寻找新的假说和研究思路。3. Meta分析时，固定效应模型和随机效应模型有什么不同？如果研究间有异质性，应如何处理？Meta分析进行效应合并时的变异可能来源于两个部分，一是研究内变异，二是研究间变异。meta采用固定效应模型只考虑研究内变异，即认为研究间的差别只是抽样引起，纳入分析的各个独立研究来自一个相同的总体，各个独立研究的效应是效应合并值这一总体参数的估计值。采用随机效应模型则同时考虑了研究内变异和研究间变异，即认为研究间的差异不仅仅是抽样引起的，纳入meta分析的各个独立研究分别来自不同但互有关联的一些总体，个研究有其相应的总体参数， meta分析的效应合并值是多个不同总体参数的加权平均。Meta分析时，如果异质性检验的结果不拒绝H),即研究间的差异没有统计学意义，可采用固定效应模型得到效应合并值。如果拒绝H),则认为研究间存在异质性，此时应考察异质性来源，并通过敏感性分析或亚组分析等异质性处理方法，使之达到同质后，再采用固定效应模型。若经异质性分析和处理后，多个独立研究的结果仍然不具有同质性，可选择随机效应模型、meta回归及混合效应模型进行效应合并。如果异质性很大，应考虑这些研究结果的可合并性，或放弃meta分析，只对结果进行定性分析。4. Meta分析有哪些常见的偏倚？答：偏倚的类型主要包括文献发表偏倚、文献查找偏倚和文献筛选偏倚。

展开阅读全文

硕士医学统计学知识点总结材料

最新文档