医学统计学复习要点

资源描述

第一章绪论1、数据/资料的分类：、计量资料，又称定量资料或者数值变量；为观测每个观察单位某项治疗的大小而获得的资料。、计数资料，又称定性资料或者无序分类变量；为将观察单位按照某种属性或者类别分组计数，分组汇总各组观察单位数后而得到的资料。、等级资料，又称半定量资料或者有序分类变量。为将观察单位按某种属性的不同程度分成等级后分组计数，分类汇总各组观察单位数后而得到的资料。2、统计学常用基本概念：、统计学（statistic是关于数据的科学与艺术，包括设计、搜集、整理、分析和表达等步骤，从数据中提炼新的有科学价值的信息。、总体（population）指的是根据研究目的而确定的同质观察单位的全体。、医学统计学（medicalstatistics）:用统计学的原理和方法处理医学资料中的同质性和变异性的科学和艺术，通过一定数量的观察、对比、分析，揭示那些困惑费解的医学问题背后的规律性。、样本（sample）:指的是从总体中随机抽取的部分观察单位。、变量（variable）:对观察单位某项特征进行测量或者观察，这种特征称为变量。、频率（frequency）:指的是样本的实际发生率。、概率（probability）：指的是随机事件发生的可能性大小。用大写的P表示。3、统计工作的基本步骤：、统计设计：包括对资料的收集、整理和分析全过程的设想与安排；、收集资料：采取措施取得准确可靠的原始数据；、整理资料：将原始数据净化、系统化和条理化；、分析资料：包括统计描述和统计推断两个方面。频数分布的类型包括对称分布和偏态分布；偏态分布主要分为右偏态分布（也称正偏态分布）和左偏态分布（也称负偏态分布）。频数表的用途包括以下几个方面：、描述频数分布的类型；、描述频数分布的特征；、便于发现一些特大或特小的离群值；、便于进一步做统计分析和处理。2. 集中趋势指标的适用条件、计算方法和意义。统计学用平均数（average）这一指标体系来描述一组变量值的几种位置或者平均水平。常用的平均数有算术均数、几何均数和中位数。、算数均数，简称均数（mean），可用于反映一组呈对称分布的变量值在数量上的平均水平。计算方法包括直接计算法和频数表法（公式见2-2）。、几何均数（geometricmean），可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平，在医学研究中常用于免疫学的指标。（计算公式见于2-3）、中位数（median），适用于各种分布类型的资料，尤其是偏态分布资料和一端或者两端无确切数值的资料。、百分位数（percentile）是一种位置指标，是一个界值，其重要用途是确定医学参考值范围（referencerange）。直接计算法（公式见于2-7、2-8）频数表法（2-9、2-10）第二章计量资料的统计描述频数表的编制方法，频数分布的类型及频数表的用途、求极差（range）:也称全距，即最大值和最小值之差，记作R；、确定组段数和组距，组段数通常取10-15组；、根据组距写出组段，每个组段的下限为L,上限为U，变量X值得归组统一定为LwXvU，最后一组包括下限。、分组划记并统计频数。3、离散趋势指标的适用条件、计算方法和意义。描述数据变异大小的常用统计指标有极差、四分位数间距、方差、标准差和变异系数。、极差，一组变量值的最大值与最小值之差。、四分位数间距（quartilerange,QR）是把全部变量值分为四部分的分位数后，由第3四分位数和第1四分位数相减而得。它一般和中位数一起描述偏态分布资料的分布特征。QR=P75-P25。单侧: 、方差(variance)也称均方差(meansquaredeviation)离均差平方和与样本含量的比值。计算公式为2-11、标准差(standarddeviation)是方差的正平方根，其单位与原变量值得单位相、百分位数法：适用于偏态分布资料医学参考值范围的制定，所要求的样本含量比正态分布要多(不低于100)。同。计算公式为2-13、2-14计算公式为2-25、2-26:双侧：单侧:、变异系数(coefficientofvariation)记作CV，多用于观察指标单位不同时,或者均数相差较大时两者变异程度的比较。计算公式为2-164. 正态分布的图形，正态分布的特征，正态曲线下面积的分布规律。正态分布的特征：、在直角坐标的横轴上方呈钟形曲线，两端与X轴永不相交，且以X=卩为对称轴，左右完全对称。、在X=卩处，f(X)取最大值，远离卩，其值越小。、正态分布有两个参数，位置参数(1和形态参数(T,(1决定正态分布的曲线在坐标轴上的左右移动，越大越右移；6决定曲线的弓背程度，越小峰值越高。正态分布曲线下的面积分布有一定的规律。X轴与正态曲线所夹面积恒等于1或者100%区间16的面积为68.27%;区间1土1.966的面积为95.00%,区间1土2.586的面积为99.00%。5. 医学参考值范围的意义和估计方法。医学参考值(referencevalue)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指标常数，也称正常值。由于存在个体差异，生物医学数据并非常数，而是在一定范围内波动，故采用医学参考值范围(medicalrefereneerange)作为判定正常和异常的参考标准。通常使用的医学参考值范围有90%、95%、99%、正态分布法：数据服从或者近似服从正态分布，或者通过适当的变换转换为正态分布，采用此方法之前一般要对资料进行正态性检验且要求样本含量足够大(如n100)计算公式为2-23、2-24:双侧：第三章总体均数的估计与假设检验仆基本概念：抽样误差(samplingerror):指的是由于个体变异产生、随机抽样造成的样本统计量与总体参数的差异。标准误(standarderror,SE):指的是样本统计量的标准差。均数的标准误(standarderrorofmean,SEM):指的是样本均数的标准差。探SEM反映样本均数之间的离散程度，也反映样本均数与相应总体均数间的差异。均数的标准误的计算公式为3-1、3-2统计推断(statisticalinference):通过抽样研究的方法从总体中随机抽取一个样本，用样本的信息来推断总体的特征的统计学方法，包括参数估计和假设检验。2、标准差的用途：、反映资料的离散趋势。标准差越小，说明变异程度越小，均数的代表性越好；用于计算变异系数；用于计算标准误；结合均数和正态分布规律估计参考值范围。3、u分布与t分布：u分布(也称Z分布)：指的是总体均数为0,总体标准差为1的标准正态分布N(0,12)。t分布：随机变量X服从总体均数为1，总体标准差为6的正态分布N(1，62)，则可以通过u变换将一般的正态分布转化为标准正态分布。但是通常获得的资料为样本的均数标准误，因此经过转换后并不是完全意义上的标准正态分布，而是服从t分布。（计算公式为3-3）B、两总体均数之差的可信区间：前提：两总体方差相等，但均数不等计算公式见于3-12、3-13、3-14t分布主要用于总体均数的区间估计和t检验。4、可信区间：从固定样本含量的已知总体总进行重复随机抽样试验，根据每个样本可算得一个可信区间，则平均有1-a（如95%）的可信区间包含了总体参数，而不是总体参数落在该范围的可能性为1-a。5、参考值范围和总体均数可信区间的区别见课本表3-26、标准差与标准误的区别和联系：均数的标准误标准差丿意反映X的抽样误反映一组数据的离散情义差大小况记法匚X(Sx)C(S)计算二二nSX=S.nS=XT控制方法增加n不能通过统计方法来控制7、总体均数可信区间的计算：根据总体标准差b是否已知以及样本含量n的大小而异，通常有t分布和u分布两类方法。A、单一总体均数的可信区间：a、总体标准差b已未知：按t分布双侧和单侧公式见3-5、3-6、3-7b、b已知或者未知，但n足够大（如60）时：按u分布双侧和单侧公式见3、8、3-9、3-108、t分布图的特征：、单峰分布，以0为中心，左右对称；、t分布的曲线形态取决于自由度v的大小，自由度越小，贝Ut值越分散，曲线的峰部越矮而尾部翘得越高；、当自由度逼近无穷的时候，样本标准误接近总体标准误，t分布逼近标准正态分布。（标准正态分布是t分布的特例）9、t检验的适用条件t检验（ttest/Studentt-test）当b未知且样本含量较小时（如nv60），理论上要求t检验的样本随机地取自正态分布的总体，两小样本均数比较式还要求两样本所对应的两总体方差相等，即方差齐性。在实际应用中，如与上述条件略有偏离，对结果影响也不大。10、假设检验A、假设检验的基本思想：利用小概率反证法的思想，从问题的对立面（H。）出发简介判断要解决的问题（H1）是否成立。即在假设H。成立的条件下计算检验统计量，然后根据获得的P值来判断。 B、假设检验的基本步骤：建立检验假设，确定检验水准；计算检验统计量；确定P值，做出推断结论。 C、假设检验的错误I型错误：拒绝了实际上成立的H0，这类“弃真”的错误；（a）n型错误：“接受”了实际上不成立的H0,这类“取伪”的错误。（3）注意：a越小，3越大；反之a越大，3越小；若重点是减少I型错误，一般取a=0.05;若重点是减少n型错误，一般取3=0.10或者0.20甚至更高；若要同时减小I型和n型错误，唯一的方法就是增加样本含量n;拒绝H0,只可能犯I型错误；接受H0,只可能犯n型错误。资料或数据计量资料（已知均数和/或标准差）两样本（样本含量较小，60）单样本t检验适用于已知样本均数和已知总体均数的比较t分布(v=n-1)对方差齐与否无要求正态分布t值配对样本t检验适用于配对设计的计量资料t分布(v=n-1)对方差齐与否无要求正态分布t值两样本t检验/成组t检验方差齐适用于任意两计量资料的比较t分布(v=n1+n2-2)方差齐正态分布t值方差不齐Cochran&Cox近似t检验t分布方差不齐正态分布t值（校正t值）Satterthwaite近似t检验t分布方差不齐正态分布t值（校正自由度）两样本的方差比较时，可以使用F检验，分子为较大的样本方差（自由度为n1-1）;分母为较小的样本方差（自由度为n2-1）。F值满足F分布，统计值为F值。多样本完全随机设计资料的方差分析完全随机化分组方法将试验对象分配到g个处理组中去，试验后比较各组均数之间的差别F分布方差齐正态分布F值与成组t检验意义相同随机区组设计资料的方差分析随机分配的次数要重复多次，且各个处理组实验对象数量相同，区组内均衡F分布方差齐正态分布F值与配对t检验意义相同拉丁方设计资料的方差分析可多安排一个已知的对实验结果有影响的非处理因素，增加了均衡性，减少了误差，提高了效率F分布方差齐正态分布F值两阶段交叉设计资料的方差分析两种处理在全部实验过程中交叉进行F分布方差齐正态分布F值两个阶段之间一定要经过一段洗脱阶段以消除残留效应多样本的多重比较LSD-t检验/最小显著差异t检验，适用于一对或者几对在专业上有特殊意义的样本均数间的比较，统计量为t值Dunnett-t检验适用于g-1个实验组与一个对照组均数差别的多重比较，统计量为Dunnett-t值SNK-q检验适用于多个样本均数两两之间的全面比较，统计量为q值多样本的方差比较Bartlett检验，要求资料具有正态性，统计量为卡方；F值。Levene检验，比Bartlett检验要求低，不需要资料具有正态性，统计量为其他类型资料分类资料四格表资料通过两个样本的样本率来反映总体率有无差异卡方分布无方差齐性要求无正态分布要求卡方值与两样本的u检验等价：u2=卡方值配对四格表资料强调配对：即针对同一样本米取不冋的试验或者处理方法。卡方分布无方差齐性要求无正态分布要求卡方值行X列表资料用于多个样本率的比较、两个或多个构成比的比较以及双向无序分类资料的关联性检验卡方分布无方差齐性要求无正态分布要求卡方值可用来分析两个分类变量之间有无关系A.|-ZTTV-或者关联多样本率的多重比较适用于多样本率两两之间的多重比较（基本思想：对卡方值进行校正）卡方分布无方差齐性要求无正态分布要求卡方值H0:H1频数分布的拟合优度推断频数分布的拟合优度适用于正态分布、二项分布、poisson分布和负二项分布卡方分布无方差齐性要求无正态分布要求卡方值推断某现象的频数分布是否符合某一理论分布不满足上述统计方法的资料、等级资料秩检验配对样本的检验适用于配对样本差值的中位数和0比较；还可用于单个样本中位数和总体中位数比较无方差齐性要求无正态分布要求秩和（正秩和或负秩和）T值样本量n50时可用正态分布近似法两独立样本比较适用于推断计量资料或等级资料的两个独立样本所来自的两个总体分布是否有差别方差不齐正态分布秩和（正秩和或负秩和）T值n110或n2-n110可用正态分布近似法作U检验完全随机多样本比较用于推断计量资料或者等级资料的多个独立样本所来自的多个总体分布是否有差别无方差齐性要求无正态分布要求H检验H值g=3且最小样本的例数大于5或g3,H近似服从g-1的正态分布，可用卡方分布法多变量资料的处理回归与相关双变量直线回归用于对两变量总体间线性关系的估计线性、独立、方差齐性、误差服从均数为0的正态分布回归方程（回归系数）双变量直线相关用于判断两个数值变量之间有无线性关系，双变量正态分布资料正态分布相关系数r相关系数求出后应做假设检验多元线性回归用于分析一个应变量与多个自变量之间的线性关系正态分布多元回归方程回归方程求出后应做整体假设检验以及各自变量的假设检验第四章多样本均数比较的方差分析1、概念: 离均差平方和(sumofsquaresofdeviationfrommean,SS)指的是各个观测值与总均数差值的平方。均方差，简称均方(meansquareMS)指的是离均差平方和与自由度之间的比值。2、方差分析的基本思想：设处理因素有g(g2)个不同的水平，实验对象随机分为g组，分别接受不同水平的干预。方差分析的目的就是在H0:卩1=卩2=卩g成立的条件下，通过分析各处理均数之间的差别大小，推断g各总体均数间有无差别。3、方差分析的应用条件为：各个样本是相互独立的随机样本，均来自于正态分布总体；相互比较的各个样本的总体方差相等，即具有方差齐性。4、方差分析的变异分析：总变异的大小一一SS总：各个观测值与总均数差值的平方和；组间变异的大小一一SS组间：各组均数与总均数的离均差平方和；组内变异的大小SS组内：组内个观测值与其所在组的均数的差值的平方和。并有SS总=SS组间+SS组内由于组间与组内的离均差平方和的自由度不同，因此单纯的比较并无实际意义。MS组间=SS组间/v组间；MS组内=SS组内/v组内5、完全随机设计资料的方差分析：变异来源自由度MSF总变异N-1组间g-1MS组间MS组间/MS组内组内N-gMS组内完全随机设计资料：正态分布且方差齐：单因素方差分析随机区组设计资料：正态分布且方差齐：双向分类的方差分析配对t检验(意义相同t=F)非正态分布或/和方差不齐：变量转换t双向分类的方差分析FriedmanM检验初衷：考虑环境因素对实验结果的影响。7、拉丁方设计资料的方差分析：可多安排一个已知的对实验结果有影响的非处理因素，增加了均衡性，减少了误差,提高了效率。完全随机设计只涉及一个处理因素；随机区组设计涉及一个处理因素、一个区组因素；如果实验研究涉及一个处理因素和两个控制因素，每个因素的类别数或水平数相等，此时可采用拉丁方设计。变异来源自由度MSF总变异N-1处理组g-1MS处理MS处理/MS误差行区组g-1MS行MS行/MS误差列区组g-1MS列MS列/MS误差误差(g-1)(g-2)MS误差&两阶段交叉设计资料的方差分析该设计不仅平衡了处理顺序的影响，而且能把处理方法间的差别、时间先后之间的差别和实验对象之间的差别分开来分析。9、多样本均数间的多重比较方法：LSD-t检验、Dunnett-t检验、SNK-q检验三种。10、多样本方差比较：Bartlett检验、Levene检验成组t检验(意义相同t2=F)非正态分布或/和方差不齐：变量转换t单因素方差分析秩和检验6、随机区组设计资料的方差分析：变异来源自由度MSF总变异N-1处理间g-1MS处理MS处理/MS误差区组间n-1MS区组MS区组/MS误差误差(n-1)(g-1)MS误差第五章计数资料的统计描述1、基本概念：、相对数(Relativenumber):是两个有关联的数据之比，用以说明事物的相对关系，便于对比分析。常用的相对数指标很多，按联系的性质和说明的问题不同，主要分为：率、构成、相对比三类。、强度相对数-频率(frequency):是最常见的一种相对数，频率在实践中又称为比率(proportion)。它表示事物内部某个组成部分所占的相对多少。、结构相对数一构成比(constituentratio):说明某事物内部各组成部分所占的比重或分布，又称构成比。构成比可相加，和等于100%o、优势相对数“比(ratio):是指两个有关联的指标A和B之比，简称比。A和B可以是性质相同，也可以是性质不相同。通常以倍数或百分数(%)表示。、率的标准化法：指的是消除内部构成差别，使总体率能够直接进行比较的方法。采用统一标准调整后的率为标准化率，简称为标化率(standardizedrate)o标准化的基本思想：采用统一的标准人口构成”，以消除人口构成不同对各组总率的影响，使算得的标准化率具有可比性。、动态数列(dynamicseries)：是按时间顺序排列的统计指标(可以为绝对数，相对数或平均数)，用以观察和比较该事物在时间上的变化和发展趋势。分析动态数列常用的指标有：绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。、发展速度：表示报告期指标的水平相当于基线期(或前一期)指标的百分之多少或若干倍。、增长速度：表示的是净增加速度，增长速度二发展速度T(100%)o2、率的标准化的注意事项：标准化后的标准化率，已经不再反映当时当地的实际水平，它只是表示相互比较的资料间的相对水平。两样本标准化率是样本值，存在抽样误差。当样本含量较小时，比较两样本的标准化率，需要作假设检验。(但如果比较的两者是总体的参数，则可进行直接比较，无需进行t、F检验)第六章几种离散型变量的分布及其应用连续型分布举例：u分布、t分布和F分布；常用离散型分布：二项分布、Poisson分布、负二项分布。1基本概念、二项分布(binomialdistribution):是指在只会产生两种可能结果之一的n次独立重复试验中，当每次实验的“阳性”的概率冗保持不变时，出现“阳性”次数X=0,1,2n的一种概率分布。、Poisson分布(Poissondistribution)：是二项分布的一种极端形式，指的是每次实验的“阳性”概率比较低的时候，出现阳性次数的相应概率满足以入为参数的XP(入)o2、二项分布的适用条件：即分别发生两种结果的概率之、每次试验只会发生两种队里的额可能结果之一，和很等于1;、每次试验产生某种结果的概率固定不变；、重复试验是相互独立的，不相互影响。 3、二项分布的性质、样本率的标准差也称为率的标准误，可以用来描述样本率的抽样误差，率的标准误越小，则率的抽样误差就越小。、当冗=0.5时，二项分布图形是对称的，当71*0.5时，图形是偏态的，随着n增大，图形趋于对称。当ni无穷时，只要冗不太靠近0或4,二项分布则近似正态分布。、利用二项分布的性质，可进行总体率的区间估计和差异推断。(当nW50时可查表得到可信区间，50是可采用近似正态分布法)4、Poisson分布的适用条件：普通性：才充分小的观测单位上X的取值最多为1;独立增量性：重复实验室相互独立的，不相互影响；平稳性：每次试验阳性时间发生的概率都应相同。5、Poisson分布的性质：、总体均数入与总体方差(T2相等时Poisson分布的重要特征；、当n很大，而冗很小时，且n冗=入为常数时，二项分布近似Poisson分布；、当入增大时，Poisson分布逐渐近似正态分布。一般而言，入20时，Poisson分布资料可作为正态分布处理。、Poisson分布具备可加性。6、Poisson分布的图形特点：当入越小，分布就越偏态；当入越大时，Poisson分布则越渐近正态分布。当入时，随X取值的变大，P(X)值反而会变小；当入1时，随X取值的变大，P(X)值先增大后变小。第七章卡方检验%21X2分布曲线的特点：X2分布曲线的形状依赖于自由度的大小当自由度w2时，曲线呈L形；随着自由度的增加，曲线逐渐趋于对称；当自由度t无穷时，x2分布趋近正态分布。2、%2分布的基本性质：可加性；3、2检验的原理：通过实际频数和理论频数满足f(X2)，来推断实际频数与理论频数的差异大小及有无统计学意义。4、几种常见的资料类型：、普通四格表：自由度=（行数-1）（列数-1）X2可使用四格表专用公式；X：n40且所有的T5T使用基本公式；Pa时，改用Fisher确切概率法；n40但有1wT10或n2-n110时，令n1+n2=N，作近似正态分布检验）H0:两样本总体分布位置相同；H1:两样本总体分布位置不同。完全随机多个样本：H0:多个样本总体分布位置相同；H1:多个样本总体分布位置不全相同。注意：当完全随机的多个样本为两个样本时，使用完全随机多个样本的检验方法求得的统计值H（或He）与使用两独立样本的u检验求得的u值等价。H=u2。第九章：双变量回归与相关1、直线回归（linearregression）：因变量Y随着自变量X的变化而变化呈直线趋势，但并非所有的对应点恰好全都在一条直线上，称为直线回归或者简单回归。注：a为常数项，是回归直线在Y轴上的截距；b为回归系数（coefficientofregression）,为直线的斜率；其统计意义是当X变化一个单位时Y的平均改变的估计值。直线回归方程的求法基本原则：最小二乘（leastsumofsquares将实测值与假定回归线上的估计值的纵向距离称为残差（residual）或剩余值。为了使各点残差尽可能的小，考虑到所有点之残差有正有负，所以通常取各点残差平方和最小的直线即为所求，如此得到的回归系数最理想。统计推断的检验：方差分析F检验或者t检验两者等价：t=F2b离0越远：Y受X的影响越大：SS回就越大：回归效果越好；SS残越小，估计误差越小，回归作用越明显。2、直线相关（linearcorrelation）:两个数值变量进行比较时，一个变量在增加或者减少时，另一个变量也表现为增加或者减少，这两个变量之间的关系即为直线相关。相关系数（correlationcoefficient）又称为pearson积差相关系数，以符号r表示样本相关系数，符号p表示其总体相关系数。用来说明具有直线关系的两变量间相关的密切程度与相关方向。相关系数的统计推断：t检验决定系数（coefficientofdetermination）:为回归平方和与总平方和之比。其数值大小反映了回归贡献的相对程度，也就是在Y的总变异中回归关系所能解释的百分比。3、残差图考察数据是否符合模型假设的基本要求：、应变量与自变量关系为线性；、误差服从均数为0的正态分布；、方差相等；、各观测对象独立。 4、直线回归与直线相关的区别和共同点区别：相关系数无单位，回归系数有单位；相关表示相互关系，没有依存关系，回归有依存关系；两者对资料的要求不同：当X和丫都是随机的，可以进行相关和回归分析；当丫是随机变量，X是控制变量时，理论上只能做回归分析。联系：均表示线性关系；符号相同，共变方向一致；假设检验结果相同；（tr=tb）可以互相换算（数值的相同不代表意义的相同）第十二章重复测量设计资料的方差分析1重复测量设计资料的数据特征：、未设立平行对照的前后测量设计：（重复测量资料最常见的情况是前后测量设计）前后测量设计与配对设计t检验的区别：a、配对设计中同一对子的两个实验单位可以随机分配处理，两个实验单位同期观察实验结果，可以比较处理组间差别；前后测量设计不能同期观察实验结果，虽然可以在前后测量之间安排处理，但本质上比较的是前后差别，推论处理是否有效是有条件的，即假定测量时间对观察结果没有影响。b、配对t检验要求同一对子的两个实验单位的观察结果分别是差值相互独立，差值服从正态分布。而前后测量设计前后两次观察结果通常与差值不独立，大多数情况第一次观察结果与差值存在负相关的关系。c、配对设计用平均差值推论处理的作用，前后测量设计出了分析平均差值外，还可进行相关分析。、设立平行对照的前后测量设计：虽然分为处理组和对照组，但是不能进行差值均数t检验，因为通常两组差值的方差不会相等。、重复测量设计：重复测量数据与随机区组设计数据相似，两者的差别是：a、重复测量设计中处理是在区组间随机分配，区组内的各时间点是固定的，不能随机分配；随机区组设计则要求每个区组内实验单位彼此独立，处理只能在区组内随机分配，每个实验单位接受的处理是不相同的。b、重复测量设计区组内实验单位彼此不独立，而随机区组内实验单位彼此独立，如果按照随机区组进行t检验则要求进行统计值的校正。第十五章多元线性回归资料的分析适用范围：分析一个应变量与多个自变量之间的线性关系；1多元线性回归模型的一般形式：Y=B0+B1X1+B2X2+3mXm+ea、偏回归系数3j的意义：表示在其他自变量保持不变的时候，Xj增加或减少一个单位时Y的平均变化量。b、偏回归分布的应用条件：、Y与各个变量之间有线性关系；、各例观测值Yi相互独立；、残差e服从均数为0,方差为32的正态分布。（等价于对任意一组自变量X1X2Xm值，应变量丫具有相同方差，并且服从正态分布）c、参数的计算方法：最小二乘法2、多元线性回归方程的假设检验及其评价：（对整体的假设检验）A、可以将回归方程中所有的自变量作为一个整体来检验它们与应变量丫之间是否具有线性关系。假设检验方法：方差分析法：HO:B仁B2=3m=o；H1:各Bj不全为0.若拒绝H0,接受H1,即可确定所拟合的回归方程有统计学意义。1）决定系数R2:即为偏回归平方和与残差平方和的比值，其值越接近1,说明拟合程度越好。2）复相关系数：决定系数开根号，可用来度量应变量与多个自变量之间的线性相关程度。B、各自变量的假设检验：、使用方法为偏回归平方和（SS0（Xj）：表示在个自变量的基础上新增加Xj所引起的回归平方和的增加量。其值越大，说明Xj越重要。偏回归平方和检验：H0:3j=0；H1:戸工0注意：单独分析各个变量的偏回归平方和，所有值的和小于总的回归平方和，其原因是忽略了各个变量之间的相互作用成分。、t检验法：对于同一资料，不同自变量的t值间可以相互比较，t的绝对值越大，说明该自变量对Y的回归所起的作用越大。标准化回归系数：减少自变量观测单位不同对结果的影响。在有统计学意义的前提下，标准化回归系数的绝对值越大说明相应自变量对Y的作用越大。3、自变量选择方法：A、全局择优法：、校正决定系数Rc选择法(当R2相同时，自变量个数越多，Rc越小，最优为Rc最大)、Cp选择法：应选择Cp最接近p+1的回归方程为最优方程。B、逐步选择法：、前进法：(只选不剔)在有统计学意义的前提下，选取偏回归平方和最大的一个自变量做F检验以决定是否选入、后退法：(只剔不选)选取回归平方和最小的一个自变量做F检验以决定是否剔除。、逐步回归法：先选后剔，双向筛选。本质上是前进法，但每引入一个自变量进入方程后，要对方程中的每一个自变量做基于偏回归平方和的F检验，看是否需要剔除一些退化为不显著的自变量。注意：为了避免已经剔除的自变量再次入选，选入自变量的检验水准要小于或等于剔除自变量的检验水准。第十六章logistic回归分析logistic回归(logisticregression)属于概率型非线性回归。适用对象：二分类或多分类影响因素之间的关系。1表示方法：阳性概率P=1/1+exp(-Z)Z=30+31X1+32X2+3mXmP的logit转换：logitP=ln(p/1-p)=B0+B1X1+32X2+3mXm回归系数3j表示自变量Xj改变一个单位时logitP的该变量。2、模型参数的意义：、确定优势比(oddsratio,OR)衡量危险因素作用大小的比数比例OR适用于分类指标而不适用于计量指标；多变量调整后的优势比(adjustoddsratio)ORj:表示扣除了其他自变量影响后危险因素的作用。用来对比某一危险因素两个不同暴露水平Xj=c1和Xj=c0之间的发病情况。1) 3j=0时，0Rj=1,说明因素Xj对疾病的发生不起作用；2) Bj0时，0Rj1,说明因素Xj对疾病发生起危险作用；3) BjvO时，ORjvl,说明因素Xj时一个保护因子。、确定相对危险度(relativerisk,RR)对于发病率很低的疾病存在优势比即等于两种暴露水平之间的相对危险度。2、logistic回归方程的参数估计：主要方法有最大似然估计法(maximumlikelihoodestimate,MLE)和优势比估计法。3、logistic回归的适用对象：、比较各暴露因素的致病风险的大小；、多因素的共同作用的评价；、危险因素的筛选：多经文献报道选取，但统计学资料不能代替专业依据4、logistic回归模型的假设检验：常用的检验方法有似然比检验(likelihoodratiotest)Wald检验和计分检验(scoretest)统计量为卡方值logistic回归模型变量的筛选与多元线性回归相同。第十七章生存分析1生存分析资料与一般资料比较的不同：、同时考虑生存时间和生存结局；、通常含有删失数据；、生存时间的分布通常不服从正态分布。2、概念：生存时间(survivaltime),从起始事件到终点事之间所经历的时间跨度。完全数据(completedata),在追踪观察中，当观察到了某观察对象的明确结局时，该观察对象所提供的关于生存时间的信息是完整的，这种生存时间数据称为完全数据。不完全数据(incompletedata),在实际追踪观察中，由于某种原因无法知道观察对象的确切生存时间，这种生存时间数据也称为截尾数据。生存率(survivalrate)是指病人经历给定的时间之后仍存活的概率，若有截尾数据，应用乘积极限法。生存概率(probabilityofsurvival)表示某段时段开始时存活的个体，到该时段结束时仍存活的可能性。死亡概率(probabilityofdeath)表示某段时段开始时存活的个体，到该时段结束时死亡的可能性。死亡率(deathrate)指的是某单位时间内的平均死亡强度。四分位数间距：记为Q,表示中间半数病人生存期的分布范围，它反映生存期的离散程度，其定义为：Q=T25T75，式中，T25和T75分别是25百分位数和75百分位数.3、生存率的估计与生存曲线：小样本的生存率估计：kaplan-Meier法(又称乘积极限法)大样本的生存率估计也可使用上述乘积极限法。4、生存率的比较：最常见的方法是使用log-rank检验(也称为Mantel-Cox检验)其基本思想为实际死亡数与理论死亡数之间的比较。统计量为卡方值假设检验：H0:St(1)=St(2)，即两种方式的患者生存率相同；H1：两种方式的患者生存率不同5、多因素生存分析方法：Cox比例风险模型(为半参数法)其参数的估计采用的方法为最大似然估计法因素的筛选与多元线性回归模型相同。注意：Cox比例风险回归模型的主要前提条件是假定风险比值h(t)/hO(t)为固定值，即协变量对生存率的影响不随时间的改变而改变。第二十七章一一第二十九章1、医学科学研究的分类：按照目的：验证性研究和探索性研究按照形式：观察性研究与实验性研究按照指标：单因素研究和多因素研究按照时限：前瞻性研究、回顾性研究和横断面研究按照对象：临床试验、社区研究和实验研究2、医学科学研究的基本步骤：、选题；、制定研究方案；、收集资料；、数据整理与分析；、撰写研究报告。3、调查研究(surveyresearch)是指在没有任何干预措施的条件下，客观地观察和记录研究对象的现状及其相关特征。调查研究的特点是：研究的对象及其相关因素是客观存在的，不能用随机化分组来平衡混杂因素对调查结果的影响。4、常用的抽样方法包括：单纯随机抽样(简单随机抽样)、系统抽样(机械抽样)、分层抽样(分类抽样)、整群抽样和多阶段抽样。5、观察性研究中估计总体参数所需样本含量的条件：(1)、可信度1-a:其值越大，可信区间估计的可靠性越好，但相应所需样本含量就越大。(2)、总体的标准差a:其值越大，相应所需的样本含量也越大。(3、容许误差S:即预计样本统计量与相应总体参数的最大相差控制所在的范围。用上面的三个条件求得的样本含量的意义是：当样本含量为n时，用统计量来估计总体参数，两者之差不超过3的可能性是1-a。6、实验设计的三个基本组成部分：实验单位、处理因素和实验效应注意：特异性：反映该指标鉴别真阴性的能力，特异度高的指标能较好的揭示处理因素的作用灵敏性：反映该指标检出真阳性的能力，灵敏度高的指标对外界的反应灵敏，能将处理因素的效应更好的显示出来。7、实验设计的基本原则：对照(control)、随机化(randomization)、重复(replication、&实验性研究中估计总体参数所需样本含量的条件：(1)、假设检验的I型错误概率a的大小：a越小，所需样本含量越大。对于相同a，双侧检验比单侧检验所需样本含量多。(2) 、假设检验的n型错误概率B或检验效能(1-B)的大小：B越小，所需样本含量越多。(3) 、容许误差3的大小：其值越大，所需样本含量越小。(4、总体的相关信息：总体标准差越大，所需样本含量越多；总体率越接近于0.5,所需样本含量越多；总体相关系数越小，所需样本含量越多。总体的参数可通过样本来估计。

展开阅读全文

医学统计学复习要点

最新文档