医学统计学总结

资源描述

医学记录学总结一.绪论1，医学记录学：运用概率论和数理记录学的原理和措施，研究医学领域中随机现象有关数据的收集、整顿、分析和推断，进而阐明其客观规律性的一门应用科学。2，医学记录学的重要内容：1）记录研究设计调查研究设计和实验研究设计2）医学记录学的基本原理和措施研究设计和数据解决中的基本记录理论和措施。A：资料的收集与整顿 B：常用记录描述，集中趋势和离散趋势，相对数，有关系数，回归系数，登记表，记录图 C：记录推断，如参数估计和假设检查。 3）医学多元记录措施多元线性回归和逐渐回归分析、鉴别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。3，记录工作环节：1）设计明确研究目的和研究假说，拟定观测对象与观测单位，样本含量和抽样措施，拟定研究方案，预期分析指标，误差控制措施，进度与费用。2）收集材料A，收集材料的原则及时、精确、完整B，记录资料的来源医学领域的记录资料的来源重要有三个方面。一是记录报表，二是常常性工作记录，三是专项调查或专项实验。C，资料贮存3）整顿资料 a检查核对b设计分组c拟定整顿表d归表4）分析资料记录分析涉及记录描述和记录推断4，同质（homogeneity）：指被研究指标的影响因素相似。变异(variation)：同质基本上的各观测单位间的差别。变量(variable)：收集资料过程中，根据研究目的拟定同质观测单位，再对每个观测单位的某项特性进行测量或观测，这种特性称为变量变量值：变量的观测成果或测量值。变量类型变量值体现实例资料类型数值变量离散型定量测量值，有计量单位产前检查次数计量资料持续型身高分类变量无序二分类对立的两类属性性别（男女）计数资料多分类不相容的多类属性血型（A,B,O,AB）有序多分类类间有限度差别的属性受教育限度（小学，中学，高中，大学）级别资料5，总体（population）根据研究目的所拟定的同质研究对象中所有观测单位某变量值的集合。总体具有的基本特性是：同质性样本（sample）从总体中随机抽取部分观测单位，其变量值的集合构成样本。样本必须具有代表性。代表性是指样本来自同质总体，足够的样本含量和随机抽样的前提。记录量（statistics）描述样本变量值特性的指标（样本率，样本均数，样本原则差）。参数（parameter）描述总体变量值特性的指标（总体率，原则差，总体均数）。抽样误差（sampling error）：由于个体差别的存在，虽然在同一整体中随机抽取若干样本，各样本的记录量往往不等，记录量与参数也会有所不同。这种因抽样研究引起的差别称抽样误差。随机事件（random event）对随机实验的多种也许成果的集合。概率（probability）描述随机事件发生的也许性大些哦的一种度量。小概率事件若随机事件A的概率P（A），习惯上，=0.05时，就称A为小概率事件。其记录学意义是小概率事件在一次随机实验中觉得不会发生。抽样误差1，抽样误差（sampling error）由抽样而导致的样本记录量与总体参数之间的差别或各样本记录量之间的差别。在医学记录学中，常把由抽样导致的样本均数与总体均数间的差别称为均数的抽样误差；由抽样导致的样本率与总体率之间的差别称为率的抽样误差。2，样本均数的原则差（简称原则误，standard error）反映均数的抽样误差大小的指标。大，抽样误差大；反之，小，抽样误差小。（3.1）实际工作中往往未知的，可用样本原则差s作的估计值，计算原则误的估计值。（3.2）3，原则误的用途：a，衡量样本均数的可靠性；b，估计总体均数的置信区间；3，用于均数的假设检查。4，原则误的估计值的用途： a，描述抽样误差的大小； b，总体参数的估计； c，用来进行假设检查。5，率的抽样误差：由抽样导致的样本率与总体率的差别称为率的抽样误差。衡量率的抽样误差大小的指标是率的原则误。越小，率的抽样误差越小；越大，率的抽样误差越大。（3.3）其中为总体率。实际工作中，由于往往是未知的，可用样本率p作的估计值，计算率的原则误的估计值。（3.4）。原则差（s）原则误计算公式s=（1）表达观测值的变异限度（1）估计均数的抽样误差的大小（2）计算变异系数CV=100%（2）估计总体均数的可信区间（，）（3）拟定医学参照值范畴（3）进行假设检查（4）计算原则误简述原则差、原则误的区别与联系？区别：（1）含义不同：原则差S表达观测值的变异限度，描述个体变量值（x）之间的变异度大小，S越大，变量值（x）越分散；反之变量值越集中，均数的代表性越强。原则误估计均数的抽样误差的大小，是描述样本均数之间的变异度大小，原则误越大，样本均数与总体均数间差别越大，抽样误差越大；反之，样本均数越接近总体均数，抽样误差越小。（2）与n的关系不同： n增大时，S趋于（恒定），原则误减少并趋于0（不存在抽样误差）。（3）用途不同：原则差表达x的变异度大小、计算变异系数、拟定医学参照值范畴、计算原则误等，原则误用于估计总体均数可信区间和假设检查。联系：两者均为变异度指标，样本均数的原则差即为原则误，原则差与原则误成正比。原则差：原则误：二.分布正态分布 1，正态分布的函数其中为总体均数，为总体原则差，为圆周率，为自然对数的底，且仅为变量。觉得横轴，觉得纵轴，当均数和原则差已知时即可绘出正态分布曲线。为应用以便，将式中进行变量变换，使本来的正态分布变为的原则正态分布，亦称分布。被称为原则正态变量或原则正态离差，将代入上述公式即得原则正态分布的密度函数。（2.17）（2.18） 2，正态分布的特性（1）正态曲线（normal curve）在横轴上方均数处最高。（2）正态分布以均数为中心，左右对称。（3）正态分布有2个参数（parameter），即均数（位置）和原则差（形状）。当固定不变时，越大，曲线沿横轴越向右移动；反之，越小，则曲线沿横轴越向左移动。当固定不变时，越大，曲线越平阔；越小，曲线越尖峭。一般用N（，）表达均数为、方差为的正态分布。用（0，1）表达原则正态分布。（4）正态分布在1处各有一种拐点。（5）正态曲线下面积的分布有一定规律。3，常用的两个区间：1.96及2.58的区间面积分别占总面积的95%及99%。4，正态分布的应用 1），制定医学参照值范畴 a,正态分布法合用于正态或近似正态分布的资料双侧界值：；单侧上界:，或单侧下界：。 b，对数正态分布法合用于对数正态分布资料双侧界值：；单侧上界：，或单侧下界 c，百分位数法常用于偏态分布资料及资料中一端或两端无确切数值的资料。双侧界值：和；单侧上界：，或单侧下界：。 2）正态分布是多种记录措施的理论基本如t分布，F分布，分布都是在正态分布的基本上推导出来的，分布也是以正态分布为基本的。此外t分布，二项分布，poisson分布的极限为正态分布，一定条件下可按正态分布原理解决。t分布1，t分布：（3.5）t分布的特性为：1 以0为中心，左右对称的单峰分布。2 t分布曲线形态变化与自由度的大小有关。自由度越小，则t值越分散，曲线越低平；自由度逐渐增大时，则t分布逐渐逼近正态分布（原则正态分布）。当=时，t分布为u分布。t界值表附图中非阴影部分面积的概率为： 2，总体均数的估计：用样本指标估计总体参数称为参数估计，是记录推断的一种重要方面。总体均数的估计有2种措施。一是直接用记录量估计总体参数，称为点值估计。由于抽样误差的存在，此法很难估计精确。二是区间估计（interval estimation）法。区间估计是按一定的概率100（1-）%估计总体均数所在的范畴，亦称可信区间（confidence interval，CI）。常取的可信度为95%和99%，即95%可信区间和99%可信区间。计算措施有3种：（1）未知且n小按t分布原理用式（3.6）计算可信区间。由于将代入，得则总体均数的100（1-）%可信区间的通式为：（3.6）或写成（，）。（2）未知，但n足够大时（n100） t分布逼近u分布，按正态分布原理，用式（3.7）估计可信区间。（）（3.7）（3）已知按正态分布原理，用式（3.8）估计可信区间。（）（3.8）原则正态分布（u分布）与t分布有何异同？答：相似点：t分布和原则正态分布（u分布）都是以0为中心的正态分布。原则正态分布是t分布的特例（自由度是无限大时）。不同点：t分布为抽样分布，u分布为理论分布；t分布比原则正态分布的峰值低，且尾部翘得更高；t分布受自由度大小的影响，随着自由度的增大，逐渐趋近于原则正态分布；t分布有无数条曲线，而u分布只有唯一一条曲线。二项分布1，二项分布（binomial distribution）是对只具有2种互斥成果的离散型随机事件的规律性进行描述的一种概率分布。二项分布概率公式：（3.9）式中n为独立的贝努力实验次数，为成功的概率，（1-）为失败的概率，X为在n次贝努力实验中浮现“成功”的次数，表达在n次实验中浮现X的多种组合数，在此称为二项系数（binomial coefficient）。2，二项分布的应用条件：（1）各观测单位只能具有互相对立的一种成果，如阳性或阴性，生存或死亡。（2）已知发生某一成果（阳性）的概率为，其对立成果的概率为1-，实际工作中规定是从大量观测中获得比较稳定的数值。（3）n次实验在相似条件下进行，且各个观测单位的观测成果互相独立。3，二项分布的性质：A，二项分布的均数和原则差在二项分布的资料中，当和n已知时，它的均数及其原则差如下：=n （3.11）（3.12）若均数和原则差不用绝对数表达，而是用率表达时，即对式（3.11）（3.12）分别除以n，得：（3.13）（3.14）是样本率的原则误的理论值，当未知时，常用样本率p作为的估计值，则：（3.15）B，二项分布的合计概率二项分布的合计概率（cumulative probability）常用的有左侧合计和右侧合计2种措施。从阳性率为的总体中随机抽取n个个体，则（1）最多有k例阳性的概率（3.16）（2）至少有k例阳性的概率（3.17）D，二项分布的形状取决于和n的大小：（1）当=0.5时，分布对称；当0.5时，分布呈负偏态，且固定n时，越大，分布越偏。（2）对固定的，分布随n的增大趋于对称。4，总体率的估计总体率的估计也有点估计和区间估计，点估计是简朴地用样本率来估计总体率；区间估计是求出总体率的也许范畴。样本率的理论分布和样本含量n、阳性率p的大小有关，因此需要根据n和p的大小不同，分别选用下列2种措施。（一）查表法当样本含量n较小，如n50，特别是p很接近于0或1时，按二项分布的原理估计总体率的可信区间。（二）正态近似法当样本含量n足够大，且样本率p或1-p均不太小，如np与n（1-p）均不小于5时，样本率的p的抽样分布近似正态分布，总体率的可信区间可按下列式（3.17）进行估计。（3.17）Poisson分布1，Poisson分布泊松分布是在很小，样本含量n趋向于无穷大时，二项分布的极限形式。更多地用于研究单位时间、单位人群、单位空间内，某罕见事件发生的次数的分布。 X=0，1，2（3.19）式中=n为Poisson分布的总体均数，X为单位时间或单位空间内某事件的发生数，e为自然对数的底，约等于2.71828。在实际运算中，P（X）亦可按式（3.20）作递推计算。 (3.20)2，Poisson分布应用条件：A，规定事件的发生是互相独立B，发生的概率相等C，成果是二分类3，Poisson分布的性质：A，该分布是一种单参数的离散型分布，其参数为，它表达单位时间或空间内某件事平均发生的次数，又称强度参数。B， Poisson分布的方差和均数相等，即=C， Poisson分布的合计概率（1）最多为k次的概率（2）至少为k次的概率 4，Poisson分布的图形已知，就可按公式计算得出X=0，1，2，时的P（X）值，以X为横坐标，以P(X)为纵坐标作图，即可会出Poisson分布的图形。值越小，分布越偏，随着的增大，分布越趋于对称，当=20时，分布接近正态分布，当=50时，可以觉得Poisson分布呈正态分布N(，)按正态分布解决。5，Poisson分布具有可加性6，总体参数的估计由样本均数（样本计数）X估计总体均数也有点（值）估计和区间估计，区间估计的措施，需视样本计数（样本均数）X的大小而定，X小时用查表法，X大时用正态近似法。（一）查表法当样本计数X时，用X值查附表poisson分布的可信区间，可得总体均数的95%或99%可信区间。（二）正态近似法当样本计数X50时，可用正态近似原理下面公式求总体均数的95%或99%可信区间正态分布、二项式和泊松分布的关系：二项分布（binomial distribution）：对只具有两种互斥成果的离散型随机事件的规律性进行描述的一种概率分布。Poisson分布是在很小，样本含量n趋于无穷大时，二项分布的极限形式。当v=时，t分布即为u分布，趋向正态分布。可信区间与参照值范畴的区别：意义、计算公式和用途均不同。（1）参照值范畴是指同质总体内涉及百分之几十个体值的估计范畴。而可信区间是指在百分之几十的可信度估计的总体参数的所在范畴。（2）同样的百分之几十，参照值范畴是样本范畴，可信区间是指可信度范畴，两者有着本质的不同。（3）从意义来看，95参照值范畴是指同质总体内涉及95个体值的估计范畴，而总体均数95可信区间是指按95可信度估计的总体均数的所在范畴。（4）从计算公式看，若指标服从正态分布，95参照值范畴的公式是：1.96s。总体均数95可信区间的公式是：。前者用原则差，后者用原则误。前者用1.96，后者用为0.05，自由度为v的t界值。（5）从用途上看，可信区间用来估计总体均数，参照值范畴用来判断观测对象的某项指标与否正常。简述检查假设与可信区间的联系与区别。答：（1）可信区间用于推断总体参数所在的范畴，假设检查用于推断总体参数与否不同。前者估计总体参数的大小，后者推断总体参数有无质的不同。（2）可信区间也可回答假设检查的问题。但可信区间不能提供确切的P值范畴，只能给出在水准上有无记录意义。（3）可信区间还可提示差别有无实际意义。记录图表1，绘制记录图的基本规定：A，根据资料性质和分析目的据顶合适图形。B，标题应阐明资料的内容、时间和地点，一般位于图的下方。C，图的纵、横轴应注明标目及相应单位，尺度应等距或具有规律性，一般自左而右、自下而上、由小到大。D，为使图形美观并便于比较，记录图的长宽比例一般为7：5，有时为了阐明问题也可以变动。E，比较、阐明不同的事物时，可用不同颜色或线条表达，并常附图例阐明，但不适宜过多。2，常用记录图的合用条件与绘制1 条图（bar graph）用等宽长条的高度表达按性质分类资料各类别的数值大小，用于表达它们之间的对比关系。2 圆图（pie graph）圆形图合用于百分构成比资料，表达事物各构成部分所占的比重或构成。3 百分条图（percent bar）意义及合用资料同圆图，也称构成条图。4 线图（line graph）线图合用于持续性资料，以不同的线段升降来表达资料的变化，并可表白一事物随另一食物（时间）而变动的状况。5 直方图（histogram）直方图用于体现持续性资料的频数分布。6 散点图（scatter diagram）散点图以直角坐标系中各点的密集限度和趋势来表达两现象间的关系。常用在对资料进行有关分析之前合用。单变量资料一，数值变量记录描述1，频数表的编制求全距定组段和组距列频数表画频数图2，频数分布的两个重要特性：集中趋势和离散趋势3，频数分布可以分为正态分布和偏态分布4，频数表的用途：揭示资料分布类型和分布特性，以便选用合适的记录措施；便于进一步计算指标和记录解决；便于发现某些特大或者特小的可疑值。5，集中趋势的描述：均数几何均数中位数百分位数6，均数(mean)：算术均数的简称。常用=表达。7，中位数(median)：一组由小到大按顺序排列的观测值中位次居中的数值，用M表达。可用于描述任何分布，特别是偏态分布资料以及频数分布的一端或两端无确切数据资料的中心位置。8，百分位数(percentile)是一种位置指标，用表达。一种百分位数P将一组观测值分为两部分，理论上有x%的观测值比它小，有（100-x）%的观测值比它大。可用于拟定非正态分布资料的医学参照值范畴。9，离散趋势的描述：全距（range）四分位数间距（quartile）方差原则差10，全距（range）亦称极差，为一组同质观测值中最大值和最小值之差。反映个体差别的范畴，长处是计算简朴，缺陷是：1）只考虑最大最小值之间的差别，不能反映组内其她观测值的变异度；2）样本含量相差悬殊时不适宜用全距比较。11，四分位数间距（quartile）上四分位数与下四分位数之差。常用于描述偏态频数分布以及分布的一端或两端无确切数值资料的离散限度。12，方差（variance）离均差的平方和表达。13，原则差（standard variance）的作用：a，估计变量值的离散限度 b，计算变异系数 c，与均数结合，估计变异值的频数分布范畴 d，计算原则误(总体) s=（样本）14,变异系数（coefficient of variation）常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异度。CV=100%假设检查1，假设检查（hypothesis test）亦称明显性检查（significance test），其基本思想是先对总体的参数或分布做出某种假设，如设总体均数（或率）为一定值；两总体均数（或率）相等；总体服从正态分布或两分布相似等，然后根据样本信息选用合适的措施，推断此假设应当回绝或不回绝。2，假设检查的一般环节：（1）建立假设和拟定检查水准：根据实际状况拟定单、双侧检查，建立假设，拟定检查水准；（2）选定检查措施和计算记录量：根据设计的类型及研究目的选择合适的检查措施并计算出相应的记录量；（3）拟定P值并做出推断结论。若tt,v，则P，按检查水准，回绝H0，接受H1，尚可觉得差别明显有记录学意义；相反则差别不明显，无记录学意义3，假设检查时应注意的事项：（1）要有严密的抽样研究设计；样本必须是从同质总体中随机抽取的，要保证组间的均衡性和资料的可比性，也许影响成果的非解决因素在对比组间应尽量相似或相近；（2）对的选择检查措施；根据既有的资料类型、设计类型、分析目的、样本含量等因素选用合适的检查措施，如不符合条件可做合适转换；（3）对的理解“差别无明显性”的含义，差别有记录学意义，不能理解为两者差差大，也不能理解为所分析的指标在实际应用上就有“明显效果”。（4）检查假设的推断结论为概率结论，不能绝对化：检查水准人为规定，是相对的，报告结论时应列出检查记录量和P值的确切范畴。（5）注意是单侧检查还是双侧检查I型错误和II型错误：I型错误（type I error）回绝了事实上成立的，即样本原本来自的总体，由于抽样的偶尔性得到了较大的t值，因此回绝了，接受了，此类弃真错误称为第一类错误，犯第一类错误的概率是。II型错误（type II error）是不回绝事实上不成立的，即“存伪”即样本原本来自的总体，但是由于抽样的偶尔性，得到了较小的t值，得到了较大的P值，没有回绝，此类存伪错误称为第二类错误，犯第二类错误的概率是1-正态性检查：用均数和原则差描述资料的分布特性，对例数n较小的样本进行t检查时，一方面规定样本取自正态分布的总体。两个方差的齐性检查：两样本均数比较的t检查和多种样本均数比较的方差分析规定各样本所来自的总体方差相等。两样本方差的齐性检查：（4.12）式中为较大的样本方差，为较小的样本方差，为分子的自由度，为分母的自由度，相应的样本例数分别为和。当两总体方差齐同步，F值一般不会离1太远；若算得的F值较大，不小于我们规定的界值时，就觉得两样本所在总体的方差不齐。t检查t检查：常用于总体原则差未知且样本含量较小时样本均数与总体均数的比较，成组设计的两个小样本的均数的比较及配对设计的两样本均数的比较。t检查的应用条件：a，n50 b，样本来自正态分布的总体 c，两样本均数比较时规定两样本总体方差相等。1，单样本t检查（one sample t-test）：样本均数与已知总体均数比较，目的是推断样本所代表的未知总体均数与已知总体均数有无差别。（）（4.1）式中为样本均数，为已知总体均数，s为样本原则差，n为样本含量，为自由度。环节如下（可为u检查）1）建立假设，拟定检查水准。H0：=0 H1：0=0.052）计算记录量。已知，(总体均数)0=，n=，=，s=3）拟定P值，做出推断结论。按v=n-1，查t界值表，得P0.05（或P0.05（或P0.05（或P50），或n虽小但总体原则差已知时的样本均数与总体均数的比较、成组设计两样本均数的比较。1，单样本u检查（one sample u-test）：（4.4）式中为样本均数，为已知总体均数，s为样本原则差，n为样本含量。2，成组设计的两样本均数比较的u检查（two-sample u-test for independent samples）：（4.5）式中，分别为两样本均数，为两样本均数差值的原则误，、为分别为两样本的方差，、分别为两样本例数。原则正态分布（u分布）与t分布有何异同？答：相似点：t分布和原则正态分布（u分布）都是以0为中心的正态分布。原则正态分布是t分布的特例（自由度是无限大时）。不同点：t分布为抽样分布，u分布为理论分布；t分布比原则正态分布的峰值低，且尾部翘得更高；t分布受自由度大小的影响，随着自由度的增大，逐渐趋近于原则正态分布；t分布有无数条曲线，而u分布只有唯一一条曲线。方差分析1，方差分析的基本思想：按研究目的和设计类型，将总变异中的离均差平方和SS和自由度分别分解成相应的若干部分，然后求得各相应部分的变异；由于其中的组内（或误差）变异重要反映个体差别或抽样误差，其她各部分的变异与之比较得出记录量F值，根据F值的大小拟定P值，并做出推断。2，方差分析的长处：（1）不受比较组数的限制，可比较多组均数（2）可同步分析多种因素的作用（3）可分析同类间的交互作用3，方差分析的应用范畴：（1）2个或多种样本均数间的比较（2）分析2个或多种因素间的交互作用（3）回归方程的线性假设检查（4）多元线性回归分析中偏回归系数的假设检查（5）两样本方差齐性检查完全随机设计的方差分析：是将总变异中的离均差平方和SS和自由度分别分解成组间和组内两部分，SS/ 和SS/SS分别为组间变异（MS）和组内变异（MS），两者之比即为记录量F。（1）总离均差平方和及自由度：SS= （5.2） = （5.3）（2）组间离均差平方和、自由度和均方：SS= （5.4） = （组数-1）（5.5） MS= （5.6）（3）组内离均差平方和、自由度和均方：SS=SS-SS （5.7） =N-k （样本量-组数）（5.8） MS= （5.9）当方差分析的推断成果为回绝H0，接受H1，各总体均数不同或不全相似时，应对均数进一步两两比较，即多重比较(multiple comparisons)。可用q 检查进行分析：（5.14）式中为方差分析的组内均方，若为两因素或两因素以上的方差分析，则为误差项均方；和分别为两样本的样本含量。配伍组设计资料的方差分析配伍组设计亦称随机区组设计（randomized block design），其多种样本均数比较可用无反复数据的两因素方差分析（two-way ANOVA）。2个因素是指重要的研究因素和配伍组因素。两因素的方差分析是把总变异中的离均差平方和与自由度分别分解成解决组间、配伍组间和误差三部分。计算公式如下：变异来源离均差平方和自由度均方MSF总-C解决组间k-1配伍组间b-1误差SS-SS-SS（k-1）（b-1），为配伍组数二，分类变量记录描述常用相对数，即率，构成比，和相对比对分类资料进行记录描述1,率（rate）：率又称频率指标，它阐明某现象发生的频率或强度率=2，构成比（proportion）：又称构成指标，它阐明一事物内部各构成部分所占的比重或分布，常以百分数表达构成比=3，相对比（relative ratio）亦称比，是A,B 2个有关指标之比，阐明A和B 的若干倍或百分之几，是相对数的最简朴形式。A，B性质可相似可不同。相对比= 4，应用相对数时应注意的事项：（一）计算相对数的分母不适宜过小。（二）分析时不能以构成比替代率。（三）对观测单位数不等的几种率，不能直接用相加求其平均率。（四）资料的对比应注意可比性。（五）对样本率（或构成比）的比较应遵循随机抽样，要做假设检查。（六）区别清分子分母。5，率的u检查1），样本率与总体率比较：目的是推断样本率所代表的总体率与某已知总体率与否相等。根据资料的不同状况，可以采用不同的假设检查措施：若很小，可用Poisson分布原理做检查；若不太接近0或1时，可用二项分布原理做检查；当样本含量n足够大时，或且，二项分布逼近正态分布，可用u检查计算其样本检查记录量。（6.1）式中p为样本率，为已知总体率（常为理论值或原则值），n为样本含量。2），两样本率比较：两个样本率作比较的目的是推断两个样本各自代表的两总体率与否相等，当两个样本满足正态近似条件且样本含量较大时，可用u检查，其公式：（6.2）式中、分别为两个样本率，、分别为两样本含量，为两个样本率之差的原则误，为合并阳性率，、为两个样本阳性例数。四格表资料的检查合用于分类变量资料中推断两个或多种总体率（或构成比）之间有无差别，两个分类指标之间有无有关关系的检查以及检查频数分布的拟合优度。 (6.3)式中A代表实际频数，T代表理论频数。格子理论频数可用同样措施求得，其计算公式为：（6.4）（6.5）四格表资料的专用公式：（6.6）式中a、b、c、d分别为四格表的实际频数=a+b+c+d。四格表的值的校正。当所有T5,n40时用上述公式；当有1T40时，需进行持续性校正：（6.7）（6.7）或n=40,T=5,n=40,1T5, n40或T3.84，P40时：b+c3.84，P0.05，按=0.05检查水准，不回绝H0，可以觉得两者的总体分布相似；若T值=界值或在界值范畴外，P25%），应校正：uc=?1.96，P0.05。按=0.05检查水准，回绝H0，接受H1，可以觉得两的分布位置不同。非参数记录检查的合用条件：（1）资料不符合参数记录法的应用条件（总体为正态分布、且方差相等）或总体分布类型未知；（2）级别资料；（3）分布呈明显偏态又无合适的变量转换措施使之满足参数记录条件；（4）在资料满足参数检查的规定期，应首选参数法，以免减少检查效能。直线回归方程的应用：（1）定量描述两变量之间的依存关系；（2）运用回归议程进行预测；（3）运用回归议程进行记录控制。应用直线回归的注意事项：（1）作回归分析要有实际意义；（2）直线回归分析的资料，一般规定因变量Y是来自正态分布总体的随机变量，自变量X可以是正态随机变量，也可以是精确测量和严格控制的值.（3）进行回归分析时，应先绘制散点图，如提示有直线趋势，可作线性回归分析，否则应考虑作数据转换或进行非线性回归；（4）对离群值应检查核对，予以修正或剔除；（5）回归直线不要外延。简述直线有关与回归的区别与应用。答：区别：（1）资料规定不同，有关规定两个变量是双变量正态分布；回归规定应变量Y服从正态分布，而自变量X是能精确测量和严格控制的变量。（2）记录意义不同，有关反映两变量间的随着关系这种关系是互相的，对等的；不一定有因果关系；回归则反映两变量间的依存关系，有自变量与应变量之分，一般将“因”或较易测定、变异较小者定为自变量。这种依存关系也许是因果关系或附属关系。（3）分析目的不同，有关分析的目的是把两变量间直线关系的密切限度及方向用一记录指标表达出来；回归分析的目的则是把自变量与应变量间的关系用函数公式定量体现出来。联系：（1）变量间关系的方向一致，对同一资料，其r与b的正负号一致。（2）假设检查等价，对同同样本，tr=tb，由于tb计算较复杂，实际中常以r的假设检查替代对b的检查。（3）有关和回归可以互相解释，有关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比，故回归平方和是引入有关变量后总平方和减少的部分。（4）对于II型回归，r与b值可互相换算，。简述有关系数和回归系数的联系与区别。答：区别：（1）两种系数的意义不同：回归系数是表白两个变量之间数量上的依存关系，回归系数越大回归直线越陡峭，表达应变量随自变量变化越快；有关系数是表白两个变量之间有关的方向和紧密限度的，有关系数越大，两个变量的关联限度越大。（2）r与b有区别，回归系数b表达X每增（减）一种单位，Y平均变化b个单位；有关系数r阐明具有直线关系，收集整顿的两个变量间有关关系的密切限度与有关方向。（3）计算公式不同样。（4）取值范畴不同样：-b+，-1r1。（5）单位不同：b有单位，r没有单位。联系：(1) r与b值可互相换算，；(2) r与b正负号一致；（3）r与b的假设检查等价；（4）回归可解释有关。有关系数的平方r2(又称决定系数)是回归平方和与总的离均差平方和之比，故回归平方和是引入有关变量后总平方和减少的部分。鉴别分析：是根据一批已知类别的样品多指标观测数据，制定出一种分类原则，以指引对未知类别煌新个体归类的多元记录分析措施。协方差分析：是把直线回归分析与方差分析结合焉的一种记录分析措施，用来消除混杂因素对解决效应的影响，提高分析成果的真实性，属多元记录措施范畴。思想：将因变量Y的残差分为两部分，即为修正均数间的变异和组内残差。应用条件：A.各样本来自正态分布总体，且总体方差相等；B.各解决组的总体直线回归系数相等，且都不为0。Fisher准则：从方差分析的观点，规定投影点的类间方差与类内方差之比最大。

展开阅读全文

医学统计学总结

最新文档