卫生统计学知识点汇总

上传人:gbs****77 文档编号:12958994 上传时间:2020-06-04 格式:DOC 页数:106 大小:8.35MB
返回 下载 相关 举报
卫生统计学知识点汇总_第1页
第1页 / 共106页
卫生统计学知识点汇总_第2页
第2页 / 共106页
卫生统计学知识点汇总_第3页
第3页 / 共106页
点击查看更多>>
资源描述
第一讲 绪论总体:是研究目的所确定的所有同质个体某指标实际值的集合;或说, 总体是根据研究目的确定的所有同质观察对象的全体。样本:根据随机化的原则从总体中抽取有代表性的部分观察单位,其变量实测值构成样本。样本含量:样本所包含个体或个体值的个数。抽样(Sampling) :从总体中抽取有代表性的一部分样本的过程,称为抽样。抽样研究:从确定的同质总体中随机抽取部分样本进行观察,用样本信息来推断总体特征,该研究方法叫抽样研究。统计推断:样本的现象推断所研究总体的特征。即分析样本数据,获得关于总体的知识。同质(homogeneity):指研究对象在一定范畴的各种可能影响主要观察指标的其它因素处于相同或非常相似的情况,即把具有相同性质的观察单位简称为同质的(homogeneous),否则称为异质的(heterogeneous) 。变异(variation):同质基础上的各观察单位间的差异 参数:根据总体变量值统计计算出来,描述总体特征的统计指标。统计量:根据样本个体值统计计算出来,描述特征的统计指标。变量:变异性表现为取值上的大小就是变量。通常把观察单位的观察指标称为变量。如身高、体重等变量值:观察单位 的观察值 叫变量值,如身高 118cm,体重26kg 等。误差:为观察值(X)与实际值()之差。抽样误差(sampling error) :由抽样造成的样本统计量和总体参数的差别、以及样本统计量之间的差别称为抽样误差。随机事件(Radom event):随机试验中可能出现的各种结果,叫随机事件。即在一定条件下具有多种可能发生的结果,而究竟发生那一个结果不能肯定,又称偶然事件。概率(Probability):描述随机事件发生的可能性大小的一种度量,常用P 表示。 小概率事件:当随机事件A的概率P(A)a,习惯上,当a=0.05时,就称A为小概率事件;其统计学意义是小概率事件在一次随机试验中不可能发生。频率(Frequency):在n次试验中,若事件A发生的次数为m,则:m称为事件A在n次试验中的频数,fn(A)称为事件A在n次试验中发生的频率。统计描述:用统计指标、统计表、统计图等方法,对样本资料的数量特征及其分布规律进行描述统计推断:指用样本信息推断总体特征,包括参数估计和假设检验。第二讲:数值变量的统计描述一、频数表与频数分布图(一)基本概念:频数( frequency ):指在一个抽样资料中,某变量值出现的次数。频数分布表(frequency distribution table):将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。频数分布图(frequency distribution figure) :根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。(二)连续型变量频数表的编制方法: 求全距(Range,简记R ):是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。2. 定组距:将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。原则:(1)“组段”数一般为10-15个;(2)“组距”一般为R/10取整;(3)为计算方便根据组距采取取整数方法3.写组段:即将全距分为若干段的过程。原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ; (2)每组段均用下限值加 “ ”表示,最终组段同时注明上下限。4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。(三)频数表的用途:1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征2.揭示频数的分布类型 对称分布 : 集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。 正偏 : 集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。负偏 : 集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。3.便于发现某些特大或特小的可疑值。4. 样本含量足够大时,以频率作为概率的估计值。5.作为陈述资料的形式。二、集中趋势的指标集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平,常用平均数(average)表示。注意:1.同质的事物或现象才能求平均数.应根据资料分布状态选用适当的均数。 算术均数 : 单峰对称分布包括 几何均数 : 对数正态分布中位数、百分位数 : 偏态分布(一) 算术平均数(arithmetic mean) 使用条件:数据分布比较均匀呈正态分布或近似正态分布。 样本均数用符号:X 表示 总体均数用符号:表示 计算方法有两种:直接法(小样本)和加权法(大样本)(1)直接法:举例: 某地10名18岁健康男大学生身高为(cm): 168.7, 178.4, 170.0, 170.4, 172.1, 167.6, 172.4, 170.7, 177.3, 169.7求平均身高?10X)(171.7cm=7169.4178.168.7+= 适用范围:小样本资料,n30 方法:将观察值X1、X2、X3、Xn直接相加,再除以观察值的个数n。 公式:(2)加权法: 适用范围:大样本含量的分组资料或频数表资料。 方法:计算各组段的组中值 Xi与其频数f i的乘积和f x,然后除以总频数f。 公式:举例: 用加权法计算某市8岁男童身高平均数(表3.1 )计算各组段的组中值xi、fxi和fx第1组段:117.51=2119116+=2+上限下限x 用加权法计算该组身高值的均值)(05.13010013055.0cmnfXX=(二) 几何均数(geometric mean, G) 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 表示符号:G 计算方法:直接法和加权法(1)直接法: 适用范围:小样本资料 方法:将n个观察值(X1,X2,3,Xn)直接相乘再开n次方。 公式:用对数形式表示为:举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。G或 Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5) lg-1(0+1+2+3+4)/5) lg-12 =100即:平均滴度为1:100;较好地代表了观察值的平均水平。 (2)加权法:适用范围:大样本含量的分组资料或频数表资料。公式:Glg-1 (f lgX/f )举例:有95名麻疹易感儿童,接种麻疹疫苗一个月后,血凝抑制抗体滴度见下表,试求平均滴度(例3.3)。 Glg-1 (f lgX/f )lg-1(145.0948/95) 33.68即95名易感儿童接种疫苗一个月后,血凝抑制抗体的 平均滴度为1:33.68。计算几何均数(G )注意事项:(1)观察值不能为0;(2)观察值不能同时有正有负;(3)同一组资料求得的几何均数小于算术均数。练习:1.有8份血清的抗体效价分别为:1:5, 1:10, 1:20, 1:40, 1:80, 1:160, 1:320, 1:640 求平均抗体效价。将各抗体效价的倒数代入公式:所以血清的抗体平均为1:56.572.有50人的血清抗体效价,分别为:5人1:10, 9人1:20, 20人1:40, 10人1:80, 6人1:160 求平均抗体效价。将各抗体效价的倒数代入公式:所以该50人的血清抗体效价为1:41.70(三)中位数(Median,M) 概念:把一组变量值从小到大排列,位于中间位置的变量值叫中位数,用M表示。 使用条件:当一组资料类型分布不清或明显 偏态分布时的平均数的计算。 表示符号:M 计算方法:直接法和加权法百分位数(Percentile,P) 概念:为一种位置指标,表示位于全部观察值第X%位置处的数值。一个PX将总体或样本的全部观察值分为两部分,理论上有X%的观察值比它小,(100-X)%的观察值比它大,P50分位数即是中位数。 表示符号:x 计算方法: 频数表计算(1)直接法由原始数据计算中位数:当n为奇数时:(2)用频数表计算中位数和百分位数步骤:按所分组段,由小到大计算累计频数和累计频率代入公式计算中位数及其它百分位数中位数计算公式 百分位数计算公式(mm)2/-+=LfnfiLP注:fm 、 fx为所在组的频数, i 为该组段的组距, L为其下限 ,fL 为小于L的各组段的累积频数。例:求164例沙门菌食物中毒病人潜伏期的中位数和百分位数P5、P95潜伏期(h) 频数f 累积频数 累计频率(%) 0 21 2115.2412 58 7948.1724 4412375.0036 2314689.0248 1215896.3460 516399.3972 1164100.001. 由表第(4)、 (1)栏可见,M(P50)在24 组段, 所以 L=24、i=12、fx=44、fL=79。2. 把 L=24、i=12、fx=44、fL=79代入公式, 求M。1244M(P50) = 24+ (164/2-79)=24.8(h)3. 同样方法,可求P5、P95 。P5 = 0+ (1645%-0)=4.7(h)P95 = 48+ (16495%-146)=57.8(h)应用:1.中位数: 常用于描述偏态分布资料的集中位置,反映位置居中的观察值的水平,它和均数、几何均数不同,不是由全部观察值的数量值综合计算出来的,只受居中变量值的影响,不受两端特大值和特小值的影响。因此,当分布的一端或两端无确定数值或资料的分布不清可以求中位数。 2.百分位数: A.用于描述数据某一百分位的位置,最常用的是P50,即中位数;也可用多个百分位数的结合来描述一组资料的分布特征,如用P25和 P75合用时,反映中间50%观察值的分布情况。B.用于确定参考值范围: WBC的95%参考值范围:P2.5 P97.5过高过低均异常 肺活量95%参考值范围:P5 过低异常 尿铅95%参考值范围:P95 过高异常C.用一组PX可较全面地描述总体或样本的分布特征。 三、离散趋势的指标离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。 极差(Range, R)四分位数间距(Quartile, Q)包括 方差(Variance, )标准差(Standard deviation,S2)变异系数(Coefficient of variation,CV)(一) 极差(Range, 简称R)计算:R=最大值最小值= Xmax - Xmin 意义:反映样本变量值的全范围。条件:对变量值的各种分布类型的资料都适用。优点:简单明了,容易理解,使用方便。缺点:仅考虑了极大值和极小值,未考虑其它变量的个体差异。建议:与其他离散指标共同使用。极差的缺点:1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度。2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。(二) 四分位数间距(uartile, 简称)计算:=-=P75-P25意义:中间一半观察值的极差。条件:对变量值的各种分布类型的资料都适用。优点:类似值但比其稳定。缺点:未考虑全部观察值的变异度。建议:与其他离散指标共同使用。例:有164例沙门氏菌食物中毒病人的潜伏期(小时), 求该潜伏期的四分位数间距。 P25 L i / f25 ( n25 % fL ) 12 12/58(16425%21) 16.14(小时)P75 L i / f 75 ( n75 % f L ) 24 12/44(16475%79) 36(小时)Q= P 75 - P 25 =36-16.14=19.86 (小时) 即该潜伏期的四分位数间距为19.86小时。(三) 方差( Variance, 简称 )计算:总体方差 样本方差 意义:克服了值的不足,考虑了每个变量值的离散情况并消除了的影响。优点:全面地考虑每个变量值的离散情况缺点:其单位是原度量单位的平方。)2-=nXXs1((四)标准差(Standard deviation,SD或S)计算:总体标准差: 样本标准差: 标准差的计算: 直接法: 加权法:(1)直接法:用于小样本资料举例 现有一影像医生,测得10名患者的EA值分别为: 0.47, 0.60, 0.86, 0.96, 1.01, 1.13, 1.27, 1.58, 1.72, 2.88试计算其标准差?首先列表,求出X 和X 2(表3.6)将X、X2代入公式:(2)加权法:用于大样本资料或频数表资料举例 计算100名8岁男孩身高的标准差从列表可知:fx =13 055.0、fX2 =1 707 127.00 和n =100代入公式:(五 )变异系数:简称CV概念:是同一组资料的标准差与均数之比,又叫变异度或离散系数。计算:实际含义:标准差相对于同组均数的百分比。优点:CV 消除了度量衡单位,用于比较 1.单位不同的多组资料的变异度。 2.均数相差悬殊的多组资料的变异度身高体重举例 :某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比较其身高、体重的变异程度。说明其体重的变异度大于身高的,即身高比体重稳定。小 结为描述数值变量的分布特征,可将观察值编制频数表,绘制频数分布图。集中趋势描述的主要指标是平均数。百分位数 . ,传染病潜伏期可用于医学参考值范围,适用于任何分布观察序列在某百分位置的水平,是分布的百分界值3.描述频数分布离散程度的指标有:极差与四分位数间距,后者较稳定,但均不能综合反映个观察值的变异程度。方差和标准差,最常用,对正态分布尤重要。 变异系数,可用于多组资料间单位不同或均数相差较大时,变异度的比较。注意: 变异指标的大小这与平均指标值的大小无关。平均指标和变异指标相结合,能对各种分布的资料作很好的描述。集中趋势 离散趋势 应用场合算术均数 方差、标准差适用于对称分布,特别是正态分布几何均数正偏态分布资料或对数正态分布资料中位数 极差百分位数 四分位数间距 变异系数 适用于任何分布资料,特别是偏态 分布、分布不明、分布末端无确定 值适用于均数相差悬殊或度量衡单位不同的资料第三讲 概率分布一、二项分布及其应用摸球模型摸摸球模型球模型一个袋子里有5个乒乓球,其中2个黄球、3个白球,我们进行摸球游戏,每次摸1球,放回后再摸。先后摸100次,请问: 摸到0次黄球的概率是多大?解: 每次摸到白球的概率 =0.6 第1次摸到白球的概率=0.6第2次摸到白球的概率=0.6第100次摸到白球的概率=0.6 100次摸到0次黄球的概率=0.60.60.6=0.6100先后摸100次,摸到3次黄球的概率是多大?解:每次摸到黄球的概率 =0.4黄白黄白黄白白白概率=(0.4)3(0.6)97 100次摸到3次黄球的概率 = (0.4)3(0.6)97+ (0.4)3(0.6)97+ (0.4)3(0.6)97+ =C1003 (0.4)3(0.6)97每次摸到白球的概率 =0.6黄黄黄白白白白白黄白黄黄白白白白概率=(0.4)3(0.6)97概率=(0.4)3(0.6)97 先后摸100次,摸到x次黄球的概率是多大?解:100次摸到x次黄球的概率=C100x (0.4)x(0.6)100-x 先后摸n次,摸到x次黄球的概率是多大?n次摸到x次黄球的概率=Cnx (0.4)x(0.6)100-x解: 如果摸到黄球的概率不是0.4,而是,先后摸n次,摸到x次黄球的概率是多大?n次摸到x次黄球的概率=Cnx ()x(1- )100-x解:小结:摸球模型 二分类:每次摸球都有两种可能的结果(黄球或白球) 独立:每次摸球都是彼此独立的 重复:每次摸到黄球的概率都是、 摸到白球的概率都是1- 所以,先后摸n次,摸到x次黄球的概率为:n次摸到x次黄球的概率=Cnx ()x(1- )100-x二项分布的概念若变量X在n此独立实验中,具有:1各观察单位只能具有相互对立的两种结果之一。2已知发生某一结果(阳性)的概率为,其对立结果的概率为1-。3n次试验在相同条件下进行,且各个观察单位的观察结果相互独立。则称变量X服从二项分布,记作:B(X;n,p) 一般地,若随机变量取值x的概率为:P(x)=Cnx ()x(1- )n-x (x 取值0、1、2、n)Cnx= x!(n-x)!(n)!其中:则称此随机变量附合二项分布则 :P(x)=Cnx ()x(1- )n-x 称为二项分布的概率函数。 小结:一个二分类的情况、独立重复事件n次,若每次出现某事物的概率为,则n次中有x次出现该事物的概率服从二项分布。举 例:临床上用针炙治疗某型头痛,有效的概率为60%;现以该法治疗患者3例,其中 0 例、1例、2例、3例有效的概率各是多大?解:P(x)=Cnx ()x(1- )n-x 有效人数(x)C3xp x(1-p)n-x出现该结果概率P(x)010.600.430.064130.610.420.288230.620.410.432310.630.400.216二项分布的概率分布示意图 n=30,=0.3n=10,=0.3n=20,=0.5n=5,=0.3二项分布图形的特征:二项分布图的形态取决于和n,高峰在= n处。或说:和n是二项分布的两个参数,n决定x的取值范围,n和P决定了x的概率分布。 当=0.5,图形是对称的; 离0.5愈远,对称性愈差。 当0.5,随着n的增大,分布趋于对称。 当n时,只要不太靠近0或1特别是n 和n(1-) 都 大于5时,二项分布接近于正态分布。二项分布的均数和标准差对于二分类情况,进行n次随机试验,每次试验出现阳性结果的概率为,出现阳性结果的次数为x,则X的总体均数 、方差2及标准差分别为: 总体均数: =n 总体方差: 2= n (1- ) 总体标准差: = (1- )二项分布的应用: 概率估计:例:如果某地钩虫感染率是13%,随机观察当地150人,其中10人感染钩虫的概率有多大?解析:二分类(感染、不感染)独立(假定互不影响)重复(=150),每人感染钩虫机率均为=0.13故:感染钩虫的人数x附合二项分布B(150,0.13)所以: P(x=10)=C15010 0.13100.87140=0.0055单侧累积概率的计算:单纯计算二项分布x恰好取某值的概率没有太大意义经常需要计算的是二项分布的累积概率(1)出现阳性次数至多为k次的概率为:P(xk)= Cnx ()x(1- )n-x kx=0(2)出现阳性次数至少为k次的概率为:P(xk)= Cnx ()x(1- )n-x nx=k举例:某地钩虫感染率是13%,随机观察当地150人。(1)其中最多有2人感染的概率有多大?解:P(x2)= C150x 0.13x(0.97)150-x = C1500 0.130 0.97150 +C1501 0.131 0.97149+C1502 0.132 0.97148(2)其中最少有2人感染的概率有多大?解:P(x2)= C150x 0.13x(0.97)150-x = 1 -(C1500 0.130 0.97150 +C1501 0.131 0.97149)(3)其中最少有20人感染的概率有多大?解:P(x20)= C150x 0.13x(0.97)150-x =1-C150x 0.13x(0.97)150-x 练习: 5人服药,该药肠胃反应概率为10%;求:k个人、不多于2人、有人有反应的概率。二、Possion分布及其应用Poission分布的概念:是描述罕见事件发生次数的概率分布。Poisson分布可看作是二项分布的特例: 独立重复的次数很大很大 每次出现某事件的概率很小,或未出现某事件的概率1- 很小。Poission分布的概念:对二项分布,当n,n l 时,可以证明:P(x)=Cnx ()x(1- )n-x P(x)=e-lxlX!所以,若随机变量X的概率函数为:P(x)=e-lxlX!若则称此变量服从Poission分布,记叙X P(l) 。(l =n为Poission分布的总体均数,X 为观察单位内某稀有事件的发生次数, l是Poisson分布的总体参数,也是唯一的参数)举例:某地20年间共出生肢短畸形儿10名,平均每年0.5名,估计该地每年出生此类畸形人数为0、1、2的概率P(X )。解析: e=2.71828, l=0.5=2.71828-0.50.5 0!0x=0时,P(0)=e-lxlX!=0.607故:所以不同x取值时,概率值如下表示:x012345P(x)0.6070.3030.0760.0130.0020.000Poission的概率分布示意图: poisson分布图形与有关。当20时,其分布近似正态分布。=nPoission分布图形的特征:二项分布图的形态取决于l , l5时为偏峰, l愈小分布愈偏,随着l的增大,分布趋向于对称。 总体均数=总体方差= l ; 当观察结果具有可加性,即:若X1服从总体均数为l1的Poission分布, X2服从总体均数为l2的Poission分布, 则T= X1+ X2为服从总体均数为l1+l2的Poission分布。举例:从同一水源独立取水样5次,进行细胞培养。第1样水样的菌落数 X1 P(l1)第2样水样的菌落数 X2 P(l2)第5样水样的菌落数 X5 P(l5)把5份水样混合,则合计菌落数也符合Poission分布,则:X1+X2 +X3 +X4+ X5 P (l1+ l2 +l3+ l4+ l5)医学研究中常利用其可加性,将小的观察单位合并,来增大发生次数X,以便用后面讲到的正态近似法作出统计推断。Poission分布的应用: 概率估计:举例1:若某地新生儿先生性心脏病的发病概率是8 ,那么该地120名新生儿中有4人患先天性心脏病的概率是多少?解析:发病、不发病 二项分布发病概率8,概率很小 Poission分布n=120,相对较大l =n=1208=0.960.964 4!=2.71828-0.96P(4)=e-lxlX!=0.014单侧累积概率的计算:(1)稀有事件发生次数至多为k次的概率为:P(xk)= kx=0e-lxlX!2)稀有事件发生次数至少为k次的概率为:P(xk)= nx=ke-lxlX! k -1= 1- x=0e-lxlX!三、正态分布及其应用(一)正态分布(normal distribution)的概念:又称高斯分布,(Gauss distribution):是描述连续型随机变量最重要的分布。正态分布的密度函数f(x) ,即正态曲线的函数表达式: 当给定不同的x 值后,就可以根据此方程求得相应的纵坐标高度(频数),并可绘制出正态曲线的图形,记作XN(,2) : 正态分布曲线:高峰位于中间,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的“钟型”曲线。决定正态曲线图形的两个参数: 和 当固定不变时,越大,曲线沿横轴越向右移动;反之, 越小,则曲线沿横轴越向左移动,所以叫正态曲线N(, 2)的位置参数, 。当固定不变时,越大,曲线越平阔;越小,曲线越尖峭, 叫正态曲线 N(, 2)的形状参数。 为了应用方便,常将上述函数中的 x 作如下变量代换,令: 相对于正态变量 x,u 没有度量单位。根据 u 的不同取值,代入上式可绘出标准正态分布的图形。正态分布曲线 标准正态分布曲线 XN(,2) XN(0,1)这样就把原来个别的正态分布转换为一般的标准正态分布 N(0,1),亦称为分布(有书中用 Z表示) 。(二)正态分布特征及曲线下面积分布规律: 正态分布有五个方面的特征:1. 集中性: 正态曲线在横轴上方,且均数位于曲线的最高处,即当x=时, f (x)取最大值。2. 对称性:正态分布以均数为中心,左右对称,即曲线 f (x)关于x=对称。3. 正态分布有两个参数,通常用 N (, 2) 表示均数为,标准差为的正态分布;用 N(0,1)表示均数为 0 和标准差为 1 的标准正态分布。 反映曲线的位置,反映曲线的形状。4. 正态曲线在,标准正态曲线在1处各有一个拐点5. 正态曲线下的面积分布有一定的规律性。 由于正态曲线下累计频数的总和等于 100% 或 1,故横轴上曲线下的面积(概率)就等于 100% 或 1。均数两侧的面积或频数(概率)各占 50%。正态分布和标准正态分布曲线下的面积分布规律正态分布 标准正态分布 面积分布规律 68.27% 95.00% 99.00%当总体均数和总体标准差未知时,就用样本均数和样本标准差来代替, u 值可用下式计算:此时可用 来代替, 代替 , , 代替 。对于正态分布或近似正态分布资料,只要求出均数和标准差,便可就其频数分布作出概略性的估计举例:已知 120 名 12 岁男孩身高均数为 143 cm,标准差为 5.8 cm,试估计该地 12 岁男孩身高在 135 cm 以下者有多少人?答:1. 首先按题意计算 u 值:2. 查 u 值表 当 u = -1.38 时,左侧尾部面积 0.0838,即身高在 135cm 以下者占总人数的 8.38%。 3.据概率计算人数:身高在 135 cm 以下者有:1208.38% =10人练 习:已知某地正常成年女子的血清总蛋白数服从正态分布,调查了该地110名正常成年女子,得样本血清总蛋白均数为72.8g/L,标准差为3.8g/L,试估计该地正常成年女子血清总蛋白介于66.075.0 g/L之间的比例,以及110名正常成年女子中血清总蛋白介于66.075.0 g/L之间的人数。 . 解析:由于本例是大样本,可用样本均数X和样本标准差 S 作为总体、 的估计值,即将该地正常成年女子的血清总蛋白数近似看作服从N(72.8, 3.82)的正态分布。 1. 将变量作如下标准化变换:2. 查 u 值表得3. 求所定区间概率: (z2)- (z1)=0.719-0.0367=68.23%即估计血清总蛋白介于66.075.0g/L的比例为68.23%4. 求所定区间的可能人数: 所以110名正常成年女子中血清总蛋白介于之间的人数约为 110 68.23% =75人。 (三)、正态分布在医学中的应用(一) 制定医学参考值范围 参考值范围(reference range):指所谓“正常人”的解剖、生理、生化等指标的波动范围。制定方法:制定参考值范围时,首先要确定一批样本含量足够大的“正常人”。所谓“正常人”不是指“健康人”,而是 指排除了影响所研究指标的疾病和有关因素的同质人群,必须是随机选择的大样本。而后根据指标的实际用途确定单侧或双侧界值根据研究目的和使用要求选定适当的百分界值,常用95%。 .双侧临界值:标准正态分布双侧尾部面积之和等于时所对应的正侧变量值,记作Z/2或U/2。单侧临界值:标准正态分布单侧尾部面积等于时所对应的正侧变量值,记作Z或U。 以不同的方法计算参考值范围:(1)正态分布法:适用于正态或近似正态分布资料常用参考值范围的制定举例1:调查某地120名健康女性血红蛋白,直方图显示其分布近似正态,试估计该地健康女性血红蛋白的95%参考值范围。解析:1. 分布近似正态 正态分布法求参考值范围2. 过高过低均为异常 设定双侧界值3. 求上、下界值下界:上界 所以,该地健康女性血红蛋白的95%参考值范围是(97.41,137.39)g/l。举例2: 某地调查120名健康成年男性的第一秒肺通气量得均数 X =4.2(L), 标准差S =0.7(L),试据此估计其第一秒肺通气量的95%参考值范围。 1. 分布近似正态 正态分布法求参考值范围 2. 仅过低为异常 单侧下限3. 求下界值所以,该地健康成年男子第一秒肺通气量的95%参考值范围为不低于3.05(L)。 (2)百分位法:特别适用于偏态分布资料以及资料中一端或两端无确切数值的资料。如95%参考值范围:双侧界值单侧下限单侧上限P 2.5和P 97.5P 5 P 95(二)估计频数分布举例:定出生体重低于2500g的婴儿为低体重儿,若由某项研究得某地婴儿出生体重均数为3200g ,标准差为350g,估计当年出生低体重儿所占的比例。1. 分布近似正态, X= 3200g ,S=350g。2. 转化为标准正态分布,求u 值 说明标准正态曲线下 (-,-2)的面积为2.28%,故本题正态曲线(-,2500g)的比例为2.28% ,即X2500g的为2.28%,故估计当年出生低体重儿的比例为2.28%。 (三)进行质量控制基本原理:许多临床检验指标,当影响某一指标的随机因素很多,而每个因素所起的作用均不太大时,这个指标的随机波动属于随机误差,则往往服从正态分布。控制方法:常以 作为上下警戒值,以 作为上下控制值。这里的2s和3s可视为1.96s和2.58s的约数。第四讲:抽样分布及参数估计一、抽样研究和抽样误差(一)正态分布样本均数的抽样分布【实验一】假定某年某地16岁所有女学生的身高服从总体均数=155.4cm,总体标准差s2=5.3cm的正态分布N ( , s2),在这样的一个总体中进行随机抽样: 1.每次均抽取30例组成一个样本 2.共抽100次 3.计算每个样本的平均身高得出了一组数据:153.6,153.1,154.9,157.7 n=100从正态总体 N (155.4, 5.32) 抽样得到的100个样本均数的分布频数表(n=30)组段(cm)频数频率(%)152.6 1 1.0153.2 4 4.0153.8 4 4.0154.4 22 22.0155.0 25 25.0155.6 21 21.0156.2 17 17.0156.8 3 3.0157.4 2 2.0158.0 158.6 1 1.0合 计100100.0正态分布样本均数的分布规律:1.各样本均数未必等于总体均数。2.样本均数之间存在差异。3.样本均数的分布总是围绕着总体均数,近似于正态分布。4.样本均数的变异程度较之原变量的变异程度大大的缩小了。所以若随机变量X服从XN ( , s2) 的正态分布,则以之随机抽样计算的样本均数所构成的分布也呈正态分布。1. 样本均数的总体均数仍等于原来的总体均数。 2. 样本均数的标准差 叫做标准误 (standard error of mean, SEM),记作 ,是描述均数的抽样误 差大小的指标。样本均数的标准误的意义:(1)衡量样本均数的可靠性:均数标准误越小,说明均数的抽样误差越小,样本均数代表总体均数就越可靠。(2)估计总体均数的可信区间。(3)用于均数的假设检验。标准误的计算:1. 理论标准误:2. 实际工作中,常用 S 代,计算样本标准误。样本量 n越大 ,样本均数的标准误就越小。所以增加样本量 n ,可以降低抽样误差。标准差 标准误区别公式与n 关系n 增大,标准差趋于稳定。n 越大,标准误越小概念描述的是样本个体观察值的变异程度大小。描述的是样本均数的变异程度和抽样误差大小。意义小说明变量值围绕均数的波动小,均数对一组变量值的代表性好。小表示样本均数围绕总体均数的波动小,用样本推断总体的可靠性越强。用途与均数结合,描述观察值的分布范围,常用于估计医学参考值范围、计算变异系数、标准误等。均数结合,用于估计总体均数可能出现的范围,即可信区间,并用于假设检验。联系1.都是描述变异程度的指标2.标准误与标准差成正比, n一定时,标准差越大,标准误也越大。(二)非正态分布样本均数的抽样分布【实验二】:图6-2是一个正偏态分布,用电脑从中随机抽取样本含量分别为5、10、30、50的样本各1000次,计算样本均数,绘制直方图,并观察其样本均数的分布。n = n = 5 5n = 10n = 30n = 50当样本容量足够大时(n 30) ,样本均数的抽样分布逐渐趋于正态分布若随机变量X呈偏态分布,当每次抽取的样本量 n 足够大时(例如,当n= 50),样本均数的分布也近似于正态分布。1. 样本均数的总体均数仍等于原来的总体均数。 2. 样本均数的标准差 仍叫做标准误,记作 。二、样本统计量的分布 规律-t 分布(一)t 分布的概念: 1-=nn=S-XmX-XmSn【实验三】:从前述13岁女学生身高这个正态总体中分别作样本量为3或50的随机抽样,各取1000份样本,分别得到1000个样本的均数及其标准误,对它们分别作t 转换,将t 值绘成直方图: 。n =3时的t分布 n =50时的t分布(二)t 分布的图形特征图6-2 不同自由度的t分布的曲线t 分布的图形特征 : 1. 分布是一簇曲线,它有一个参数即自由度u 。2. 单峰分布,以0为中心,左右对称; 3. t 分布曲线较标准正态曲线要扁平,u越小,t 值的越分散,曲线的峰越矮,尾越高。4. u增大, t 分布逐渐逼近标准正态分布;若u,则t 分布完全成为标准正态分布。(三)t 界值表:以自由度u为横标目,概率P为纵标目,表中数字表示当u和 P确定时,对应的是正侧或双侧的t 临界值表,记作t(,u)或t(/2,u) 。单侧概率的t 临界值,记作t(,u)双侧概率的t 临界值,记作t(/2,u)1. 相同u 时,t 值越大,对应的尾部概率就越小2. 相同t 值,双侧尾部概率是单侧尾部概率的2倍。单侧a和双侧2a的t界值同,即单侧ta,u双侧t2a,u 三、总体均数可信区间的估计(一)基本概念参数估计:用样本统计量来估计总体参数。点值估计( Point estimation ):不考虑抽样误差,直接用样本统计量来估计总体参数 区间估计(Interval estimation):考虑抽样误差,按一定的概率估计总体参数的所在范围。总体参数的可信区间(confidence interval, CI ) 1-可信区间,一般取值0.05或0.01, 所以1-为0.95或0.99可信区间:总体均数的1-可信区间指一个范围,指包含在内的可能性为1-,不包含在内的可能性为。常用的可信区间为95%和99%,又称置信区间。可信限:指可信区间的下限和上限,即两个端点值。可信区间是指以上、下可信限为界的一个范围,但不包含上下限两个值,故用( )表示,其为开区间。(二)总体均数的区间估计的计算t =资料不同计算方法也不同:t 分布法 1.未知 n 较小时(n 30)服从自由度nn-1的t分布u =正态分布法 2.已知 t =3.未知 n 较大时(n30) t分布 接近于标准正态u分布1. t 分布法:样本均数呈正态分布,将变量进行t 转换:1-=nn=S-XmX-XmSn举例:确定1-a = 0.95,双侧S-XmX-t0.05/2, nt0.05/2, nX-t0.05/2,nSX m X+t0.05/2,nSX 注释:可信程度95%。举例:抽样得到一个n=9的样本,样本均数为70.54,标准差为5.79,求该次抽样的95% 及99%的可信区间。查t 值表答:即:此次抽样95%的可信区间为(69.40,74.68);99%的可信区间为(63.59,76.49)。t 分布法适用条件和计算公式适用条件:未知n 较小时(n 30)区间范围:举例:测得某地110名18岁男大学生身高=172.73cm,S=4.19cm,估计该地18岁男大学生身高均数的95%和99%的可信区间。 答:1.明确条件 n=110, =172.73cm,S=4.19cm,双侧u0.05=1.96 2.用正态分布法求可信区间).49173,97.171(=)0194.11.96173172+41.,11019.96.73172( -即:该地18岁男大学生身高均数的95%可信区间为171.97cm173.49cm 第五讲:定量资料的假设检验一、假设检验的概念与原理(一)假设检验的基本概念:假设检验(hypothesis test):亦称显著性检验(significance test),是依据样本提供的有限信息,对样本所代表的总体 是否与某特定的总体相等做出统计学结论的决策过程。 目的:分辨某样本是否来自于某特定总体,并以一定的概率对总体的假设作出推断。 (二)假设检验的步骤: 1.提出无效假设和备择假设 2.规定显著性水平a 3.计算检验统计量 4.确定P值,作出统计推断结论1. 选择检验方法,建立检验假设确定水准:(1)选择检验方法:根据研究目的、设计类型和资料特点等因素选择合适的检验方法,并计算出对应统计量。变量分类变量数值变量单样本资料两、多组独立样本资料配对设计资料(2)提出无效假设和备择假设 什么是无效假设 (Null Hypothesis) ? 一般是作没有差别的假设,又称“原假设”或“零假设” ,表示为 H0,即 H0: m = 某一数值,如m = m0该假设将差异的原因归结为抽样误差什么是备择假设 (Alternative Hypothesis) ?与无效假设相对立有差别的假设,由不等号 , 组成,常表示为 H1;即H1:m 某一数值;或m 某一数值。该假设将差异的原因归结为非抽样误差.(3)规定检验水准 (size of test): a抽样分布H0值临界值临界值a/2 a/2 样本统计量拒绝域拒绝域接受域1 - a置信水平什么检验水准?a 规定了规定了小概率事件的最大概率,概率不超过a 的事件就是小
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 解决方案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!