资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,STATISTICS,阿 尔 法 数 值 分 析,STATISTICS阿 尔 法 数 值 分 析,1,S,TATISTICS,阿 尔 法 数 值 分 析,正态分布和统计推断,正态分布和标准正态分布的概念,正态分布的特征和曲线下面积分布规律,医学参考值的估计,样本均数的抽样误差,统计推断的假设检验,STATISTICS阿 尔 法 数 值 分 析正态分布和统,2,S,TATISTICS,阿 尔 法 数 值 分 析,正态分布和标准正态分布的概念,正态分布,(normal distribution)是一种重要的连续型分布。前面见到的频数分布是以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多、两侧逐渐减少、基本对称的分布。当将样本含量扩大,将组段分细,图中直条将变窄,就会表现出中间高、两侧逐渐降低,并完全对称的特点(如图2-2(a)、(b)所示),将频数分布图各直条顶端的中点连线,就接近于一条光滑的曲线(如图2-2(c)所示),这条曲线被称作正态分布曲线,用N(,),表示,其位置与均数有关,形状与标准差有关。标准差大,离散程度大,正态分布曲线则“胖”,反之,则“瘦”。,STATISTICS阿 尔 法 数 值 分 析正态分布和标,3,S,TATISTICS,阿 尔 法 数 值 分 析,图2-2 频数分布逐渐接近正态分布示意图,STATISTICS阿 尔 法 数 值 分 析图2-2 频,4,S,TATISTICS,阿 尔 法 数 值 分 析,为了应用方便,对于任何一个均数和标准差分别为,与,的正态分布,都可以通过变量的标准正态变换:,使之成为标准正态分布(standardized normal distribution),用N,(0,1),表示,即均数为0,标准差为1。,标准正态分布,STATISTICS阿 尔 法 数 值 分 析为了应用方便,5,S,TATISTICS,阿 尔 法 数 值 分 析,正态分布的特征和曲线下面积分布规律,正态分布有五个方面的特征:,正态曲线(normal curve)在横轴上方,且均数,所在处曲线最高;,正态分布以均数为中心,左右对称;,正态分布有两个参数,即均数与标准差(,与,),,均数,为位置参数,决定正态分布曲线所在的位置,标准差,为形状参数,决定正态分布曲线的“胖”和“瘦”,,大,曲线为“矮胖型”,反之,为“高瘦型”,标准正态分布的均数和标准差分别为,0和1;,正态曲线在,1,,标准正态分布在,1,处各有一个拐点;,正态分布的面积分布有一定的规律性。,STATISTICS阿 尔 法 数 值 分 析正态分布的特,6,S,TATISTICS,阿 尔 法 数 值 分 析,正态分布曲线下面积分布规律,STATISTICS阿 尔 法 数 值 分 析正态分布曲线,7,正态分布的面积规律 标准正态分布的面积规律,图2-4 正态分布和标准正态分布的面积规律,S,TATISTICS,阿 尔 法 数 值 分 析,正态分布的面积规律,8,S,TATISTICS,阿 尔 法 数 值 分 析,医学参考值的估计,医学参考值是指正常人的各种生理、生化数据,组织或排泄物中各种成分的含量。同是一批正常人,由于个体差异的客观存在,某一生理或生化指标的测定结果有大有小,即使是同一个体,其生理、生化测定数据也会随着机体内外环境的变化而相应地波动。,因此,需要估计正常人测定值的波动范围,该范围称为参考值范围(reference ranges),参考值范围在诊断方面可用于划分正常与异常。随着新设备、仪器、试剂、测试方法的不断推出及对不同时代正常人某些变量测定值的比较,都需要进行医学参考值的研究。,STATISTICS阿 尔 法 数 值 分 析医学参考值的,9,S,TATISTICS,阿 尔 法 数 值 分 析,制定参考值的基本步骤,1、从正常人总体中抽样100例以上所谓正常人,2、控制测量误差,3、判定是否需要分组确定参考值范围,4、决定取单侧还是双侧,5、选定合适的百分界限,6、对资料的分布进行正态性检验,7、根据资料的分布类型选定方法进行参考值范围的估计,STATISTICS阿 尔 法 数 值 分 析制定参考值的,10,S,TATISTICS,总体参数的统计推断,阿 尔 法 数 值 分 析,样本均数的抽样误差,t,分布,总体均数的区间估计,总体率的区间估计,统计推断的假设检验,STATISTICS总体参数的统计推断阿 尔 法 数 值,11,S,TATISTICS,样本均数的抽样误差与t分布,阿 尔 法 数 值 分 析,样本均数的抽样误差,t,分布,t,分布的特征,t,界值表,STATISTICS样本均数的抽样误差与t分布阿 尔 法,12,S,TATISTICS,阿 尔 法 数 值 分 析,样本均数的抽样误差,用样本的信息去推断总体特征,这种研究方法称为,统计推断,(statistical inference)。,样本均数不太可能与总体均数正好相等,这种由个体变异产生的、随机抽样引起的统计量与总体参数间的差异称为,抽样误差,(sampling error)。在抽样研究中,抽样误差是不可避免的。,STATISTICS阿 尔 法 数 值 分 析样本均数的抽,13,S,TATISTICS,阿 尔 法 数 值 分 析,如从均数 的正态总体中以固定样本含量n反复多次抽样,所得的 各不相同,若将这些 编成频数分布表,即可看出样本均数 以 为中心呈正态分布。即使是从偏态分布总体抽样,只要n足够大,的分布也近似正态分布。各 围绕 的离散程度,可以用,标准误,(standard error)来描述。,其计算公式为:,STATISTICS阿 尔 法 数 值 分 析如从均数,14,S,TATISTICS,阿 尔 法 数 值 分 析,大,抽样误差大;反之,小,抽样误差小。的大小与 成正比,与样本含量n的平方根成反比。但是在抽样研究中,一般是未知的,且在一般的抽样研究中仅进行一次抽样,即只有一个样本均数 ,故可用样本标准差S估计抽样误差的大小。,抽样误差小,表示样本均数与总体均数越接近,即用样本均数估计总体均数的可靠性越大;抽样误差大,样本均数离总体均数就越远,用样本均数估计总体均数的可靠性就越小。,STATISTICS阿 尔 法 数 值 分 析 大,15,S,TATISTICS,阿 尔 法 数 值 分 析,均数抽样误差的分布,t,分布,对正态变量X进行u变换后,可使一般的正态分布N(,)变换为标准正态分布N(0,1)。样本均数 的分布服从正态分布N(,)。同理,对正态变量 进行u变换()后,也可使正态分布N(,)变换为标准正态分布N(0,1)。,由于实际工作中,往往 是未知的,常用S作为 的估计值,这时对正态变量采用的不是u变换而是t变换,即:,STATISTICS阿 尔 法 数 值 分 析均数抽样误差,16,S,TATISTICS,阿 尔 法 数 值 分 析,统计量t的分布称为t分布。t分布与自由度有关,每个自由度都对应一条分布曲线,图4-2 不同自由度下t分布,STATISTICS阿 尔 法 数 值 分 析统计量t的分,17,S,TATISTICS,阿 尔 法 数 值 分 析,t分布的特征为,:,以0为中心,左右对称的单峰分布;,t分布曲线是一簇曲线,其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当趋于时,t分布即为u分布。,STATISTICS阿 尔 法 数 值 分 析t分布的特征,18,S,TATISTICS,总体均数的区间估计,阿 尔 法 数 值 分 析,用样本统计量估计总体参数称为参数估计,是统计推断的一个重要方面。总体均数的估计有两种方法。一是直接用统计量估计总体参数,称为,点值估计,。由于抽样误差的客观存在,常用称为区间估计的第二种方法,即按一定的概率估计总体均数所在的范围,亦称,可信区间,(confidence interval)。,常取的可信度100*(1-)为95或99,即95可信区间或99可信区间。,计算方法有三种,可依据资料的具体条件选定。,STATISTICS总体均数的区间估计阿 尔 法 数 值,19,S,TATISTICS,阿 尔 法 数 值 分 析,一、未知且n较小:按t分布的原理用下式计算可信区间。,或者,STATISTICS阿 尔 法 数 值 分 析一、未,20,S,TATISTICS,阿 尔 法 数 值 分 析,二、未知但n足够大:这时t分布近似服从标准正态分布,可按下式计算可信区间。,总体均数的95%可信区间:,总体均数的99%可信区间:,STATISTICS阿 尔 法 数 值 分 析二、未,21,S,TATISTICS,阿 尔 法 数 值 分 析,三、已知 ,可按正态分布原理,用以下公式估计可信区间。,总体均数的95%可信区间:,总体均数的99%可信区间:,STATISTICS阿 尔 法 数 值 分 析三、已知,22,S,TATISTICS,总体率的可信区间估计,阿 尔 法 数 值 分 析,样本均数与总体均数之间存在着抽样误差。同样,样本率与总体率之间也存在着抽样误差。率的抽样误差与均数的抽样误差类似,只要把样本率看成样本均数,把总体率看成总体均数,就比较容易理解。,率的抽样误差可用率的标准误来表示:,总体率 在实际工作中一般不知道,故以样本率,P,来估计:,STATISTICS总体率的可信区间估计阿 尔 法 数 值,23,S,TATISTICS,总体率的可信区间估计方法,阿 尔 法 数 值 分 析,1.查表法,查表法适合于样本量较小,如n,50,,且P接近0或1的资料。该附表是根据二项分布原理制成。,2.正态分布法,当n足够大,且nP和n(1-P)均大于5时,P的抽样误差分布逼近正态分布。此时,可根据正态分布的特性用式:,STATISTICS总体率的可信区间估计方法阿 尔 法 数,24,S,TATISTICS,统计推断的假设检验,阿 尔 法 数 值 分 析,小概率事件与假设检验,单、双侧检验,两类错误,假设检验的基本步骤,STATISTICS统计推断的假设检验阿 尔 法 数 值,25,S,TATISTICS,阿 尔 法 数 值 分 析,小概率事件与假设检验,与,0,之间的差异(不相等)应有两种可能:,1.,与,本身就不相等,所以导致了 与,0,之间的差异;,2.,与,相等仅因为用 去估计,时存在抽样误差,所以导致了,与 之间的差异。,我们已经知道如果是采用随机抽样的方法得到的样本,那么抽样误差的分布是存在一定规律的。假设检验的基本思想是:先提出假设,然后看在假设成立的前提下实际抽到的样本是否属小概率事件,若属小概率事件,则拒绝该假设;若不属小概率事件,则不拒绝该假设。,STATISTICS阿 尔 法 数 值 分 析小概率事件与,26,S,TATISTICS,阿 尔 法 数 值 分 析,单、双侧检验,STATISTICS阿 尔 法 数 值 分 析单、双侧检验,27,S,TATISTICS,阿 尔 法 数 值 分 析,两类错误,尽管假设检验帮助我们回答了,与,0,是否相等的问题,但它是建立在小概率原理上的判断,无论接受无效假设H,0,、拒绝备择假设H,1,,还是接受备择假设H,1,、拒绝无效假设H,0,都有可能犯错误。统计学中将拒绝了正确的无效假设H,0,称为类错误(type I error),犯类错误的概率用,表示,通常称之为检验水准,(level of significance),常取,=0.05,;将接受了错误的无效假设H,0,称为类错误(type error)。犯类错误的概率用,表示。在统计学中将,1-,称为检验效能,(power of test),其意义是当两个总体存在差异时(即备择假设H,1,:,0,成立时),所使用的统计检验能够发现这种差异(拒绝无效假设H,0,:,=,0,)的能力,通常检验效
展开阅读全文