平均数标准差

上传人:yc****d 文档编号:243356052 上传时间:2024-09-21 格式:PPT 页数:89 大小:1.17MB
返回 下载 相关 举报
平均数标准差_第1页
第1页 / 共89页
平均数标准差_第2页
第2页 / 共89页
平均数标准差_第3页
第3页 / 共89页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,*,计量资料的统计描述,statistical description,1,本次课内容,一、计量资料的频数分布,二、集中趋势指标,三、离散趋势指标,四、正态分布,2,计量资料,(复习),统计描述,(,statistical description,):,对资料的属性、特点进行的有关叙述、显示、计算等,是统计推断的基础。,描述必须基于资料的,分布,(,distribution,)类型,主要是资料的分布特征。分布类型不同,统计指标不同。,3,分布,:数值在所研究样本(或总体)中的存在状态,通常用频数(frequency)来表示。,频数,:某变量值出现的次数(某现象发生的次数)。,4,某市1995年110名7岁男童的身高(cm)频数表,5,身高(cm),某市1995年110名7岁男童的身高分布直方图,6,频数表揭示频数的两个重要特征:,集中趋势,(central tendency):数值高低不等,但中等水平的人数最多。,离散趋势,(tendency of dispersion):数值之间参差不齐;逐渐变大(或变小)的人数渐少。向两端分散。,两方面含义:,数值大小,和,位置,。,7,集中趋势central tendency,平均数(average):用于描述数值变量资料的集中趋势(平均水平)。,特点:简明概括,便于比较。,包括:算术平均数,几何平均数,中位数,百分位数,8,1、算术平均数(arithmetic mean),一组变量值之和除以变量值个数所得的商,简称均数。,总体均数,,样本均数 表示。,适用条件:资料成正态分布(或近似正态,或对称分布)。,计算方法:直接法,加权法,9,直接法:当样本的观察值个数不多时,将各观察值X1,X2,Xn相加再除以观察值的个数n(样本含量)即得均数。,公式:,10,加权法,weighted method,当观察值个数较多时,可先将各观察值分组归纳成,频数表,,用加权法求均数。,利用频数表,计算组中值(为本组段的下限与相邻较大组段的下限的均值),各组段频数与组中值的乘积,近似等于该组变量值之和,各乘积之和除以总频数,所得的商,就是均数。,11,加权法计算算数均数的公式,12,例题:计算算术均数,直接法:略,13,加权法,14,均数的两个重要属性:,(1)各离均差(各观察值与均数之差)的总和等于零。,(2)离均差的平方和小于各个观察值X与任何数a( )之差的平方和。,均数是一组观察值理想的代表值。,15,均数的应用:,(1)只能在合理分布的基础上,对同质事物求均数才有意义,才能反映事物的特性。,(2)均数最适用于对称分布,尤其是正态分布资料。此时,均数位于分布的中央,能反映观察值的集中趋势。,16,2、几何均数geometric mean G,将n个观察值的乘积再开n次方的方根(或各观察值对数值均值的反对数)。,适用条件:,(1)观察值为非对称分布,差距较大,用算术均数表示其平均水平会受少数特大或特小值影响;,17,(2)数值按大小顺序排列后,各观察值呈倍数关系或近似倍数关系。,如:抗体滴度,药物效价等,几何均数是算数均数的近似值。,18,直接法:当观察例数不多时采用。,加权法:观察例数多时采用。,19,为什么滴度资料的几何均数需校正?,假设有13人接种疫苗后抗体滴度为:1/20,1/20,1/40, 1/40 , 1/40 ,1/80, 1/80, 1/80, 1/80, 1/80, 1/80, 1/160,1/320,可以证明,这种取下限值的计算,会使得到的几何均数偏小,即:几何均数在取反对数之前偏小半个组距(在作d倍稀释时就是1/2lgd)。,20,几何均数的应用,:,(1)常用于等比级数资料,滴度,效价,卫生事业平均发展速度,人口几何增长,对数正态分布资料;,(2)观察值不能有0;,(3)观察值不能同时有正值和负值。,(4)同一组资料求得的几何均数小于算术均数。,21,几何均数的计算,3,4,5,6,17,,算数均数:,几何均数:,22,3 、中位数(median, M) :,位于中间位置上的数值。,把一组观察值,按大小顺序排列,位置居中的变量值(奇数个)或位置居中的两个变量值的均值(偶数个)。是位置指标,以中位数为界,将观察值分为两半,有一半比它大,一般比它小。,23,中位数适用于:,(1)资料偏态分布;,(2)两端无确定数值;,(3)资料分布不清楚;,潜伏期,毒物测定值等用中位数表示其集中趋势。,24,中位数的算法:未分组资料,依变量个数定。,25,分组资料,用下公式。,L:中位数所在组的下限,W:中位数所在组的宽度,f:中位数所在组的频数(例数),n:总频数,C:中位数所在组的前一组的累计频数,26,中位数常用于描述,偏态分布资料的集中趋势,,它反映居中位置的变量值的大小。,不受特大,特小值的影响,只受位置居中的观察值的影响,因而不够敏感。,而均数,几何均数是由全部观察值综合计算出的,敏感性好。,理论上,中位数等于算术均数。,27,例题:中位数的计算 P24,28,4、百分位数(percentile, P):,位于某个百分位置上的数值,。,把一组数据从小到大排列,分成100等份,各等份含1%的观察值,处在分割界线上的数值,就是百分位数,P,r,表示。,29,百分位数将总体或样本的全部观察值分为两部分,理论上有r%的观察值比它小,有(100-r)%的观察值比它大。,如含量为n的样本,P,5,即表示:理论上有n5%个观察值比P,5,小,有n95%个观察值比P,5,大。,常用的百分位数:5,25,75,95 分位数。,30,百分位数频数表法计算:,Pr:百分位数;,L:该百分位数所在组段的下限;,W: 组距;,f:该百分位数所在组段的频数;,C: 小于L的各组段的累积频数;,n:样本数,中位数是特殊的百分位数。,31,图解法计算百分位数,也可用图解法:横轴:变量值;纵轴:累计百分数 p25,32,百分位数常用于描述一组资料在某百分位置上的水平和分布特征。多个百分位数结合使用,可更全面地描述总体或样本的分布特征,包括位置大小和变异度。,33,例题:百分位数的计算,P25,34,百分位数常用于确定医学正常值范围(normal range)。,医学正常值范围,不用样本观察值的极差,习惯上用包括95%正常人的界值,百分位数是数列的百分界值。,如:白细胞数的确定,过高,过低都属异常,故计算P,2.5,,P,97.5,为双侧的正常值范围。,35,如:肺活量95%正常值范围,只有过低算异常,故计算P,5,.,如:尿铅,过高为异常,故计算P,95,.,36,一般地说,分布中部的百分位数相当稳定,具有较好代表性,靠近两端的百分位数,只在样本含量足够大时,才稳定,故样本量不够大时,不应取太近两端的百分位数。,以上是集中趋势指标。,37,脑筋急转弯:请看下面数据,有问题吗?,A: 8 9 10 11 12,B: 3 7 10 13 17,两组均数都为10,但离散程度不同,B组较大。,均数只反映平均水平,不能反映离散度。,38,离散趋势tendency of dispersion,全距,四分位数间距,方差,标准差,变异系数。,全距(Range):极大与极小值之差。全距大,资料离散程度大,但易受极端值大小的影响。样本量越大,抽到极端值的可能性越大,全距可能会越大。,故:全距不宜单独使用。,39,四分位数间距(quartile interval Q):,将一组资料分为四等份,上四分位数P,75,和下四分位数P,25,之差,叫四分位数间距。,意义:Q越大,离散程度越大,通常用于描述偏态分布资料的离散程度。,40,优点:比全距稳定;若资料一端或两端无确切数值,只能选择Q作为离散指标。缺点:未考虑全部观察值,不能全面反映资料离散趋势。,41,方差(variance)和标准差(standard deviation SD),对总体而言,为了克服极差和四分位数间距的缺点,要描述资料的离散趋势,必须考虑到各个观察值,,离均差的平方和,是最好的指标,,42,总体方差: 样本方差:,为了消除例数的影响,其取均值,就是方差。,43,标准差:方差的平方根的正值。,总体的标准差: 样本的标准差:,自由度=n-1,44,自由度:,一组数据中可以自由取值的数据的个数。,当样本数据的个数为,n,时,若样本均值,x,确定后,只有,n,-1,个数据可以自由取值,其中必有一个数据则不能自由取值。,45,样本方差除以自由度,从实际应用角度看,在抽样估计中,当用样本方差去估计总体方差,2,时,它是,2,的无偏估计量.,46,样本的标准差:,47,48,x,x,2,118,13924,122,14884,98,9604,104,10816,122,14884,122,14884,686(合计),78996(合计),血红蛋白数据标准差的计算:,49,分组资料的标准差计算,50,方差,标准差意义:,方差,标准差越大,变异程度越大。其值越小,观察值的离散度越小,用均数反映平均水平的代表性越好。,51,了解一下:离均差平方和,是表示某变量总变异的一种形式,即:,52,关于离均差平方和的三条规则,1、原始数据加(减)一个数,离均差平方和或积和不变。,2、原始数据除以一个数,则简化计算出的离均差平方和要乘上该数的平方。,3、如将两变量之一除以一个数,则离均差积和要乘以该数;如同时另一变量也除以一个数,则离均差积和要同时乘上该两数。,53,标准差应用,(1)反映一组观察值的离散程度:,直接比较标准差:数值单位相同;,计算变异系数:数值单位不同;,54,变异系数(coefficient of variation, CV) 也称离散系数(coefficient of dispersion),标准差与均数之比用百分数表示。,公式:,55,常用于比较,度量单位不同或均数相差悬殊,的资料的变异。同时考虑了均数和标准差,更客观。,比如:身高,体重的变异比较;,56,(2)估计变量值的频数分布,正态曲线,正态分布,normal distribution,正态分布,标准正态分布,面积,(或概率), -1 +1 ,-1 +1,68.27%, 1.96 +1.96,-1.96 +1.96,95.00%, 2.58 +2.58,-2.58 +2.58,99.00%,57,(3)计算标准误,(4)估计医学正常值范围:,双侧:均数,1.96倍标准差,单侧:均数,1.645倍标准差,58,概念: 又称高斯分布。,频数分布以均数为中心,左右两侧基本对称,靠近均数两侧频数较多,离均数愈远,频数愈少,形成一个中间多,两侧逐渐减少,基本对称的分布。是一种连续型分布。,正态分布,(,normal distribution,),59,当样本量扩大,组段分细,频数分布图中的直条变窄,表现出中间高,两侧逐渐降低,并完全对称的特点;如果将各直条顶端的中点连线,就接近于一条光滑的曲线,称为正态曲线。,用N(, ),表示,其位置与均数有关,形状与标准差有关。,60,医学现象许多呈正态分布,或近似正态分布。,如:正常人的生理,生化指标变量,等。,61,高斯(Johann Carl Friedrich Gauss),生于1777年4月30日于不伦瑞克,卒于1855年2月23日于哥廷根,德国著名数学家、天文学家、大地测量学家、物理学家。被认为是最重要的数学家,并有数学王子的美誉。,62,63,对称分布,正(右)偏分布,负(左)偏分布,几种常见的频数分布,64,正态分布之所以重要, 原因很多, 三个主要的原因:,1. 正态分布在分析上较易处理。,2. 正态分布之,p.d.f,.的图形为钟形曲线(bell-shaped curve), 再加上对称性, 使得很适合当做不少事件之机率模式。,3. 正态分布可当做不少大样本的近似分布。,概率密度函数(,p.d.f.,,,probability density function,)描述了随机变量的机率分布,为累积分布函数的导函数。,65,概率密度函数(,p.d.f.,,,probability density function,),对于一维实随机变量,X,,任何一个满足下列条件的函数,f,X,(,x,)都可以被定义为其概率密度函数:,随机变量,X,在区间上的概率可以由其概率密度函数的,定积分,表示:,而 是,X,的累积分布函数,显然概率密度函数是它的导函数。,66,从直方图到正态曲线的过渡,67,正态分布的两个参数: , 决定了曲线的形状和位置,68,69,正态分布的密度函数(概率密度函数 probability density function, p.d.f):,式中为均数;为标准差;为圆周率;为自然对数的底,即2.71828。以上均为常数,仅x为变量。,70,标准正态分布:,为了应用方便,常将式进行变量变换,u变换,u变换后,=0,=1,使原来的正态分布变换为标准正态分布(SND, standard normal distribution)亦称u分布。,71,标准正态分布的概率密度函数:,正态分布曲线的模拟,72,正态分布的特征和分布规律:,(1)曲线在x轴的上方,与x轴不相交,当x=时,曲线位于最高点。,(2)曲线关于直线x=左右对称。,(3)正态分布有两个参数:均数,标准差;标准正态的参数分别为:0, 1,(4)正态曲线在 1 ,标准正态曲线在 1处各有一个拐点,(5)正态分布的面积分布有一定规律。,73,正态曲线下面积的分布规律,正态曲线下,,横轴上一定区间的面积,等于该区间的频数发生的概率,。面积可用积分求得。,F(x)为正态变量X 的累计分布函数,反映正态曲线下,,自- 到x的面积,即左侧累计面积,。,74,统计学家已经按(4)编成了附表,标准正态分布曲线下的面积。应用时注意:,(1)当总体 , 已知时,先计算u值,再用u值查表,得出所求区间面积占总面积的比例。如果未知,常分别用样本均数和样本标准差来估计。,(2)曲线下对称于0的区间,面积相等。如:区间( ,-2.58)与区间(2.58, )的面积相等。,(3)曲线下横轴上的总面积为100% 或为1。,根据后两个特征,可计算右侧累计面积。,正态分布表的用法 P545,75,单侧,双侧的概念:以均数为对称轴,只考虑低于(或高于)某值,为单侧;若关心数值可高,可低,为双侧。,76,正态分布,标准正态分布,面积,(或概率), -1_ +1 ,-1_+1,68.27%,1.96_+1.96,-1.96_+1.96,95.00%, 2.58_+2.58,-2.58_+2.58,99.00%,正态分布和标准正态分布曲线下面积分布规律,77,标准正态曲线下任意区间的面积有规律,78,(-1,1),68.27%,(-1.96,1.96),95%,(-2.58,2.58),99%,双侧概率,79,单侧概率,80,正态曲线下面积的分布规律的应用:,一、确定医学参考值范围,意义:是正常人指标测定值的波动范围,可用于划分正常,或异常。,步骤:,1、抽样 2、控制测量误差,3、取单侧或双侧 4、选定合适的百分界限,5、资料正态性检验 6、进行参考值估计,81,确定医学参考值范围常用方法:,正态分布法,对数正态分布法,百分位数法,82,95%正常值范围的估计,83,正常值范围的上下限,单侧下限,单侧上限,84,双侧界限,85,例:用正态分布法求血糖值95%的参考值范围。,解:1、求样本的,均数4.653、标准差0.401,。,2、按照,双侧,95%范围,确定参考值范围为:,3、将样本的均数、标准差数值代入计算,得出范围。,86,二、确定概率分布:,例:某市2000年110名7岁男童身高,已知均数,=119.95厘米,标准差S=4.72厘米,估计:该地7岁男童身高在110厘米以下者占该地7岁男童总数的百分数。,按:求u值,,查表(p545):找到-2.1,上方找到0.01,二者相交处为0.0174,概率为0.0174=1.74%,即该地7岁男童身高在110厘米以下者,估计占1.74%,不到2%。,87,三、质量控制:,实验中,常以 作为上下警戒值,,以 作为上下控制值。,正态分布是很多统计方法的理论基础,88,本次课程结束,谢谢!,89,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 大学资料


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!