实习一集中趋势与离散趋势

上传人:cel****303 文档编号:243332024 上传时间:2024-09-21 格式:PPTX 页数:34 大小:250.88KB
返回 下载 相关 举报
实习一集中趋势与离散趋势_第1页
第1页 / 共34页
实习一集中趋势与离散趋势_第2页
第2页 / 共34页
实习一集中趋势与离散趋势_第3页
第3页 / 共34页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,预防医学(医学统计学)实习,实习一:集中趋势及离散趋势,实习纲要,医学统计学中的基本概念;,集中趋势及离散趋势的统计指标,一、医学统计学的基本概念,同质及变异,总体及样本,变量及其分类,参数与统计量,抽样误差,概率与小概率事件,在研究事物的形状时,同质(homogeneous)示例,在研究事物的颜色时,变异(Variation)示例,在研究事物的颜色时,变异(Variation)示例,发热者体温波动,正常人体温波动,总体和样本,总体(Population):根据研究目的所确定的同质观察单位的全体;,样本(Sample):是从总体中按照一定的目的按照一定的原则抽取的一部分个体。,请考虑如何判断样本是否有代表性;抽样研究的目的?,随机、样本含量;推断总体信息,变量及变量值,在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标(属性、特征)称为随机变量,简称变量(variable),而观察结果对应的取值称为变量值或资料(value of variable) 。,病例号,年龄,(岁),性别,身高,(cm),血型,心电图,尿WBC,职业,RBC,(1012/L),1,35,女,1.65,A,正常,教师,4.67,2,44,男,1.74,B,正常,工人,5.21,3,26,男,1.80,O,正常,职员,4.10,4,25,女,1.61,AB,正常,农民,3.92,5,41,男,1.71,A,异常,+,工人,3.49,6,45,女,1.58,B,正常,+,工人,5.48,7,50,女,1.60,O,异常,+,干部,6.78,8,28,男,1.76,AB,正常,+,干部,7.10,9,31,女,1.62,O,正常,军人,5.24,思考下列变量的有哪些类型?依据?,依据有无度量衡单位,取值的属性,变量,类型,数值变量,分类变量,无序分类,有序分类,:,如血清反应,治疗效果,二项分类,:,如男女,有效无效,多项分类,:,如血型,职业特征,连续型变量,:,如,:,身高,体重,离散型变量,:,如子女数,脉搏数,参数和统计量,总体参数 (Parameter ):描述总体特征的指标。,统计量( Statistic):反映样本特征的指标。,总体参数及统计量有哪些区别与联系呢?,答:1.在总体被确定之后,总体参数就是一个常数,是 不会变化的,不管你是否确切知其大小;而统计量是几乎总是随着样本而变的。,2.为了区分参数与统计量通常用希腊字母表示参数;用拉丁文字母表示统计量。,3.通常参数是未知的,而统计量则可以通过抽样研究得到,故统计学通常用统计量估计参数(参数估计)。,抽样误差,【定义】由于个体变异的存在,在抽样研究中产生样本统计量和总体参数之间的差异,称为抽样误差(sampling error)。,各种参数都有抽样误差,这里我们以均数为研究对象,假如事先知道某地七岁男童的平均身高为119.41cm。为了估计七岁男童的平均身高(总体均数),研究者从所有符合要求的七岁男童中每次抽取100人,共计抽取了三次。,119.41cm,= 4.38cm,三次抽样得到了不同的结果,原因何在?,个体变异,随机抽样,不同男童的身高不同,每次抽到的人几乎不同,抽样误差,抽样误差的表现,抽样误差的表现,样本均数和总体均数间的差别,样本均数和样本均数间的差别,概率,概率的统计学定义:,数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:随机事件A发生的概率 (Probability)。,概率描述了随机事件发生的可能性的大小。是一种参数。,0P 1,小概率事件,小概率事件,医学研究中,将概率小于等于0.05或0.01的事件称为小概率事件。,小概率原理,小概率事件并不表示不可能发生,但在某一次试验中,由于其发生的可能性十分小,近似认为是不会发生的。,二、数值变量的集中及离散趋势,频数表及频数图的绘制与用途,集中趋势的描述:算术平均数、几何平均数、中位数、众数,离散趋势的描述:极差、四分位数间距、方差与标准差、变异系数,由于个体变异的存在,医学研究得到的原始数据(raw data)往往是庞大的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution),频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组数据的个数(频数),得到频数分布表;在将频数表绘制成频数分布图。通过它们探寻数据的分布规律。,离散型定量变量的频数分布,离散型定量变量(discrete variable)通常是指取值不连续的定量变量,通常只能取数轴上的整数值。,例如受检次数、新生儿数、手术病人数等,例:1998年某山区96名孕妇产前检测次数数据?,表1 1998年某山区96名孕妇产前检测次数频数分布表,检查次数,频数,频率(),累计人数,累计频率(),0,4,4.2,4,4.2,1,7,7.3,11,11.5,2,11,11.5,22,22.9,3,13,13.5,35,36.5,4,26,27.1,61,63.5,5,23,24.0,84,87.5,5,12,12.5,96,100.0,合计,96,100.0,频数分布图(直条图bar chart),连续型定量变量的频数分布,连续型定量变量(continuous variable)通常是指取值连续的定量变量,可以取数轴上的任意数值。,例如身高、体重、血压、血清胆固醇值等,例:某地120名1835岁健康男性居民血清铁含量(mmol/L)数据,连续型定量变量频数分布表,确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。对于100余例的数据通常分为815组。或根据以下经验公式:,确定组距:组距是一个组的下限及下一个组段下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即组距Int ( 最大值 - 最小值) 组数 ,列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值半开半闭,尾数关闭,统计出各组的频数并整理成频数分布表,表2 120名正常成年男子血清铁含量(mmol/L)频数表,组段,频数,频率(),累计频数,累计频率(),6,1,0.83,1,0.83,8,3,2.50,4,3.33,10,6,5.00,10,8.33,12,8,6.67,18,15.00,14,12,10.00,30,25.00,16,20,16.67,50,41.67,18,27,22.50,77,64.17,20,18,15.00,95,79.17,22,12,10.00,107,89.17,24,8,6.67,115,95.83,26,4,3.33,119,99.17,2830,1,0.83,120,100.00,合计,120,100.00,频数分布表、图所提供的信息,频数分布图用以表示数据的分布规律;,观察分布范围及有无可疑值 ;,考察分布的类型 ;,对称分布,非对称分布(偏态分布),左偏态(负偏态),右偏态(正偏态),集中趋势(central tendency),1. 同质的群体中数据向其中心值靠拢的倾向和程度,2. 测量集中趋势就是寻找数据水平的代表值或中心值,该值通常称为:平均数,3. 不同类型的数据用不同的集中趋势测量值,4. 常见的平均数指标有:算术均数、几何均数、中位数、众数,算术均数(arithmetic mean),它是一组数据的均衡点所在;集中趋势的最常用指标,易受极端值的影响,用于定量数据,不能用于分类数据和等级数据,4. 适用于服从正态或近似正态计量资料(对称分布)的集中趋势描述,几何均数(geometric mean),适用于呈等比级数、或呈倍数变化的数据;例如医学上的抗体滴度、人口变化速度、细菌增长率、药物效价等,常用于表示呈正偏态,但是经过对数转换后可以满足对称(正态)的数据的平均水平,数据中不可以有0,如果有0用一个很小的正数代替;不可同时有正负数,在医学之外,它常用于计算事物变化的平均速度(经济学),1. 适用于分布呈明显偏态,数据中存在极大或极小值,分布的一端或两端无确定数值,或分布不清的资料,2. 它是位置参数,不受极端值的影响,因此较均数、几何均数都稳定,3. 对于正态分布的资料,理论上中位数,及,算术均数是相等的,中位数(median),众数(mode)*,是指一系列数值中出现次数(概率)最多的数值。,在某些情况下数据中可能没有众数(全国各大城市的人口数几乎不可能会有完全相同的),有时可能会有几个众数(例如:16、32、32、64、64、128);由于它的取值完全取决于频数,所以在小样本的情况下它不太稳定。,离散趋势(disperse tendency),1. 数据分布的另一个重要特征,反映各变量值远离其中心值的程度(离散程度),也称为变异度。,2. 从另一个侧面说明了集中趋势测度值的代表程度,3. 不同类型的数据有不同的离散程度测量值,常用的离散趋势指标有:极差、四分位数间距、方差、标准差、变异系数。,极差,受极端值影响,不稳定,对所有两端有确定值的数据都可适用,四分位数间距,比极差稳定,但是仍然无法反映每个观察值的变异,所有的数据,特别是偏态分布,分布不明,数据的一端或两端有不确定值,常及中位数合用,综合反映资料的集中和离散趋势,方差标准差,能够反映每个观察值的变异情况,只适用于正态或近似正态分布的数据,常与算术均数合用,综合反映资料的集中和离散趋势,变异系数,反映相对离散程度,消除了数据水平高低和计量单位的影响,补充习题,发汞值,(,mol/Kg),1.5-,3.5-,5.5-,7.5-,9.5-,11.5-,13.5-,15.5-,17.5-,19.5,21.5,合计,人 数,20,66,60,48,18,16,6,1,0,3,238,请使用合适的统计指标描述上述发汞含量的平均水平及离散程度,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!