统计资料的统计描述.ppt

上传人:za****8 文档编号:14469428 上传时间:2020-07-21 格式:PPT 页数:54 大小:640.51KB
返回 下载 相关 举报
统计资料的统计描述.ppt_第1页
第1页 / 共54页
统计资料的统计描述.ppt_第2页
第2页 / 共54页
统计资料的统计描述.ppt_第3页
第3页 / 共54页
点击查看更多>>
资源描述
第二章 统计资料的整理与描述,刘沛 东南大学公共卫生学院 流行病学与卫生统计学系,2,内容提要,数值变量的描述 频数表与直方图 统计指标 分类变量的描述 相对数 相对数应用,3,123.60 121.03 115.42 113.40 124.02 123.41 122.81 125.83 112.33 122.91 124.79 110.12 117.91 126.32 116.55 113.31 114.38 127.22 112.80 120.13 120.62 124.84 117.17 109.85 118.96 116.66 117.44 121.68 118.82 117.63 120.05 119.90 115.24 121.42 125.64 124.24 118.17 120.07 115.12 118.76 116.74 128.35 124.43 115.36 113.59 125.39 120.62 120.10 122.46 120.51 113.26 118.44 122.30 117.36 116.46 121.33 120.88 111.86 117.99 112.65 117.44 124.44 118.69 121.40 118.61 130.75 118.31 121.44 117.16 129.65 111.36 115.26 120.78 123.84 123.16 121.23 126.14 118.65 119.19 116.02 115.78 119.01 116.63 120.63 114.30 119.96 116.63 128.41 117.42 123.32 114.09 118.58 116.73 117.11 117.97 108.13 126.42 119.66 119.69 118.38 115.16 115.01 119.48 127.58 122.14 122.63 115.57 123.70 123.39 119.59 123.40 119.72 120.60 115.50 123.78 118.41 118.82 114.56 119.45 118.11,4,(1)找出观察值中的最大值和最小值并求出极差。,(2)按极差大小决定组段数、组段和组距。,组距22.62/121.89 ,取2,(3)列表划记。,2.1频数表 2.1.1频数表的编制,5,表2.1 120名7岁男童身高的划记和频数,6,身高 (cm),2.1.2 频数分布的图示,7,(2)分布的类型,(3)分布特征,对称分布,偏态分布,正偏态:尾部右拖,负偏态:尾部左拖,集中趋势(central tendency),离散趋势(tendency of dispersion),2.1.3. 频数分布的分析,(1)有无异常值 outlier,8,9,数值描述,集中趋势(central tendency) 离散趋势(tendency of dispersion),10,2.2 集中趋势的描述 central trendency,平均水平分布特征的数量化反映 一组指标平均数(average) 算术均数 arithmetic mean 几何均数 geometric mean 中位数 median,11,2.2.1 均数 ,均数mean,算术均数arithmetic mean 一组观察值在数量上的平均水平 应用:单峰对称分布资料,12,(1)未分组资料的均数计算法。,例 10名20岁女青年血清总蛋白含量(g/L)如下: 74.3,75.6,78.8,67.2, 70.4, 77.6, 81.6, 67.3, 70.3, 71.2,13,(2)分组资料的均数计算法加权法,直接求原始资料的均数为119.41(cm),两者稍有出入,但在单峰对称分布时近似程度甚好。,14,2.2.2 几何均数geometric mean,G, 抗体滴度资料的平均水平 适用:各变量值之间成倍数关系,但作对数变换后指标成单峰对称分布的资料。,15,(1)未分组资料的几何均数计算法,16,5人的血清抗体滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度。,例2.4,17,(2)分组资料的几何均数计算法,18,例2.5 某地55人接种疫苗后抗体滴度见表2.2第(1)(2)栏,求平均滴度。,19,对数正态分布资料 如稀释浓度等 可以归结为对数变换资料的算术均数,应用:,20,2.2.3 中位数与百分位数,中位数(edian,简记为M)将一组观察值从小到大按顺序排列,位次居中的观察值 或插入值。 百分位数(percentile)以PX表示,一个百分位数PX将总体或样本的全部观察值分为两个部分,理论上有X的观察值比PX小,有(100-X)观察值比PX大,21,(1)未分组资料的中位数计算法,例2.7 8名杆菌痢疾治愈者的住院天数为: 4,9,10,12,14,20,24,61。,如果将最后一个数去掉中位数是几?,22,例 157名杆菌痢病治愈者的住院天数如表所示,计算其中位数及25和75百分位数。,(2)分组资料的中位数和百分位数计算法,23,X42,26.1,X78.5,X90,50,57.3,10天,10天,24,25,应用,对资料分布没有特殊要求,所有资料均可计算中位数和百分位数 资料是偏态分布的或有异常值 分布不规则 一端或两端有不确定数据(开口资料)时。 一般情况下,分布在中间的百分位数较稳定,靠近两端的百分数,仅在样本含量足够大时才趋于稳定。 中位数比均数具有较好的稳定性,但不精确,因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。,26,真实的笑料:国家统计局不会计算平均数!?,国家统计局人口就业司司长冯乃林表示,工资“被增长”是一种误解,在金融危机中,处于工资低端的岗位和企业减少,而处于工资高端的岗位和企业变化较小,是造成平均工资数据仍然上升的原因之一。,国家统计局承认因统计面过窄致使平均工资被增长,国家统计局2009年7月29日表示,上半年,中国城镇单位在岗职工平均工资为14638元,同比增长12.9%,有网民称,统计数据与自己的收入不符。,平均数的计算和比较要建立在同质基础上!,27,2012年1月21日国家统计局首次公布了城乡居民收入的中位数,报告显示,2011年城镇居民人均可支配收入中位数为19118元,此前公布的数据中,城镇居民人均可支配收入均数比中位数高2692元。 在过去,居民收入数据一公布,很多人就会说自己又“被增长”了。其实,数字并没有水分,“被增长”原因之一是“平均数”,就现实国情而言,国内收入结构并非理想的中产占多数的橄榄型,“削峰平谷”的“平均数”其实变相掩盖了收入差异,比例较高的中低收入者自然不会买账。,当资料呈偏态分布时应采用中位数,28,看看用中位数是否更加合适 ?,29,2.3 离散程度的描述 dispersion,spread,描述散布与变异,反映个体差异的指标 常用指标有 极差 Range 四分位数间距 inter-quartile range 方差 Variance 标准差 Standard Deviation,30,例2.9 三组同性别、同年龄儿童的体重(kg)如下,试分析其集中趋势和离散程度。,甲组 26 28 30 32 34 乙组 24 27 30 33 36 丙组 26 29 30 31 34,=30kg,2.3.1. 极差,极差(range,记为R)亦称全距。即一组数据中最大值与最小值之差。反映个体的变化范围,R甲34-268(kg) R乙36-2412(kg) R丙34-268(kg),31,极差(记为R)亦称全距。即一组数据中最大值与最小值之差。反映个体的变化范围 简单明了 除了最大值和最小值外,不能反映组内其它数据的变异程度, 抽样误差较大,极不稳定,尤其在样本例数较多时; 故在样本例数相差悬殊时,不宜比较其极差,2.3.1极差 range,32,2.3.3 方差与标准差variance 两个指标可以性质相同,也可以性质不相同,44,2.4.2 构成比(proportion),构成比,构成指标,它说明一种事物内部各组成部分所占的比重或分布,常以百分数表示,计算公式为:,45,2.4.3 率 (rate),频率指标,用以说明某现象发生的频率或强度。常以百分率()、千分率()、万分率(1/万)、十万分率(1/10万)等表示。计算公式为,46,2.4.4.应用相对数时应注意,计算相对数的分母不宜过小 对观察单位数不等的几个率,不能直接相加求其平均率 分析时不能以构成比代替率 对比时应注意资料的可比性,47,资料的可比性,1)观察对象同质,时间相近,研究方法相同,以及地区、民族等客观条件一致。 2)其它影响因素在各组的内部构成应相近。,48,2.4.5 标准化法,当比较两个总率时,如果影响指标水平的重要特征在构成上不同,冒然进行两总率的比较,会产生错误的结论,必须设法消除这种内部构成上的差别,才能进行比较。统计学上特将这种方法称为率的标准化(standardization method of rate)。,49,表2.6 某市甲乙两院某病治愈人数,50,标准化率的计算加权平均,表2.7 计算标准化率的数据符号,51,标准组的选择,1.标准组应选择有代表性的、较稳定的、来自数量较大的人群的指标作为标准,例如世界的、全国的、全省的、本地区的或本单位历年累计的数据等; 2.选择相互比较的人群之一或合并作标准,如比较甲乙两组资料时,可用甲乙两组合并的数据作标准。,52,表2.8 计算某市甲乙两院标准化治愈率(%),53,注意事项,1、同一被标化组在不同的标准下所求得的标化率可能不等,但相互对比的趋势基本一致。 2、标准化的目的是为了进行合理的比较,并不反映具体的实际水平。因此,要反映实际情况,则需用未标化前的率。,54,谢谢您的认真听讲!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!