现场调查中的抽样方法.ppt

上传人:xt****7 文档编号:5957959 上传时间:2020-02-12 格式:PPT 页数:75 大小:1.40MB
返回 下载 相关 举报
现场调查中的抽样方法.ppt_第1页
第1页 / 共75页
现场调查中的抽样方法.ppt_第2页
第2页 / 共75页
现场调查中的抽样方法.ppt_第3页
第3页 / 共75页
点击查看更多>>
资源描述
现场调查中的抽样方法 练习 人群总数10000 男4000人 女6000 分层抽样 男性抽100人 女性抽1000人 共1100人样本中共105人抽烟 其中男性55人 女性50人问 人群总吸烟率是多少 练习 人群总数10000 男4000人 女6000 抽取样本男100人 55人抽烟 女1000人 50人抽烟 问 人群总吸烟率是多少 直接算法 总吸烟率 55 50 100 1000 9 5 正确算法 男4000抽100 每人代表40人 W 40 女6000抽1000 每人代表6人 W 6 总吸烟率 55 40 50 6 100 40 1000 6 25 调查的分类 普查 全面调查 典型调查 案例调查 抽样调查 普查Census 人群中每个人都调查没有抽样误差人群很小时可以使用人群数很大时耗费人 财 物力 质量不易控制 非抽样误差大不适于患病率低和诊断技术比较复杂的疾病无应答率常常较高 典型调查 案例调查 有目的地选定典型的人 单位进行调查 对事物特征作深入了解 没有随机原则 不能估计总体参数 只能对总体特征作经验推论 不属于统计推断的范畴 抽样调查 抽样调查 从总体中抽取一定数量的观察单位组成样本 根据样本信息来了解总体特征 基本概念 总体 根据研究目的确定的同质观察单位的全体样本 从总体中随机抽取的部分观察单位的总和抽样的目的 用样本信息推断总体特征抽样误差 由抽样造成的样本信息偏离总体参数可计算总体参数的95 可信区间 95 可信区间 以样本信息推论总体时 计算出的可信区间有95 的概率覆盖总体参数 高血压患病率为20 15 28 高血压患病率为18 4 51 X市居民甲状腺结节患病情况调查 在沿海地区 山区 平原地区各随机抽取1个村庄 每个村中再随机抽取100户家庭 每个家庭的全部成员作为调查对象 在某地区的医院进行医院感染情况的抽样调查 抽中40所医院 实施过程中 有些医院不配合 可根据医院特征 如同级 同类 病床数 替换愿意配合的医院 调查某地区腹泻患病率 采用多阶段抽样方法 第1阶段 兼顾地理位置 经济水平 人口数量 工作基础和意愿 选择A县 B县 C区和D县作为调查点 第2阶段 在某地区进行某病患病率调查 将乡镇按收入水平分层3层 高中低三层分别有150 120 100个乡镇 在每层各抽取10个乡镇 每个乡镇再各随机抽取2个村庄 抽中村庄内居民全部调查 抽样方法设计如何 每个村庄约60人 共调查到2400人 其中240人患病 患病率为多少 两类抽样方法 非概率抽样 无法确定被调查对象的概率 无法推断总体 常用于探索性研究碰巧抽样或方便抽样 超市里走出的前10个人意图抽样 调查者有意的抽取某些对象 认为能代表某类人群 如 选择一个大城市 一个城镇 一个乡村地区滚雪球抽样概率抽样 每个个体有一个可计算的非零概率 可计算抽样误差 可推断总体 概率抽样调查Samplesurveys 按一定的概率 在人群中抽取一部分人来调查以样本统计量估计总体参数节省时间 人力 物力 调查可以做得更细致不适用于患病率很低疾病 常用概率抽样的方法 简单随机抽样系统抽样 等距抽样 机械抽样 分层抽样 分类抽样 整群抽样 将总体的全部观察单位编号 再用随机数字等方法随机抽取部分观察单位组成样本例 某中学2100名学生 随机抽200人估计近视率先将所有学生编号 1 2 3 4 2100查随机数字表639407106376358703047988 947107614873041688 注意 8400以上的数字不要产生随机数字 rand randbetween 随机数字发生器 练习 单纯随机抽样Simplerandomsampling SRS 1 2 3 4 21002101 2102 2103 2104 42004201 4202 4203 4204 63006301 6302 6303 6304 84008401 8402 8403 8404 9999 10500 1600个数 2100个数 1600个数 500个数 单纯随机抽样 优点 均数 或率 及标准误的计算简单缺点 总体例数多时 需有全部名单 编号 将全部观察单位根据某一顺序编号 计算抽样间隔 随机抽第k号 小于抽样间隔 观察单位 然后依次用相等间隔抽取观察单位组成样本先将所有学生编号 1 2 3 4 2100确定抽样间隔 2100 200 10 5 人 取10在1 10之间随机找一个数字 例如4依次机械抽取 14 24 34 1994 2004 系统抽样 系统抽样 优点 易于理解 易行样本是均匀分布的 抽样误差小于单纯随机抽样 对样本进行方差估计时 可以将它看成是SRS缺点 当抽样单位的排列有周期趋势时 抽样结果可能有偏差 根据样本量估算 需要抽取该社区1 10的儿童采血检测 每个家庭有门牌号 从1 2000号 单号一排 双号一排 调查者首先用随机数字表从1 10中选一个数字 然后用系统随机方法抽取该街道的1 10有儿童的家庭 这一抽样方法有什么潜在问题 在农村某地区开展儿童维生素D缺乏调查 分层抽样 按影响较大的某种特征将总体分成若干组 统计上叫做 层 再从每一层内随机抽取一定数量的观察单位分层变量最好是层间差别大 层内差别小层内样本量分配按比例分配等额分配最优分配按照性别分层 男生和女生每层中随机抽取100名学生 分层抽样 优点 减少抽样误差 分层后增加层内同质性便于对不同的层采取不同的抽样方法 如城乡分层还可对不同层独立进行分析 各层要满足样本量 先将总体分成若干个群 每个群包括若干观察单位 再随机抽取k个群 每个群的全部观察单位组成样本 整群抽样 群间差异越小 抽取的 群 越多 精度越高 样本量确定后 宜增加 群 数而减少群内的观察数学校共有70个班 各个班级情况相似时比较好 随机抽取20个班 各班人数越少 抽班级数越多越好 20个班级的所有学生都调查 整群抽样 整群抽样 优点 便于组织 节省经费 容易控制调查质量缺点 当样本例数一定时 抽样误差大于单纯随机抽样的误差抽取的群数应尽量多 15个 群数太少抽样误差大 各种抽样方法的方差 分层抽样 系统抽样 单纯随机抽样 整群抽样 设计效力 DesignEffect 样本量不变时 实际抽样方法的方差与单纯随机抽样的方差的比值RatioofactualvariancetovarianceassumingSRS givensamenDE一般为1 3 3 多阶段抽样 单阶段抽样 四种基本抽样方法都是通过一次抽样产生一个完整的样本多阶段抽样 总体大 情况复杂 分布广 可分若干阶段进行抽样 每个阶段可用上述四种方法中任意一种进行抽样例 在某省进行某项调查 第一阶段 用系统抽样法随机抽取30个县第二阶段 用SRS法每县抽取10个自然村第三阶段 用SRS法每村抽取10名村民 第1阶段为初级抽样单位PSU primarysamplingunit 第2阶段为二级抽样单位SSU secondsamplingunit 第3阶段为三级抽样单位TSU tertiarysamplingunit 初级抽样单位多 调查结果抽样误差小 精度高建议不少于10 15个 第1阶段 50个班级中随机抽取20个班级第2阶段 每个抽中班级中随机抽取3个小组第3阶段 每个小组中随机抽取4名学生初级抽样单位 班级二级抽样单位 班级里的小组三级抽样单位 学生 阜阳市各级医疗机构治疗发热儿童用药现况调查 2008年安徽省阜阳市发生EV71手足口病疫情3月1日至5月9日共报告6049病例99 的为14岁以下儿童大多数病例以急性发热起病EV71重症危险因素研究发现首诊在村级医疗机构氨基比林和激素类药物 调查目的 了解阜阳市各级医疗机构治疗发热儿童的用药现状发现存在的问题及影响因素为规范发热儿童用药提供依据 调查对象和内容 各级医疗机构的儿科医生 访谈用药习惯各级医疗机构发热儿童的治疗处方 各种药物的使用情况 样本量计算 根据简单随机抽样计算公式 以氨基比林使用比例为p 5 设计效率1 44根据预调查获得各级医疗机构氨基比林使用比例计算样本量 市级和县级共8家医院乡镇卫生院171所村诊所 每个乡镇有20 40所左右调查3 6月份的各级医院的处方用药情况 如何抽样 处方 分层多阶段抽样 抽取市 县 乡镇及村级医疗机构市 县级医院 8所全部调查乡镇医院 171所中随机抽取30所村诊所 在抽中的30个乡镇医院所在乡镇中 分别随机抽取1 2个村卫生室 共40所抽取各医院2008年3 6月治疗发热儿童的用药处方市 县级医院 每月随机抽取8张 共32张乡镇医院 每月随机抽取4张 共16张村卫生室 每月随机抽取2张 共8张 医生 分层多阶段抽样 抽取市 县 乡镇及村级医疗机构市 县级医院 8所全部调查乡镇医院 171所中随机抽取30所村诊所 在抽中的30个乡镇医院所在乡镇中 分别随机抽取1 2个村卫生室 共40所抽取到医院的儿科医生全部调查 某市医务人员甲型H1N1流感疫苗接种意愿调查 背景 2009年甲型H1N1流感大流行 防控工作再次成为全球关注焦点流感疫苗 有效防控流感的手段 WHO和我国准备为医务人员优先接种甲型H1N1疫苗医务人员是特殊群体 非常重要 救治病人的中坚力量暴露的高风险人群感染后易传给患者 医院内传播文献显示医务人员流感疫苗接种率较低 目的 了解该市医护人员接种甲型H1N1疫苗的意愿 分析不愿接种的原因 为政府制定流感疫苗接种策略提供科学依据 研究人群 该市医护人员 如何抽样 采用分层二阶段抽样方法 第一阶段 先抽医院第二阶段 再抽取医护人员 第一阶段抽取多少医院合适 抽取5家 抽取10家 抽取20家 抽取30家 抽取50家 抽取的Cluster越少 抽样误差越大 数理统计推理和中心极限定理表明 从正态总体中随机抽取例数为n的样本 样本均数服从正态分布对样本均数这个正态变量采用u 样本均数 总体均数 变换 变换为标准正态分布N 0 1 即u分布 实际工作中 往往是s来估计的 这时就是t变换了 其结果就是t分布可信区间估计时 因为 未知 一般按照t分布的原理 95 CI Xbar SE 1 t 12 7 2 t 4 3 3 t 3 18 2 2 10 2 1 20 2 0 30 1 96 infinite 随着cluster增加 95 CI越精确 假设医院疫苗接种意愿率 50 抽4家 95 CI 44 56 抽8家 95 CI 45 7 54 3 抽13家 95 CI 46 2 53 9 抽18家 95 CI 46 5 53 5 采用分层二阶段抽样方法 第一阶段 共随机抽取30家医院 其中 三级医院抽取5家二级医院抽取10家一级医院抽取15家第二阶段 抽取医护人员每家医院中随机抽取若干名医护人员 每家医院中抽取多少名医护人员 估计总体率的样本量 按简单随机抽样计算 0 05 U 1 96 p 估计总体率 容许误差 一般取总体率95 可信区间宽度的一半 医护人员甲流疫苗愿意接种率50 0 05 5 如果p 0 5 则n 1 96 0 5 1 0 5 0 05 400人 2 2 两阶段抽样 样本量需要乘以设计效力 两阶段抽样的抽样误差大于单纯随机抽样本次抽样方法需要乘以设计效力 2共需约800名医护人员失访率10 约900人 900名样本的分配 900名样本的分配 等额分配 什么是PSU 什么是分层变量 假如是单纯随机抽样 总体率的计算 该市医护人员中 接种意愿率为 49 9 95 CI 46 6 53 2 900名医护人员中 449名愿意接种 意愿接种率点值估计 95 CI估计 练习计算 权重调整 权重的大小 weight 1 抽样概率每名个体抽样概率不等时 需要按照权重进行调整权重调整的目的 使调整后样本人群的特征与总体人群特征一致如 总体为3000人 男女比例1 1样本中男生抽100人 女生抽200人 男生100 女生200 女生 1500 男生 1500 男生抽样概率 100 1500 1 15女生抽样概率 200 1500 2 15 男生权重 1 1 15 15女生权重 1 200 1500 7 5 复杂抽样方差与SRS不同 需用特殊软件计算EpiInfo有三个模块 可以进行复杂抽样的一些基本分析ComplexSampleFrequenciesComplexSampleTablesComplexSampleMeans更为复杂的计算需要用其他软件SAS SUDAAN SPSS STATA 区间 方差 估计 计算时需要PSU和权重 三级医院共抽取5家 共18家 每家被抽中概率p1 0 28 二级医院共抽取10家 共25家 每家被抽中概率p1 0 4 一级医院共抽取15家 共45家 每家被抽中概率p1 0 33 三级医院共抽取5家 每家被抽中概率p1 0 28 二级医院共抽取10家 每家被抽中概率p1 0 4 一级医院共抽取15家 每家被抽中概率p1 0 33 按权重调整的意愿接种率 权重调整的意愿接种率 44 9 95 CI 41 48 9 两个率的比较 医生和护士的接种意愿率是否有差别 看医生和护士的接种意愿率95 CI是否互相包含互相包含 无差别 互相不包含 有差别使用Epiinfo复杂抽样模块 医生接种意愿44 38 51 护士接种意愿45 41 50 不同级别医院医护人员的接种意愿率是否有差别 看不同级别医院的医护人员接种意愿的95 CI是否互相包含 三级医院接种意愿41 37 45 二级医院接种意愿47 35 58 一级医院接种意愿60 56 64 三个率的比较 学到了什么 加权后的统计量与不加权的统计量一般是不同的不用加权可能会得出错误的统计推论 记住 复杂抽样设计需用复杂抽样方法来分析 95 可信区间 以样本信息推论总体时 计算出的可信区间有95 的概率覆盖总体参数 容许误差 在抽样调查时 调查者所要求的精确度不是百分之百 而是在设定总体参数上下各多少百分点作为误差容许范围 称为容许误差 对正态变量采用u X 变换 则将一般的正太分布N 2 变换为标准正态分布N 0 1 数理统计推理和中心极限定理标明 从正态总体中随机抽取例数为n的样本 样本均数Xbar服从正态分布标准误 根号n实际工作中标准误往往是用sxbar来估计的 这是对正态变量Xbar采用的不是u变换而是t变换了t分布的峰部较矮尾部翘得较高 说明远侧的t值个数较多 自由度 越小越明显 逐渐增大时 t分布逼近标准正态分布 有限总体校正公式Squareroot N n N 1 Epiinfo中估计总体率的样本量 Utilities菜单的StatCalc模块 要求输入三个参数 目标人群数 估计总体率 容许误差 可以更改任何一个参数后按F4重新计算
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 课件教案


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!