Bootstrap方法统计数据质量评价研究

上传人:教*** 文档编号:64101132 上传时间:2022-03-21 格式:DOCX 页数:5 大小:15.53KB
返回 下载 相关 举报
Bootstrap方法统计数据质量评价研究_第1页
第1页 / 共5页
Bootstrap方法统计数据质量评价研究_第2页
第2页 / 共5页
Bootstrap方法统计数据质量评价研究_第3页
第3页 / 共5页
点击查看更多>>
资源描述
Word参考资料,下载后可编辑Bootstrap方法统计数据质量评价研究 摘要:统计的作用在于服务国家宏观决策和人民生产生活,它在反映国民经济和社会开展水平、为党和国家制定正确的决策、预测将来开展趋势等方面发挥着举足轻重的作用。统计数据要实现以上功能,必须保证统计数据高质量。数据作为生产要素,在数据要素市场化过程中,假如不能保证其质量,数据价值不但得不到呈现,反而会给使用者带来不良的后果。本文首先介绍了数据质量的概念和Bootstrap方法的根本原理,然后基于Bootstrap抽样并应用统计分布验证方法对统计数据质量进行评估,最后对_统计局公布的地区国内生产总值数据质量进行验证评估。 关键词:数据质量;Bootstrap方法;统计分布 毋庸置疑,大数据时代下,数据充分发挥其价值的必备条件是要有高质量数据。2021年1月19日统计局局长宁吉喆在题为“推进统计现代变更”中指出:“统计数据作为国家经济开展的晴雨表已经取得了显著的成绩,但它发挥的作用还不够充分,还有待开发,数据质量需要进一步提升”。统计数据质量的内涵也不再仅仅是准确,大数据背景下,适合的才是最好的,用户需求也是衡量数据质量的一个方面。近年来,科技开展迅猛,新型技术的开展突飞猛进,物联网、人工智能、云计算的开展让人应接不暇,海量的数据纷繁复杂,怎样保证数据的质量,已成为上到国家,下到每一位统计相关者关注的问题,也是我们亟待解决的问题。在此背景下,数据质量评估无疑是保证高质量数据的前提条件。在数据评估研究方面,祝君仪(20_)6在大数据时代背景下统计数据质量的评估方法及适用性分析一文中分析了目前常用的包括逻辑规则检验、核算数据重估、计量模型分析、统计分布验证、调查偏差评估、多维评估延伸六种评估数据质量的方法,但仅仅是定性分析。成邦文等(20_)2已经证明假如统计指标反映的是经济社会规模(如产量、销售收入等),则统计量均趋于对数正态分布,并提出了统计数据质量评估的对数正态分布检验法。本文基于社会规模服从对数正态分布,利用Bootstrap抽样法对统计数据质量进行评估。 一、根本概念及理论 (一)统计数据质量 对于统计数据质量还没有形成统一公认的定义,随着大数据时代的到来,统计数据质量的内涵从准确性这一个维度扩展到多个维度。衡量数据质量最明显的标准就是数据的准确性,即数据信息准确描述其所代表的真实机构或现象的程度。除了准确性这一特征外,数据的时效性、精确性、完整性、一致性都是数据质量的重要表现。当然在众多的维度中,准确性是摆在数据质量的第一位的,只有数据准确,数据分析结果才有效,管理者据此做出的决策才正确。本文的研究是基于数据准确性进行研究。 (二)Bootstrap根本思想 Bootstrap是1979年Efron在他的论文一文中首次提出,又名拨靴法,Bootstrap方法在现代统计学中应用非常广。Bootstrap方法是一种利用计算机软件实现抽样的方法,其根本原理是基于初始给定样本重复抽样,本文设置1000条抽样路径,故可得到1000个样本,基于所得样本计算研究者关怀的统计量,在抽样次数足够大条件下很容易得到统计量的分布图。Bootstrap抽样的优点在于不需要事先对总体分布进行假如,依据中心极限定理,在样本量足够大条件下,样本统计量会无限逼近总体分布。 (三)评估步骤 步骤1:假定为初始样本,利用Matlab中Bootstrap函数从此样本中有放回抽取m个样本,本文规定m=1000。步骤2:依据1中抽样结果,计算各自样本统计量,具体利用Matlab中mean函数计算均值统计量,即可得到1000个样本均值;步骤3:基于2中计算结果,调用log函数计算统计量的对数值;步骤4:利用QQ图及单一样本Kolmogorov-Smirnov检验3中结果是否服从正态分布,假如是,说明统计量服从对数正态分布,统计数据质量符合要求,否则,统计数据误差大,需要修正。 二、数据收集与实证研究 (一)数据收集 本文以_省2000-20_年地区生产总值为研究对象,对其进行数据质量评估。表1是_省2000-20_年地区生产总值。 (二)验证对数正态分布 利用Bootstrp方法对2000-20_年_省地区生产总值进行可放回的重复抽样1000次,进而得到1000个Bootstrap样本,然后依据每一个样本计算对应的均值,从而得到1000个样本均值,接着计算样本均值对数,然后通过spss绘制其对应的直方图,如图1所示。从图1可以直观的看出,统计量的对数服从正态分布,从图中只是很形象的观看出统计量对数的分布,要想进一步证实其为正态分布,还需要进行统计检验。本文使用Q-Q图检验和K-S检验两种方法对统计量对数进行正态性检验。(1)Q-Q图又名分位数图,通过比较实际观测数据分位数与正态分布分位数是否一致来检验数据的正态性。具体是通过做散点图,观测两列数据的分位数是否分布在参考直线上,假如是,说明被检验数据服从正态分布,否则非正态。通过SPSS中Q-Q图功能对样本统计量对数进行检验,结果如图2所示,从Q-QPlot中,各点几乎全部落在参考直线上,说明被检验数据服从正态分布。(2)K-S检验。在利用Bootstrp方法得到1000个样本均值对数后,为了检验样本均值对数的分布,提出原假如和备择假如,原假如为样本均值对数服从正态分布,备择假如为样本均值对数不服从正态分布。通过SPSS中的非参数检验K-S方法进行检验,输出结果如表2,从表里可以看出,K-S检验中,Kolmogorov-SmirnovZ值为0.022,P值(双侧)=0.2,在给定显著性水平=0.05条件下,显然P,所以接受原假如,说明样本均值对数服从正态分布。 结语 本文研究新时代统计数据质量评价方法,利用对数正态分布来评估数据质量,鉴于研究数据分布需要足够的样本容量,然而现实数据无法满足此要求,故采纳Bootstrap重抽样方法解决两者间矛盾。通过以_省2000-20_年地区生产总值为研究对象,验证采纳Bootstrap方法构造的统计量是否服从对数正态分布推断真实数据的数据质量,通过检验,结果讲明_省2000-20_年地区生产总值统计数据质量可靠。 5
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 其他分类 > 其它学术


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!