统计学主观题答案.docx

上传人:s****u 文档编号:12745722 上传时间:2020-05-21 格式:DOCX 页数:17 大小:1.18MB
返回 下载 相关 举报
统计学主观题答案.docx_第1页
第1页 / 共17页
统计学主观题答案.docx_第2页
第2页 / 共17页
统计学主观题答案.docx_第3页
第3页 / 共17页
点击查看更多>>
资源描述
1. 数据采集遇到异常值?统计上与均值差异在3倍标准差范围之外的值称为异常值(离群点).一般用标准分数来判断一组数据是否是离群数据。其公式为z。例如:若z=-1.5,就知道该数值低于平均数1.5倍标准差,该点不是离群点。根据切比雪夫不等式,至少有1-1/k2个数据落在+-k个标准差范围内。对异常值要仔细鉴别,处理方法有:如果异常值属于记录时的错误,在分析之前就应予以纠正或舍弃。如果异常值是一个正确的值,应予以保留。根据经验法则,若一组数据对称分布,一般有99%的数据落在+-3个标准差范围内。95%的数据落在+-2个标准差范围内。68%的数据+-1个标准差范围内。2. 抽样误差?抽样误差是由抽样的随机性而引起的样本结果与总体真值之间的误差。在概率抽样中,我们依据随机原则抽取样本,抽取的样本可能不同。根据不同的样本,可以得到不同的观测结果。抽样误差并不是针对某个具体样本检测结果与真实结果的差异而言,所以抽样误差是样本可能的结果与总体真值的平均差异。抽样误差与多方面的因素有关,样本量越大,抽样误差就越小。抽样误差还与总体的变异有关。抽样平均误差的公式为。抽样误差又分为组内误差和组间误差。组内误差即为来自水平内部的数据误差,组间误差为不同水平之间的数据误差。组内误差只含随机误差,组间误差是随机误差和系统误差的总和。请举例说明统计学上所计算的抽样误差与我们平常说想象的抽样误差有什么不同? 抽样误差是由于样本随机性引起的样本结果与总体真值之间的误差。我们平时想像的抽 样误差可能是针对某个具体的样本的检测结果与总体真实结果的差异而言的。然后统计学上的抽样误差描述的是所有样本可能的结果与总体真值之间的平均性差异。3. 例如:95%的样本结果与真值之间的差异上下不超过2%的范围。按照平常的理解,真值并不知道则无法得出这样的结论。而在统计学上,我们发现对不同样本进行检测时其分布是有规律的,于是可以通过样本的信息计算出这个误差。例如:如果真实值为10%,则样本结果95%会落在8%-12%内。那么以10%为中心,结果在2%的范围内波动,这是统计学上的抽样误差。简述影响抽样误差大小的因素。抽样误差:指由于抽样的随机性引起的样本结果与总体真值之间的误差。影响抽样误差的大小如下:抽样单位的数目。在其他条件不变的情况下,抽样单位的数目越多,抽样误差越小;抽样单位数目越少,抽样误差越大。这是因为随着样本数目的增多,样本结构越接近总体。抽样调查也就越接近全面调查。当样本扩大到总体时,则为全面调查,也就不存在抽样误差了总体被研究标志的变异程度。在其他条件不变的情况下,总体标志的变异程度越小,抽样误差越小。总体标志的变异程度越大,抽样误差越大。抽样误差和总体标志的变异程度成正比变化。这是因为总体的变异程度小,表示吝惜体各单位标志值之间的差异小。则样本指标与总体指标之间的差异也可能小;如果总体各单位标志值相等,则标志变动度为零,样本指标等于总体指标,此时不存在抽样误差。 抽样方法的选择。重复抽样和不重复抽样的抽样误差的大小不同。采用不重复抽样比采用重复抽样的抽样误差小。 抽样组织方式不同。采用不同的组织方式,会有不同的抽样误差,这是因为不同的抽样组织所抽中的样本,对于总体的代表性也不同。通常,我们不常利用不同的抽样误差,做出判断各种抽样组织方式的比较标准。4.5. 离散系数?方差和标准差是反映数据离散程度的绝对值,其数值大小一方面受平均数大小的影响,变量值绝对水平高的,离散程度的测度自然也就大;另一方面,他们与原变量值的计量单位相同,所用不同计量单位计量的变量值,其离散程度的测度值也就不同。对于平均水平不同和计量单位不同的不同组别的变量值,是不能用标准差直接比较其离散程度的离散系数,又称变异系数,是一组数据标准差与其平均数的比值消除了变量值水平高低和计量单位不同对离散程度测量的影响离散系数越大,说明数据的离散程度越大。举例:男生平均身高175cm,标准差10cm;女生平均身高165cm,标准差3cm。由于男生女生身高的平均数不同,无法直接比较其标准差,所以可以采用离散系数,消除了平均数不同的影响,反映其数据离散程度大小。通过计算,男生身高离散系数为0.057,女生身高离散系数为0.018,男生生身高离散系数高于女生,所以男生身高离散程度较大。 6. 统计上的大样本和小样本?统计上的大样本和小样本并不是以样本量大小来区分的。在样本量固定的条件下进行的统计推断、问题分析,不管样本量有多大,都称为小样本问题。而样本量n趋近无穷的样本条件下进行的统计推断、问题分析则称为大样本问题。一般而言统计学中n30,即为大样本,nF,则拒绝原假设,表明i之间有显著差异,若F,结论为按所取水准不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P,结论为按所取水准显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。P值的大小一般可通过查阅相应的界值表得到。请举例说明假设检验的应用背景假设检验是由样本去推断总体的一种统计推断方法。先对的值提出一个假设,然后利用样本信息去检验这个假设是否成立。例如:已知某元件的标准质量为500g,为了验证某工厂的原件是否符合标准,随机抽取100个样本,测得平均质量为510g,要判断该厂的元件是否符合标准。这个问题的关键在于我们是否能用抽样的随机性来解释10克的差异,于是我们采取假设检验的方法。假设该厂的元件符合标准,标准质量为,样本的平均值为0,则=0,利用样本信息检验上述假设是否成立。(首先,提出原假设和备择假设(H0=。),计算检验统计量(。)确定显著性水平为5%,就可以根据抽样分布原理求出否定原假设和接受原假设的临界值,确定了拒绝域。如果原假设成立,则说明95%的样本均值应当落入置信度为95%的置信区间,根据小概率原理可做出是否拒绝原假设的判断。)编制时间序列应该注意哪些问题:编制时间序列的目的就是要通过对序列中的各个指标值进行分析,来研究社会经济的发展变化及规律,保证时间新序列上各个不同时间上的统计指标的可比性,是编制时间序列的基本原则,可比性体现在以下几个方面:(一)时间序列中各指标所属时间长短应前后一致。(二)所反映现象的总体范围应该一致。(三)指标的经济内容应该统一(四)计算方法应该统一(五)计算价格和计量单位要一致。应用回归方程进行预测和分析应注意哪些问题:1根据预测目标,确定自变量和因变量明确预测的具体目标,也就确定了因变量。2建立回归预测模型依据自变量和因变量的历史统计资料进行计算,在此基础上建立回归分析方程,即回归分析预测模型。3进行相关分析回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。因此,作为自变量的因素与作为因变量的预测对象是否有关,相关程度如何,以及判断这种相关程度的把握性多大,就成为进行回归分析必须要解决的问题。进行相关分析,一般要求出相关关系,以相关系数的大小来判断自变量和因变量的相关的程度。4检验回归预测模型,计算预测误差回归预测模型是否可用于实际预测,取决于对回归预测模型的检验和对预测误差的计算。回归方程只有通过各种检验,且预测误差较小,才能将回归方程作为预测模型进行预测。5计算并确定预测值利用回归预测模型计算预测值,并对预测值进行综合分析,确定最后的预测值应用回归预测法时应首先确定变量之间是否存在相关关系。如果变量之间不存在相关关系,对这些变量应用回归预测法就会得出错误的结果。正确应用回归分析预测时应注意:用定性分析判断现象之间的依存关系;避免回归预测的任意外推;应用合适的数据资料,不要用样本数据之外的x值去预测相应的Y值。因为在回归分析中,总是假定因变量y与自变量x之间的关系用线性模型表达式正确的,但实际应用中,他们的关系可能是曲线,用越接近均值x的点预测得到的估计值会越理想。平均涵义在回归分析中的作用:1,回归分析用来考察变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响程度。主要解决以下问题:从一组样本数据出发,确定变量间的数学关系式。对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的。利用所求的关系式,根据一个或几个变量的取值来估计或预测两一个特定变脸的取值,并给出这种估计或预测的可靠程度。1, 最小二乘法是通过使因变量的观测值与估计值之间的离差平方和达到最小来拟合举距离各观测点最近的一条直线,估计参数的方法。画出最小二乘法示图。P279,如何判断残差平方和最小,SSE= 求偏导,列出式子。2, 用最小二乘方法估计出来的直线y= 即是描述一个或几个自变量变动时,因变量平均变动的情况,E(y)= 3, 拟合优度的衡量:y与其均值的差异包括由回归模型解释的部分和不可解释的部分,SST= 是被解释变量y相对于样本均值的总的变化,回归平方和是y中关于样本均值的总体变化中由回归解释的部分。举例说明小概率事件原理和反证法:假设检验就是事先对总体参数提出假设,然后取样进行实验,再将实验所提供的信息按照一定的方法计算并与一定的临界值进行比较,最后推断接受或者拒绝原假设的方法。小概率事件和反证法是假设检验的核心思想。 小概率事件,是指发生概率很小的随机事件在一次实验中是几乎不可能发生的。根据这一原理,可以作出是否接受原假设的决定。例如,有一个厂商声称其产品的合格品率很高,可以达到99,那么从一批产品(如100件)中随机抽取1件,这一件恰好是次品的概率就非常小,只有1。如果厂商的宣称是真的,随机抽取1件是次品的情况就几乎是不可能发生的,但如果这种情况确实发生了,我们就有理由怀疑原来的假设,即产品中只有1次品的假设是否成立,这时就可以推翻原来的假设,可以作出厂商的宣称是假的这样一个推断,我们进行推断的依据就是小概率原理。当然,推断也可能会犯错误,即这100 件产品中确实只有1件是次品,而恰好在一次抽取中被抽到了。所以这个例子中犯这种错误的概率是1,也就是说我们在冒1的风险作出厂商宣称是假的这样一个推断。由此也可以看出,这里的1正是前面所说的显著性水平。 反证法就是先提出假设,进而按照适当的统计方法确定假设成立的可能性,如果可能性小就拒绝假设。两者结合就形成了假设检验的基本思想,即抽取样本资料进行检验统计量的计算,然后按照接受假设是否会出现小概率事件来决定是否接受原假设。1. 举例说明假设检验中的小概率事件原理和反证法。(武大版p259)(1) 反证法思想。先假定”H0为真”,如果检验中出现了不合理的现象则表明有理由认为H0是错的,应拒绝H0接受H1。如果没有出现小概率事件,则有理由接受H0是正确的。(2)小概率原理是指发生概率很小的随机事件在一次实验中是几乎不可能发生的。假设检验中根据这一原理可以作出是否拒绝原假设的判断。例如:已知某元件的标准质量为500g,为了验证某工厂的原件是否符合标准,随机抽取100个样本,测得平均质量为510g,要判断该厂的元件是否符合标准。首先,提出原假设和备择假设(H0=。),计算检验统计量(。)确定显著性水平为5%,就可以根据抽样分布原理求出否定原假设和接受原假设的临界值,确定了拒绝域。如果原假设成立,则说明95%的样本均值应当落入置信度为95%的置信区间,所以在一次实验中统计量落入拒绝域的概率是很小的,如果这个情况出现,我们便有理由认为我们的假设是错误的,进而选择接受备择假设。分析相关分析与回归分析之间的关系。相关分析就是对两个变量之间的线性关系的描述与度量,它要解决的问题包括:(1) 变量之间是否存在关系(2) 如果存在关系,他们之间是什么关系(3) 变量之间的关系强度如何(4) 样本所反映的变量之间的关系能否代表总体变量之间的关系相关分析的目的在于变量之间的关系强度,它所使用的测度工具就是相关系数。而回归分析侧重于考察变量之间的数量关系,并通过一定的数学表达式将这种关系描述出来,进而确定一个或几个变量(自变量)的变化对另一个特定变量(因变量)的影响。具体来说,回归分析主要解决以下几方面的问题:(1) 从一组样本数据出发,确定变量之间的数学关系式。(2) 对这些关系式的可信度进行各种统计检验,并从影响某种特定变量的诸多变量中找出哪些变量的影响是显著的,哪些是不显著的(3) 利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。相关分析与回归分析既有联系又有区别。首先两者都是研究非确定性变量间的统计依赖关系,并能度量线性依赖程度的大小。 其次两者又有明显的区别:(1) 相关分析不必确定自变量和因变量,只是从数据上测度变量间的相关程度。(2) 相关分析不能指出变量间相互关系的具体形式。 (3)相关分析的变量一般都是随机变量,而回归分析中解释变量往往被假设为非随机变量。什么是回归方程与回归系数的显著性检验?他们之间有什么区别与联系。回归方程的显著性检验包括回归系数的显著性检验,回归系数显著性检验是回归方程显著性检验的一部分。回归方程的显著性检验主要有两方面的内容:一是线性关系检验;二是回归系数检验。其中线性关系检验是检验自变量x与因变量y之间的线性关系是否显著。回归系数的显著性检验是要检验每个自变量对因变量的影响是否显著,需要对每个回归系数分别进行单独的t检验。如果某个自变量没有通过检验,就意味着这个自变量对因变量的影响不显著,也许就没有必要将这个自变量放进回归方程模型中了。此外,在多元线性回归中,应对回归系数检验的个数进行限制,以避免犯过多的第类错误。季节指数计算中计算同月平均、总平均的统计学含义是什么?4,解释拉式指数和帕式指数。P368P3696,试述中心极限定理及其统计意义。中心极限定理:设从均值为、方差为2,(有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值X的抽样分布近似服从均值为、方差为2/n的正态分布。中心极限定理要求n必须充分大,一般统计学中的一种经验说法是n30为大样本。在统计学中,由于正态分布有着十分重要的地位,因此常把证明其极限分布为正态分布的定理统称为中心极限定理。6、某城市交通管理部门的一项调查表明,该城市中驾车上班的人数超过30%。但一家研究机构则认为自驾车上班的人数比例达不到这一水平。为证明自己的这一看法,该研究机构准备抽取一个简单的随机样本进行检验。 (1)请写出检验的原假设和备择假设; (2)请对小样本和大样本检验进行说明;(3)对于一般检验来说,如果结果表明“统计上显著”,是不是实际上也显著?不一定。统计意义上的显著性是指在不同总体之间的差异比较研究中,由于各个总体存在内在的变异性,而只有在当两个总体之间的差异超过单个总体内部这类变异性时,它们间的差异才具有统计上的显著性。(实际显著性是指在不同总体之间的差异比较研究中,由于各个总体存在内在的变异性,而只有在当两个总体之间的差异绝对超过总体内部这类变异性时,我们就称它们间的差异具有实际意义上的显著性。)而在总体显著的情况下,实际上的显著是指某个个体的情况,可能显著可能不显著。.建立一个指标体系是各种理论研究和实际工作常常遇到的事情,你对指标的遴选和各个指标权重的确定是怎样认识的?为了使指标体系科学化、规范化,在选择指标时,应遵循以下原则:(1)系统性原则。各指标之问要有一定的逻辑关系,它们不但要从不同的侧面反映出生态、经济、社会子系统的主要特征和状态,而且还要反映生态一经济一社会系统之间的内在联系。每一个子系统由一组指标构成,各指标之间相互独立,又彼此联系,共同构成一个有机统一体。指标体系的构建具有层次性,自上而下,从宏观到微观层层深入,形成一个不可分割的评价体系。(2)典型性原则。务必确保评价指标具有一定的典型代表性,尽可能准确反映出特定区域高西沟的环境、经济、社会变化的综合特征,即使在减少指标数量的情况下,也要便于数据计算和提高结果的可靠性。另外,评价指标体系的设置、权重在各指标问的分配及评价标准的划分都应该与高西沟的自然和社会经济条件相适应。(3)动态性原则。生态一经济一社会效益的互动发展需要通过一定时间尺度的指标才能反映出来。因此,指标的选择要充分考虑到动态的变西北典型区生态脱贫途径研究化特点,应该收集若干年度的变化数值。(4)简明科学性原则。各指标体系的设计及评价指标的选择必须以科学性为原则,能客观真实地反映高西沟环境、经济、社会发展的特点和状况,能客观全面反映出各指标之间的真实关系。各评价指标应该具有典型代表性,不能过多过细,使指标过于繁琐,相互重叠,指标又不能过少过简,避免指标信息遗漏,出现错误、不真实现象,并且数据易获且计算方法简明易懂。(5)可比、可操作、可量化原则。指标选择上,特别注意在总体范围内的一致性,指标体系的构建是为区域政策制定和科学管理服务的,指标选取的计算量度和计算方法必须一致统一,各指标尽量简单明了、微观性强、便于收集,各指标应该要具有很强的现实可操作性和可比性。而且,选择指标时也要考虑能否进行定量处理,以便于进行数学计算和分析。(6)综合性原则。生态一经济一社会的互动“双赢”是生态经济建设的最终目标,也是综合评价的重点。在相应的评价层次上,全面考虑影响环境、经济、社会系统的诸多因素,并进行综合分析和评价。各个指标权重的确立p408指数时对代表项目进行加权得到的结果,如何确定权数是在编制指数时必须面对的问题。确定权数的途径大致有两种:1. 利用已有的信息构造权数。例如,计算零售价格指数,每个代表规格品的权数是用其代表那一类商品零售额在全部零售额中的比重做权数,是否具有构造权数的数据,以及这些数据的质量如何是关键问题。2. 主观权数,常见于社会问题的编制,例如幸福感指数,每个权重的多少有调查人员主观确定,尽管可能经过多次研讨和广泛征求意见,但是没有公认的确定数据。对于第一种途径,指数理论要回答选择什么样的指标数据做权数,以及用什么时期的数据构造权数;对于后一种实际上是将指数方法扩展到多指标的综合评价,从而形成一系列的综合评价方法。什么是指数?指数是用于测定多个项目在不同场合下综合变动的一种特殊相对数,是分析社会经济现象数量变化的一种重要统计方法。反应什么问题?指数的实质是测定多项内容,例如,零售价格指数反映的是零售市场几百万种商品价格变化的整体状况。根据某些采样股票、电子现货或债券的价格所设计并计算出来的统计数据,用来衡量股票市场、电子现货或债券市场的价格波动情形。如何计算?可以分为简单指数和加权指数。简单指数吧各个项目的重要性视为相同。加权指数给各个项目依据重要程度赋予不同权数,再计算。简单指数的公式p409加权综合指数的基本公式p412有什么用途?指数的作用:(1)反应生活的各个方面,指导人们生活行为。如零售商品物价指数、生活费用价格指数等,同人们的生活休戚相关。(2) 影响人们的投资活动。如生产资料价格指数、股票价格指数等,反应金融市场的波动,指导人们的投资行为,是社会经济的晴雨表。(3) 政策决策制定的依据。例如生产者物价指数是衡量工业企业产品出厂价格变动趋势和变动程度的指数,是反映某一时期生产领域价格变动情况的重要经济指标,也是制定有关经济政策和国民经济核算的重要依据。(4) 反映社会的综合发展。运用指数可以测定不能直接相加和不能直接对比的社会经济现象的总动态;可以分析社会经济现象总变动中各因素变动的影响程度。例如HDI可以反映社会综合发展的程度。指数体系主要有以下三方面的作用:(1)指数体系是进行因素分析的根据。即利用指数体系可以分析复杂经济现象总变动中各因素变动影响方向和程度,从而找出现象变动的具体原因。(2)利用各指数之间的联系进行指数间的相互推算。例如,我国商品销售量总指数往往就是根据商品销售额总指数和价格总指数进行推算的。即商品的销售量指数一销售额指数价格指数(3)用综合指数法编制总指数时,指数体系也是确定同度量因素时期的根据之一。如果要编制“生活水平指数”,你该如何操作?1.建立综合评价指标体系。多指标综合评价的结果是否客观和准确,首先依赖于各个评价指标的信息是否准确和全面;因此,选取什么指标以及选取多少指标来刻画被评价事物,是多指标综合评价首先要考虑的问题。考虑到影响并反映人们生活水平的不同方面,我们选取以下四个方面的15个指标进行综合评定。(1)健康指数:出生预期寿命、婴儿死亡率、每万人平均病床数;(2)教育指数:成人文盲率、大专以上文化程度人口比例;(3)生活水平指数:农村居民年人均纯收入、人均GDP、城乡居民年人均消费比、城镇居民恩格尔系数;(4)社会环境指数:城镇登记失业率、第三产业增加值占GDP比例、人均道路面积、城镇居民人均居住面积、省会城市空气质量达到并好于二级的天数(简称省会城市API)、人均环境污染治理投资额。2.评价指标的无量纲化处理由于综合评价运用多个指标组成指标体系,这些指标的计量单位不同,因此需要对这些指标进行无量纲处理,使其具有可比性。(统计标准化处理p429)3.确定各项评价指标的权重在多指标综合评价中,权数的确定直接影响着综合评价的结果,权数数值的变动可能引起被评价对象优劣顺序的改变,科学地确定指标权数在多指标综合评价中是举足轻重的。在中国发展指数的权数结构中,我们认为健康、教育、生活水平和社会环境四个单项指标,对总指数计算的重要性应当是相等的;即上述四个单项指数在计算总指数时是等权的,以体现协调发展的观念。2. 计算综合评价指数p4221. 设计调查方案一般包括哪些要素?统计调查完整的方案具体包括:一、确定调查目的和任务 统计调查总是为一定的研究任务服务的,制定调查方案的首要问题是明确调查的目的和任务。二、确定调查对象和调查单位 确定调查对象和调查单位,是为了回答向谁调查、由谁来具体地提供统计资料的问题。三、确定调查项目,设计调查表式 调查项目就是调查中所要登记的调查单位的特征,这些特征统计上又称标志。确定调查项目所要解决的问题是 : 向调查单位调查什么。 将反映调查单位特征的调查项目,按一定的顺序排列在一定的表格上,就构成了调查表。四、确定调查的时间、空间和方法调查时间包括三个方面的含义 : 首先是指调查资料所属的时间,如果所调查的是时期现象,就要明确规定反映的调查对象从何年何月何日起到何年何月何日止的资料;如果所要调查的是时点现象,就要明确规定统一的标准时点。其次是指调查工作进行的时间 ,即指对调查单位的标志进行登记的时间。最后是指调查期限,即整个调查工作的时限,包括搜集资料及报送资料的整个工作所需要的时间。调查空间是指确定调查单位在什么地方接受调查 。调查方法 , 包括调查的组织形式,搜集资料的具体方法,抽样方法等。五、制订调查工作的组织实施计划 为了保证整个统计调查工作顺利进行,在调查方案中还应该有一个周密考虑的组织实施计划。其主要内容应包括:调查工作的领导机构和办事机构; 调查人员的组织;调查资料报送办法;调查前的准备工作,包括宣传教育、干部培训、调查文件的准备、调查经费的预算和开支办法、调查方案的传达布置、试点及其他工作等。六、调查资料整理和分析以及必要的附件。通常,附件的主要内容是专项调查表或专项调查问卷及必要的指标解释等。2.二、 理论应用拓展分析题(“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。)统计学通过对样本数据来反映客观事物的数量关系和数量特征并进行预测。作为一门方法论学科,统计学的精确度问题十分重要。在统计过程中,统计数据的采集、运算和推断对精确度的要求是非常高的。统计结果的精确度根据实际需求来确定。目前统计学的各种分析方法都是以样本数据为基础的,而想要提高这些统计量的精度,需要提高数据的质量和扩大样本大小。关于随着计算机互联网、搜索引擎、电子商务、多种传感器和多媒体技术的发展和广泛使用,各种形式的数据如江河流水般地涌来。当今数据的获取和规模发生了根本的变化,统计学面临着新的机遇和挑战。大数据带来的变革大数据给我们的时代带来了变革。目前,人们习惯于根据“研究问题”来驱动“收集数据”。今后,大数据到处可得,人们将会用“数据”驱动“研究问题”。就像我们出远门前常常查询目的地的天气、交通和宾馆那样,未来人们在研究和决策前将会通过查询数据做决定。目前已经有科学家开始使用软件搜索和汇总已发表论文中的成果。若我们有了成千上万本中文书和它们的阿拉伯语译本,即使我们不懂阿拉伯语,我们也能采用匹配文本的方法将中文翻译成阿拉伯语。谷歌机器翻译团队并不会说他们翻译出的语言。大数据中包含有各种不同目的的数据集,综合利用它们可以做出原来目的之外的意外成果。例如,将医院病历数据与信用卡消费数据结合,我们能发现食品与健康的相关关系,指导人们进行健康饮食。假若再加上手机和GPS等数据,还能随时对人们进行体检,指导健身,减少猝死,帮助医生诊断疾病等,应用大数据可以设想的用途不计其数。数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。大数据的问题大数据是多源异质的、覆盖不同范围的数据。为了融合各种数据,需要对数据来源、数据的获取方式和数据描述进行形式化,以支撑数据分析。大数据来自多种渠道,存在抽样偏倚、随机的和非随机的误差、无意的和有意的错误。数据收集的准则与数据分析和决策的准则不相符合,有些数据不是原始数据,而是推断的结果(如填补的缺失数据),数据的循环使用导致偏差和噪音被放大。数据量大不一定有用的信息多,大量的含偏差数据甚至会破坏信息。应意识到分析大数据也许会得到虚假知识,而自己却不知情。在大数据环境下,收集数据的人也许不清楚未来使用数据的人要做什么;使用数据建模的人也许不清楚数据是如何得到的;使用模型的人也许不知道模型是从什么数据得出来的。因此,难免人们会根据自己的意图过分地解释模型,超出了原始数据所包含的信息范围。大数据难免存在不响应和缺失数据,有些数据是随机缺失的、非随机缺失的,因为敏感问题或隐私问题而缺失的。不同研究收集不同的、有重叠变量的数据集。另外,来自观察的数据和来自试验的数据具有不同的信息,不同信息导致不同的认知范围。数据本身含有的信息是有边界的,决定了数据分析解释的范围。大数据处理方法1、方法论上要有所突破。越来越多的应用涉及到大数据,而这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。大数据分析普遍存在的方法论有:(1)可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常容易被读者所接受,就如同看图说话一样简单明了。(2)数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学的呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法(可以称之为真理)才能深入数据内部,挖掘出公认的价值。另外一个方面也是因为有这些数据挖掘的算法才能更快速的处理大数据,如果一个算法得花上好几年才能得出结论,那大数据的价值也就无从说起了。(3)预测性分析。大数据分析最终要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学的建立模型,之后便可以通过模型带入新的数据,从而预测未来的数据。(4)语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统的去分析,提炼数据。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。(5)数据质量和数据管理。大数据分析离不开数据质量和数据管理,高质量的数据和有效的数据管理,无论是在学术研究还是在商业应用领域,都能够保证分析结果的真实和有价值。大数据分析的基础就是以上五个方面,当然更加深入大数据分析的话,还有很多很多更加有特点的、更加深入的、更加专业的大数据分析方法。2、处理流程整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。(1)采集。大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。(2)导入和预处理大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法,多种专题(panels)的数据可以相互联合,实现单一专题数据不能完成的目标。(3)统计和分析针对大数据的高维问题,需要研究降维和分解的方法。针对多种不同数据库的环境,利用关系数据库技术,根据关键字(例如,身份证)将很多小数据库连接成一个大数据库。另一方面,能无信息损失地将大数据库拆分为多个小数据库。组合多数据库的不同数据集合,可以做出有创意的东西。丹麦有一个手机用户的数据库,共358403人。另一个记录了癌症患者的数据库,有10729名中枢神经系统患者的信息。将两个数据库结合,研究手机与癌症之间的关系。发现使用手机和癌症之间不存在任何关系,其结果发表在2011年的英国医学杂志。在大数据环境,很多数据集不再有标识个体的关键字,传统的关系数据库连接方法不再适用,需要探讨利用数据库之间的重叠项目来结合不同的数据库,利用变量间的条件独立性整合多个不同变量集的数据为一个完整变量集的大数据库的方法。探索不必经过整合多数据库,直接利用局部数据进行推断和各推断结果传播的方法。另一方面,利用统计性质无信息损失地分解和压缩大数据。(4)挖掘与预测。与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的已近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引人们分析和利用大数据资源。现在其他学科和行业涌人大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。现今统计学的目标是通过获取数据和分析数据发现真理(总体的参数和性质),统计方法和理论对数据有过高的要求。而大数据充满了各种随机的、非随机的误差和偏倚,不能满足这些苛刻的要求。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。我们在看到大数据给统计学带来了机遇的同时,也应该看到现在的统计方法普遍只适用于全部数据放在单个计算机内存的环境,分布式大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,适应新的大数据环境,扩展统计学的应用领域,创造出迎合大数据的新统计方法,“机遇”与“挑战”并存。
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 图纸专区 > 考试试卷


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!