资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,大数据与统计学,浙江工商大学,李金昌,引言,作为归纳纳分析的的科学,统计学学可以从从亚里士士多德的的“城邦邦政情”算起,但作为为一门数数据分析析的科学学则应从从配第的的政治算术术算起。,300多年来,统计学学围绕如如何收集集、整理理和分析析数据这这一主线线而发展展,构建建起了庞庞大、多多元、融融合的应应用方法法体系,帮助解解决了各各个领域域大量复复杂的现现实问题题。,统计学的的发展,是根据据数据的的型态和和问题的的本质来来改变的的,不是是因为我我们会做做他背后后的数学学而发展展的。不要因为为(统计的)问题困难难而去做做它;也也不要因因为它难难而不做做。(贺吉士J.L.Hodges,1922-2000),R.C. Rao:统计的分分析形式式随时代代的推移移而变化化着,但但是“从从数据中中提取一一切信息息”或者者 “归归纳和揭揭示”作作为统计计分析的的目的却却一直没没有改变变。,大数据时时代的来来临,迫迫使统计计学站在在一个新新的起点点上。,1998年,科学杂志刊登登的一篇篇介绍计计算机软软件HiQ的文章大数据的的处理程程序中第一次次正式使使用了大大数据(bigdata)一词。2008年9月自然杂志出版版“bigdata”专刊。,最近几年年,关于于大数据据的文献献迅速增增加,但但绝大多多数出于于计算机机领域的的学者之之手,较较少有基基于统计计学视角角的深度度学术讨讨论。,一、对大大数据的的认识,最早与大大数据概概念有关关的学科科:天文文学、气气象学和和基因学学,一开开始就依依赖于海海量数据据分析方方法。,但从现代代意义上上看,大大数据可可以说是是计算机机与互联联网相结结合的产产物,前前者实现现了数据据的数字字化,后后者实现现了数据据的网络络化。,大数据的的本意是是,所涉涉及的资资料量规规模巨大大到无法法透过目目前主流流软件工工具,在在合理时时间内达达到撷取取、管理理、处理理、并整整理成为为帮助企企业经营营决策更更积极目目的的资资讯。,4V特点:Volume、Velocity、Variety、Value。,大数据自自古有之之?,人类曾经经开展过过的人口口普查、产业普普查等数数据,是是否属于于大数据据?,在计算机机技术与与网络化化未得到到充分发发展以前前,人们们自然难难以联想想出大数数据这个个概念。,从统计学学的角度度看,大大数据不不是主要要基于人人工设计计而获得得有限、固定、不连续续、不可可扩充的的结构型型数据,而是主主要基于于现代信信息技术术与工具具自动记记录、储储存、能能连续扩扩充、大大大超出出传统统统计记录录与储存存能力的的一切类类型的数数据,最最大特征征是数字字化基础础上的数数据化。,一定程度度上看,大数据据并不是是一个严严格的概概念,而而是一个个比喻式式的称呼呼。,(一)如如何理解解大数据据的“大大”,一是“全全体”的的意思,即大数数据就是是全体数数据,并并且数据据量必须须达到一一定的规规模。,二是“可可扩充”的意思思,即大大数据就就是可以以不断扩扩充容量量的数据据,任何何数据一一旦发生生就可以以被记录录、被吸吸收。,三是“有有待挖掘掘”的意意思,即即大数据据就是有有待挖掘掘的数据据。大数数据可能能包含着着丰富的的、具有有大价值值的信息息,但被被超大量量的数据据所掩盖盖、所分分散而导导致价值值密度低低,只有有挖掘才才能发现现。,(二)如如何理解解大数据据的“数数据”,历史告诉诉我们,数据的的含义是是随着人人类认识识社会与与自然现现象的视视野的变变化、以以及认识识能力与与技术水水平的提提升而改改变的,经历了了从传统统运算型型数据到到现代数数字化数数据的变变化过程程。,把一切信信息都看看成数据据是当今今社会的的一个特特征,是是一个自自然进化化的结果果。大数数据中的的数据其其实就是是一切可可以通过过数字化化手段记记录的信信息。,大数据除除了结构构型数据据与非结结构型数数据的分分类外,还可作作以下分分类:,如果从大大数据产产生的途途径或渠渠道来看看,大数数据可以以分为社社交网络络数据、人机交交换数据据和感应应数据(机器数数据)。,如果从功功能上看看,大数数据可以以分为交交易型数数据、流流程型数数据和交交互型数数据。,需要特别别指出的的是,网网络数据据在大数数据中占占有特殊殊的份量量,又可可分为自自媒体数数据、日日志数据据和富媒媒体数据据三类。从时间间维度上上,还可可以把网网络大数数据分为为以用户户数据、日志数数据为代代表的历历史数据据,以及及以视频频监控数数据和流流媒体数数据等为为代表的的流式数数据,其其中历史史数据蕴蕴含着大大量有价价值的信信息。,基于数据据的分类类,储存存数据与与管理的的方式数据库也也有两种种类型:关系型型数据库库(SQL接口)和和非关系系型数据据库(NOSQL接口)。,(三)大大数据是是不是好好数据?,首先,大大数据不不会自动动产生好好的分析析结果,不会自自动把隐隐藏其中中的秘密密呈现出出来,如如果数据据不完整整、取舍舍不当或或遭受破破坏,那那么就会会产生错错误的结结论。,其次,大大数据是是动态的的,具有有阶段性性特征,同样的的关联词词在不同同时段可可能具有有不同的的含义,围绕关关联词的的话题会会随着时时间的推推移而会会发生某某些偏离离,从而而导致有有偏的结结论。,第三,对对于我们们所关心心的研究究主题,可能会会受到大大量没有有实际意意义、实实际内容容甚至虚虚假信息息的干扰扰,让我我们面对对一堆数数据无从从下手,大数据据变成了了大迷惑惑,甚至至变成了了大错误误。,第四,大大数据中中有很多多小数据据问题,这些问问题并不不会随着着数据的的增加而而消失,反而可可能更严严重。,二、数据据的变化化与统计计分析方方法的发发展,(一)数数据的变变化,回顾历史史可以发发现,数数据的变变化与统统计分析析方法的的发展呈呈现高度度吻合的的关系。有一种种观点认认为,数数据的变变化过程程可以分分为三大大阶段:数据的的产生、科学数数据的形形成和大大数据的的诞生。,数据的产产生:,数的产生生基于以以下三个个要素,一是数数,二是是量,三三是计量量单位。,数起源于于人类祖祖先对“多”或“少”的认识,阿拉伯伯数字的的产生实实现了数数的抽象象性和可可计算性性。,数的概念念及数的的基本逻逻辑关系系形成以以后,人人们将数数的神秘秘性作为为探寻与与研究的的目标之之一,不不断建立立起更加加完备的的、抽象象的数的的体系。,以数为基基础,测测量、计计量和比比较事物物就有了了精确表表达的语语言,这这在实践践中就表表现为量量,它是是客观事事物所具具有的能能体现差差异程度度的一种种属性,是事物物可以用用数来表表现的规规定性,包括量量的规模模、量的的关系、量的变变化、量量的界限限与量的的规律。,在以数来来表示事事物的特特征并采采用了科科学的计计量单位位后,就就产生了了真正意意义上的的数据有根据的的数。,科学数据据的形成成:,科学数据据的形成成得益于于对数据据的科学学研究,是在科科学研究究过程中中基于科科学设计计、通过过有针对对的观察察和测量量获得的的、用以以认知自自然现象象和社会会现象的的变化规规律或用用以验证证已有理理论假设设的数据据。,哲学家培培根所倡倡导的“实验观察察-归纳分析析”的方法思思想和笛笛卡尔所所倡导的的数理演演绎方法法,将数数据的使使用提高高到了科科学方法法论的地地位,使使数据成成为了科科学研究究的基本本要素,并使如如何科学学收集数数据成为为了研究究课题。,近代科学学将数据据融于自自然科学学研究范范式的实实践,不不仅提高高了人类类认识事事物的精精确性,更为重重要的是是其逐步步形成的的数学化化思维与与方程表表达式解解决了不不同物理理量之间间的数值值关系表表达问题题,从而而为开展展相关事事物之间间的定量量研究提提供了途途径。,17世纪的自自然哲学学家开普普勒对第第谷大量量的天文文观察数数据的使使用,推推导出了了行星运运动三大大定律;伽利略略对地球球表面物物体运动动的数据据测量建建立了自自由落体体运动规规律;牛牛顿利用用大量的的天文观观察数据据和实验验测量数数据,创创立了牛牛顿力学学体系。,科学数据据因其所所具有的的共享性性与精确确性等特特点而成成为了科科学研究究的普适适语言。,在自然科科学对数数据进行行科学研研究的同同时,社社会科学学领域也也对数据据进行了了科学范范式的研研究,并并发现了了例如平平均人、恩格尔尔系数、基尼系系数等定定律。,就统计学学而言,它的产产生与发发展过程程就是对对科学数数据进行行研究的的过程,每一种种统计分分析方法法都是在在对科学学数据进进行科学学研究的的基础上上形成的的。,大数据的的诞生:,20世纪中期期开始的的生物基基因测序序研究所所积累的的大量数数据,面面临着如如何理解解和处理理的新挑挑战。同同样的问问题逐渐渐蔓延到到各个学学科领域域,包括括天文学学研究,基本粒粒子研究究,气象象学研究究和社会会学研究究等。,1966年,国际际科技数数据委员员会(CODATA)成立,旨在促促进全球球科技数数据的共共享。面面对海量量数据、快速增增加的数数据,人人们开始始重新审审视和定定义数据据。如果果说计算算机技术术等的快快速发展展,是大大数据产产生的基基础因素素,那么么人类对对数据理理念的深深化、对对数据多多样性的的追求、对信息息的永不不满足,是大数数据产生生的内在在因素。,以非结构构化数据据为主体体的大数数据,正正在改变变着一切切,而以以大数据据为研究究对象,通过挖挖掘、提提取等手手段探寻寻现象内内在规律律的学科科数据科学学也应运运而生。,总结:数数据产生生之初,其根本本的功能能就是体体现事物物或现象象的量的的大小或或多少,便于计计数与比比较,数数据大多多自然获获得、被被动利用用;科学学数据以以研究与与管理为为目的,一般是是主动获获得、主主动利用用;而大大数据的的特征则则是丰富富的数据据资源与与主动获获得数据据相结合合,数据据类型多多样化。当然,数据的的演变是是一个渐渐进的过过程,它它不是简简单的一一种形式式代替另另一种形形式,而而是一个个由简单单到复杂杂的各种种形式相相互包容容、不断断丰富的的过程。,(二)统统计分析析方法的的发展,如果说数数据是表表现事物物特征的的精确语语言、认认知世界界的重要要工具、治理国国家的必必备依据据和科学学研究的的必备条条件,那那么数据据分析则则是让数数据充分分说话、最大限限度发挥挥功能、有效满满足不同同需要的的根本要要求。在在科学数数据研究究基础上上形成的的具有通通用性质质的方法法就是统统计方法法。,纵观统计计学发展展史,统统计数据据大体上上经历了了这样一一个过程程:只能能收集到到少量的的数据尽量多地地收集数数据科学利用用样本数数据综合利用用各类数数据选择使用用大数据据,而统统计分析析经历了了不同阶阶段,相相应地产产生了大大量观察察法、统统计分组组法、综综合指标标法、归归纳推断断法、模模型方程程法和数数据挖掘掘法等分分析方法法,并且且借助计计算机及及其软件件的程度度也越来来越深。,配第的政治算术术和格朗特特的关于死亡亡表的自自然观察察和政治治观察,开启了了社会经经济现象象数据分分析的先先河。但但他们所所能运用用的数据据资源非非常有限限,只能能算是最最初级形形态的数数据而非非真正意意义上的的科学数数据。,他们的分分析方法法现在看看来十分分简单,但在当当时非常常了不起起,其数数据加方方法的思思想影响响至今,特别是是他们所所倡导的的大量观观察法、统计分分组法成成为了统统计学最最基本的的研究方方法。,特别是,格朗特特通过不不完整但但足够量量的登记记数据初初步发现现了大数数法则,提出了了数据简简约的概概念,通通过推算算方法初初创了生生命表,探讨了了数据的的可信性性问题,并提出出了人口口数的推推算公式式。,没有他们们这种将将数据与与方法相相结合的的“形”,就不可可能产生生统计的的“学”。,随着数据据分析意意义的显显现,以以及受到到大量观观察法的的影响,人们开开始尽可可能多地地收集数数据,包包括登记记数据、普查数数据、测测量数据据、实验验数据和和观察数数据。统统计学也也进入到到了科学学数据研研究阶段段。,社会经济济领域的的数据一一般都是是登记数数据与调调查数据据,为了了科学表表明数据据的意义义,实现现数据表表现与现现象内涵涵的统一一,就产产生了用用统计指指标来表表现数据据特征的的方法,即统计计指标法法。,随着分工工细化、记录数数据增加加,在社社会经济济领域出出现了成成组、成成群相关关的数据据,以及及专门调调查获得得的数据据(例如如人口调调查、产产业调查查等),逐渐产产生了各各种运用用统计指指标体系系进行综综合分析析的方法法,例如如综合评评价法、主成分分分析法法、聚类类评判法法等。,为了从数数量上弄弄清楚经经济运行行过程中中各部门门、各环环节之间间的关系系,人们们研究发发明了投投入产出出分析法法。,为了科学学核算经经济活动动成果,掌握经经济总产产出的构构成与去去向,在在经济学学原理和和科学指指标内涵涵的基础础上,产产生和发发展了国国民经济济核算法法。,为了掌握握物价的的综合变变动,反反映复杂杂现象的的发展方方向,产产生了综综合指数数分析法法。,为了掌握握社会经经济现象象变动规规律、预预测未来来发展趋趋势,产产生了时时间序列列分析法法。,基于实验验数据,统计学学产生了了概率论论、分布布理论、回归分分析方法法、小样样本分布布理论和和假设检检验方法法。,众所周知知,14世纪欧洲洲以骰子子为工具具的赌博博非常盛盛行,围围绕骰子子可能出出现的情情况和赌赌本分配配问题,再加上上取球、抛掷硬硬币等实实验,帕帕斯卡、费马、惠更斯斯、伯努努利、狄狄莫弗等等人共同同研究建建立了概概率论,发明了了大数定定律,发发现了二二项分布布与超几几何分布布,并为为正态分分布理论论的建立立奠定了了基础。,随着概率率论被引引入到统统计学中中,帮助助解决了了人口推推算、寿寿命保险险、生命命表编制制、产品品质量控控制等诸诸多比赌赌博更为为复杂的的现实问问题。,同样,高高尔顿通通过对遗遗传学实实验数据据(甜豌豌豆种植植的实验验数据)以及抽抽样观察察数据(亲子身身高的观观察数据据),发发现了回回归现象象,发明明了在各各个领域域得到广广泛应用用的回归归分析法法并提出出了相关关系数的的初步概概念(相相关指数数),奠奠定了模模型方程程法的基基础,极极大地提提高了人人们开展展统计分分析的能能力。,戈赛特则则利用酿酿酒公司司仅有的的小样本本实验数数据,发发明了著著名的小小样本“t”分布理论论,推进进了推断断统计方方法的发发展。,费歇尔基基于人为为的女士士品茶的的实验数数据和达达尔文关关于施肥肥方法影影响作物物高度的的实验数数据的研研究,构构建了假假设检验验的基本本方法并并得到了了广泛的的应用。,基于观察察数据,统计学学产生了了误差正正态分布布和最小小平方法法。,对天文观观察数据据研究而而形成的的误差正正态分布布和最小小平方法法在统计计学中具具有极重重要的地地位。开开普勒的的观察数数据,经经过伽利利略、辛辛普森、拉普拉拉斯等人人的探求求,最终终由高斯斯导出了了著名的的误差正正态分布布。,凯特勒等等统计学学家及时时地将拉拉普拉斯斯的中心心极限定定理与高高斯的误误差正态态理论运运用于社社会数据据的研究究,使正正态分布布的应用用盛行一一时。,在误差理理论基础础上,高高斯、勒勒让德等等人发现现了最小小平方法法,并迅迅速从天天文学和和测地学学的数据据研究应应用扩展展到其他他领域,尤其是是与回归归分析相相结合后后成为了了统计分分析最常常用的方方法,至至今仍为为主流。,皮尔逊对对生物观观察数据据的研究究,形成成了皮尔尔逊分布布族,提提出了参参数估计计矩法,发展了了相关分分析法。,数据的获获得需要要投入,并且有有些数据据难以得得到全体体数据。人们自自然想到到:能否否通过总总体中部部分个体体的数据据来达到到认识总总体特征征、继而而进行统统计分析析的目的的?随着着概率论论、中心心极限定定理与正正态分布布理论的的产生与与发展,这种愿愿望成为为了可能能。,经过拉普普拉斯、凯尔、马哈拉拉诺比斯斯、鲍莱莱、费歇歇尔、尼尼曼等人人的抽样样实践与与理论探探求,随随机抽样样理论在在20世纪得到到了迅速速发展,并产生生了多种种具体的的抽样方方式。,基于样本本数据的的归纳推推断方法法包括参数数估计与与假设检检验在实实践中得得到了广广泛的应应用,抽抽样调查查数据一一度成为为了统计计分析的的主要数数据来源源,如何何用尽量量小的样样本得到到尽量精精确的推推断成为为了抽样样研究的的核心问问题。,用抽样法法获取数数据已得得到了100年的充分分肯定。,如今,人人类迈入入了智能能化的时时代,数数据的产产生有了了新的方方式电子化、数字化化、多样样化、可可保存、可扩充充、可兼兼容的大大数据。这是一一种基于于科学技技术而产产生的、既具有有科学数数据的特特征又超超越于科科学数据据的、完完全不一一样的数数据。,2007年,已故故图灵奖奖获得者者吉姆格雷(JimGray)在题为为第四科学学研究范范式:密密集型数数据挖掘掘的演讲中中提到,科学经经历几千千年的历历史演变变形成了了四个关关键性的的科学范范式,第第四个就就是近几几年出现现的数据据挖掘或或eScience范式。,显然,从从第二个个研究范范式开始始都依赖赖于数据据的研究究。新的的研究范范式需要要新的数数据研究究方法,这对统统计学来来说既是是机遇又又是挑战战。,总结:之之前,我我们手中中的数据据量相对对不足,对数据据的研究究是“由薄变厚厚”,把“小”数据变“大”,而在“数据大爆爆炸”时代,我我们要做做的是把把数据“由厚变薄薄”,去冗分分类、去去粗存精精。大数数据时代代,将呈呈现出“一方面数数据很丰丰富、但但另一方方面信息息又很匮匮乏”的现象,迫使人人们对数数据分析析产生强强烈的需需求。,所以,大大数据分分析实际际上可以以理解为为两个过过程,一一是把数数据由大大变小的的过程,比喻为为物理过过程;二二是从处处理过的的数据中中提取价价值的过过程,比比喻为化化学过程程。,三、统计计学的新新发展大数据分分析,(一)大大数据分分析是数数据科学学赋予统统计学的的新任务务,目前,人人们对大大数据的的研究主主要是将将其作为为一种研研究方法法或一种种新的知知识发现现工具,还没有有把数据据本身作作为主要要的研究究目标。,大数据分分析的目目的就是是要通过过对历史史数据的的分析和和挖掘,科学总总结与发发现其中中蕴藏的的规律和和模式,并结合合源源不不断的动动态数据据去预测测事物未未来的发发展趋势势。如果果说从商商业的角角度看,大数据据要求我我们改变变数据思思维、重重视数据据资产、实现数数据价值值(数据据变现),那么么统计学学的任务务就是通通过大数数据分析析去帮助助实现这这个目的的。,对于统计计学来说说,开展展大数据据分析就就是积极极投身于于数据科科学研究究之中。,数据科学学(data science或dataology)一词早早在1960年就由彼彼得诺尔提出出。1996年,在日日本东京京召开的的题为“数据科学学,分类类和相关关方法”的分类国国际联合合会上,第一次次将数据据科学作作为会议议的主题题词。,2001年,美国国统计学学教授威威廉.S.克利夫兰兰首次将将数据科科学作为为一门独独立的学学科,认认为数据据科学是是统计学学领域扩扩展到与与以数据据作为先先进计算算对象相相结合的的部分,并建立立了数据据科学的的6个技术领领域。,2001年以后,国际科科技数据据委员会会,以及有关关学者创创办的了关于数数据科学学的刊物物,发表以以统计应应用方法法研究所所有与数数据有关关的成果果。2012年由springer出版集团团创办了了“EPJDataScience”。,可以预见见,数据据科学的的产生将将催生一一批新的的研究方方向,如如地理信信息科学学、生物物信息科科学、生生命组学学等。,数据科学学的重点点是数据据处理技技术问题题还是数数据分析析问题?,开展大数数据分析析、发展展数据科科学并不不是要否否定原来来的统计计分析方方法,而而是要补补充、完完善和创创新统计计分析方方法。事事实上,统计学学业已形形成的一一些思想想与方法法在大数数据分析析中仍有有用武之之地,只只是要求求统计学学者具有有更加广广阔的视视野,更更加重视视统计分分布背后后的知识识和规律律。,(二)大大数据分分析面临临的挑战战,对于习惯惯于结构构化数据据研究的的统计学学来说,大数据据分析显显然是一一种崭新新的挑战战。挑战战来自于于大数据据的复杂杂性、不不确定性性和涌现现性,其其中复杂杂性最为为根本。,复杂性是是大数据据区别于于传统数数据的根根本所在在,它主主要表现现为类型型复杂性性、结构构复杂性性和内在在模式复复杂性三三个方面面,从而而使得大大数据的的存储与与分析产产生多方方面的困困难。另另外,网网络大数数据通常常是高维维的。,复杂性必必然带来来不确定定性。大大数据的的不确定定性表现现为数据据本身的的不确定定性、模模型的不不确定性性和学习习的不确确定性,从而给给大数据据建模和和学习造造成困难难。,大数据的的不确定定性与传传统数据据的不确确定性有有何不同同?,是否存在在“可能世界界模型”?在一定的的结构规规范下将将数据的的每一种种状态都都加以刻刻画?,针对学习习的不确确定性,非参模模型方法法的提出出为自动动学习提提供了一一种思路路,但如如何分布布式、并并行地应应用到网网络大数数据的处处理上?,涌现性是是网络大大数据有有别于其其它数据据的关键键特性,是大数数据动态态变化、扩展、演化的的结果,表现为为模式的的涌现性性、行为为的涌现现性和智智慧的涌涌现性,其在度度量、研研判与预预测上的的困难使使得网络络数据难难以被驾驾驭。,模式的涌涌现性社会网络络模型的的变化,行为的涌涌现性有较大相相似性的的个体之之间容易易建立社社会关系系,使得得网络在在演化过过程中自自发地形形成相互互分离的的连通块块。,智慧的涌涌现性对来自大大量自发发个体的的语义进进行互相相融合和和连接而而形成通通用语义义,整个个过程随随着数据据的变化化而持续续演进。,总结:在在大数据据环境下下,传统统的高维维表达、结构描描述和群群体行为为分析方方法不能能准确表表示网络络大数据据在异构构性、交交互性、时效性性、突发发性等方方面的特特点,传传统的“假设-模型-检验”的统计计方法受受到了质质疑,而而从“数数据”到到“数据据”的第第四范式式还没有有真正建建立,急急需一个个新的理理论体系系来指导导,建立立新的分分析模型型。,(三)大大数据分分析的突突破口,大数据分分析涉及及三个维维度时间、空空间和数数据本身身,其中中时间维维度又包包含生命命周期、数据的的时间态态、流化化与增量量、时效效等元素素,空间间维度又又包含三三元空间间、粒度度、数据据传输与与迁移、数据空空间等元元素,数数据维度度则体现现为多源源、异质质、异构构。,如何从三三个维度度的整体体上对大大数据的的特性与与复杂性性进行深深入的解解析,系系统掌握握大数据据的不确确定性特特征,继继而构建建高效的的大数据据计算模模型,成成为了大大数据分分析的突突破口,具体表表现为以以下几个个方面:,首先,要要系统了了解大数数据的基基础性问问题。大大数据的的基础性性问题包包括:大大数据的的内在机机理大数据据的演化化与传播播规律、生命周周期,数数据科学学与社会会学、经经济学等等之间的的互动机机制,以以及大数数据的结结构与效效能的规规律性等等等。将将与计算算机科学学、统计计学、人人工智能能、数学学、社会会科学等等有关,离不开开对相关关学科领领域知识识与研究究方法的的借鉴。,同时,由由于大数数据往往往以独特特的、复复杂关联联的网络络形式出出现,因因此还必必须对大大数据背背后的网网络进行行深入的的分析,例如能能刻画出出大数据据背后网网络共性性的网络络平均路路径长度度、度分分布、聚聚集系数数、核数数、介数数等性质质和参数数,这是是开展复复杂网络络数据分分析的基基础。,其次,要要深入研研究大数数据的复复杂性规规律。包包括数据据的时间间规律、空间规规律和数数据本身身规律。再复杂杂的数据据也有规规律可循循。只有有掌握数数据的复复杂性规规律,才才能找到到大数据据分析的的切入口口,才能能理解大大数据复复杂模式式的本质质特征和和生成机机理,进进而简化化大数据据的表征征,指导导大数据据计算模模型和算算法的设设计。,就统计学学而言,就是要要研究大大数据在在时空维维度上的的数据分分布、内内在结构构、动态态变化和和相关相相联的复复杂性规规律,对对表现多多元变量量分布规规律的方方法加以以改进,关注大大数据处处理的可可扩展性性,探索索多型态态关联数数据之间间的多维维、异构构、隐性性的关联联特征,并基于于统计设设想和大大数据驱驱动相结结合的方方式去探探索大数数据复杂杂模式的的生成机机理及其其背后的的物理意意义,最最终形成成大数据据计算与与分析的的方法论论。,再次,要要科学度度量大数数据的复复杂性特特征。数数据分析析的前提提是研究究对象特特征的度度量与计计算,但但大数据据的复杂杂性导致致了大数数据分析析计算的的复杂程程度猛烈烈激增,单靠传传统的数数据计算算模式基基本不行行,亟需需建立面面向大数数据计算算分析的的复杂性性度量理理论,探探索大数数据高效效计算模模型和方方法。因因此,我我们要寻寻找科学学度量复复杂性特特征的方方法。,就统计学学而言,需要运运用各种种统计方方法剖析析异构关关联大数数据的复复杂性特特征的基基本因素素,以及及这些因因素之间间的内在在联系、外在指指标和度度量方法法,进而而研究基基于先进进计算技技术的数数据复杂杂性度量量模型,寻求近近似计算算理论和和优化算算法框架架,构建建寻找面面向计算算的数据据内核或或者数据据边界的的基本方方法。总总之,研研究有效效易行的的数据表表示方法法是开展展大数据据分析必必须解决决的技术术难题之之一。,第四,大大胆创新新大数据据的计算算模式。大数据据计算模模式即数数据密集集型计算算模式。面对大大数据,传统的的“假设设采样样验证证”的模模式已经经难以有有效分析析大数据据的内在在规律、提取其其蕴含的的真实价价值,因因为数据据的可计计算性与与可度量量性基础础已经发发生了很很大的变变化,需需要重新新定义和和构建。为此,需要突突破传统统的“数数据围绕绕机器转转”的计计算模式式,发展展以数据据为中心心的、推推送式的的大数据据计算理理论与模模式,设设计可行行的、有有利于深深度分析析的计算算算法。,就统计学学而言,需要研研究针对对大数据据的非确确定性理理论,突突破传统统的“独独立同分分布”假假设,在在探讨分分布式、流式算算法的基基础上,构建大大数据分分析的计计算框架架。总之之,要基基于数据据的智能能方法,着力研研究解决决复杂问问题的“海量数数据+简单逻辑辑”的方方法。,(四)需需要达成成的几点点共识,要把数据据处理技技术的突突破与统统计分析析方法的的创新相相结合。,要把碎片片化数据据处理与与整体统统计分析析相结合合。,要把大数数据分析析与小数数据研究究相结合合。,要把时空空维度和和数据维维度相结结合。,要把相关关关系的的发现与与因果规规律的研研究相结结合。,要把探索索性分析析与验证证性分析析、抽样样分析与与全数据据分析相相结合。,四、改变变统计思思维,统计思维维的变化化应该以一个永永恒不变变的主题题为前提提,那就就是通过过数据分分析揭示示事物的的真相,这个真真相就是是事物的的生存规规律、联联系规律律和发展展规律。也就是是说要以以数据背背后的数数据去还还原事物物的本来来面目,达到求求真的目目的。,首先,认认识数据据的思维维要变化化,从来源上上看,传统的的数据收收集具有有很强的的针对性性,数据据的提供供者大多多确定,身份特特征可识识别,有有的还可可以进行行事后核核对;,但大数据据通常来来源于物物联网,不是为为了特定定的数据据收集目目的而产产生,而而是人们们一切可可记录的的信号,并且身身份识别别十分困困难。从从某种意意义上讲讲,大数数据来源源的微观观基础是是很难追追溯的。,从类型上上看,传统数数据基本本上是结结构型数数据,格格式化、有标准准;,但大数据据更多的的是非结结构型数数据或异异构数据据,包括括了一切切可记录录、可存存储的标标识,多多样化、无标准准,并且且不同的的网络信信息系统统有不同同的数据据识别方方式,相相互之间间也没用用统一的的数据分分类标准准。而且且,现在在有的数数据库是是非关系系型的数数据库,不需要要预先设设定记录录结构。,结构化数数据,可用二二维表结结构来逻逻辑表达达实现的的数据,如数字字、符号号。可直直接计数数、计量量、计算算的数据据。特点点:先有有结构、再有数数据;,非结构化化数据,不方便便用数据据库二维维逻辑表表来表现现的数据据,包括括所有格格式的办办公文档档、文本本、图片片、XML、HTML、各类报报表、图图像和音音频/视频信息息等等,特点:先有数数据、再再有结构构;,半结构化化数据,介于完完全结构构化数据据和完全全无结构构的数据据(如声声音、图图像文件件等)之之间的数数据,例例如HTML文档。它它一般是是自描述述的,数数据的结结构和内内容混在在一起,没有明明显的区区分。,从量化方方式上看看,传统数数据的量量化处理理方式已已经较为为完善,但大数数据中大大量的非非结构化化数据如如何量化化、如何何从中提提取信息息、如何何与结构构化数据据对接是是一个崭崭新的问问题。,可以说,大数据据是杂乱乱的、不不规整、良莠不不齐的,但我们们不能因因此而回回避它、拒绝它它,只能能接纳它它,要将将统计研研究的对对象范围围从结构构型数据据扩展到到一切数数据,要要重新思思考数据据的定义义和分类类方法,并以此此为基础础发展和和创新统统计分析析的方法法。从某某种意义义上讲,没有无用用的数据据,只有有未被欣欣赏的数数据。,其次,收收集数据据的思维维要变化化,没有黏土土,如何何做砖?以往,找黏土土,投入入大而数数据量有有限;现现在,备备选“黏黏土”的的体量与与种类都都极大地地丰富,所要做做的最重重要工作作就是比比较与选选择。,由于数据据来源与与种类的的多样性性,以及及数据增增加的快快速性,我们在在享受数数据的丰丰富性的的同时也也面临这这样的困困境:电电子存储储能力能能否跟得得上数据据增加的的速度?如果自动动更新数数据,就就有可能能失去一一些宝贵贵的数据据信息,因此人人们不得得不有选选择地去去删除那那些不重重要的数数据。,如果说以以前有针针对地获获得数据据叫做收收集,那那么今后后有选择地地删除数数据就意意味着收收集。我们除除了继续续用传统统的方式式方法去去收集特特定需要要的数据据外,还还要善于于利用现现代网络络信息技技术去收收集一切切相关的的数据,并善于于从大数数据集中中进行再再过滤、再选择择。因此,我我们要做做好丢弃弃一部分分数据的的准备。问题在于于什么是是不重要要的数据据?该如如何过滤滤与选择择?,此外,大大的数据据库可能能需要将将信息分分散在不不同的硬硬盘或电电脑上,这样一一来,在在不能同同步更新新数据信信息的情情况下如如何选择择、调用用和匹配配数据又又是一个个问题。,因此,从从某种意意义上讲讲,大数据的的收集就就是识别别、整理理、提炼炼、汲取取(删除除)、分分配和存存储的过过程。,再次,分分析数据据的思维维要变化化,第一,统统计分析析过程从从“定性定量再定性”,变为“定量定性”。,第二,实实证分析析思路从从“假设验证”变为“发现总结”。,第三,统统计推断断分析从从“分布理论论概率保证证推断总体体”变为“实际分布布总体特征征概率判断断”。,伴随着上上述三大大变化,统计分分析评价价的标准准又该如如何变化化?,评价的标标准无非非两个方方面,一是可靠靠性评价价,二是是有效性性评价。,第四,统统计学如如何应对对大数据据?,(一)改改变总体体、个体体乃至样样本的定定义方式式,(二)改改变对不不确定性性的认识识,(三)建建立新的的数据梳梳理与分分类方法法,(四)强强化结构构化数据据与非结结构化数数据的对对接研究究,(五)转转变抽样样调查的的功能,(六)归归纳推断断法与演演绎推理理法并用用,(七)统统计技术术与云计计算技术术融合,结语:,数据创造造统计,流量创创新分析析!,由于各个个应用领领域的不不断变化化,特别别是数据据来源与与类型的的不断变变化,使使得统计计学还难难以成为为一门真真正成熟熟的科学学。,在数据分分析的世世界里,驾驭不不断扩展展的大数数据必将将成为统统计学今今后发展展的动力力。,谢谢!,
展开阅读全文