资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,中国大数据研究现状与发展,中美工程技术研讨会,报告人:,杨善林,2014,年,5,月,27,日,对大数据的认识,大数据的研究概况,大数据中的科学问题,大数据与管理决策,报告提纲,中国大数据研究现状与发展,实践先于理论,理论指导实践。,在提出大数据概念之前,实际上已有很多关于大数据的获取、存储、处理和利用方法的研究成果。这说明实践是先于理论的,当然深入的理论研究一定能够促进大数据应用实践更好更快的发展。,一 对大数据的认识,关于大数据的神奇传说,谷歌,通过观察人们在网上的搜索记,录,提前几周成功预测了,2009,年在,美国爆发的甲型,H1N1,流感。,埃齐奥尼利用大数据创立了一个机,票价格预测系统,准确度高达,75%,,,平均每张机票可节省,50,美元。,一 对大数据的认识,斯洛登事件。,2013,年,斯诺登揭露了美国正在实施的“棱镜”计划。通过大数据分析对全球实施监听,为安全部门先发制人的预防恐怖主义和危害美国利益的行为,提供了前所未有的可能。,IBM,智慧的分析洞察。每个月,全球发布,10,亿条,Twitter,信息和,300,亿条,Facebook,信息。预计到,2020,,总量增长约,44,倍。基于大数据的企业数据分析正成为,IBM,的利润增长。,一 对大数据的认识,大数据时代,中的主要观点:大数据引起的思维变革,在大数据时代进行抽样分析就像是在汽车时代骑马一样,我们分析数据会完全抛弃样本分析,而关注数据的总体。,即“样本,=,总体”。,在大数据时代,我们不再担心某个数据点对整套分析的不利影响,我们要做的就是要接受这些纷繁的数据并从中受益,而不再以高昂的代价消除所有的不确定性。,大数据时代对我们的生活,以及与世界交流的方式都提出了挑战,社会需要放弃它对因果关系的渴求,而仅需关注相关关系。,一 对大数据的认识,总之,我们需要改变我们的思维方式,使用我们能收集到的所有数据,而不仅仅是使用样本。我们不能再把精确性当成重心,我们需要接受混乱和错误的存在。另外,我们应该侧重于分析相关关系,而不再寻求每个预测背后的原因。,引自,Big Data:A RevolutionThat Will Transform How We Live,Work and Think,一 对大数据的认识,关于大数据的定义,1.,美国国家科学基金委(,NSF,)的定义,大数据是指由科学仪器、传感器、网上交易、电子邮件、视频、点击流和,/,或所有其它现在或将来可用的数字源产生的大规模、多样的、复杂的、纵向的和,/,或分布式的数据集。,这个定义指出了大数据是一类数据集,并指出了大数据现在和将来的数据来源,以及大数据具有大规模、多样性、复杂性、分布性、关联性等数据特征。,一 对大数据的认识,2.,麦肯锡公司(,McKinsey&Company,)的定义,大数据是一个大的数据池,其中的数据可以被采集、传递、聚集、存储和分析。目前,大数据是全球经济每个部门和功能的一部分。与固定资产和人力资本等其它重要的生产要素类似,没有数据,很多现代经济活动、创新和增长都不会发生,这正成为越来越普遍的现象。,这个定义指出大数据是一个大的数据集合,它与固定资产、人力资本一样,也是一种生产要素,并能支持现代经济增长和创新活动。因此,大数据研究的关键科学问题应该是大数据与经济增长和创新活动的关系。,一 对大数据的认识,3.IBM,公司的定义,可以用四个特征来描述大数据,即规模性(,Volume,)、高速性(,Velocity,)、多样性(,Variety,)和真实性(,Veracity,),这些特征相结合,定义了,IBM,所称的“大数据”。,这个定义显然也是把大数据定义为一种数据集合,而且这些数据具有规模性、高速性、多样性和真实性。所以,大数据研究所关心的科学问题就应该是对结构多样性的大数据能够进行高速存储和高速处理的技术。,一 对大数据的认识,4.,维基百科(,Wikipedia,)的定义,大数据是指规模庞大且复杂的数据集合,很难用常规的数据库管理工具或传统数据处理应用对其进行处理。其主要挑战包括数据抓取、策展、存储、搜索、共享、转换、分析和可视化。,显然这个定义是从大数据的处理方法和处理工具的视角来看待大数据的,根据这个定义,大数据研究应该围绕大数据的快速处理方法和软件工具的研发来展开,研究的目的就是要得到大数据的快速处理方法和非常规的软件工具。大数据始终在“大数据”和“非大数据”之间不断的转换。,一 对大数据的认识,从管理的角度看大数据,定义:大数据是一类能够反映物质世界和精神世界的运动状态和状态变化的信息资源,它具有决策有用性以及海量性、异构性、增长性、复杂性和可重复开采性,一般都具有多种潜在价值。,这个定义把大数据看做是一类资源,它具有决策有用性,对经济社会发展具有重要的潜在价值。按照大数据的资源观,大数据研究的关键科学问题应该包括大数据的获取方法、加工技术、应用模式以及大数据的产权问题、相关的产业发展问题和相应的法律法规建设问题。,一 对大数据的认识,大数据的来源和应用领域,大数据具有广阔的应用前景。数据驱动的决策由来已久。,数据,+,决策能力,=,决策。,生产制造、物流交通、商务过程、资源环境、教育文化、医疗卫生、社交信息、生命科学、天文地理、航空航天、政府部门、国家安全等领域既是大数据的来源又是大数据的应用领域。,一个应用可能对应多个来源。,一 对大数据的认识,大数据与物联网、云计算,物联网、云计算、大数据都是依托互联网并相互依存的有机整体,是信息技术的新发展。对大数据来说,物联网既是数据来源,又是数据用户,云计算则是大数据存储、处理的一种方式。随着物联网和云计算技术的发展,大数据应用和大数据产业一定能够更快的发展。,一 对大数据的认识,国际大数据研究状况,二 大数据研究概况,美国:,大数据研究与发展计划,(,2012,),主要任务:“通过收集庞大而复杂的数字资料,加速在科学、工程上发现的步伐,强化美国国土安全,转变教育和学习模式。利用大数据技术实现在科研教学、环境保护、工程技术、国土安全、生物医药等方面的新突破,”,英国:商业、创新和技能部宣布将注资,1.89,亿英镑用来发展大数据技术(,2013,),主要任务:“政府在计算基础设施方面投入巨资,加强数据采集和分析,吸引企业在这一领域的投资,从而在数据革命中占得先机。在本届议会期满前,开放有关交通运输、天气和健康方面的核心公共数据库,”,法国:,数字化路线图,(,2013,),主要任务:“在,2013,年投入,1150,万欧元,用于,7,个大数据市场研发项目,目的在于通过发展创新性解决方案,并将其用于实践,来促进法国在大数据领域的发展,”,日本:,新一轮,IT,振兴计划,(,2012,),主要任务:“在,2012,新一轮,IT,振兴计划中,将发展大数据作为国家战略层面提出,重点关注大数据应用技术,如社会化媒体等智能技术的开发、新医疗技术的开发、以及交通拥堵治理等公共领域的应用。,”,大数据与企业管理,2012 IBM Global CEO Survey,(调研,1700,多位来自全球,64,个国家的,CEO,)指出,业绩出众的企业能够访问更多数据,更善于挖掘出有意义的客户洞察。,73%,的,CEO,将对组织进行重大投资,以期从大数据中挖掘出更多的有用信息。,IBM,报告,http:/ 大数据研究概况,二 大数据研究概况,智能建筑与城市规划,环 境,能源与水资源,交 通,教 育,健康保健,社会事业,公共安全,政府和机构管理,我国大数据研究的投入,二 大数据研究概况,项目,数量,项目举例,国家重大科技专项,5,智能海量数据资源中心,智能海量数据资源应用服务研发,舆情分析与检测,973,计划,13,社交网络、脑机融合、智能感知、网络信息空间大数据,863,计划,5,中文搜索引擎,数字媒体处理与服务技术,大规模网络数据集成与挖掘技术,科技支撑计划(,2015,),2,生产性服务业,自主网络品牌电子商务,物联网,“,十二五,”,发展规划,3,海量数据存储、数据挖掘,图像视频智能分析,国家自然科学基金,面上项目,300,重点项目,20,重大项目,2,杰出青年基金,12,创新研究群体,4,商务管理,公共管理大数据,大数据与智能交通,二 大数据研究概况,大数据与健康卫生,二 大数据研究概况,大数据与社会治理,二 大数据研究概况,社会治理大数据是多维度的、鲜活的,能够对居民服务、社区维稳、重大事件或疫情预警发挥重大作用。大数据中蕴涵的丰富知识也会对民意民情调查、政策制定、政府决策提供更多的科学依据,为企业创造更多的商业机遇。,三 大数据中的科学问题,各警种共享数据,多维分析,情报挖掘,事件预警,案件串并分析,专题分析,公安数据,社会数据,互联网数据,数据管理,数据整合,数据仓库,数据服务,数据应用,应用访问,数据中心,情报中心,领导决策,网安技侦,服务平台,服务接口,权限管理,服务监控日志,数据源,(,1,)大数据的资源获取问题,大数据应用的首要步骤就是数据的获取问题。,大数据的来源是多方面的,既包括搜索引擎、社交网络和电子商务等互联网的产生的数据,也包括物联网、智能楼宇、智能交通、智慧城市、智慧地球等方式产生的数据。,有效获取各种方式产生的大数据是应用大数据和实现其价值的前提和基础。,三 大数据中的科学问题,目前,大数据掌握在大型企业或其它社会组织的手中,如谷歌、百度、淘宝等互联网公司,电网公司、电信公司、银行机构、政府部门等企事业单位。大数据是由很多用户产生的小数据组成的,而谁应该享有大数据的所有权或使用权,产品或服务的提供者还是用户?这是大数据产业发展需要明确界定和解决的问题。,通过界定大数据产权关系,可将大数据分类为:公共数据、部门数据和私人数据等。,三 大数据中的科学问题,(,2,)大数据的处理技术问题,大数据的加工处理需要一套完整的基础性处理技术系统,例如:多源异构大数据感知与融合、非结构化处理和可视化分析、近似和在线算法和体系结构设计、分布式实时计算等新一代信息技术以及超高维大数据的特征度量与抽样、异构大数据的统计推断体系、适用于噪声大数据的因果性挖掘等新一代数学与统计技术。,三 大数据中的科学问题,在基础处理技术之上,大数据的加工处理还需要应用驱动的处理技术。如为解决市场营销、商务智能、社会安全、舆情监控等方面问题,所需要的特定技术。,例如:对于社区管理大数据的处理,需要结合管理对象和管理主体的特征以及社区服务与管理的主要任务,研究社区服务与管理的语义标注与语义聚合技术、信息安全与隐私保护技术、多粒度知识发现与动态决策支持技术以及需求洞察与企业服务创新等。,三 大数据中的科学问题,(,3,)大数据的应用模式问题,大数据的主要是用来“预测”,而预测的目的是决策。那么,大数据理论与决策科学如何结合?,大数据理论与决策科学的结合可以分为三种方式:,(,1,)在决策科学的框架内来研究大数据中的知识挖掘问题(嵌入式应用);,(,2,)从大数据中挖掘出的知识与领域科学的共同作用(合作式应用);,(,3,)大数据引起决策科学的变革(主导式应用)。,三 大数据中的科学问题,三 大数据中的科学问题,(,4,)大数据的产业发展问题,大数据的产业链包括数据采集、存储、挖掘、管理与应用等环节,可以提供存储空间、计算能力、数据分析和数据增值等服务。,大数据产业链会促进原有相关产业的发展,如大型数据计算或存储管理、分布式并行计算的软硬件设备提供商等产业。,三 大数据中的科学问题,大数据产业链还会催生新的产业形成和发展,如以经营大数据为主要业务的大数据供应商、以提供基于大数据的信息服务为主要业务的大数据信息服务提供商等。,三 大数据中的科学问题,(,5,)大数据的政策法规问题,大数据产业的发展需要完善的政策和法规的支撑。,如在鼓励对大数据进行积极有效的开发和应用、对大数据所有权和使用权进行界定、保障大数据应用过程中的
展开阅读全文