资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,*,*,大数据,BIG DATA,一、,大数据的背景,一、大数据背景,信息自由之战,数据爆炸,数据帝国,数据治国,信息自由之战美国,信息之于民主,就如货币之于经济。,托马斯杰斐逊,第三任美国总统,美国三权分立,三权组织机构,宪法,立法,行政,司法,国会,参议院,众议院,总统,副总统,总统下属机构,行政部门,法院,联邦最高法院,州最高法院,基层法院,第四股力量(Fourth Estate),新闻和报纸,新闻自由、,言论自由、,知情权,1948年,美国报纸编辑协会成立“世界信息自由委员会”,约翰摩斯信息自由法,(担任美国国会议员25年,六朝元老、连选连任),1955年摩斯着手信息自由的立法工作以来,一系列列的法律层层叠加,不断完善,美国的信息自由最终形成了一个体系,这个体系也成了世界上许多国家制定信息自由法的模板,截止2006年,已有60多个国家实施了类似的法案。,信息自由法(Freedom of Information Act简称FOIA,也译作情报自由法),主要内容是规定民众在获得行政情报方面的权利和行政机关在向民众提供行政情报方面的义务:,第一、联邦政府的记录和档案原则上向所有的人开放,但是有九类政府情报可免于公开;,第二、公民可向任何一级政府机构提出查阅、索取复印件的申请;,第三、政府机构则必须公布本部门的建制和本部门各级组织受理情报咨询、查找的程序、方法和项目,并提供信息分类索引;,第四、公民在查询情报的要求被拒绝后,可以向司法部门提起诉讼,并应得到法院的优先处理。这项法律还规定了行政、司法部门处理有关申请和诉讼的时效。,奥巴马政府,政府的态度,:大国新政阳光是最好的防腐剂,建立一个透明开放 的政府。,政府的行动,:透明和开放的政府,放松对总统文件的管制,(公众可查阅),公开、发布信息,政府的思想,:依靠数据说话,政府领导人,:奥巴马,热爱高新科技,支持技术创新,信息的自由、公开,数据急速增长,如何收集、管理和分析?,以机器学习,数据挖掘为基础的高级数据分析技术,从数据到知识,从知识到行动,数据爆炸,数据帝国,what:什么是数据?,where:数据是从哪来的?,how:应对数据爆炸该如何做?,什么是数据?,数据是对信息数字化的记录,其本身并无意义,把数据放置到一定的背景下,对数字进行解释、赋予意义,则为信息。,例如:,“1.85”是一个数据,“奥巴马身高1.85米”是一条信息,数据的储存单位,2009年美国各行业数据存储量(拍字节),(1998年,联邦政府共拥有432所数据中心,专门负责各类数据的存储和维护工作。2010年,数据中心的总数跃升到2094所,翻了几倍),庞大的数据资产需要经费来支持,联邦政府1996年度IT预算180亿美元,2011年已经高达784亿美元。,这些投资中的一半以上,都用在了购买存储数据的硬件设备上。,这是一个不择不扣的数据帝国。,帝国形成的原因摩尔定律。,戈登.摩尔(Intel的创始人之一),其内容为:当价格不变时,集成电路上可容纳的晶体管数目,约每隔18个月便会增加一倍,性能也将提升一倍。换言之,每一美元所能买到的电脑性能,将每隔18个月翻两倍以上。这一定律揭示了信息技术进步的速度。,最小数据集Minimum Data Set,帝国的数据到底从何而来?海量的数据源头在哪里?,美国联邦政府的数据来源,当然首先缘于它各个部门的业务,工作,也就是业务数据。,大规模、系统地收集数据,在美国联邦历发展史上,有一个重,要的里程碑最小数据集,定义:最小数据集是指通过收集最少的数据,,最好地掌握一个研究对象所具有的特点,或一件事情,一份工作所处的状态,其核,心是针对被观察的对象建立一套精简实用,的数据指标。,源于:医疗领域,出院病人最小数据集,病人都要付钱医疗账单最小数据集,出台统一的数据格式医疗保险和索赔最小数据集,在医疗领域迅速被推广,几乎每年都有新的最小数据集被定义。,眼科,眼科,皮肤科等等医疗服务的方方面面各种各样,特定的最小数据集,发展:,由于不同的组织之间信息交换的需要,各个业务部门之间都建立了标准的“数据接口”,从此彼此“数据”相连。,最小数据集是业务管理过程中最重要的数据指标。,有些最小数据集,甚至直接被引用,成为信息管理系统的数据结构。,2011年,美国联邦政府已经拥有1万多个独立的信息管理系统。,几乎每一项业务,每一个新的立法、新的计划,都会有一个数据库和信息管理系统与之对应。,普适计算:万事万物,凡存在皆联网,凡联网皆计算。,人类的计算方式:,主机型计算阶段很多人共享一台大型机,个人型计算阶段每个人都拥有一台电脑,普适计算阶段广泛的部署微小的计算设备。,传感器,微小的计算设备就是传感器。,例:,2009年,美国国家海洋与大气管理局建立了一个覆盖全美海岸、,从浅水到深水的、精确的海浪监测系统。在近海、外大陆架、,内大陆架和沿海共架设了296个传感器。这些传感器以分秒为,单位,将数据源源不断地实时传回到国家海洋局,常将传感器的功能与人类5大感觉器官相比拟:光敏传感器视觉声敏传感器听觉气敏传感器嗅觉化学传感器味觉,政府的三种数据源,政府应对数据爆炸颁布的法案:,信息自由法可以公开数据,阳光政府法必须公开数据,电子信息自由法计算机数据公开,数据源大数据,大小超出传统意义上的尺度,一般的,软件工具已经难以捕捉、存储、管理,和分析的数据。没有统一的定义。,大数据的特点:,大知识、大科学、大利润、大发展。,数据治国,每一个机构和部门都要制定一个应对大数据的战略,“数据驱动的管理方法Data-Drivern Management,用数据决策、管理、创新。,数据和信息是执法工作当中制定战略和决策的基础,循数管理三部曲:收集、分析、发布,数据收集,建立收集网络,保证数据质量,数据分析,确定存在问题,研究新的政策,评估政策绩效,数据发布,接受社会监督,鼓励民间介入,推动政策复制,调动政策竞争,数据可以用来打假,数据挖掘技术可以提高打假效率,为国家节省开支。,新的数据统计分析技术逐步广泛应用于环境,交通,医疗,治安管理,金融,商务等各个领域。,数据收集,建立收集网络,保证数据质量,数据分析,确定存在问题,研究新的政策,评估政策绩效,数据发布,接受社会监督,鼓励民间介入,推动政策复制,调动政策竞争,二、数据开放平台Data.gov,专门为联邦政府建立的一个统一的数据开放的,门户网站,全面开放政府拥有的公共数据,。,主要目的:,1.把政府推向前所未有的开放高度,巩固国家民主,,2.提高政府的效率和效能。,3.通过鼓励创新,上数据走出政府,得到更多的创新运用。,Data.gov上线同一天,美国阳光基金会宣布设立,25000美元的奖金,举办程序员公共数据开放大赛。,参赛作品必须使用Data.gov开放的数据,可以是数,据的分析程序,可以是数据可视化的应用,还可以是社交,网站和智能手机的查件。,Data.Gov初次上线只开放了47组数据,但三个月内,阳光,基金会却收到了47个新的开发应用程序。,大量的“互动”使Data.gov的功能不断完善,先后加入了,数据的分级评定、高级搜索、用户交流以及和社交网站互动,等等新的功能。,2009年12月8日开放政府的指令命令各个联邦部门必须,在45天之内,在Data.gov上至少开放3项高价值数据。,(上线的第一天受到了210万的点击,两个月创下了2000多万次的访问总量。),DATA AND TOOLS,候机经济学:航班延误分析系统 FlyOnTime.us,用户可以看到不同天气,不同日期,不同时段、不同航空公司、不同航班等各种条件下的飞机是否准时以及平均延误时间的数据明细。,数据混搭器,DataMasher,Data.Gov成果,截止2011年12月,仅仅在Data.gov上,就汇集了1140个应用程序和软件工具、85个手机应用查件,其中,有近300个是由民间的程序员、公益组织等社会力量自发开发的。,2010年,Data.Gov开放的数据总数达到了27万项,2011年12月,共开放原始数据3721项,地理数据386429项。,开放数据时一石三鸟,不仅服务了大众,刺激经济,还调动了大众创新,为政府节省了软件开发的开支。,三、业界发展动态,商务智能,大趋势,云计算,商务智能指利用数据仓库、数据挖掘技术对客户数,据进行系统地储存和管理,并通过各种数据统计分析,工具对客户数据进行分析,提供各种分析报告,如客,户价值评价、客户满意度评价、服务质量评价、营销,效果评价、未来市场需求等,为企业的各种经营活动,提供决策信息。,商务智能,数据仓库 Data Warehouse,数据仓库的诞生:,轨迹的起点,计算机,通过二进制,解决了数据的传送问题。,关系数据库,解决了数据的快速组织、存储和读取,1.累积了大量的数据(仅仅查询,没有分析),2.,决策支持系统与运营信息系统分离,3.为了解决数据集成问题,数据仓库诞生,4.以数据分析、决策支持位目的来组织储存数据,数据仓库是商务智能的依托,是对海量数据库进行分析的核心物理构架,是,一种格式一致的多源数据存储中心。数据源可以来自多个不同的系统,如企业内,部的财务系统、客户管理系统、人力资源系统,甚至是企业外部系统。,数据仓库的物理结构出现以后,一系列的产业链也逐步形成:,ETL,Extraction Transformation Load,ETL就是将数据按统一的格式提取出来,然后再转化,集成,载入数据仓库,的工具。,联机分析,Online Analytical Processing,联机分析也称多维分析,本意是把分立的数据库“相联”,进行多维的分析。,“维”是联机分析的核心概念,指的是人们观察事物、计算数据的特定角度。,可以从任意的维度交叉和细分问题,用户能根据自己的需要,随时创建“万维”,动态报表。,数据挖掘Data Mining,数据仓库、联机分析技术的发展和成熟,为商务智能奠定了框架,但真正赋,予“智能”生命的是它的下一条产业链:数据挖掘。,是指通过特定的计算机算法对大量的数据进行自动分析,从而揭示数据之间,的关系,模式和趋势,为决策者提供新的知识。,如果说联机分析是对数据的一种探测,数据挖掘则是对数据进行开采,发现,数据之下的历史规律,对未来进行预测。,尿布和啤酒的例子:,沃尔玛是全世界最大的零售商,拥有8400多家分店,200多万雇员2010,年,收入突破了4000亿美元,超过了很多国家的GDP总值。,拥有世界上数一数二的数据仓库,是最早应用数据挖掘技术的企业之一。,在一次例行的数据分析之后,发现跟尿布搭配在一起购买最多的商品竟然是,啤酒。经过调查:一些年轻的爸爸经常要到超市去购买婴儿尿布,有30%到,40%的新爸爸会顺便买一些啤酒来犒劳自己。随后沃尔玛将两者捆绑销售,销,量双双增加。,数据可视化Data Visualization,数据可视化是指以图形、图像、地图、动画等更为生动、易为理解的方式来展现数据的,大小,诠释数据之间的关系和发展的趋势,以期更好地理解、使用数据分析的结果。,安斯科姆四重奏,X1=X2=X3,X4=8,X1,X2,X3和X4的平均值等于9,其方差等于10,Y1,Y2,Y3和Y4的平均值等于7.50,其方差等于3.75,4组数据都符合线性回归:y=3+0.5x,也就是说:4组数据中,X和Y之间的关系是相同的。个别数据偏离可以视为随机产生的干扰。,当我们用散点图标识后,面对图形,就会发现统计学“欺骗”了我们,大趋势,数据开放的舰队已经形成,随着Data.gov上开放的数据越来越多,美国联邦政府开始在州和地方政,府的层面上得到追随和响应。2009年先后有31个州,13个大城市先后推,出了自己的Data.gov。,2010年11月,美国商业部、内务部共同组织了第一次开放政府数据的国,际会议。30多个国家参加了会议。,2011
展开阅读全文