大数据与统计ppt课件

上传人:文**** 文档编号:241044222 上传时间:2024-05-27 格式:PPT 页数:56 大小:6.51MB
返回 下载 相关 举报
大数据与统计ppt课件_第1页
第1页 / 共56页
大数据与统计ppt课件_第2页
第2页 / 共56页
大数据与统计ppt课件_第3页
第3页 / 共56页
点击查看更多>>
资源描述
1大 数 据 与 统 计张芃国家统计局统计资料管理中心1大 数 据 与 统 计张芃2大数据与统计2大数据与统计3大数据来了联合国:2012年,大数据促发展:挑战与机遇OECD研究报告:使用大数据做决策美国2010年:规划数字化的未来 2012年:Big Data is a Big Deal2013年:实现政府信息公开化和机器可读化总统令中国2012年:中国通信学会大数据专家委员会大数据发展战略3大数据来了联合国:2012年,大数据促发展:挑战与机遇4什么是大数据从技术角度看:1KB:2101MB:2201GB:2301TB:2401PB:2501EB:2601ZB:2701YB:2801BB:2904什么是大数据从技术角度看:5从概念看:维基百科:“大数据”是由数量巨大、结构复杂、类型众多数据构成的数据集合,是基于云计算的数据处理与应用模式,通过数据的整合共享、交叉复用形成的智力资源和知识服务能力。特点:6个VVolume:数据量大Variety:数据类型多Velocity:处理速度快Value:应用价值大Vender:获取与发送的方式自由灵活Veracity:真实准确性5从概念看:维基百科:“大数据”是由数量巨大、结构复杂、类型大数据是对海量信息进行分析,从而收集有价值的见解、发现规律和预言复杂问题答案的技巧与科学。大数据是对海量信息进行分析,从而收集有价值的见解、发现规律和7从特征看:样本=总体接受不精确相关关系更重要7从特征看:样本=总体8对中国统计而言,大数据并不新鲜所谓“大数据”不过是 全面统计的理念与方法在信息化时代的升华 是成熟了的电子商务与数据挖掘技术相结合的产物是统计分析与预测在电子化、信息化、网络化社会的新实践8对中国统计而言,大数据并不新鲜所谓“大数据”不过是 全面统9大数据的价值对大数据的掌握程度可以转化为经济价值的来源大数据时代已经撼动了世界的方方面面核心思想:用规模剧增来改变现状9大数据的价值对大数据的掌握程度可以转化为经济价值的来源10为什么会出现大数据计算机技术提高数据采集自动化数据存储能力倍增以计算机技术为基础的 数据应用进程的历史推动10为什么会出现大数据计算机技术提高11翱翔翱翔化蝶化蝶破茧破茧结蛹结蛹蚕动蚕动起源起源数据应用的前世今生数据应用的前世今生11翱翔化蝶破茧结蛹蚕动起源数据应用的前世今生12起源起源从数据到知识的挑战和跨越从数据到知识的挑战和跨越1946年人类历史上第一台电子计算机在美国费城问世。计算机的主要设计者冯诺依曼被后世称为“计算机之父”。冯诺依曼12起源从数据到知识的挑战和跨越1946年冯诺依曼13从数据到知识的挑战和跨越从数据到知识的挑战和跨越赫伯特西蒙1947年卡内基梅隆大学的赫伯特西蒙开始研究决策支持系统,这是现代数据应用概念最早的起源和起点。13从数据到知识的挑战和跨越赫伯特西蒙1947年14结蛹结蛹数据仓库之厚积薄发数据仓库之厚积薄发埃德加科德1970年IBM研究员埃德加科德发明了关系型数据库,解决了快速组织、存储和读取数据的问题,被誉为“关系型数据库之父”。14结蛹数据仓库之厚积薄发埃德加科德1970年15数据仓库之厚积薄发数据仓库之厚积薄发1988年为解决不同运营系统的数据集成问题,IBM的两名研究员BarryDevlin和PaulMurphy创造性的提出“数据仓库”的概念,但没有进一步提出实际的架构和设计。Barry DevlinPaul Murphy15数据仓库之厚积薄发1988年Barry DevlinPa16数据仓库之厚积薄发数据仓库之厚积薄发比尔恩门1992年比尔恩门第一次给出了数据仓库的清晰定义和操作性很强的实战法则,真正拉开了数据仓库走向大规模应用的序幕。比尔恩门被誉为“数据仓库之父”,他强调数据的一致性,主张由顶至底的构建方法。16数据仓库之厚积薄发比尔恩门1992年17数据仓库之厚积薄发数据仓库之厚积薄发拉尔夫金博尔1996年斯坦福大学博士,拉尔夫金博尔出版数据仓库的工具,认为务实的数据仓库应该从下往上。他认同了比尔恩门对于数据仓库的定义,却在具体的构建方法上和他分庭抗礼。17数据仓库之厚积薄发拉尔夫金博尔1996年18蚕动蚕动联机分析之惊艳联机分析之惊艳埃德加科德1993年发明关系型数据库的埃德加科德再立新功,他立足数据仓库的新基础,详尽的阐述了构建联机分析的十二条原则。18蚕动联机分析之惊艳埃德加科德1993年19破茧破茧数据挖掘之智能生命的产生数据挖掘之智能生命的产生德斯纳1989年德斯纳提出了数据应用的概念和定义,强调了数据应用是一系列以事实为支持,辅助决策的技术和方法的集合,获得了业界的广泛认同。19破茧数据挖掘之智能生命的产生德斯纳1989年20化蝶化蝶可视化信息的华丽上演可视化信息的华丽上演弗罗伦斯南丁格尔1855年弗罗伦斯南丁格尔把克里米亚战争中战斗死亡和非战斗死亡的士兵数量制作成图表。这份视觉效果强烈的图表,催生了一座医院,改变了一个制度。20化蝶可视化信息的华丽上演弗罗伦斯南丁格尔1855年21可视化信息的华丽上演可视化信息的华丽上演奥巴马2010年3月,奥巴马任命专人运用“数据可视化”的技术推进联邦政府专项资金使用情况的透明度。21可视化信息的华丽上演奥巴马2010年22大数据时代对统计将产生怎样的影响非精准化非结构化非样本化非滞后性22大数据时代对统计将产生怎样的影响非精准化统计如何应对大数据时代理念革命化 采集自动化 存储规模化 挖掘深度化 分析技术化 展现可视化 发布即时化 人才复合化统计如何应对大数据时代理念革命化24理念革命化:思维观念的改变真的那么重要吗?数据的价值在哪里?数据需要精准码?如何采集数据?指标体系重要吗?因果关系还是相关关系?统计需要预测吗?24理念革命化:大数据与统计ppt课件26经济总量经济发展的先行指标和指示器全国GDP与CRI变动趋势分析26经济总量经济发展的先行指标和指示器全国GDP与CRI变动27经济总量经济发展的先行指标和指示器全国财政收入与CRI变动趋势分析27经济总量经济发展的先行指标和指示器全国财政收入与CRI变28采集自动化:文字变成数据方位变成数据沟通变成数据一切事物变成数据28采集自动化:文字变成数据什么意思?真可以!过去我喜欢一个人 现在我喜欢一个人大数据与统计ppt课件30存储规模化:在过去50年中,数字存储成本大约每两年削减一半,而存储密度则增加了5000万倍。30存储规模化:31挖掘深度化:数据挖掘:是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。是通过分析每个数据,从大量数据中寻找其规律的技术。31挖掘深度化:数据挖掘:是指从数据库的大量数据中揭示出隐含32l数据挖掘步骤:数据准备:从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集寻找规律:用某种方法将数据集所含的规律找出来结果展示:尽可能以用户可理解的方式(如可视化)将找出的规律表示出来32数据挖掘步骤:数据准备:从相关的数据源中选取所需的数据并33l数据挖掘的技术基础:人工智能机器学习模式识别统计学数据库可视化技术33数据挖掘的技术基础:人工智能34l数据挖掘的任务:关联分析聚类分析分类分析异常分析特定群组分析演变分析34数据挖掘的任务:关联分析35分析技术化:现实:简单的图表、数据对比、数字文字化大数据时代:数字工具、数学模型、机器智能35分析技术化:现实:简单的图表、数据对比、数字文字化36GDP、财政收入与企业注册资本之间的线性关系示意图经济总量主体发展与经济社会发展的关联36GDP、财政收入与企业注册资本之间的线性关系示意图经济总37展现可视化:数据可视化:是指将大型数据集中地以图形、图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。37展现可视化:数据可视化:是指将大型数据集中地以图形、图像38数据可视化的技术基础:几何技术像素技术图标技术图层技术图像技术分布式技术统计技术38数据可视化的技术基础:几何技术39数据可视化的基本思想:依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识利用人类感觉系统的广阔带宽,来解释错综复杂的过程、以及来源多样的大型数据集合的内在规律39数据可视化的基本思想:依据数据及其内在模式和关系,利用40数数据利用的技据利用的技术发展展历程程实际也是价也是价值探求的摸索探求的摸索历程程数据库数据仓库OLAP联机分析技术数据挖掘可视化展现价值应用统计分析GIS技术40数据利用的技术发展历程实际也是价值探求的摸索历程数据库数4120122012年奥巴马政府预算开支的可视化展示年奥巴马政府预算开支的可视化展示一眼就可以看出,赤字约占美国总支出的1/3,个人所得税是美国政府最大的财政来源,而国防支出是其最大的支出。(图片来源:华盛顿邮报,2010年2月1日)412012年奥巴马政府预算开支的可视化展示一眼就可以看出42左边为强制性开支,右边为自主性开支。强制开支中最大的圆为医疗保险和医疗补助,其为绿色,表示较去年增加了,鼠标停留处显示其大小为1.18亿,较去年增加了8.4,是强制性开支中最大的一块。(图片来源于网络)20132013年奥巴马政府预算开支的可视化展示年奥巴马政府预算开支的可视化展示42左边为强制性开支,右边为自主性开支。强制开支中最大的圆为43多种直观的图表展示方式43多种直观的图表展示方式44示例示例示例示例44示例示例45示例示例示例示例45示例示例464647整体分布47整体分布48GIS(地理信息分析系统)市场主体3D分析48 GIS(地理信息分析系统)市场主体3D分析 49发布即时化:美国麻省理工学院承担的一项“十亿价格项目”(Billion Price Project)是基于学术研究方法对全世界海量网上零全世界海量网上零售价格售价格进行价格指数计算为判断通胀趋势提供信息每天实时实时收取5050万条万条互联网上的商品信息,是美国政府统计收集的5 5倍倍每日网上价格指数每日网上价格指数 Daily Online Price Index49发布即时化:美国麻省理工学院承担的一项“十亿价格项目”(50基于淘宝网、天猫网、支付宝等网络平台的数据编制大体反映国内网络零售渠道的一般物价变动。包含价格指数系列和实物交易量指数系列分为九大基本分类指数权重为成交金额的比例采用链式加权的拉氏指数法计算,并逐级计算淘宝网络零售价格指数淘宝网络零售价格指数 ISPI50基于淘宝网、天猫网、支付宝等网络平台的数据编制淘宝网络零51上海钢联中国大宗商品价格指数与国家统计局PPI、CPI走势对比图 作为中国领先的大宗商品咨询平台,上海钢联电子商务股份有限公司通过其资讯采集系统,编制了上海钢联中国大宗商品价格指数。它以产值作为权重,同时考虑在地区因素影响基础上,对9大类行业的基础产品价格数据进行处理合成而得。51上海钢联中国大宗商品价格指数与国家统计局PPI、CPI走52人才复合化:谷歌首席经济学家哈尔.范里安:“数据非常之多而且具有战略重要性,但真正缺少的是从数据中提取价值的能力。这也就是为什么统计学家、数据库管理者和掌握机器理论的人是真正了不起的人。”52人才复合化:谷歌首席经济学家哈尔.范里安:“数据资料中心怎么办统计资料的大数据中心统计网络的大数据中心统计服务的大数据中心统计历史的大数据中心资料中心怎么办统计资料的大数据中心正确认识大数据重视非结构化不等于不要结构化,而是要 做到从非结构化到结构化接受不准确和混杂不等于不要准确性强调总体、全数据不等于蔑视或取消抽样强化相关分析不等于不要因果分析大数据分析得出的结论也是有偏的正确认识大数据重视非结构化不等于不要结构化,而是要 做到55数数相连,数数相通经济数社会数人口数,数数相连过去数现在数未来数,数数相通55数数相连,数数相通56用 大数据 促进经济社会科学发展谢谢!56用 大数据 促进经济社会科学发展谢谢!
展开阅读全文
相关资源
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!