大数据时代下的数据挖掘-简易课件

上传人:txadgkn****dgknqu... 文档编号:242610316 上传时间:2024-08-29 格式:PPT 页数:33 大小:577.30KB
返回 下载 相关 举报
大数据时代下的数据挖掘-简易课件_第1页
第1页 / 共33页
大数据时代下的数据挖掘-简易课件_第2页
第2页 / 共33页
大数据时代下的数据挖掘-简易课件_第3页
第3页 / 共33页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,大数据时代,生活、工作与思维的大变革,Living, working and thinking big changes,大数据时代 生活、工作与思维的,0,引言,大数据开启了一次重大的时代转型。就想望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄势待发,一场生活、工作与思维的大变革,0 引言 大数据开启了一次重大的时代转型。就想望远,引言,一场生活、工作与思维的大变革,大数据,变革公共卫生,大数据,变革商业,大数据,变革思维,大数据,开启重大的时代转型,预测,大数据的核心,大数据,大挑战,引言一场生活、工作与思维的大变革大数据,变革公共卫生,什么是大数据,2009,年,甲型,H1N1,流感在全球爆发传播,为了发现和控制疫情,各国政府和卫生相关部门付出了巨大努力,但得到的数据仍然滞后一两周,而,Google,对人们的搜索的历史记录进行处理,建立合理的数学模型后,得到的预测结果与官方的数据,相关性高达,97%,,能够立刻判断出流感是从哪里传播出来的,没有一两周的滞后。,Google,处理了,5000,万条,历史记录、,4.5,亿个,不同的数学模型。,什么是大数据2009年,甲型H1N1流感在全球爆发传播,为了,什么是大数据,Farecast,是一个对机票价格进行预测的公司,帮助消费者抓住最佳购买机票的时机,使乘客节省很多钱。,最初预测系统建立在,41,天之内的,12000,个价格样本基础上,数据是从旅游网站上抓取的,如今已经拥有超过,2000,亿,条飞行记录。,系统只,推测,机票的价格何时最便宜,,不关心是什么原因,导致的价格下降。,Farecast,Bing,什么是大数据Farecast是一个对机票价格进行预测的公司,,大数据的特性,大数据,的特性,更关注,相关性,主要用,于预测,数据量,巨大,实时性,要求高,大数据的特性大数据 更关注 主要用 数据量 实时性,目录,01,大数据时代的思维变革,02,大数据时代的商业变革,03,大数据时代的管理变革,目录01大数据时代的思维变革02大数据时代的商业变革03大数,一、大数据时代的思维变革,一、大数据时代的思维变革,一、大数据时代的思维变革,更多,“更多”,不是随机样本,而是全体数据,当数据处理技术已经发生翻天覆地的变化时,在大数据时代进行抽样分析就像在汽车时代骑马一样。一切都改变了,我们需要的是所有的数据,“样本总体”。,让数据“发声”,小数据时代的随机采样,最少的数据获得最多的信息,全数据模式,样本总体,一、大数据时代的思维变革更多“更多”不是随机样本,而是,一、大数据时代的思维变革,更杂,“更杂”,不是精确性,而是混杂性,执迷于精确性是信息缺乏时代和模拟时代的产物。只有,5%,的数据是有框架且能适用于传统数据库的。如果不能接受混乱,剩下,95%,的非框架数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。,允许不精确,大数据的简单算法比小数据的复杂算法更有效,纷繁的数据越多越好,混杂性,不是竭力避免,而是标准途径,新的数据库设计的诞生,一、大数据时代的思维变革更杂“更杂”不是精确性,而是混,一、大数据时代的思维变革,更好,“更好”,不是因果关系,而是相关关系,知道“是什么”就够了,没必要知道“为什么”。在大数据时代,我们不必非得知道现象背后的原因,而是要让数据自己“发声”。,关联物,预测的关键,“是什么”,而不是“为什么”,改变,从操作方式开始,大数据,改变人类探索世界的方法,一、大数据时代的思维变革更好“更好”不是因果关系,而是,二、大数据时代的商业变革,二、大数据时代的商业变革,二、大数据时代的商业变革,数据化,“数据化”,一切皆可“量化”,大数据发展的核心动力来源于人类测量、记录和分析世界的渴望。信息技术变革随处可见,但是如今信息技术变革的重点在“,T,”(技术)上,而不是在“,I”(,信息)上。现在,我们是时候把聚光灯打向“,I,”,开始关注信息本身了。,数据,从最不可能的地方提取出来,数据化,不是数字化,量化一切,数据化的核心,当文字变成数据,当方位变成数据,当沟通成为数据,一切事物的数据化,二、大数据时代的商业变革数据化“数据化”一切皆可“量化,二、大数据时代的商业变革,价值,“价值”,“取之不尽,用之不竭”的数据创新,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。,数据创新,1,:数据的再利用,数据创新,2,:重组数据,数据创新,3,:可扩展数据,数据创新,4,:数据的折旧值,数据创新,5,:数据废气,数据创新,6,:开放数据,给数据估值,二、大数据时代的商业变革价值“价值”“取之不尽,用之不,二、大数据时代的商业变革,角色定位,“角色定位”,数据、技术与思维的三足鼎立,微软以,1.1,亿美元的价格购买了大数据公司,Farecast,,而两年后谷歌则以,7,亿美元的价格购买了给,Farecast,提供数据的,ITA Software,公司。如今,我们正处在大数据时代的早期,思维和技术是最有价值的,但是最终大部分价值还是必须从数据本身来挖掘。,大数据价值的,3,大构成,大数据掌控公司,大数据技术公司,大数据思维公司和个人,全新的数据中间商,专家的消亡与数据科学家的崛起,大数据,决定企业的竞争力,二、大数据时代的商业变革角色定位“角色定位”数据、技术,三、大数据时代的管理变革,三、大数据时代的管理变革,二、大数据时代的管理变革,风险,“风险”,让数据主宰一切的隐忧,我们时刻都暴露在“第三只眼”之下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“,TA,”,还有我们的社交关系网。,无处不在的“第三只眼”,我们的隐私被二次利用了,预测与惩罚,不是因为“所做”,而是因为“将做”,数据独裁,挣脱大数据的困境,二、大数据时代的管理变革风险“风险”让数据主宰一切的隐,二、大数据时代的管理变革,掌控,“掌控”,责任与自由并举的信息管理,当世界开始迈向大数据时代时,社会也将经历类似的地壳运动。在改变人类基本的生活与思考方式的同时,大数据早已在推动人类信息管理准则上重新定位。然而,不同于印刷革命,我们没有几个世纪的时间去适应,我们也许只有几年时间。,管理变革,1,:个人隐私保护,从个人许可到让数据使用者承担责任,管理变革,2,:个人动因,VS,预测分析,管理变革,3,:击碎黑盒子,大数据程序员的崛起,管理变革,4,:反数据垄断大亨,二、大数据时代的管理变革掌控“掌控”责任与自由并举的信,结 语,正在发生的未来,大数据并不是一个充斥着算法和机器的冰冷世界,人类的作用依然无法被完全替代。大数据为我们提供的不是最终答案,只是参考答案,帮助是暂时的,而更好的方法和答案还在不久的未来。,结 语正在发生的未来大数据并不是一个充斥着算,大数据时代下的数据挖掘,大数据时代下的数据挖掘,Contents,数据挖掘简介,1,数据挖掘分类,2,成功案例,3,总结与展望,4,Contents数据挖掘简介1数据挖掘分类2成功案例3总结与,数据挖掘简介,产生背景,随着数据库技术的飞速发展,快速增长的海量数据收集、存放在大量数据储存库中,理解他们已经远远超出人的能力,数据坟墓,难得再访问的数据档案,数据丰富,但信息缺乏,数据挖掘简介产生背景,如何利用大量数据,如何利用大量数据,数据挖掘定义,从,大量的,、不完全的、有噪声的、随机的数据中,提取,含在其中的、人们事先不知道的、有用的,信息和知识的过程,。,功能的广义观点:从存放在数据库、数据仓库或其他信息库中的大量数据中发现知识的过程,数据挖掘是一个新兴、交叉学科领域,数据挖掘定义从大量的、不完全的、有噪声的、随机的数据中提取含,演变历程,数据,仓库,提取信息和知识,数据,挖掘,数据库,原始,文件,原始文件处理,纸张,界面、查询,硬盘,联机分析处理,各个数据库,各种媒体,20,世纪,60,年代前,20,世纪,60,年代,20,世纪,80,年代,现在,演变历程数据 提取信息和知识数据数据库原始文件处理纸张,数据挖掘受多学科的影响,数据挖掘,B,E,C,D,A,统计学,数据库技术,信息科学,其他学科,机器学习,数据挖掘受多学科的影响数据挖掘BECDA统计学数据库技术信,数据挖掘步骤,结果解释,和评估,数据挖掘,算法执行,数据收集,和与处理,问题,定义,数据挖掘步骤结果解释数据挖掘数据收集问题,数据挖掘分类,离群点,分析,分类,分析,聚类,分析,关联,分析,时间,序列,数据挖掘,数据挖掘分类离群点分类聚类关联时间数据挖掘,分类分析,:找出描述和区分数据类或概念的模型,以便能够使模型预测未知的对象类,常用方法:分类规则;决策树;神经网络;,聚类分析,:根据最大化类内部的相似性、最小化类之间的相似性的原则进行聚类或分组,常用算法:,K-MEAMS,;分层凝聚发;估算最大值法,关联分析,:发现数据库中不同项之间的联系,常用方法:,Apriori,;,MAQA;IUA;,分类分析:找出描述和区分数据类或概念的模型,以便能够使模型预,时间序列分析,:描述行为随时间变化的对象的规律或趋势,并对其建模,匹配方法:,ARMA,模型,离群点分析,:检测和分析离群点,离群点:与数据的一般行为或模型不一致的点,大数据时代下的数据挖掘-简易课件,成功案例,啤酒加尿布,地点:沃尔玛在美国加州的某连锁店,起因:每天销售信息和顾客基本情况的数据库中发现购买婴儿尿布的顾客多是男性,而且往往也同时购买啤酒,经过:重新布置货架,把啤酒类商品布置在婴儿尿布货架附近,并在两者之间放上土豆之类的佐酒小食品和男性生活用品,结果:上述几种商品销量大增,成功案例啤酒加尿布,总结与展望,现状:作为一个新兴的研究领域,数据挖掘已经取得了广泛和重大进展。应用到众多领域,出现了大量的商品化数据挖掘系统,发展方向:对现有方法进一步改进,研究发展数据挖掘语言的标准化,可视化方法和处理复杂数据类型的新方法,目前面临困难:成功案例少,中小企业需求少,人才稀缺。,总结与展望现状:作为一个新兴的研究领域,数据挖掘已经取得了广,Thank You !,Thank You !,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!