第1章-《数据挖掘》PPT绪论课件

上传人:1ta3****9ta1 文档编号:244075640 上传时间:2024-10-02 格式:PPTX 页数:34 大小:3.03MB
返回 下载 相关 举报
第1章-《数据挖掘》PPT绪论课件_第1页
第1页 / 共34页
第1章-《数据挖掘》PPT绪论课件_第2页
第2页 / 共34页
第1章-《数据挖掘》PPT绪论课件_第3页
第3页 / 共34页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,第一章绪论,of,43,1,高级大数据人才培养丛书之一,大数据挖掘技术与应用,我们生活在一个信息时代,社会信息化水平的不断提高和数据库应用的日益普及,使人类积累的数据量正在以指数方式增长。,信息化时代给我们带来大量的数据,电子商务:电子商务交易数据,社交平台数据:微博,,QQ,,微信等,金融:银行卡交易数据,科学计算:天气、地理环境等,丰富的数据,贫乏的知识,理解数据远远超过人的能力,迫切希望对海量数据进行更深入地分,析,发现隐藏在其中的有价值信息。,数据挖掘出现的时代背景,1.1,数据挖掘基本概念,第一章绪论,1.2,数据挖掘起源及发展历史,1.3,数据挖掘常用工具,3.1,数据挖掘概述,1.4,数据挖掘应用场景,of,43,2,高级大数据人才培养丛书之一,大数据挖掘技术与应用,数据挖掘(,Data Mining,,,DM,),是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。,这个定义包含以下几层含义:,数据源必须是真实的、大量的、含噪声的;,发现的是用户感兴趣的知识;,发现的知识要可接受、可理解、可运用;,不要求发现放之四海皆准的知识,仅支持特定的问题,1.1.1,数据挖掘的概念,of,43,3,1.1,数据挖掘基本概念,第一章 绪论,数据挖掘的定义,Data,Information,Knowledge,Wisdom,数据挖掘是从数据中发掘知识的过程,在这个过程中人工智能和数据库技术可以作为挖掘工具,数据可以被看作是土壤,云平台可以看作是承载数据和挖掘算法的基础设施。在挖掘数据的过程中需要用到一些挖掘工具和方法,如机器学习的方法。当挖掘完毕后,数据挖掘还需要对知识进行可视化和展现。,1.1.1,数据挖掘的概念,of,43,4,1.1,数据挖掘基本概念,第一章 绪论,数据挖掘、数据库、人工智能,数据挖掘是一个交叉学科,涉及数据库技术、人工智能、数理统计、机器学习、模式识别、高性能计算、知识工程、神经网络、信息检索、信息的可视化等众多领域。,1.1.1,数据挖掘的概念,of,43,5,1.1,数据挖掘基本概念,数据挖掘是多学科的汇合,第一章 绪论,关系型数据库、事务型数据库、面向对象的数据库,数据仓库,/,多维数据库,空间数据(如地图信息),工程数据(如建筑、集成电路信息),文本和多媒体数据(如文本、图像、音频、视频数据),时间相关的数据(如历史数据或股票交换数据),万维网(如半结构化的,HTML,、结构化的,XML,以及其他网络信息),1.1.1,数据挖掘的概念,of,43,6,1.1,数据挖掘基本概念,常见的数据挖掘对象,第一章 绪论,大数据挖掘:从体量巨大、类型多样、动态快速流转及价值密度低的大数据中挖掘出有巨大潜在价值的信息和知识,并以服务的形式提供给用户。,大数据挖掘与传统数据挖掘相比:,技术背景差异,处理对象差异,挖掘程度差异,1.1.2,大数据环境下的数据挖掘,of,43,7,1.1,数据挖掘基本概念,第一章 绪论,在大数据时代,数据的产生和收集是基础,数据挖掘是关键,即数据挖掘是大数据中最关键、最有价值的工作。,大数据挖掘的特性:,应用性,工程性,集合性,1.1.3,大数据挖掘的特性,of,43,8,1.1,数据挖掘基本概念,第一章 绪论,1999,年,欧盟创建了跨行业的数据挖掘标准流程,CRISP-DM,,提供了一个数据挖掘生命周期的全面评述,包括业务理解、数据理解及收集、数据准备、数据建模、模型评估与部署六个阶段。,1.1.4,数据挖掘的过程,of,43,9,1.1,数据挖掘基本概念,第一章 绪论,1.2,数据挖掘起源及发展历史,第一章绪论,1.1,数据挖掘基本概念,1.3,数据挖掘常用工具,3.1,数据挖掘概述,习题,1.4,数据挖掘应用,of,43,10,高级大数据人才培养丛书之一,大数据挖掘技术与应用,之后每年召开一次这样的会议,经过十几年的努力,数据挖掘技术的研究已经取得了丰硕的成果。美国麻省理工学院在,2001,年,1,月份的,科技评论,提出数据挖掘将是未来,5,年对人类产生重大影响的,10,大新兴技术之一。,1,数据挖掘的起源,of,43,11,1.2,数据挖掘起源及发展历史,第一章 绪论,1989,年,8,月于美国底特律市召开的第十一届国际联合人工智能学术会议上首次提到,“,知识发现,”,这一概念;,到,1993,年,美国电气电子工程师学会,(IEEE),的知识与数据工程,(Knowledge and Data Engineering),会刊出版了,KDD,技术专刊,发表的论文和摘要体现了当时,KDD,的最新研究成果和动态。,1995,年在加拿大蒙特利尔召开的首届,“,知识发现和数据挖掘,”,国际学术会议上,首次提出了,“,数据挖掘,”,这一学科的名称,并把数据挖掘技术分为科研领域的知识发现与工程领域的数据挖掘。,网站的数据挖掘,(Web Site Data Mining),就是从网站的各类数据中得到有价值的信息。,生物信息或基因,(Bioinformatics/Genomics),对人类生存发展有着非常重要的意义,基因的组合千变万化,能否找出病人的基因和正常人的基因的不同之处,进而对其加以改变,这就需要数据挖掘技术的支持。,为了提高系统的决策支持能力,像,ERP,、,SCM,、,HR,等一些应用系统也逐渐与数据挖掘集成起来。多种理论与方法的合理整合是大多数研究者采用的有效技术。,2,数据挖掘的研究热点,of,43,12,1.2,数据挖掘起源及发展历史,第一章 绪论,随着物联网、云计算和大数据时代的来临,在大数据背景下数据挖掘要面临的挑战,主要表现在以下几个方面:,数据挖掘分析模型的重构:在大数据的背景下要以低成本和可扩展的方式处理大数据,这就需要对整个,IT,架构进行重构,开发先进的软件平台和算法。,清洗粒度大小不易把握:由于普适终端的所处地理位置的复杂性,使得产生的数据具有很多噪声。,数据开放与隐私的权衡:互联网的交互性,使得人们在不同位置产生的数据足迹得到积累和关联,从而增加了隐私暴露的概率,且这种隐性的数据暴露往往是无法控制和预知的。,3,数据挖掘面临的新挑战,of,43,13,1.2,数据挖掘起源及发展历史,第一章 绪论,数据挖掘语言的标准化描述:标准的数据挖掘语言将有助于数据挖掘的系统化开发。改进多个数据挖掘系统和功能间的互操作,促进其在企业和社会中的使用。,数据挖掘过程的可视化方法:可视化要求已经成为数据挖掘系统中必不可少的技术。可以在发现知识的过程中进行很好的人机交互。,与特定数据存储类型的适应问题:根据不同的数据存储类型的特点,进行针对性的研究是目前流行以及将来一段时间必须面对的问题。,网络与分布式环境下的数据挖掘问题:随着,Internet,的不断发展,网络资源日渐丰富,这就需要分散的技术人员各自独立地处理分离数据库的工作方式应是可协作的。,应用的探索:随着数据挖掘的日益普遍,其应用范围也日趋扩大,如生物医学、电信业、零售业等领域。,数据挖掘与数据库系统和,Web,数据库系统的集成:数据库系统和以,Web,查询接口方式访问数据库资源的,Web,数据库已经成为信息处理系统的主流。,4,数据挖掘未来的发展趋势,of,43,14,1.2,数据挖掘起源及发展历史,第一章 绪论,1.3,数据挖掘常用工具,第一章绪论,1.2,数据挖掘起源及发展历史,1.1,数据挖掘基本概念,3.1,数据挖掘概述,1.4,数据挖掘应用场景,of,43,15,高级大数据人才培养丛书之一,大数据挖掘技术与应用,我们需要借助一些有效的工具进行数据挖掘工作,更轻松地从巨大的数据集中找出关系、集群、模式、分类信息等,借助这类工具可以帮助我们做出最准确的决策,为我们的业务获取更多收益。,数据挖掘工具分为:商用工具和开源工具,1.3,数据挖掘工具,of,43,16,1.3,数据挖掘常用工具,第一章 绪论,SAS Enterprise Miner,SPSS Clementine,Intelligent Miner,QUEST,1.3.1,商用工具,of,43,17,1.3,数据挖掘常用工具,第一章 绪论,SAS Enterprise Miner,Enterprise Miner,是一种通用的数据挖掘工具,按照“抽样,-,探索,-,修改,-,建模,-,评价”的方法进行数据挖掘,它把统计分析系统和图形用户界面,(GUI),集成起来,为用户提供了用于建模的图形化流程处理环境。,1.3.1,商用工具,of,43,18,1.3,数据挖掘常用工具,第一章 绪论,SPSS Clementine,Clementine,是,SPSS,公司开发的数据挖掘工具,支持整个数据挖掘过程,即从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准,CRISP-DM,。,1.3.1,商用工具,of,43,19,1.3,数据挖掘常用工具,第一章 绪论,R,Weka,Mahout,RapidMiner,Python,Spark MLlib,1.3.2,开源工具,of,43,20,1.3,数据挖掘常用工具,第一章 绪论,R,R,是用于统计分析和图形化的计算机语言及分析工具,提供了丰富的统计分析和数据挖掘功能,其核心模块是用,C,、,C+,和,Fortran,编写的。,1.3.2,开源工具,of,43,21,1.3,数据挖掘常用工具,第一章 绪论,WEKA,WEKA,是一个基于,JAVA,环境下免费开源的数据挖掘工作平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。,1.3.2,开源工具,of,43,22,1.3,数据挖掘常用工具,第一章 绪论,Mahout,Mahout,是,Apache Software Foundation(ASF),旗下的一个开源项目,在机器学习领域提供了一些可扩展的经典算法的实现和数据挖掘的程序库。它可以实现很多功能,包括聚类、分类、推荐过滤、频繁子项挖掘等。,1.3.2,开源工具,of,43,23,1.3,数据挖掘常用工具,第一章 绪论,Python,Python,是一种功能强大的、开源的、解释性、面向对象计算机编程语言,内建有各种高级数据结构,支持模块和包,支持多种平台并可扩展。,Python,语言简洁、易学习、易阅读,并在数据统计、机器学习方面得到广泛应用,是人工智能研究领域中一个非常重要的工具。,1.3.2,开源工具,of,43,24,1.3,数据挖掘常用工具,第一章 绪论,Spark MLlib,MLlib,(,machine learning lib,)是,Spark,中的一个可扩展的机器学习库,由通用的学习算法和工具组成,包括分类、线性回归、聚类、协同过滤、梯度下降以及底层优化原语。,1.3.2,开源工具,of,43,25,1.3,数据挖掘常用工具,第一章 绪论,1.4,数据挖掘应用场景,第一章绪论,1.2,数据挖掘起源及发展历史,1.1,数据挖掘基本概念,1.3,数据挖掘常用工具,of,43,26,高级大数据人才培养丛书之一,大数据挖掘技术与应用,数据挖掘能做什么?,发现最有价值的客户,1.4,数据挖掘的应用,of,43,27,1.4,数据挖掘应用场景,第一章 绪论,数据挖掘能做什么?,发现最有价值的客户,使组合销售更有效率,1.4,数据挖掘的应用,of,43,28,1.4,数据挖掘应用场景,第一章 绪论,数据挖掘能做什么?,发现最有价值的客户,使组合销售更有效率,留住那些最有价值的客户,1.4,数据挖掘的应用,of,43,29,1.4,数据挖掘应用场景,第一章 绪论,数据挖掘能做什么?,发现最有价值的客户,使组合销售更有效率,留住那些最有价值的客户,用更小的成本发现欺诈现象,1.4,数据挖掘的应用,of,43,30,1.4,数据挖掘应用场景
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!