大数据与数据挖掘课件

上传人:20****08 文档编号:242454146 上传时间:2024-08-24 格式:PPT 页数:77 大小:5.78MB
返回 下载 相关 举报
大数据与数据挖掘课件_第1页
第1页 / 共77页
大数据与数据挖掘课件_第2页
第2页 / 共77页
大数据与数据挖掘课件_第3页
第3页 / 共77页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据库研究所,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据库研究所,*,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据库研究所,*,数据挖掘课程教学研讨,数据挖掘课程教学研讨,数据挖掘课程的目的,数据挖掘课程的目的,什么是数据挖掘,Wiki,中的定义,the analysis step of the Knowledge Discovery in Databases process, or KDD,An interdisciplinary subfield of computer science, is the computational,process,of discovering,patterns,in large data sets,involving methods at the intersection of artificial intelligence, machine learning, statistics, and database systems.,The overall goal of the data mining process is to extract information from a data set and transform it into an,understandable,structure for further use.,Aside from the raw analysis step, it involves database and data management aspects, data pre-processing, model and inference considerations, interestingness metrics, complexity considerations, post-processing of discovered structures, visualization, and online updating.,2024/8/24,数据库研究所,3,什么是数据挖掘Wiki中的定义2023/9/1数据库研究所3,开设数据挖掘课程的目的,技术发展的趋势的需要,大数据,和,智能化,是信息技术发展的新动力,技术发展路径,数据库,-,数据仓库,-,数据挖掘,-,大数据,数据挖掘技术已经成为很多应用领域的基本支撑技术,WEB,数据分析,电子商务,生物信息学,金融数据分析,2024/8/24,数据库研究所,4,开设数据挖掘课程的目的技术发展的趋势的需要2023/9/1数,开设数据挖掘课程的目的,数据分析类课程在计算机教学体系中的作用将逐渐增加,数据挖掘、机器学习、,培养学生理论与应用相结合能力,培养学生应用基本的方法,提高解决实际的系统能力,数据挖掘课程的特点,入门容易,有深度,应用实例多,易于设计实验,2024/8/24,数据库研究所,5,开设数据挖掘课程的目的数据分析类课程在计算机教学体系中的作用,复旦大学数据挖掘课程的设置,复旦大学计算机科学技术学院基本情况,学生情况,120,名本科生,/,年,150,名研究生,/,年,教师情况,教学科研教师:,100,名左右,教学理念,强调数据基础,强调学生综合能力的培养,强调学生创新能力培养,复旦大学计算机科学技术学院基本情况,主要研究方向,媒体计算,数据库与数据科学,网络与信息安全,智能信息处理,人机接口和服务计算,理论计算机科学,软件工程与系统软件,2024/8/24,数据库研究所,6,复旦大学数据挖掘课程的设置复旦大学计算机科学技术学院基本情况,复旦大学数据挖掘课程的设置,总体目标,掌握大规模数据挖掘与分析的基本流程,掌握数据挖掘的基本算法,掌握对实际数据集进行挖掘的系统能力,算法设计,挖掘算法的内涵,参数设置,结果评估,了解数据挖掘的主要应用方向,为后续的课程做准备,2024/8/24,数据库研究所,7,复旦大学数据挖掘课程的设置总体目标2023/9/1数据库研究,复旦大学数据挖掘课程的设置,2024/8/24,数据库研究所,8,数据仓库与数据挖掘,WEB,数据管理和数据挖掘,数据密集型计算,文本数据挖掘,高级数据挖掘技术,数据库系统,机器学习,生物信息学,多媒体数据处理,数据库新技术,复旦大学数据挖掘课程的设置2023/9/1数据库研究所8数据,数据仓库与数据挖掘,课程的教学目的,掌握数据仓库数据挖掘原理、技术和方法,,掌握,建立数据挖掘应用,系统,的方法,,了解相关前沿的研究。,教学内容,数据挖掘、数据仓库的基本概念,数据仓库设计和应用,数据挖掘的基本技术,关联分析、分类分析、聚类分析、异常分析和演化分析等;联机分析处理,OLAP,技术;,数据挖掘应用系统开发,数据挖掘技术的新应用,数据挖掘软件发展,2024/8/24,数据库研究所,9,数据仓库与数据挖掘课程的教学目的2023/9/1数据库研究所,高级数据挖掘,课程的教学目的,让学生掌握数据挖掘的基本概念、算法和高级技术;,将这些概念、算法和技术应用于实际问题。,教学内容,分类算法,,包括决策树,(ID3, C4.5, SPRINT,等,),、基于规则的分类器,(C4.5rules, RIPPLE,等,),、,Nave Bayes,分类器和贝叶斯网络、最近邻分类器,(kNN, Condensed kNN, DANN,等,),、支持向量机,(SVM),、,Ensemble,方法,(,如,AdaBoost, Bagging, Rain Forest,等,),,以及模型选择,(,如,MDL,,,Regularization Network,等,),。,2024/8/24,数据库研究所,10,高级数据挖掘课程的教学目的2023/9/1数据库研究所10,高级数据挖掘,教学内容,聚类分析,划分型聚类算法,如,K-means,等,层次型聚类算法,如,Single link, complete link, Ward,方法等,及基于模型的聚类如,EM,算法;,基于密度的聚类算法如,DBSCAN,其他高级聚类算法,如,Clique, CURE, CHAMELEON, BIRCH,等,关联分析,,Apriori,算法、,DHP,、,FP-growth,,以及频繁序列挖掘、图挖掘等,教学内容,数据挖掘应用,异常检测、数据流挖掘、,Web,挖掘,(PageRank, HITS,和,Spam, Opinion Mining),、社会网络分析,(Blog,、,Tag,分析等,),、数据挖掘和隐私保护、文本挖掘,(PLSA,概率主题模型等,),、降维技术,(SVD, FastMap, LSH,等,),和特征选择,(,基于互信息量的方法、,Relief,等,),等主题,具体内容逐步调整,研讨是主要的授课方式,2024/8/24,数据库研究所,11,高级数据挖掘教学内容教学内容2023/9/1数据库研究所11,Web,数据管理和数据挖掘,本课程的教学目的,了解大规模,WEB,数据(包括,HTML,数据、,XML,等类型数据)的管理与挖掘技术,及其在,WEB,领域中的应用,学会充分利用领域内的信息,课程内容,网络爬虫技术,DNS,解析、链接抽取、重复网页处理、,WEB,搜索和信息检索,文本预处理、向量空间模型、相关性反馈,WEB,数据挖掘,相似性计算和聚类、文本分类、链接分析、,WEB,数据挖掘应用,社交网络分析、资源发现、,2024/8/24,数据库研究所,12,Web数据管理和数据挖掘本课程的教学目的2023/9/1数据,文本数据挖掘,课程的教学目的,了解大规模文本数据的处理和挖掘技术,及其在生物,/,医疗等文本数据分析中的应用,课程内容,文本预处理技术,文本聚类技术,基于本体的文本数据挖掘,文本挖掘中的概率模型,可视化技术,生物,/,医疗文本数据挖掘,2024/8/24,数据库研究所,13,文本数据挖掘课程的教学目的2023/9/1数据库研究所13,数据密集型计算理论与实践,课程的教学目的,了解基于云计算平台或其他的新型分布式,/,并行计算平台上数据挖掘算法的实现技术及其应用,课程内容,分布式系统简介,分布式文件系统,并行编程基础,Map/Reduce,编程模型,分布式图算法与,PageRank,聚类算法与,MapReduce,2024/8/24,数据库研究所,14,分类算法与,MapReduce,NOSQL,介绍,GPU,通用编程基础,CUDA,介绍与调优,社会媒体中典型应用,信息检索中典型应用,数据密集型计算理论与实践课程的教学目的分布式系统简介2023,主要参考文献,Jiawei Han,etc. Data Mining Concept and Techniques, Magan Karfmann Publishers,Soumen Chakrabarti, Mining,the WEB- discovering knowledge from hypertext data, Magan Karfmann Publishers,朱扬勇等,数据挖掘技术及其应用,Pang-Ning Tan, M. Steinbach, and V. Kumar. Introduction to Data Mining (,影印版,),人民邮电出版社, 2006.1.,Ian Witten, and E. Frank. Data Mining: Practical Machine Learning Tools and Techniques (,影印版,第,2,版,),机械工业出版社, 2005.9.,David Hand, H. Mannila, and P. Smyth. Principles of Data Mining,机械工业出版社, 2003.4.,T. Hastie, R. Tibshirani, and J. Friedman, The Elements of Statistical Learning: Data Mining, Inference, and Prediction, Springer-Verlag, 2001,Data and XML, Morgan Kaufman Publishers, 2000,6. KDD, VLDB, SIGMOD, ICDM, SDM, ICML,等会议论文,2024/8/24,数据库研究所,15,主要参考文献Jiawei Han,etc. Data Min,数据挖掘课程的主要内容,数据挖掘课程的主要内容,数据挖掘的理念,数据挖掘是一个过程,数据准备、挖掘、评估、参数调整、再挖掘、,数据挖掘是一个白盒操作,挖掘结果的解释是一个重要操作,数据挖掘是对数据的操作,理解数据,整理数据,面向目标设计挖掘模式,2024/8/24,数据库研究所,17,数据挖掘的理念数据挖掘是一个过程2023/9/1数据库研究所,数据挖掘课程的主要内容,先导课程,数据库、概率统计,数据挖掘的基本算法,适用于本科生,推荐教材,Jiawei Han, Jian Pei, etc. Data Mining Concept and Techniques, Magan Karfmann Publishers,高级数据挖掘技术,适用于研究生,适用于研究生,面向特定领域的数据挖掘技术,适用于本科生科创活动选题,2024/8/24,数据库研究所,18,数据挖掘课程的主要内容先导课程高级数据挖掘技术2023/9/,数据挖掘是一个过程,数据清理,数据集成,数据库,数据仓库,知识,任务相关的数据,选择,数据挖掘,模式评估,2024/8/24,数据库研究所,19,数据挖掘是一个过程数据清理数据集成数据库数据仓库知识任务相关,数据,数据的类型,各种类型的数据,文本、序列、图片、视频,特征抽取,属性数据,图、树结构数据,数据的关联关系和数据内容,理解数据的语义的体现的形式,明确数据挖掘的依据,2024/8/24,数据库研究所,20,数据数据的类型2023/9/1数据库研究所20,数据,数据集的特点,数据的稀疏性,数据的分布,数据的覆盖范围,2024/8/24,数据库研究所,21,数据挖掘的结果和数据集有很大的关联,挖掘之前需要了解数据,数据数据集的特点2023/9/1数据库研究所21数据挖掘的结,数据,数据的相似性度量,度量的三个性质,非负性、对称性、三角不等式,各种评价相似性的方法,欧几里得距离、明考斯基距离、余弦相似度、皮尔森相关系数,2024/8/24,数据库研究所,22,评价数据的相似性是数据挖掘的基础,数据数据的相似性度量2023/9/1数据库研究所22评价数据,数据仓库,定义,数据仓库是为支持管理决策建立的,面向主题的、集成的、随时间变化的、不可修改的数据集合,主要内容,ETL,工具,数据仓库建模,联机分析,2024/8/24,数据库研究所,23,数据仓库为数据挖掘构建了数据基础,是大数据集成技术的雏形,联机分析是数据挖掘的一种,数据仓库定义2023/9/1数据库研究所23数据仓库为数据挖,数据源,数据抽取加载,数据仓库,管理和监控工具,ETL,工具,前端工具,终端用户,数据仓库,数据,仓库,集市,集市,OLAP,数据清洗,关系数据库,其它数据源,元数据,数据,挖掘,元数据,数据获取,数据存储,信息传递,数据仓库,2024/8/24,数据库研究所,24,数据源数据抽取加载数据仓库ETL工具前端工具终端用户数据仓库,数据抽取,E,针对多个数据源,(,来自不同设备,使用不同数据格式,),数据清洁,(,编码矛盾,遗失值,重复值,规范化;组合多源记录数据,清除无用源数据等);数据汇总,包括最初的装载,数据仓库开始工作后的将变动的数据进行转换后存入正在工作的数据仓库,数据转换,T,数据加载,L,数据仓库,ETL,(,Extract,、,Transfer,、,Load,),2024/8/24,数据库研究所,25,数据抽取E针对多个数据源(来自不同设备,使用不同数据格式)数,在一个给定时刻捕获的数据,即相关源数据在某个特定时刻的快照。,(,一般初始装载时使用,),静态数,据抽取,修正,/,追加,数据抽取,延缓型,数据抽取,立即型,数据抽取,数据抽取技术,抽取是实时的,当交易发生时就会在源数据库和文件中发生。,通过交易日志捕获;,从数据库触发器捕获;,从源应用程序捕获。,基于日期和时间标记捕获;通过文件比较捕获。,数据仓库,数据抽取将不同来源的数据放在一起,2024/8/24,数据库研究所,26,在一个给定时刻捕获的数据,即相关源数据在某个特定时刻的快照。,数据转换,选择,转化,汇总,分离,/,合并,选择从源系统得到的整个记录或部分记录(抽取过程),标准化,使字段对用户可用可理解;粒度,多个系统中选中部分的合并操作,常见的转换类型,格式修正;字段解码;计算值和导出值;单个字段分离;信息合并;特征集合转化;度量单位转化;日期,/,时间转化;汇总;键重新构造等,数据转换:根据转换规则进行转换和重新结构化(映射),数据仓库,数据转换将统一不同格式的数据,2024/8/24,数据库研究所,27,数据转换选择转化分离/合并 选择从源系统得到的整个记录或部分,数据仓库,数据清洗,不完整的数据可能来自收集数据时该数据值(属性)没有用、不考虑人员,/,硬件,/,软件故障,噪声数据 (不正确的数值)可能来自仪器设备产生错误数据数据输入时人为错误或计算机错误数据传输错误,不一致数据可能来自不同的数据源,数据质量是取得好的数据挖掘结果的基础,2024/8/24,数据库研究所,28,数据仓库数据清洗数据质量是取得好的数据挖掘结果的基础2023,初始装载:,第一次对所有的数据仓库表进行迁移,增量装载:,根据需要定期应用运行过程中发生的变化,完全刷新:,完全删除一个或多个表的内容,并重新装载新的数据,数据仓库,2024/8/24,数据库研究所,29,初始装载:增量装载:完全刷新:数据仓库2023/9/1数据库,数据仓库模式,-,雪花模型,雪花模型是描述属性数据的候选模型,2024/8/24,数据库研究所,30,数据仓库模式-雪花模型雪花模型是描述属性数据的候选模型202,联机分析,联机分析,1993,年,,E.F.Codd,提出多维数据库和多维分析的概念(即,OLAP,),侧重于分析型应用,用于区别于,OLTP,的操作型应用,OLTP,已不能满足用户对数据库查询分析的需要,,SQL,对大数据库进行的简单查询也不能满足用户分析的需求,2024/8/24,数据库研究所,31,联机分析联机分析2023/9/1数据库研究所31,城 市,按季度时间、城市地区和商品类型三个维销售的数据,计算机,家庭娱乐,南京,上海,北京,天津,Q1,Q2,Q3,Q4,电 话,空 调,商品类型,季 度,销售额,数据立方体,2024/8/24,数据库研究所,32,城 市 按季度时间、城市地区和商品类型三个维销售的数据计算,2024/8/24,数据库研究所,33,数据立方体,联机分析是数据挖掘的一种重要的形式,2023/9/1数据库研究所33数据立方体联机分析是数据挖掘,数据准备,数据裁剪和构造,在保持原数据完整性的基础上,对这些数据进行归约化处理,以提高数据分析或数据挖掘的效果,维归约,选维 :使用特征的一个子集,降维:主成分分析,PCA,特征加权与筛选,特征转换与构造,数据压缩,数值归约,2024/8/24,数据库研究所,34,构造合适的数据是取得好的数据挖掘结果的基础,数据准备数据裁剪和构造2023/9/1数据库研究所34构造合,2024/8/24,数据库研究所,35,关联规则,项集,X = x,1, , x,k,找到满足最小支持度和置信度的规则,X,Y,支持度,s,事务包含,X Y,的概率,置信度,c,包含,X,同时包含,Y,的条件概率,Let sup,min,= 50%, conf,min,= 50%,Freq. Pat.:,A:3, B:3, D:4, E:3, AD:3,Association rules:,A,D,(60%, 100%),D,A,(60%, 75%),Customer,buys diaper,Customer,buys both,Customer,buys beer,Transaction-id,Items bought,10,A, B, D,20,A, C, D,30,A, D, E,40,B, E, F,50,B, C, D, E, F,2023/9/1数据库研究所35关联规则项集 X = x1,关联规则,关联规则的主要算法种类,Apriori,FP-growth,模式的变种,约束,闭模式,信息量的评估方法,不同类型数据中的频繁模式,序列,图,2024/8/24,数据库研究所,36,减少频繁模式,/,规则的规模是关联规则技术应用的关键,关联规则关联规则的主要算法种类2023/9/1数据库研究所3,聚类分析,2024/8/24,数据库研究所,37,是根据,最大化簇内的相似性,、,最小化簇间的相似性,的原则将数据对象聚类或分组,所形成的每个簇可以看作一个数据对象类,用显式或隐式的方法描述它们,聚类分析2023/9/1数据库研究所37是根据最大化簇内的相,基于划分的,基于层次的,基于密度的,基于网格的,基于模型的,聚类算法,K-means,K-medoids,凝聚的,分裂的,DBSCAN,OPTICS,STING,CLIQUE,Statistics,Neural Network,聚类分析,2024/8/24,数据库研究所,38,基于划分的基于层次的基于密度的基于网格的基于模型的聚类算法K,能够适用于大数据量,(,可伸缩性,),能够处理不同类型数据,(,距离定义,),能够处理高维数据,能够发现任意形状的簇,(,结果特点,),应用聚类算法需要考虑的因素,聚类结果可解释、易使用,具有处理噪声的能力,聚类分析,2024/8/24,数据库研究所,39,能够适用于大数据量(可伸缩性)能够处理不同类型数据(距离定义,2024/8/24,数据库研究所,40,分类分析,定义,给定一个数据样本集,D,X,1,X,2,X,n,,样本,X,i,D,,类的集合,C,C,1, C,2,C,m,,分类是从数据样本集到类集合的映射,f,:,D,C,,即数据集中的样本,X,i,分配到某个类,C,j,中,有,C,j,X,i,|f(X,i,) = C,j,,,1in,,,1jm,,且,X,i,D,。,即通过学习得到一个目标函数,f,,把每个属性集,x,映射到一个预先定义的类标号,y,,,f,又称分类模型,2023/9/1数据库研究所40分类分析定义,分类分析,b.,测试,(,使用模型分类,),阶段,a.,模型训练阶段,构造分类器:,2024/8/24,数据库研究所,41,分类分析b. 测试(使用模型分类)阶段a. 模型训练阶段,分类分析,分类算法,决策树,贝叶斯方法,最近邻,支持向量机,神经网络,评估分类算法的要素,预测的准确度,计算复杂度,模型描述的简洁性,模型的可解释性,避免过度拟合,2024/8/24,数据库研究所,42,分类分析分类算法评估分类算法的要素2023/9/1数据库研究,2024/8/24,数据库研究所,异常检测,异常,一个数据集中往往包含一些特别的数据,其行为和模式与一般的数据不同,这些数据称为“异常”(小模式),异常检测,发现数据集中明显不同于其他数据的对象的过程。即对“异常”数据的发现和分析,43,2023/9/1数据库研究所异常检测异常43,噪 声,异 常,“,噪声”:,定义,在簇的基础上,,是不隶属于任何簇的数据,多数聚类算法具有一定的噪声处理能力,在一定程度上可以检测异常数据。但聚类定义的“噪声”和 “异常”在概念上是有偏差的。,“,异常”:,是不依赖于是否存在簇。,聚类算法中具有处理噪声能力的出发点和目的是优化簇,在生成结果簇时,噪声是可以容忍或忽略的。,异常、噪声,如何定义异常?,2024/8/24,数据库研究所,44,噪 声异 常“噪声”:定义在簇的基础上,是不隶属于任何簇,2024/8/24,数据库研究所,异常检测,异常检测的主要方法,基于聚类的异常挖掘,k-,近邻方法,基于统计的异常分析方法,基于偏差的异常分析方法,具体算法,DB(pct,dmin),异常,D,n,K,异常,k-distance,LOF,45,2023/9/1数据库研究所异常检测异常检测的主要方法45,序列数据挖掘,应用领域,生物信息学,金融数据分析,电子商务,信用卡分析,主要的挖掘角度,趋势变化,序列模式挖掘,循环变化,非规则随机变化,关联分析,2024/8/24,数据库研究所,46,序列数据挖掘应用领域主要的挖掘角度2023/9/1数据库研究,可视化,2024/8/24,数据库研究所,47,可视化是评估挖掘结果的有效工具,可视化2023/9/1数据库研究所47可视化是评估挖掘结果的,数据挖掘技术的应用领域,数据挖掘技术的应用领域,商业数据挖掘,“尿布与啤酒”的故事 数据挖掘项目实施,良好的数据积累,明确的业务需求,准备数据,数据挖掘技术,结果表达,结果评价,结果利用,2024/8/24,数据库研究所,49,商业数据挖掘“尿布与啤酒”的故事 数据挖掘项目实施202,信用卡分析,持卡人(去哪里消费优惠)特约商户 (有哪些消费者),客户信用等级评估(,VIP,、二八法则),客户利润分析(银行贡献度),客户消费行为分析,客户消费异常行为分析,2024/8/24,数据库研究所,50,信用卡分析 持卡人(去哪里消费优惠)特约商户 (有哪些消费,2024/8/24,数据库研究所,51,WEB,数据挖掘,面向网络用户行为的分析和网页内容的挖掘是,WEB,应用企业的核心技术,关注点分析,2023/9/1数据库研究所51WEB数据挖掘面向网络用户行,社交网络挖掘,基于社交网络的富媒体分析,DBLP,、微博,社交网络上的信息传播模式分析,2024/8/24,数据库研究所,52,社交网络挖掘基于社交网络的富媒体分析2023/9/1数据库研,金融数据挖掘,面向股票和期货价格趋势及其同相关因素关联关系的挖掘是程序化交易的核心技术,2024/8/24,数据库研究所,53,金融数据挖掘面向股票和期货价格趋势及其同相关因素关联关系的挖,生物数据挖掘,面向基因数据的挖掘是生物信息学的基础,生物信息数据的类型,基因序列、蛋白质相互作用网络、蛋白质三维结构、,2024/8/24,数据库研究所,54,基因中能发现什么?,转录结合变化,?,生物数据挖掘面向基因数据的挖掘是生物信息学的基础2023/9,生物数据挖掘,生物,/,医疗文本挖掘是现代医疗发展的主要支撑技术之一,2024/8/24,数据库研究所,55,生物数据挖掘生物/医疗文本挖掘是现代医疗发展的主要支撑技术之,医药分析,面向海量分子结构的分析成为当前新药研制的主要手段,其核心技术的对图模型描述的海量分子结构的模式分析,2024/8/24,数据库研究所,56,医药分析面向海量分子结构的分析成为当前新药研制的主要手段20,数据挖掘其他应用领域,基于位置的服务,智能交通,桥梁监控,节能分析,2024/8/24,数据库研究所,57,数据挖掘其他应用领域基于位置的服务2023/9/1数据库研究,数据挖掘技术的发展趋势,数据挖掘技术的发展趋势,数据挖掘领域的主要期刊和学术会议,国际学术会议,SIGKDD,、,ICDM,、,SIAM DM,、,PKDD,、,SIGMOD,、,VLDB,、,ICDE,、,国际学术期刊,IEEE KDD,DKDM,2024/8/24,数据库研究所,59,数据挖掘领域的主要期刊和学术会议国际学术会议2023/9/1,从KDD 2012看数据挖掘的发展方向,主题,#submission,Social (Social and information networks, graph and link mining, other),134,Rich data types (Temporal and Spatial, text, Sequence, Unstructured, Other),78,Supervised learning (Classification, Regression, other),76,Unsupervised learning (Clustering, Topic Discovery, Factorization, Visualization, Exploratory Analysis, Other),75,Big data (Distributed Computing - Cloud, GPU, MPI, others, Efficient Algorithms, Scalable Methods, Optimization Techniques),55,Web (Web mining, Online Advertising, other),49,Rule and Pattern Mining,47,Recommender systems (collaborative filtering, content based methods, hybrid methods, evaluation and metrics, other aspects),41,2024/8/24,数据库研究所,60,从KDD 2012看数据挖掘的发展方向主题#submissi,从KDD 2012看数据挖掘的发展方向,Best paper,T. Rakthanmanon, B. Campana, A. Mueen, G. Batista, B. Westover, Q. Zhu, J. Zakaria, E. Keogh.,Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping,. (UCR),Best Student paper,Y. Sun, B. Norick, J. Han, X. Yan, P. Yu, X. Yu.,Integrating Meta-Path Selection with User Guided Object Clustering in Heterogeneous Information Networks,. (UIUC),Q. Ding, N. Katenka, P. Barford, E. Kolaczyk, Mark Crovella.,Intrusion as (Anti)social Communication: Characterization and Detection,. (Boston U.),2024/8/24,数据库研究所,61,从KDD 2012看数据挖掘的发展方向Best paper,从KDD 2012看数据挖掘的发展方向,WEB,和社交数据分析,针对社交网络和,WEB,数据,结合社会学等方面的理论,研究其信息传播和用户行为模式的分析方法,主要研究问题,面向市场划分社交网络的聚类,面向竞争的网络中的病毒传播模式分析,2024/8/24,数据库研究所,62,从KDD 2012看数据挖掘的发展方向WEB和社交数据分析2,从KDD 2012看数据挖掘的发展方向,图挖掘,基于新型计算平台研究超大规模图数据的管理与挖掘技术,主要研究问题,基于流计算模式的超大规模图数据分割算法,最大团的有效计算方法,基于图数据的用户行为分析方法,大规模二部图的摘要分析,2024/8/24,数据库研究所,63,从KDD 2012看数据挖掘的发展方向图挖掘2023/9/1,从KDD 2012看数据挖掘的发展方向,时空数据挖掘,面向移动互联网、基于位置的服务等应用的需求,研究各种时空数据及相关数据的模式和关联关系的挖掘方法,主要研究问题,移动对象间关联关系的分析,轨迹数据分析,2024/8/24,数据库研究所,64,从KDD 2012看数据挖掘的发展方向时空数据挖掘2023/,从KDD 2012看数据挖掘的发展方向,知识库,通过对,WEB,数据、访问日志等数据源的数据进行分析,获取概念,/,实体间的关联关系,(,包括分类体系等,),,以构建知识库,知识库是数据语义的新的描述形式,主要研究问题,面向检索关键词的分类体系构造,链接实体分析,2024/8/24,数据库研究所,65,从KDD 2012看数据挖掘的发展方向知识库2023/9/1,从KDD 2012看数据挖掘的发展方向,模式挖掘,研究各种新型模式的挖掘和评估技术,主要研究问题,面向流环境的动态模式挖掘,模式的精简表示,模糊覆盖,Categorical,属性的布尔表示,2024/8/24,数据库研究所,66,从KDD 2012看数据挖掘的发展方向模式挖掘2023/9/,从KDD 2012看数据挖掘的发展方向,时间序列分析和事件挖掘,针对大规模的时间序列数据研究其蕴含的事件挖掘方法,主要研究问题,时间序列数据的语义描述(事件分析),超大规模序列数据(包括,GPS,路径、通讯网络)的挖掘技术,2024/8/24,数据库研究所,67,从KDD 2012看数据挖掘的发展方向时间序列分析和事件挖掘,不确定数据(Uncertain data)挖掘,不确定数据产生的原因,信息集成,数据采集,封闭世界假设,主要挑战,中间结果的规模过于庞大,主要研究方向,频繁模式挖掘,不确定图数据检索,查询,John,和,Bill,的,SSN,号码:,(1,7)-0.14;,(1,4)-0.06;,(7,7)-0.56;,(7,4)-0.24;,2024/8/24,数据库研究所,68,不确定数据(Uncertain data)挖掘不确定数据产生,从KDD 2012看数据挖掘的发展方向,隐私保护是数据挖掘领域面临的重要问题,匿名化是解决隐私保护问题的途径之一,各种类型数据隐私保护和新的数据保护策略是研究的方向,2024/8/24,数据库研究所,69,从KDD 2012看数据挖掘的发展方向隐私保护是数据挖掘领域,大数据与数据挖掘,大数据与数据挖掘,大数据,大数据是当前最“热”的名词,大数据的实质内容,从数据出发,,通过对海量数据的分析获取有用的信息(纯属个人观点),大数据的挑战,信息的准确性,数据本身的特性,新型的挖掘算法、,2024/8/24,71,数据库研究所,大数据大数据是当前最“热”的名词2023/9/171数据库研,大数据时代带来的数据挖掘新应用,“沃森”,2011,年,2,月,17,日由,IBM,和美国德克萨斯大学联合研制的超级电脑“沃森”,(Watson),今日在美国最受欢迎的智力竞猜电视节目,危险边缘,中击败该节目历史上两位最成功的选手肯,-,詹宁斯和布拉德,-,鲁特,成为,危险边缘,节目新的王者,基础,存储了大量图书、新闻和电影剧本资料、辞海、文选和,世界图书百科全书,(World Book Encyclopedia),等数百万份资料。每当读完问题的提示后,,沃森,就在不到三秒钟的时间里在长达,2,亿页的漫漫资料里展开搜索,2024/8/24,数据库研究所,72,大数据时代带来的数据挖掘新应用“沃森”2023/9/1数据库,大数据时代带来的数据挖掘新应用,知识图谱(,Knowledge Graph,),Google,、微软、,下一代搜索引擎的核心技术之一,基于自然语言理解、机器学习、数据挖掘等技术从,WEB,网页、互动百科等各种信息源中抽取各种概念和实体,以及它们之间的关联关系,作为一种知识库或语义工具提供检索、推荐、内容管理等方面的服务,2024/8/24,数据库研究所,73,大数据时代带来的数据挖掘新应用知识图谱(Knowledge,大数据时代带来的数据挖掘新应用,机器翻译系统,大数据,+,机器学习,+,语言学,Google,、微软等均提供了基于统计的机器翻译系统,统计机器翻译系统的基础,超过,1,百万个单词的双语文本语料库,超过,10,亿个单词的语种语料库,从两个语料库训练的统计模型,2024/8/24,数据库研究所,74,大数据时代带来的数据挖掘新应用机器翻译系统2023/9/1数,大数据时代带来的数据挖掘新应用,机器翻译系统,2024/8/24,数据库研究所,75,大数据时代带来的数据挖掘新应用机器翻译系统2023/9/1数,大数据对数据挖掘技术的影响,新的分布式、,并行计算平台,新的异构信息,的融合技术,强调对数据的理,解和深度分析,在线数据挖掘技术,2024/8/24,数据库研究所,76,大数据对数据挖掘技术的影响新的分布式、新的异构信息强调对数据,谢谢!,请指正!,谢谢!请指正!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > PPT模板库


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!