数据挖掘概念与技术第一章

上传人:痛*** 文档编号:245179294 上传时间:2024-10-07 格式:PPT 页数:38 大小:213KB
返回 下载 相关 举报
数据挖掘概念与技术第一章_第1页
第1页 / 共38页
数据挖掘概念与技术第一章_第2页
第2页 / 共38页
数据挖掘概念与技术第一章_第3页
第3页 / 共38页
点击查看更多>>
资源描述
,单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,*,数据挖掘:概念与技术,*,数据挖掘:概念与技术,Jiawei,Han and,Micheline Kamber,著,Monrgan Kaufmann,Publishers Inc.,范明 孟小峰等译,机械工业出版社,10/7/2024,2,数据挖掘:概念与技术,10/7/2024,3,数据挖掘:概念与技术,第1,章 引言,英文幻灯片制作:,Jiawei,Han,中文幻灯片编译:范明,第一章 引论,动机:为什么要数据挖掘,?,什么是数据挖掘,?,数据挖掘:在什么数据上进行,?,数据挖掘功能,所有的模式都是有趣的吗,?,数据挖掘系统分类,数据挖掘的主要问题,10/7/2024,5,数据挖掘:概念与技术,动机:,需要是发明之母,数据爆炸问题,自动的数据收集工具和成熟的数据库技术导致大量数据存放在数据库, 数据仓库, 和其它信息存储中,我们正被数据淹没,但却缺乏知识,解决办法: 数据仓库与数据挖掘,数据仓库与联机分析处理(,OLAP),从大型数据库的数据中提取有趣的知识(规则, 规律性, 模式, 限制等),10/7/2024,6,数据挖掘:概念与技术,数据处理技术的演进,1960,s:,数据收集, 数据库创建,IMS,和网状,DBMS,1970s:,关系数据库模型, 关系,DBMS,实现,1980,s:,RDBMS,先进的数据模型,(,扩充关系的,OO,演绎的, 等.) 和面向应用 的,DBMS (,空间的, 科学的, 工程的, 等.),1990,s2000s:,数据挖掘和数据仓库, 多媒体数据库,和,Web,数据库,10/7/2024,7,数据挖掘:概念与技术,什么是数据挖掘?,数据挖掘 (数据库中知识发现):,从,大型数据库,中提取有趣的,(,非平凡的,蕴涵的,先前未知的,并且是,潜在有用的,),信息或模式,其它叫法和,“,inside stories”:,数据挖掘: 用词不当,?,数据库中知识发现(挖掘),(,Knowledge discovery in databases,KDD),知识提取(,knowledge extraction),数据/模式分析(,data/pattern analysis),数据考古(,data archeology),数据捕捞(,data dredging),信息收获(,information harvesting),商务智能(,business intelligence),等.,什么不是数据挖掘?,(,演绎) 查询处理,.,专家系统 或小型 机器学习(,ML)/,统计程序,10/7/2024,8,数据挖掘:概念与技术,为什么要数据挖掘?可能的应用,数据库分析和决策支持,市场分析和管理,针对销售(,target marketing),顾客关系管理, 购物篮分析,交叉销售(,cross selling),市场分割(,market segmentation),风险分析与管理,预测, 顾客关系,改进保险,质量控制,竞争能力分析,欺骗检测与管理,其它应用,文本挖掘 (新闻组,email,文档资料),流数据挖掘(,Stream data mining),Web,挖掘.,DNA,数据分析,10/7/2024,9,数据挖掘:概念与技术,市场分析与管理(1),用于分析的数据源在哪?,信用卡交易, 会员卡, 打折优惠卷, 顾客投诉电话,(,公共) 生活时尚研究,针对销售(,Target marketing),找出顾客群, 他们具有相同特征,:,兴趣, 收入水平, 消费习惯,等.,确定顾客随时间变化的购买模式,个人帐号到联合帐号的转变,:,结婚, 等.,交叉销售分析(,Cross-market analysis),产品销售之间的关联/相关,基于关联信息的预测,10/7/2024,10,数据挖掘:概念与技术,市场分析与管理(2),顾客分类(,Customer profiling),数据挖掘能够告诉我们什么样的顾客买什么产品(聚类或分类),识别顾客需求,对不同的顾客识别最好的产品,使用预测发现什么因素影响新顾客,提供汇总信息,各种多维汇总报告,统计的汇总信息,(,数据的中心趋势和方差),10/7/2024,11,数据挖掘:概念与技术,法人分析和风险管理,财经规划和资产评估,现金流分析和预测,临时提出的资产评估,交叉组合(,cross-sectional),和时间序列分析,(,金融比率(,financial-ratio),趋势分析, 等.),资源规划,:,资源与开销的汇总与比较,竞争:,管理竞争者和市场指导,对顾客分类和基于类的定价,在,高度竞争的市场调整价格策略,10/7/2024,12,数据挖掘:概念与技术,欺骗检测和管理(1),应用,广泛用于健康照料, 零售, 信用卡服务, 电讯 (电话卡欺骗), 等.,方法,使用历史数据建立欺骗行为模型, 使用数据挖掘帮助识别类似的实例,例,汽车保险,: 检测这样的人, 他/她假造事故骗取保险赔偿,洗钱,: 检测可疑的金钱交易,(,US Treasurys Financial Crimes Enforcement Network),医疗保险,:,检测职业病患者, 医生和介绍人圈,10/7/2024,13,数据挖掘:概念与技术,欺骗检测和管理(2),检测不适当的医疗处置,澳大利亚健康保险会(,Australian Health Insurance Commission),发现许多全面的检查是请求做的, 而不是实际需要的 (每年节省100万澳元,).,检测电话欺骗,电话呼叫模式: 通话距离, 通话时间, 每天或每周通话次数. 分析偏离期望的模式,.,英国电讯(,British Telecom),识别频繁内部通话的呼叫者的离散群, 特别是移动电话, 超过数百万美元的欺骗,.,零售,分析家估计,38%,的零售业萎缩是由于不忠诚的雇员造成的,.,10/7/2024,14,数据挖掘:概念与技术,其它应用,运动,IBM Advanced Scout,分析,NBA,的,统计数据,(,阻挡投篮, 助攻, 和犯规 ) 获得了对纽约小牛队(,New York,Knicks,),和,迈艾米热队(,Miami Heat ),的竞争优势,天文,借助于数据挖掘的帮助,JPL,和,Palomar,Observatory,发现了,22 颗,类星体,(,quasars),Internet Web Surf-Aid,IBM Surf-Aid,将,数据挖掘算法用于有关交易的页面的,Web,访问日志, 以发现顾客喜爱的页面, 分析,Web,销售的效果, 改进,Web,站点的组织, 等,.,10/7/2024,15,数据挖掘:概念与技术,数据挖掘过程,数据挖掘:,KDD,的核心,.,数据清理,数据集成,数据库,数据仓库,知识,任务相关数据,选择,数据挖掘,模式评估,10/7/2024,16,数据挖掘:概念与技术,KDD,过程的步骤,学习应用领域:,相关的先验知识和应用的目标,创建目标数据集: 数据选择,数据清理和预处理,: (可能占全部工作的 60%,!),数据归约与变换:,发现有用的特征,维/变量归约, 不变量的表示.,选择数据挖掘函数,汇总, 分类, 回归, 关联, 聚类.,10/7/2024,17,数据挖掘:概念与技术,KDD,过程的步骤(续),选择挖掘算法,数据挖掘,: 搜索有趣的模式,模式评估和知识表示,可视化, 变换, 删除冗余模式, 等.,发现知识的使用,10/7/2024,18,数据挖掘:概念与技术,数据挖掘和商务智能,提高支持商务决策的潜能,最终用户,商务分析人员,数据分析人员,DBA,制定决策,数据表示,可视化技术,数据挖掘,信息发现,数据探查,OLAP, MDA,统计分析, 查询和报告,数据仓库 / 数据集市,数据源,文字记录, 文件, 信息提供者,数据库系统,OLTP,系统,10/7/2024,19,数据挖掘:概念与技术,典型的数据挖掘系统结构,数据仓库,数据清理 数据集成,过滤,数据库,数据库或数据仓库,数据挖掘引擎,模式评估,图形用户界面,知识库,10/7/2024,20,数据挖掘:概念与技术,数据挖掘:,在什么数据上进行?,关系数据库,数据仓库,事务(交易)数据库,先进的数据库和信息存储,面向对象和对象-关系数据库,空间和时间数据,时间序列数据和流数据,文本数据库和多媒体数据库,异种数据库和遗产数据库,WWW,10/7/2024,21,数据挖掘:概念与技术,数据挖掘功能(1),概念描述: 特征和区分,概化, 汇总, 和比较数据特征, 例如, 干燥和潮湿的地区,关联,(,相关和因果关系,),多维和单维关联,age,(,X, “20.29”) ,income,(,X, “20.29K”),buys,(,X, “PC”),support,= 2%,confidence,= 60%,contains,(,T, “computer”),contains,(,T, “software”),support,= 1%,confidence,= 75%,10/7/2024,22,数据挖掘:概念与技术,数据挖掘功能(2),分类和预测,找出描述和识别类或概念的模型( 函数), 用于将来的预测,例如根据气候对国家分类, 或根据单位里程的耗油量对汽车分类,表示: 判定树(,decision-tree),分类规则,神经网络,预测: 预测某些未知或遗漏的数值值,聚类分析,类标号(,Class label),未知,:,对数据分组, 形成新的类. 例如, 对房屋分类, 找出分布模式,聚类原则: 最大化类内的相似性, 最小化类间的相似性,10/7/2024,23,数据挖掘:概念与技术,数据挖掘功能(3),孤立点(,Outlier),分析,孤立点: 一个数据对象, 它 与数据的一般行为不一致,孤立点可以被视为例外, 但对于欺骗检测和罕见事件分析, 它是相当有用的,趋势和演变分析,趋势和偏离: 回归分析,序列模式挖掘, 周期性分析,基于相似的分析,其它基于模式或统计的分析,10/7/2024,24,数据挖掘:概念与技术,挖掘出的所有模式都是有趣的吗?,一个数据挖掘系统,/,查询可以挖掘出数以千计的模式, 并非所有的模式都是有趣的,建议的方法: 以人为中心,基于查询的,聚焦的挖掘,兴趣度度量,:,一个模式是,有趣的,如果它是,易于被人理解的, 在,某种程度上,在新的或测试数据上是有效的,潜在有用的,新颖的, 或,验证了用户希望证实的某种假设,客观与主观的兴趣度度量,:,客观:,基于模式的统计和结构,例如, 支持度, 置信度, 等.,主观:,基于用户对数据的确信,例如, 出乎意料, 新颖性, 可行动性(,actionability,),等.,10/7/2024,25,数据挖掘:概念与技术,能够只发现有趣的模式吗?,发现所有有趣的模式: 完全性,数据挖掘系统能够发现,所有,有趣的模式吗?,关联,vs.,分类,vs.,聚类,仅搜索有趣的模式: 优化,数据挖掘系统能够,仅,发现有趣的模式吗?,方法,首先找出所有模式, 然后过滤掉不是有趣的那些,.,仅产生有趣的模式,挖掘查询优化,10/7/2024,26,数据挖掘:概念与技术,数据挖掘: 多学科交叉,数据挖掘,数据库技术,统计学,其它学科,信息科学,机器学习,可视化,10/7/2024,27,数据挖掘:概念与技术,数据挖掘分类,一般功能,描述式数据挖掘,预测式数据挖掘,不同的角度,不同的分类,待挖掘的数据库类型,待发现的知识类型,所用的技术类型,所,适合的应用类型,10/7/2024,28,数据挖掘:概念与技术,数据挖掘分类的多维视图,待,挖掘的数据库,关系的, 事务的, 面向对象的,对象-关系的, 主动的, 空间的, 时间序列的, 文本的, 多媒体的,异种的, 遗产的,WWW,等.,所挖掘的知识,特征, 区分, 关联, 分类, 聚类,趋势, 偏离和孤立点分析,等.,多/集成的功能, 和多层次上的挖掘,所用技术,面向数据库的,数据仓库 (,OLAP),机器学习,统计学, 可视化, 神经网络,等.,适合的应用,零售, 电讯, 银行, 欺骗分析,DNA,挖掘, 股票市场分析,Web,挖掘,Web,日志分析, 等,10/7/2024,29,数据挖掘:概念与技术,OLAP,挖掘: 数据挖掘与数据仓库的集成,数据挖掘系统,DBMS,数据仓库系统的耦合,不耦合, 松耦合, 半紧密耦合, 紧密耦合,联机分析挖掘,挖掘与,OLAP,技术的集成,交互挖掘多层知识,通过下钻, 上卷, 转轴, 切片, 切块等操作, 在不同的抽象层挖掘知识和模式的必要性.,多种挖掘功能的集成,特征分类, 先聚类在关联,10/7/2024,30,数据挖掘:概念与技术,OLAM,的结构,数据仓库,元数据,MDDB,OLAM,引擎,OLAP,引擎,用户,GUI API,数据立方体,API,数据库,API,数据清理,数据集成,第3层,OLAP/OLAM,第2层,MDDB,第1层,数据存储,第4层,用户界面,过滤和集成,过滤,Databases,挖掘查询,挖掘结果,10/7/2024,31,数据挖掘:概念与技术,数据挖掘的主要问题(1),挖掘方法和用户交互,在数据库中挖掘不同类型的知识,在多个抽象层的交互式知识挖掘,结合背景知识,数据挖掘语言和启发式数据挖掘,数据挖掘结果的表示和可视化,处理噪音和不完全数据,模式评估: 兴趣度问题,性能和可伸缩性(,scalability),数据挖掘算法的性能和可伸缩性,并行, 分布和增量的挖掘方法,10/7/2024,32,数据挖掘:概念与技术,数据挖掘的主要问题(2),数据类型的多样性问题,处理关系的和复杂类型的数据,从异种数据库和全球信息系统,(,WWW),挖掘信息,应用和社会效果问题,发现知识的应用,特定领域的数据挖掘工具,智能查询回答,过程控制和决策制定,发现知识与已有知识的集成: 知识融合问题,数据安全, 完整和私有的保护,10/7/2024,33,数据挖掘:概念与技术,小结,数据挖掘: 从大量数据中发现有趣的模式,数据库技术的自然进化, 具有巨大需求和广泛应用,KDD,过程包括数据清理,数据集成, 数据选择, 变换, 数据挖掘, 模式评估,和知识表示,挖掘可以在各种数据存储上进行,数据挖掘功能: 特征, 区分, 关联, 分类, 聚类, 孤立点 和趋势分析, 等.,数据挖掘系统的分类,数据挖掘的主要问题,10/7/2024,34,数据挖掘:概念与技术,数据挖掘界简史,1989,IJCAI Workshop on Knowledge Discovery in Databases (,Piatetsky,-Shapiro),Knowledge Discovery in Databases (G.,Piatetsky,-Shapiro and W.,Frawley,1991),1991-1994 Workshops on Knowledge Discovery in Databases,Advances in Knowledge Discovery and Data Mining (U.,Fayyad, G.,Piatetsky,-Shapiro, P. Smyth, and R.,Uthurusamy, 1996),1995-1998 International Conferences on Knowledge Discovery in Databases and Data Mining (KDD95-98),Journal of Data Mining and Knowledge Discovery (1997),1998 ACM SIGKDD, SIGKDD1999-2001 conferences, and SIGKDD Explorations,More conferences on data mining,PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc,.,10/7/2024,35,数据挖掘:概念与技术,参考文献源,Data mining and KDD (SIGKDD member CDROM):,Conference proceedings: KDD, and others, such as PKDD, PAKDD, etc.,Journal: Data Mining and Knowledge Discovery,Database field (SIGMOD member CD ROM):,Conference proceedings: ACM-SIGMOD, ACM-PODS, VLDB, ICDE, EDBT, DASFAA,Journals: ACM-TODS, J. ACM, IEEE-TKDE, JIIS, etc.,AI and Machine Learning:,Conference proceedings: Machine learning, AAAI, IJCAI, etc.,Journals: Machine Learning, Artificial Intelligence, etc.,Statistics:,Conference proceedings: Joint Stat. Meeting, etc.,Journals: Annals of statistics, etc.,Visualization:,Conference proceedings: CHI, etc.,Journals: IEEE Trans. visualization and computer graphics, etc.,10/7/2024,36,数据挖掘:概念与技术,参考文献,U. M.,Fayyad, G.,Piatetsky,-Shapiro, P. Smyth, and R.,Uthurusamy,. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996.,J. Han and M.,Kamber,. Data Mining: Concepts and Techniques. Morgan,Kaufmann, 2000.,T.,Imielinski,and H.,Mannila,. A database perspective on knowledge discovery. Communications of ACM, 39:58-64, 1996.,G.,Piatetsky,-Shapiro, U.,Fayyad, and P. Smith. From data mining to knowledge discovery: An overview. In U.M.,Fayyad, et al. (eds.), Advances in Knowledge Discovery and Data Mining, 1-35. AAAI/MIT Press, 1996.,G.,Piatetsky,-Shapiro and W. J.,Frawley,. Knowledge Discovery in Databases. AAAI/MIT Press, 1991.,10/7/2024,37,数据挖掘:概念与技术,谢谢大家!,Email:,mfan,phone#: (371)7762002(H) (371)7761542(O),10/7/2024,38,数据挖掘:概念与技术,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!