《数据挖掘技术》PPT课件

上传人:dus****log 文档编号:161629116 上传时间:2022-10-14 格式:PPT 页数:176 大小:2.50MB
返回 下载 相关 举报
《数据挖掘技术》PPT课件_第1页
第1页 / 共176页
《数据挖掘技术》PPT课件_第2页
第2页 / 共176页
《数据挖掘技术》PPT课件_第3页
第3页 / 共176页
点击查看更多>>
资源描述
信息管理与信息系统专业课程课程第三讲第三讲 数据挖掘技术数据挖掘技术-国民经济和社会的信息化国民经济和社会的信息化数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据 苦恼:淹没在数据中;不能制定合适的决策!n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期l1989 IJCAI会议:数据库中的知识发现讨论专题Knowledge Discovery in Databases(G.Piatetsky-Shapiro and W.Frawley,1991)l1991-1994 KDD讨论专题Advances in Knowledge Discovery and Data Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,and R.Uthurusamy,1996)l1995-1998 KDD国际会议(KDD95-98)Journal of Data Mining and Knowledge Discovery(1997)l1998 ACM SIGKDD,SIGKDD1999-2002 会议,以及SIGKDD Explorationsl数据挖掘方面更多的国际会议PAKDD,PKDD,SIAM-Data Mining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.l技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律l数据挖掘技术 关联分析 序列模式 分类(预言)聚集 异常检测矿山(数据)挖掘工具(算法)金子(知识)分类条件1分类条件2分类条件3类1类2类3类4代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数据挖掘作为数据挖掘作为一个独立的应一个独立的应用用支持一个或者支持一个或者多个算法多个算法 独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和数据库以及和数据库以及数据仓库集成数据仓库集成多个算法:能够多个算法:能够挖掘一次不能放挖掘一次不能放进内存的数据进内存的数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质同质/局局部区域部区域的计算的计算机群集机群集有些系统支有些系统支持对象、文持对象、文本、和连续本、和连续的媒体数据的媒体数据第三代第三代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构支持半结构化 数 据 和化 数 据 和webweb数据数据第四代第四代和移动数据和移动数据/各种计算数各种计算数据联合据联合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普 遍 存 在普 遍 存 在的 计 算 模的 计 算 模型型训练数据集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank=professorOR years 6THEN tenured=yes 分类规则分类规则测试集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff,Professor,4)Tenured?)()()|()|(DPhPhDPDhP 线性回归和多元回归 非线性回归211)()(SiiiSiixxyyxxxy npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3().ndnd0dd(3,10d(2,1)0.).211nffffxx(xn m|)|.|(|121fnffffffmxmxmxnsffififsmx zqqppqqjxixjxixjxixjid)|.|(|),(2211|.|),(2211ppjxixjxixjxixjid)|.|(|),(2222211ppjxixjxixjxixjid11fififMrz,.,1fifMr)(1)()(1),(fijpffijfijpfdjid11fifMrzif交易ID购买的商品2000A,B,C1000A,C4000A,D5000B,E,F买尿布的客买尿布的客户户二者都买二者都买的客户的客户买啤酒的客户买啤酒的客户交易ID购买商品2000A,B,C1000A,C4000A,D5000B,E,F频繁项集支持度A75%B50%C50%A,C50%最小值尺度 50%最小可信度 50%食品面包牛奶脱脂奶光明统一酸奶白黄TID ItemsT1111,121,211,221T2111,211,222,323T3112,122,221,411T4111,121T5111,122,211,221,413牛奶牛奶support=10%酸奶酸奶 support=6%脱脂奶脱脂奶support=4%层层 1min_sup=5%层层 2min_sup=5%酸奶酸奶 support=6%脱脂奶脱脂奶 support=4%层层 1min_sup=5%层层 2min_sup=3%牛奶牛奶support=10%n空间关系的层次:n“g_close_to”:邻近,接触,交叉,包含n先搜索粗糙的关系然后再精化(income)(age)()(buys)(age,income)(age,buys)(income,buys)(age,income,buys)age(X,”30-34”)income(X,”24K-48K”)buys(X,”high resolution TV”)价格($)等宽(宽度$10)等深(深度 2)基于距离70,107,207,72011,2022,5020,222221,3051,5350,535031,405141,505351,60)1(),()(11 NNXtXtdistXSdjiNiNjXXdCdX0)(0sCX关联规则可视化关联规则可视化Using Plane Graph关联规则可视化关联规则可视化Using Rule Graphl序列序列是序列是序列的子序列的子序列l序列序列是长度为是长度为3的序列模式的序列模式代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一第一代代作为一个独作为一个独立的应用立的应用支持一个或者支持一个或者多个算法多个算法 独立的系统独立的系统单个机器单个机器向量数据向量数据第二第二代代和数据库以和数据库以及数据仓库及数据仓库集成集成多个算法:能多个算法:能够挖掘一次不够挖掘一次不能放进内存的能放进内存的数据数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质、局同质、局部区域的部区域的计算机群计算机群集集有些系统支持有些系统支持对象对象,文本和文本和连续的媒体数连续的媒体数据据第三第三代代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构化支持半结构化数据和数据和webweb数数据据第四第四代代和移动数据和移动数据/各种计算设各种计算设备的数据联备的数据联合合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普遍存在的计普遍存在的计算模型算模型 第一代数据挖掘软件l特点 支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data)数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统(www.salford-)l缺陷 如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。第一代数据挖掘软件第一代数据挖掘软件CBA 新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测第二代数据挖掘软件第二代数据挖掘软件l特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作l缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发第二代数据挖掘软件第二代数据挖掘软件 DBMiner第二代软件第二代软件 SAS Enterprise Miner第三代数据挖掘软件第三代数据挖掘软件l特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成l缺陷不能支持移动环境第三代软件第三代软件 SPSS Clementine第四代数据挖掘软件第四代数据挖掘软件l特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。l 第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 l 第三、四代系统强调预测模型的使用和操作型环境的部署 l 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 l 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 l 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导 l 独立的数据挖掘软件l 横向的数据挖掘工具集l 纵向的数据挖掘解决方案独立的数据挖掘软件(独立的数据挖掘软件(95年以前)年以前)l特点 独立的数据挖掘软件对应第一代系统,出现在数据挖掘技术发展早期,研究人员开发出一种新型的数据挖掘算法,就形成一个软件。这类软件要求用户对具体的算法和数据挖掘技术有相当的了解,还要负责大量的数据预处理工作。比如C4.5决策树,平行坐标可视化(parallel-coordinate visualization)。横向的数据挖掘工具集(横向的数据挖掘工具集(95年开始)年开始)l发展原因 随着数据挖掘应用的发展,人们逐渐认识到数据挖掘软件需要和以下三个方面紧密结合:1)数据库和数据仓库;2)多种类型的数据挖掘算法;3)数据清洗、转换等预处理工作。随着数据量的增加,需要利用数据库或者数据仓库技术进行管理,所以数据挖掘系统与数据库和数据仓库结合是自然的发展。现实领域的问题是多种多样的,一种或少数数据挖掘算法难以解决 挖掘的数据通常不符合算法的要求,需要有数据清洗、转换等数据预处理的配合,才能得出有价值的模型横向的数据挖掘工具集(横向的数据挖掘工具集(95年开始)年开始)l发展过程 随着这些需求的出现,1995年左右软件开发商开始提供称之为“工具集”的数据挖掘软件l特点 此类工具集的特点是提供多种数据挖掘算法 包括数据的转换和可视化 由于此类工具并非面向特定的应用,是通用的算法集合,可以称之为横向的数据挖掘工具(Horizontal Data Mining Tools)由于此类工具并非面向特定的应用,是通用的算法集合,所以称之为横向的数据挖掘工具 典型的横向工具有IBM Intelligent Miner、SPSS的Clementine、SAS的Enterprise Miner、SGI的MineSet、Oracle Darwin等 横向的数据挖掘工具集(横向的数据挖掘工具集(95年开始)年开始)IBM Intelligent MinerSPSS的的ClementineSAS的的Enterprise MinerSGI的的MineSetOracle Darwin纵向的数据挖掘解决方案(纵向的数据挖掘解决方案(99年开始)年开始)l发展原因 随着横向的数据挖掘工具的使用日渐广泛,人们也发现这类工具只有精通数数据挖掘算法的专家才能熟练使用,如果对算法不了解,难以得出好的模型 从1999年开始,大量的数据挖掘工具研制者开始提供纵向的数据挖掘解决方案(Vertical Solution),即针对特定的应用提供完整的数据挖掘方案 对于纵向的解决方案,数据挖掘技术的应用多数还是为了解决某些特定的难题,而嵌入在应用系统中纵向的数据挖掘解决方案(纵向的数据挖掘解决方案(99年开始)年开始)在证券系统中嵌入神经网络预测功能 在欺诈检测系统中嵌入欺诈行为的分类/识别模型 在客户关系管理系统中嵌入客户成簇/分类功能或客户行为分析功能 在机器维护系统中嵌入监/检测或识别难以定性的设备故障功能 在数据库营销中嵌入选择最可能购买产品的客户功能 在机场管理系统中嵌入旅客人数预测、货运优化功能 在基因分析系统中嵌入DNA识别功能 在制造/生产系统中嵌入质量控制功能等纵向的数据挖掘解决方案(纵向的数据挖掘解决方案(99年开始)年开始)KD1(主要用于零售业)(主要用于零售业)Options&Choice(主要用于保险业主要用于保险业)HNC(欺诈行为侦测)(欺诈行为侦测)Unica Model 1(主要用于市场营销主要用于市场营销)各行业电子商务网站各行业电子商务网站算算法法层层商商业业逻逻辑辑层层行行业业应应用用层层商业应用商业应用商业模型商业模型挖掘算法挖掘算法CRM产品推荐产品推荐客户细分客户细分客户流失客户流失客户利润客户利润客户响应客户响应关联规则、序列模式、分类、聚集、神经元网络、偏差分析关联规则、序列模式、分类、聚集、神经元网络、偏差分析WEB挖掘挖掘网站结构优化网站结构优化网页推荐网页推荐商品推荐商品推荐。基因挖掘基因挖掘基因表达路径分析基因表达路径分析基因表达相似性分析基因表达相似性分析基因表达共发生分析基因表达共发生分析。银行银行电信电信零售零售保险保险制药制药生物信息生物信息科学研究科学研究。相关行业相关行业情况概览 2002年9月,Amazon上关于数据挖掘的书有251本()目前有数百个数据挖掘软件产品()数据挖掘应用相对广泛 l国内大部分处于科研阶段 各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有)数据挖掘讨论组()l有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Minerl自主知识产权的数据挖掘软件 复旦德门()等l银行 美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等l电子商务 网上商品推荐;个性化网页;自适应网站l生物制药、基因研究 DNA序列查询和匹配;识别基因序列的共发生性 l电信 欺诈甄别;客户流失l保险、零售。数据数据挖掘挖掘客户分析析基分因其他其他保险客户保险客户证券客户证券客户银行客户银行客户电信客户电信客户零售客户零售客户信用卡信用卡储蓄卡储蓄卡存折存折按揭按揭借贷借贷人类基因植物基因动物基因特殊群体基因基因序列基因序列基因表达谱基因表达谱基因功能基因功能基因制药基因制药 .为什么没有广泛使用?l数据挖掘正在快速的发展 技术的研究和开发已经走在很前沿的地方 数据挖掘应用面已经扩充了很多l但是仍然没有希望的高,为什么?希望在多少年内达到数十亿元的盈利?是一种增值服务(Not bread-and-butter)不能认为高不可攀,所以不去过问 是一门年轻的技术,需要和实际结合,解决现实问题国内应用存在的问题l 数据积累不充分、不全面l 业务模型构建困难l 缺少有经验的实施者Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售 聚集(聚集(Cluster)聚集是把整个数据库分成不同的群组。它的目的聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数是要群与群之间差别很明显,而同一个群之间的数据尽量相似。据尽量相似。常用技术:神经元网络、常用技术:神经元网络、K均值、最近邻均值、最近邻客户消费异常行为分析模型l客户分析业务模型 交叉销售 客户响应 客户流失 客户利润l信用卡分析业务模型 客户信用等级评估 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常行为分析MISERPCRME_BusinessCDW客户数据仓库数据挖掘算法库模型库组件库组件库产品推荐客户细分客户流失客户利润客户响应行业应用知识CIASCIASCIASCIASCIASCIAS应用服务器应用服务器应用服务器应用服务器应用服务器应用服务器信息系统信息系统信息系统信息系统信息系统信息系统 行业分析行业分析行业分析行业分析行业分析行业分析客户响应模型客户响应模型基本概念基本概念用哪一种数据挖掘技术实现?用哪一种数据挖掘技术实现?l 与数据库数据仓库系统集成l 与预言模型系统集成 l 挖掘各种复杂类型的数据l 与应用相结合 l 研制和开发数据挖掘标准 l 支持移动环境生产过程工艺参数 1(连续型时间序列)工艺参数 2(离散型时间序列)产品质量(离散型时间序列)质量检验!t0t1t2t3T预热阶段加热阶段均热阶段TT1T2T3vx1x2x3质量检验!0 x预热区加热区均热区t0t1t2t3质量检验!TT1T3T2生产过程生产过程X:工艺参数时间序列Y:质量检测结果tXtYttx1(t)y1y2y3x2(t)x3(t)XY1,2,(),)iiinx ty样本111(),)x ty样本222(),)x ty样本333(),)x tyT1T2T3vx1x2x3tT3T2T10质量检验!0T1T2T3Ttt1x1/vt2x2/vt3x3/v0质量检验!t1t2t3T1T3T2质量检验!tT3T2T10t1t2t3质量检验!T组装前t0t1t2t3T组装后样本模式抽取1,2,(),)iiinx ty1,2,(,)iiinm y数据挖掘数据挖掘生产历史数据质量问题分析 寻找质量事故的原因(质量分析):相关分析问题:发生质量事故后,分析导致该事故的可能原因。这也是一种离线应用。避免质量事故的发生(质量预测):设计验证问题:设计新的工艺参数组合时,质量模型用于根据工艺参数的设计值验证是否会导致质量问题。这是一种离线的应用。质量模型质量模型工艺设计数据产品质量预测数据挖掘数据挖掘1,2,(,)iiinm y质量分类模型数据挖掘数据挖掘1,2,(,)iiinm y质量分析结论烟道T燃料喷嘴钢锭翻板炉膛炉壁FGHF 燃料流量T 炉膛温度G 翻板开度H 烟气成分预热段加热段均热段00.51.01.52.0tT80012001600002000典型加热工艺
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 工作计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!