数据挖掘基础培训讲义-数据挖掘概述课件

上传人:58****5 文档编号:243125340 上传时间:2024-09-16 格式:PPT 页数:58 大小:976KB
返回 下载 相关 举报
数据挖掘基础培训讲义-数据挖掘概述课件_第1页
第1页 / 共58页
数据挖掘基础培训讲义-数据挖掘概述课件_第2页
第2页 / 共58页
数据挖掘基础培训讲义-数据挖掘概述课件_第3页
第3页 / 共58页
点击查看更多>>
资源描述
,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,*,*,*,Click to edit Master title style,Click to edit Master text styles,Second level,Third level,Fourth level,Fifth level,DM,基础,-1,数据挖掘概述,教材内容来源于,数据挖掘:概念与技术,第,1,章 引言,(,Jiawei,Han and,Micheline,Kamber,),2024/9/16,1,课程大纲,什么激发了数据挖掘?,什么是数据挖掘?,在何种数据上进行数据挖掘?,数据挖掘功能,所有模式都是有意义的吗?,数据挖掘系统的分类,数据挖掘中的主要问题,2024/9/16,2,动机:“需要是发明之母”,数据爆炸问题,自动化的数据收集工具和成熟的数据库技术导致了数据库、数据仓库和其它信息仓库中储存了海量数据,数据丰富,但信息贫乏!,解决方案:数据仓库和数据挖掘,数据仓库和联机分析处理,从海量数据中抽取出有意义的知识(规则、规律、模式、约束),2024/9/16,3,数据库技术的演化,(参见图,1.1),1960,s:,数据集合,数据库创建,,IMS,和网络数据库,1970s:,关系数据模型,关系数据库系统实现,1980s:,RDBMS,,高级数据模型(扩展关系模型,面向对象模型,演绎模型等)和面向应用的数据库管理系统(空间,科学,工程等),1990s2000s:,数据挖掘和数据仓库,多媒体数据库和,Web,数据库,2024/9/16,4,什么是数据挖掘?,数据挖掘(数据库中的知识发现):,从,大型数据库,中抽取有意义的(,非平凡的,,,隐含的,,,以前未知的,并且是,有潜在价值的,)信息或模式,其它类似术语,:,数据挖掘:是否用词不当?,数据库中的知识发现(,KDD),,知识抽取,数据/模式分析,数据考古,数据捕捞,商业智能等,什么不属于数据挖掘?,(,演绎)查询处理,专家系统或小型的机器学习,/,统计分析程序,2024/9/16,5,为何进行数据挖掘?,潜在应用,数据库分析和决策支持,市场分析和管理,目标营销,客户关系管理,购物篮分析,交叉销售,市场分段,风险分析和管理,预测,客户保持,降低风险,质量控制,竞争力分析,欺诈检测与管理,其它应用,文本挖掘(新闻组,电子邮件,文档)和,Web,分析,智能询问解答(,QA),系统,2024/9/16,6,市场分析和管理 (1),分析的数据源在哪里?,信用卡交易,积分卡,,,折扣优惠券,客户抱怨电话,以及(公众)生活方式研究,目标营销,发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等,判别客户的序列购买模式,从单身账户到共有账户的转变:结婚,交叉销售分析,产品销售之间的关联,基于关联信息而进行的预测,2024/9/16,7,市场分析和管理 (2),构造客户特征,数据挖掘可以告诉您哪种客户会购买哪种产品 (通过聚类或分类),识别出客户需求,识别出适合不同客户的最佳产品,通过预测来发现吸引新客户的因素,提供综合信息,各种各样的多维综合报表,统计上的综合信息(数据的集中趋势和变化),2024/9/16,8,集团分析和风险管理,财政计划和资产评估,现金周转分析和预测,资产评估中的相机要求分析,交叉组合分析和时间序列分析(财务比率,趋势分析等),资源规划,资源和开销的总结和比较,竞争力,监视竞争对手和市场导向,对客户分组并基于分类制定价格,在激烈的竞争市场中制定价格策略,2024/9/16,9,欺诈检测和管理 (1),应用,广泛用于健康卫生,零售,信用卡服务,电信(电话卡欺诈)等行业,方法,使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识别出类似案例,示例,汽车保险,: 检测出那些伪造事故来骗取保险金的人群,洗钱,: 检测可疑的金钱交易(美国财政部的金融犯罪执行网络),医疗保险,: 检测出职业病人,2024/9/16,10,欺诈检测和管理,(2),检测出不必要的医疗处理,澳大利亚医疗保险委员会查出在许多案例中病人都要求,blanket screening tests (,每年节省一百万澳元,),检测电话欺诈,通话模型:对端号码,通话时长,每天(周)通话次数。分析那些偏离预期的通话模式,英国电信检测出频繁进行集团内部通话(特别是用手机通话)的一些犯罪集团,成功避免了数百万美元的欺诈,零售,分析家估计大约,38%,的零售额减少是由于不诚实的员工造成的,2024/9/16,11,其它应用,体育,IBM Advanced Scout,分析了,NBA,比赛的统计数据(阻攻, 助攻, 犯规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势,天文学,JPL,和,Palomar,天文台借助数据挖掘技术发现了22颗类星体,因特网冲浪辅助,IBM Surf-Aid,利用数据挖掘算法来分析与销售有关的,Web,访问日志,发现用户的偏好和行为,分析电子商务的有效性,改善网站的结构等,2024/9/16,12,数据挖掘: 一个,KDD,过程,数据挖掘: 知识发现过程的核心,数据清洗,数据集成,数据库,数据仓库,任务相关的数据,选取,数据挖掘,模式评价,2024/9/16,13,KDD,过程的步骤,对应用领域的研究:,相关的预备知识和应用的目标,建立目标数据集: 数据选取,数据清洗,和预处理: (可能占据多达,60%,的工作量!),数据归约和转换,:,找出有用的特征,维度/变量归约,不变式转换,选择数据挖掘功能,综合, 分类, 回归, 关联, 聚类.,选择挖掘算法,数据挖掘,: 找出有意义的模式,模式评价和知识表达,可视化, 转换, 消除冗余模式等等,利用发现的知识,2024/9/16,14,数据挖掘和商业智能,增加支持,商业决策,的,潜能,最终用户,业务,分析师,数据,分析师,DBA,制定,决策,数据表达,可视化技术,数据挖掘,信息发现,数据探索,OLAP, MDA,统计分析, 查询和报表,数据仓库,/,数据集市,数据源,纸媒介,文件, 信息来源,数据库,OLTP,2024/9/16,15,典型数据挖掘系统的架构,数据,仓库,数据清洗 & 数据集成,过滤,数据库,数据库或数据仓库 服务器,数据挖掘引擎,模式评价,图形用户界面,知识库,2024/9/16,16,数据挖掘: 在何种数据上进行?,关系数据库,数据仓库,交易数据库,高级数据库和信息仓库,面向对象和对象关系数据库,空间数据库,时间序列数据和时态数据,文本数据库和多媒体数据库,异构数据库和遗留数据库,因特网,2024/9/16,17,数据挖掘功能 (1),概念描述: 特征化和区分,泛化,综合, 以及数据特征对比,例如, 干旱和潮湿的地区,关联,(,相关性和因果关系),多维关联和单维关联,age(X, “20.29”) ,income(X, “20.29K”),buys(X, “PC”) support = 2%, confidence = 60%,contains(T, “computer”),contains(x, “software”) 1%, 75%,2024/9/16,18,数据挖掘功能 (2),分类和预测,找出能描述和区分分类或概念的模型,(,函数),用于以后的预测,例如, 按气候来对国家进行分类,或者按每公里耗油量来对汽车分类,表达: 决策树, 分类规则, 神经网络,预测: 预测未知或缺失的数值,聚类分析,类标记是未知的,:,对数据进行分组以形成新类, 例如, 对房屋聚类以找出分布模式,聚类的原则,:,最大化类内相似性,并且最小化类间相似性,2024/9/16,19,数据挖掘功能 (3),孤立点分析,孤立点,:,与数据的一般行为不一致的数据对象,常常被视为噪声或异常而丢弃,但对于欺诈检测和稀有事件分析来说很有用,趋势和演变分析,趋势和偏差: 回归分析,序列模式挖掘, 周期分析,基于相似度的分析,其它模式分析或统计分析,2024/9/16,20,所有“挖掘”的模式都是有意义的吗?,数据挖掘系统,/,查询可能产生成千上万个模式,但并非都有意义,建议的方法: 以人为中心, 基于查询, 有目的的挖掘,兴趣度度量,: 一个模式是,有意义的,,,如果它,易于被人理解,在某种程度上,,对于新数据或测试数据有效,潜在有用,新颖, 或者验证了用户渴望确认的某些假设,客观兴趣度和主观兴趣度度量:,客观兴趣度:,基于统计和模式的结构,例如, 支持度,置信度, 等等,主观兴趣度:,基于用户对数据的确信程度,例如, 意外程度, 新奇程度, 可行动性, 等等,2024/9/16,21,能否只找出有意义的模式,能否找全?,找出全部有意义的模式: 完备性,数据挖掘系统能否找出,全部,有意义的模式,?,关联,vs.,分类,vs.,聚类,只找出有意义的模式: 优化,数据挖掘系统能否,只,找出有意义的模式?,方法,首先生成全部模式,然后过滤无意义的模式,只生成有意义的模式,挖掘的查询优化,2024/9/16,22,数据挖掘: 多学科的汇合,数据挖掘,数据库技术,统计学,其它学科,信息科学,机器学习,可视化,2024/9/16,23,数据挖掘: 分类方案,一般功能,描述型数据挖掘,预测型数据挖掘,不同角度, 不同分类,挖掘的数据库类型,挖掘的知识类型,所用的技术,应用的领域,2024/9/16,24,数据挖掘分类的多维视图,挖掘的数据库类型,关系的、事务的、面向对象的、对象,-,关系的、空间的、时间序列的、文本的、多媒体的,,WWW,等等,挖掘的知识类型,特征、区分、关联、分类、聚类、趋势和演化分析、孤立点、偏差分析、类似性分析等,多重抽象层次的知识发现,所用的技术,面向数据库, 数据仓库 (,OLAP),机器学习, 统计学, 可视化, 神经网络, 等等,应用领域,零售,电信, 银行, 欺诈分析,DNA,挖掘, 股票证券,Web,挖掘,Web,日志分析,等等,2024/9/16,25,OLAP,挖掘: 数据挖掘和数据仓库的集成,数据挖掘系统,数据库管理系统, 数据仓库系统的耦合,不耦合,松散耦合, 半紧密耦合, 紧密耦合,联机分析型数据挖掘,数据挖掘和,OLAP,技术的集成,多层次知识的交互挖掘,有必要通过上卷/下钻,旋转,切片/切块来挖掘不同抽象层次的知识和模式,多种挖掘功能的集成,基于特征化的分类,先聚类后关联分析,2024/9/16,26,OLAM,的架构,数据仓库,元数据,MDDB,OLAM,引擎,OLAP,引擎,图形用户界面,API,数据立方体,API,数据库,API,数据清洗,数据集成,第3层,OLAP/OLAM,第2层,多维数据库,第1层,数据存储,第4层,用户界面,过滤 & 集成,过滤,数据库,挖掘查询,挖掘结果,2024/9/16,27,数据挖掘中的主要问题 (1),挖掘方法论和用户交互,在数据库中挖掘不同类型的知识,多层次知识的交互挖掘,结合背景知识,数据挖掘查询语言和特定数据挖掘,数据挖掘结果的表达和可视化,处理噪声和不完备的数据,模式评价,:,兴趣度问题,性能和缩放性,数据挖掘算法的效率和缩放性,并行的, 分布式的和增量的挖掘算法,2024/9/16,28,数据挖掘中的主要问题 (2),数据类型的多样性,关系型数据和复杂类型数据的处理,异构数据库和因特网,(WWW),的挖掘,应用领域和社会影响,知识发现的应用领域,领域相关的数据挖掘工具,智能询问解答(,QA),系统,过程控制和决策制定,挖掘的知识和现有知识的集成,:,知识融合问题,数据的安全性,完整性, 和隐私保护,2024/9/16,29,总结,数据挖掘: 从大量数据中发现有意义的模式,数据库技术的自然演变,巨大的需求, 广泛的应用,KDD,过程包括数据清洗, 数据集成, 数据选取, 转换, 数据挖掘, 模式评价, 和知识表达,数据挖掘可以在多种数据存储上进行,数据挖掘功能: 特征化,区分, 关联, 分类, 聚类, 孤立点和趋势分析等等,数据挖掘系统的分类,数据挖掘中的主要问题,2024/9/16,30,NCR,数据挖掘总体介绍,Why?,Which?,Where?,How?,What?,数据挖掘,FAQ,数据,=,储藏室,数据,+,工具,=,网吧,数据,+,工具,+,方法,=,信息,数据,+,工具,+,方法,+,目标,=,知识,数据,+,工具,+,方法,+,目标,+,行动,=,价值,(,Why,)为何要数据挖掘?,Data Mining is for,power users,to follow a,proven methodology to,discover,action-oriented insights,from,detail operations data,to,improve business.,数据,挖掘是,分析专家,用,已验证,的方法,在,业务细节数据,中,发掘出,可,采取行动的洞察力,,从而,改善企业运营,。,(,What,)什么是数据挖掘?,客户,面向客户,客户管理,CRM,客户关系管理,数据仓库,Wallet,Share,Acquisition,Retention,Fraud,Product,Affinity,Price,Sensitivity,Value &,Risks,Psycho-demo,graphics,DM,Methody,Tools &,Techniques,Architect,& OAM,Ad Hoc,Query,WAR / F,(,Which,)在哪些方面进行挖掘?,NCR DM in Telecommunication,业务目标模型,-,钱包份额,/,争取新客户,(,Wallet,Share/Acquisition),预测客户购买新产品的倾向,Cross-Sell Response Model,预测客户扩展服务用量的倾向,Up-sell Response Model,预测客户升级服务的倾向,Upscale Response Mod,el,客户挽留及保育,(,Retention,),预测哪些客户会终止服务的使用,Churnsentry,Solution,改善挽留行动的效率,Response Model,欺诈,/,拖欠侦测,(,Fraud/Delinquency,),预测客户拖欠账单支付的倾向,Propensity to Delinquent,预测拖欠客户对催缴的响应,Propensity to Collect,欺诈侦测及管理,Fraudsentry,Solution,基础,/,知识,(,Infrastructure/Knowledge,),了解客户购买不同产品的情况,Product Affinity,评估客户对运营商的利润贡献度,Value Score,评估客户的价格敏感度,Price Sensitivity Profiling,预测客户称为高价值客户的倾向,Propensity to be VIP,客户信用度评估,Credit Scoring/Credit Mod,el,客户分群,Psycho-demographic,Profiling,预测营收变化趋势,Revenue Forecast,预测客户的服务使用量变化趋势,Usage Forecast,分析专题示例,分析型应用,业务问题,业务价值,客户分群,客户如何分群以及各群组的特征?,客户关系的个性化定制,以便提高客户满意度,降低流失率,购买倾向,哪些客户最可能响应我的促销活动?,有的放矢,锁定有需求的客户,提高客户忠诚度,提高营销活动的效率,利润贡献度,什么是客户的生命周期价值?,基于客户的综合利润贡献度来有效决策,欺诈侦测,如何鉴别哪些交易可能会是欺诈行为?,快速鉴别出欺诈行为,立即反应以避免损失,客户流失,哪些客户可能会弃我而去?,避免高价值客户的流失,低价值客户随他去,客户获取,哪些人可能成为我的客户?哪些人可能带来最高的收益?,最小化新客户的招揽成本,渠道优化,到达每个客户分群的最佳渠道是什么?,基于客户偏好和企业需要与客户交互,从而控制成本,采用抽样技术避免压力,需要频繁耗时的数据迁移,数据冗余,/,元数据管理问题,Modelers,Build Models,Business,Deploys Models,高性能、易扩展,基本无需数据迁移,避免过时数据,避免抽样误差,元数据共享,易于使用,降低成本,节省投资,!,Modelers,Build Models,Business,Deploys Models,传统的数据挖掘,场内,(In-DBS),挖掘,(,Where,)在哪里挖掘?,确定业务问题范围,(,度量数称胜,),Teradata Data Warehouse,选择抽样,(,必也正名乎,),数据清洗,(,谨防假做真时真亦假,无为有处有还无,),数据探索,(,月有阴,晴,圆缺,),建模,(,奇正之变,不可胜数也,),发布,(,工欲成其事,必先利其器,),(,How,),NCR,数据挖掘方法论,数据挖掘行动指南,做什么?,该项工作任务的内容是什么,要达到什么目标,工作内容和工作目标,目标,:,数据挖掘是,分析专家,用,已验证的方法,在,业务细节数据,中发掘出,可采取行动的洞察力,,从而,改善企业运营,任务,:,遵循,NCR,数据挖掘方法论,实施数据挖掘专题,(,确定业务问题,数据准备,数据探索,建模,模型发布,),向客户提供业务咨询,帮助客户完善挽留,产品梳理和营销流程,跟踪实施效果,并改进挖掘模型,体现数据挖掘对,ROI,的提升,向客户提供数据挖掘培训课程,提高挖掘人员的综合能力,工作内容和工作目标,数据挖掘可以应用在哪些方面,客户,面向客户,客户管理,CRM,客户关系管理,数据仓库,Wallet,Share,Acquisition,Retention,Fraud,Product,Affinity,Price,Sensitivity,Value &,Risks,Psycho-demo,graphics,DM,Methody,Tools &,Techniques,Architect,& OAM,Ad Hoc,Query,WAR / F,NCR DM in Telecommunication,业务目标模型,-,钱包份额,/,争取新客户,(,Wallet,Share/Acquisition),预测客户购买新产品的倾向,Cross-Sell Response Model,预测客户扩展服务用量的倾向,Up-sell Response Model,预测客户升级服务的倾向,Upscale Response Mod,el,客户挽留及保育,(,Retention,),预测哪些客户会终止服务的使用,Churnsentry,Solution,改善挽留行动的效率,Response Model,欺诈,/,拖欠侦测,(,Fraud/Delinquency,),预测客户拖欠账单支付的倾向,Propensity to Delinquent,预测拖欠客户对催缴的响应,Propensity to Collect,欺诈侦测及管理,Fraudsentry,Solution,基础,/,知识,(,Infrastructure/Knowledge,),了解客户购买不同产品的情况,Product Affinity,评估客户对运营商的利润贡献度,Value Score,评估客户的价格敏感度,Price Sensitivity Profiling,预测客户称为高价值客户的倾向,Propensity to be VIP,客户信用度评估,Credit Scoring/Credit Mod,el,客户分群,Psycho-demographic,Profiling,预测营收变化趋势,Revenue Forecast,预测客户的服务使用量变化趋势,Usage Forecast,Frequently used techniques,业务目标分析方法,/,技术,-,钱包份额,/,争取新客户,(,Wallet,Share/Acquisition),预测客户购买新产品的倾向,决策树,/,对数回归,预测客户扩展服务用量的倾向,决策树,/,对数回归,预测客户升级服务的倾向,决策树,/,对数回归,客户挽留及保育,(,Retention,),预测哪些客户会终止服务的使用,决策树,/,对数回归,改善挽留行动的效率,描述型分析,/,响应模型,欺诈,/,拖欠侦测,(,Fraud/Delinquency,),预测客户拖欠账单支付的倾向,对数回归,预测拖欠客户对催缴的响应,决策树,欺诈侦测及管理,规则归纳,基础,/,知识,(,Infrastructure/Knowledge,),了解客户购买不同产品的情况,关,联规则,评估客户对运营商的利润贡献度,A,BC,成本核算,评估客户的价格敏感度,描述型分析,/,聚类,预测客户称为高价值客户的倾向,对数回归,客户信用度评估,描述型分析,客户分群,聚类,预测营收变化趋势,线性回归,预测客户的服务使用量变化趋势,线性回归,由谁来做,由谁来负责执行该项工作任务,应具备什么资质和技能,实施人员,数据挖掘项目的时间计划要根据多个关键因素而定:,挖掘专题的复杂程度,客户对挖掘结果性能评定的期望,可用的数据完备性及数据质量,项目人力资源是否充足以及人员能力等等,以移动通信行业的客户流失预测分析为例,一般需要,2,4,个月不等,(,在数据已经准备就绪的情况下,),数据挖掘项目需要如下的成员或角色来参与完成:,数据挖掘专家,PDM,建模人员,ETL,开发人员,AP,开发人员,(,客户方,),熟悉业务的人员以及熟悉数据仓库,PDM,的人员予以支持,实施人员,数据挖掘专家能力要求,(,基本要求,),专业技能,硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验,熟练掌握常用的数据挖掘算法,具备数理统计理论基础,并熟悉常用的统计工具软件,行业知识,具有相关的行业知识,或者能够很快熟悉相关的行业知识,合作精神,具有良好的团队合作精神,能够主动和项目中其他成员紧密合作,客户关系能力,具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对数据挖掘的误解和过高期望,具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力,实施人员,数据挖掘专家能力要求,(,进阶要求,),具有数据仓库项目实施经验,熟悉,Teradata,数据仓库技术及方法论,熟练掌握,SQL,语言,包括复杂查询、性能调优,熟练掌握,ETL,开发工具和技术,熟练掌握,Microsoft Office,软件,包括,Excel,和,PowerPoint,中的各种统计图形技术,善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案,怎么做?,执行该项工作任务的方式、方法、工作流程和工作模板等,工作流程和方法,按照,NCR,的数据挖掘方法论,数据挖掘项目包含五个阶段:定义业务问题范围、选取和抽样、数据探索、建模和实施,(,评估和发布,),工作流程和方法,阶段,1:,定义业务问题范围,在这个数据挖掘的初始阶段,需明确阐述项目目标和客户业务需求,目的是明确包括客户响应的数据挖掘问题。基于客户响应(如客户流失或产品购买趋势)特性,可以从概念上定义响应变量,与待选的预测变量没有直接的派生关系,直接的派生关系意指响应变量可由一或多个预测变量直接计算出来,。最终,为了这些目标可以必要地调整项目计划进程。,阶段,1,的任务包括:,明确业务目标,定义响应变量,项目计划必要的调整,工作流程和方法,阶段,2:,选取和抽样,在这一阶段,建模小组要搜寻并检查客户数据,做为未来的分析定义属性的简略一览表。在数据挖掘的子过程中,创建一个数据映射概念图以对应客户数据与建模相关的各个数据属性名。数据能被整合到一个适当的程度,省略不适当的记录(如商务客户,非居民客户,如果分析仅针对居民客户)、不完整的数据记录、训练数据、试验数据,等等。,阶段,2,的任务包括:,数据来源,数据映射,准备数据评估,数据的必要聚合,数据抽样,工作流程和方法,阶段,3:,数据探索,在这个阶段中,建模小组核查目前的数据源并且努力去发现在每个待选的预测变量和响应变量之间是否有任何关系。数据转换通常在更进一步的范围中探察数据关系。数据的派生方法被用来捕获和表现已发现的关系。通常,数值分析是为了全面理解数据的第一步,跟着进行的统计分析是为了得到有关数据分配的更好知识。如频率图、柱状图、条线图,散点图、框图和许多其他方式是典型的且很好的数据的图形化呈现工具,使为下一步建立模型准备数据来源变得容易很多。在数据挖掘过程中这是一个关键的阶段,通常随伴着由正式的数据探索报告来记录和呈现发现。,阶段,3,的任务包括:,数据质量检查,数据的必要整理,通过图形化呈现工具和其他的统计方法理解数据,分析待选预测变量和响应变量之间的关系,数据转换以辅助数据的分析,数据派生为建立模型做准备,整理和呈现数据探索的发现,工作流程和方法,阶段,4:,建模,在这一阶段,建模小组建立并确认分析模型。建模小组通常尝试不同的建模技术或结合不同数据集,并衡量模型性能的不同,选出最好的。来自最终用户的业务领域知识在这个阶段是非常关键的,因为他们可以评价和确认模型的结果、理解发现并付诸实际行动,即证明这些模型并在实际环境中实施。,阶段,4,的任务包括:,为模型的训练和验证准备数据集,在模型的建立中使用适当的建模技术,针对不同的建模技术测试模型性能,必要地精炼分析模型,和主题专家一起的检验分析模型,记录分析模型和结果,工作流程和方法,阶段,5:,实施,(,评估和发布,),在这一阶段,需要用模型的结果来帮助作出业务决定、战略设计和战术实施。收集实施结果反馈,为模型的退化进行侦测,更进一步改善模型性能。虽然能利用模型的结果,复杂的展示层界面通常是不必的,如果大量努力为了实施前端应用,或自动化的数据挖掘过程,这个阶段会变得非常,IT,导向。数据挖掘过程的自动化是,CRM,(客户关系管理)的解决方案中不可或缺的一部分,因此,是与典型的数据挖掘分开实施的项目。模型的现场测试也通常是一个单独的项目,它会花费时间在未来数月对模型性能的追踪上。,阶段,5,的任务包括:,客户模型评分,如客户流失模型计算客户流失可能性的评分,和存储模型结果,为性能跟踪和进一步整合其它业务系统,如客户接触渠道系统或更完整的,CRM,系统,数据挖掘过程的自动化是单独的项目,模型结果的现场测试是单独的项目,所需工具,/,产品,/,系统,Teradata Warehouse Miner V4.0,产品线,Teradata Profiler (,适用于数据质量评估和数据概括,),Teradata ADS Generator (,适用于和其它数据挖掘软件集成,提供所需的分析数据集,),Teradata Warehouse Miner (,主要部分,包含多种主流数据挖掘算法和分析模块,),执行该项工作任务时要用到什么工具、产品和系统,使用什么工具,/,系统?,所需工具,/,产品,/,系统,Teradata Warehouse Miner v4.0,模型发布,分析型模型,的建立、测试及校验,数据,预处理,理解,业务目标,理解,源数据,数据特征刻画,及探索功能,:,可视化,描述性统计,数据探索器,分析数据集,创建功能,:,转换,矩阵功能,重组,派生变量,分析型模型,开发功能,:,分析型算法,高级统计功能,分析型模型,发布功能,:,模型转换为,SQL,模型执行,Teradata Model Manager,目标,:,运行企业内的业务人员访问和使用模型,目标用户,:,业务人员和挖掘专员,Teradata Profiler,目标,:,数据探索,数据挖掘,数据质量评估,目标用户,: DBA,数据架构师,挖掘专员,质量分析师,Teradata ADS Generator,目标,:,简化分析数据集的创建,用于建立分析型模型,.,同时包含,Teradata Profiler,的功能,目标用户,:,挖掘专员,(,支持,SAS,及其它挖掘工具,).,Teradata Warehouse Miner,目标,:,建立分析型模型,.,同时包含,Teradata ADS Generator,的功能,目标用户,:,挖掘专员,/,分析建模人员,输入要求,执行该项工作任务需要具备什么先决条件,工作先决条件,存在明确强烈的专题分析需求,挖掘专题的数据准备就绪,足够好的数据质量,(,数据已经过清洗和集成,),足够的可用数据及访问权限,足够的历史数据,(,至少,3,个月,建议,612,个月,),数据可被转换为分析所需的宽表,工作角色的支持,挖掘专家, PDM, ETL, AP,人员,业务分析人员的全程参与,输出结果,/,项目交付,执行完该项工作任务后应有什么产出和交付,输出结果,/,项目交付,数据挖掘需求说明书,数据挖掘技术说明书,PDM,ETL,脚本,数据挖掘模型评估报告,Questions?,Questions?,Questions?,讨论及交流,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 办公文档 > 教学培训


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!