数据挖掘技术介绍

上传人:花****园 文档编号:243736622 上传时间:2024-09-29 格式:PPT 页数:39 大小:783KB
返回 下载 相关 举报
数据挖掘技术介绍_第1页
第1页 / 共39页
数据挖掘技术介绍_第2页
第2页 / 共39页
数据挖掘技术介绍_第3页
第3页 / 共39页
点击查看更多>>
资源描述
单击此处编辑母版标题样式,单击此处编辑母版文本样式,第二级,第三级,第四级,第五级,数 据 挖 掘 技 术 简 介,演讲人:钟云飞,Email,:,2002年7月19日,大 纲,什么是数据挖掘,数据挖掘的标准流程:,CRISPDM,数据挖掘工具,SPSS,Clementine,简介,第一部分:什么是数据挖掘?,数据挖掘都干了些什么?,英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,数据挖掘都干了些什么?,GUS日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。,通过数据挖掘的方法使库存成本比原来减少了3.8%,数据挖掘都干了些什么?,汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。,营销费用减少了30,数据挖掘都干了些什么?,美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。,发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本,数据挖掘都干了些什么?,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务,通过数据挖掘您可以,发现最有价值的客户,通过数据挖掘您可以,使组合销售更有效率,通过数据挖掘您可以,留住那些最有价值的客户,通过数据挖掘您可以,用更小的成本发现欺诈现象,通过采用自动或半自动的手段,在海量数据中发现有意义的行为和规则的探测和分析活动。,数据挖掘能够帮助你选择正确瞄准潜在目标,向现有的客户提供额外的产品,识别那些准备离开的好客户。,什么是数据挖掘,电信,:流失,银行:聚类(细分),交叉销售,百货公司/超市:购物篮分析,(关联规则),保险:细分,交叉销售,流失(原因分析),信用卡:,欺诈探测,细分,电子商务:,网站日志分析,税务部门:偷漏税行为探测,警察机关:犯罪行为分析,医学:,医疗保健,数据挖掘应用领域,数据挖掘效益分析(直邮),(,Big Bank & Credit Card Company),目的:发现新客户,数据挖掘以前,数据挖掘以后,差别,发信的数量,1,000,000,750,000,(250,000),成本,$1,000,000,$750,000,($250,000),响应的数量,10,000,9,000,(1,000),每个响应的毛利,$125,$125,$0,总毛利,$1,250,000,$1,125,000,($125,000),净利润,$250,000,$375,000,$125,000,建模的费用,0,40,000,$40,000,最终的利润,$250,000,$335,000,$85,000,第二部分:数据挖掘标准流程,CRISP-DM,CRISPDM简介,CRISPDM,是,CRoss,-Industry Standard ProcessData Mining,的缩写,由,SPSS、NCR、Daimler-Benz,在1996年制定,CRISP,是,当今数据挖掘业界通用流行的标准之一,它强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在研究领域,CRISPDM,商业理解,数据理解,数据准备,建立模型,模型评估,模型发布,商业理解(Business Understanding),找问题确定商业目标,对现有资源的评估,确定问题是否能够通过数据挖掘来解决,确定数据挖掘的目标,制定数据挖掘计划,数据理解(Data Understanding),确定数据挖掘所需要的数据,对数据进行描述,数据的初步探索,检查数据的质量,数据准备(Data Preparation),选择数据,清理数据,对数据进行重建,调整数据格式使之适合建模,建立模型(Modeling),对各个模型进行评价,选择数据挖掘模型,建立模型,模型评估(Evaluation),评估数据挖掘的结果,对整个数据挖掘过程的前面步骤进行评估,确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型,模型发布(Deployment),把,数据挖掘模型的结果送到相应的管理人员手中,对模型进行日常的监测和维护,定期更新数据挖掘模型,第三部分:数据挖掘工具,SPSS Clementine简介,Make a difference with the,predictive power of data mining,应用Clementine达到你数据挖掘的目标,图形化的界面、数据流的形式建立模型,保证了应用,Clementine,进行数据挖掘关注商业更甚于关注技术本身,开放式的技术是更好的保护您的投资的保障,高度的扩展性保证对数据库中大量的数据进行挖掘,业界领先的发布技术使数据挖掘结果更好的传递到相应管理人员手中,把你的商业经验溶入数据挖掘过程是数据挖掘成功的关键,Better data mining results,!,Insight,Business problem,?,What you know,丰富的数据挖掘算法,Prediction,Neural net, C5.0,Classification,Neural net, C5.0,Segmentation,Kohonen,Kmeans, C5.0,Association,Apriori, GRI, Web graph,Sequence,CaprI, Neural Net, Regression,与SPSS及AnswerTree无缝集成提供更多的算法,Logistic Regression,Discriminant,Analysis,Factor Analysis,Many more.,C&RT,CHAID,Exhaustive CHAID,QUEST,使你在数据仓库上的投资得到最大的回报,Sybase,DB2,Informix,OpenIngress,Oracle,SQL Server,+ ODBC drivers for others,+ ODBC socket for native drivers,开放的建模性能,在Clementine中通过CEMI加入新的算法,Clementine的系统结构,1. Perform many operations in the database.,2. Perform the rest on a powerful server.,3. Use the client processor for viewing results.,Clementine Server delivers huge,performance gains,Generating a distribution graph,995 seconds when processed on the desktop,69 seconds when processed on the server,19 seconds when pushed back into the database,In-database processing delivers better performance as data sets get larger,Selecting cases,seconds required for millions of records when processed on the server v. in the database,Clementine Server cuts model building time up to 90%,Model building,time needed for building models on the server as a percentage of the time needed for building the model on the desktop,Clementine Solution Publisher:领先的模型发布技术,Model export,Clementine Solution Publisher: model and processing,SPSS为您提供全方位的服务,帮助您获得商业成功,全方位的服务,全球性的公司,与业界领袖的伙伴关系,谢谢大家!,
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 商业管理 > 商业计划


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!