获奖课件应用SASEM进行数据挖掘版

上传人:沈*** 文档编号:241769073 上传时间:2024-07-22 格式:PPT 页数:73 大小:1.03MB
返回 下载 相关 举报
获奖课件应用SASEM进行数据挖掘版_第1页
第1页 / 共73页
获奖课件应用SASEM进行数据挖掘版_第2页
第2页 / 共73页
获奖课件应用SASEM进行数据挖掘版_第3页
第3页 / 共73页
点击查看更多>>
资源描述
应用应用SAS/EM进行进行数据挖掘数据挖掘2003-04-16赛仕软件研究所(上海)有限公司议程数据挖掘概述SAS数据挖掘项目方法论及工具SAS/EM简介Workshop企业决策支持信息系统OLTP数据仓库数据仓库统计分析统计分析数据挖掘数据挖掘决策支持决策支持企业知识企业知识DW SolutionDM&Analysis SolutionApplication for C/S&B/SCBI Solution1st Qtr2nd Qtr3rd Qtr4th QtrPowerPlayFileEditDataValuesDisplayTextLegendLocation 1992 All Products Age groups Revenue($000)OLAP查询报表查询报表什么是数据挖掘?待分析待分析数据数据数据数据仓库仓库模式模式模式模式知识知识知识知识Source:”From Data Mining to Knowledge Discovery:An Overview”,Advances in Knowledge Discovery and Data Mining,AAAI Press/The MIT Press.数据抽取数据抽取数据预处理数据预处理数据挖掘数据挖掘数据变换数据变换解释评价解释评价数据挖掘全过程数据挖掘涉及领域神经计算神经计算数据库数据库知识发现知识发现数据挖掘数据挖掘统计学统计学模式模式识别识别机器学习机器学习机器学习机器学习人工人工智能智能数据挖掘算法(按有无目标变量)预测 用过去的数据预测 未来发生什么 预测未来预测未来发生的可能性发生的可能性历史数据历史数据预测算法预测算法 -神经元网络神经元网络 -决策树决策树 -回归回归 描述 用过去的数据 描述 现在发生了什么描述现在描述现在已经发生的规律已经发生的规律历史数据历史数据描述算法描述算法 -聚类聚类 -关联关联数据挖掘算法(按分析目的)回归算法:线性回归、逻辑回归、概率回归统计方法:主成分分析、因子分析、判别分析等关联算法:关联模式、序列模式、连接分析等聚类算法:Cluster、SOM/Kohonen神经元网络:MLP、RBF决策树:CHAID、CART、C4.5、C5.0数据挖掘算法x20.00.20.40.60.81.0 x10.0 0.2 0.4 0.6 0.8 1.0 x20.00.20.40.60.81.0 x10.0 0.2 0.4 0.6 0.8 1.0使用一元二次项使用简单线性 预测型预测型 回归回归 希望预测“绿点”在哪些情况下发生以及发生的概率数据挖掘常用算法Time 13yes no70%9663%ratio .39time 10ratio 0元距今天数余额连续2次=0的时间距今天数余额连续3次=0的时间距今天数Frequency余额=0元的次数余额连续2次=0的次数余额连续3次=0的次数WORKSHOP(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施数据挖掘与采样是否需要进行采样?数据在采样前需要进行什么处理?数据挖掘中所用到的一般采样类型。如何决定样本大小?数据挖掘中采样的指导策略。对于某些特定的目的,如验证和测试,是否应该采用多重采样?针对小概率事件的过采样GoodBad数据分割EXPLORATION 阶段通过探索去理解您的数据显现您的数据 Insight Distribution Explorer Multiplot使用Variable Selection工具发现最有影响的变量-降维DISTRIBUTION EXPLORER节点交叉报表简单的汇总分析MULTIPLOT 节点为每个变量自动生成直方图。同时标明每个变量对目标的影响。MODIFY 阶段根据所用的模型进行数据调整优化您的数据极值,异常值缺失值变量转换建立新的变量改变分布的形状定义最优的输入域处理共线性REPLACEMENT 节点包括基于决策树逻辑的缺失值处理。为修正变量建立指示器TRANSFORM VARIABLES 节点提供各种变量转换,包括为了优化二元目标变量预测而对变量进行自动分装。VARIABLE SELECTION 节点根据目标变量快速确定输入变量(“model screening”)。描述它们拟合线型模型的框架(regression/ANOVA)。单变量R-平方及相关检验。建立新的变量组(AOV16)与降低分类变量的类型。WORKSHOP(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施建立预测模型回归,神经网络和决策树等。Good/Bad作为分析目标。结果:Bad的可能性(全部方法)变量的重要性分析(回归,决策树)规则分析(决策树)EM回归节点EM神经网络节点提供基本选项给普通用户“智能”设定其它的复杂参数EM决策树节点WORKSHOP(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施Assessment 阶段Lift Charts(又叫 gains chart)利润/损失图(Profit/Loss Charts)投资效益比图(ROI)诊断分类图ROC Charts 各种基于临界值的图形(Threshold-based Charts)。ASSESSMENT 节点结果的鉴别好中差ROC增益累计增益二值目标的混淆矩阵(CONFUSION MATRIX)正确的正确的否定否定错误的错误的肯定肯定错误的错误的否定否定正确的正确的肯定肯定0101预测结果实际结果实际否定合计实际肯定合计否定合计肯定合计分界(CUTOFF)概率x20.00.20.40.60.81.0 x10.00.20.40.60.81.0较低的分界概率(.1)较高的分界概率(.5)WORKSHOP(信用风险建模)业务问题用于建模的数据建模前的数据处理建立预测模型模型的评估模型实施模型实施我们可以用模型来做什么?我们可以用模型来做什么?评分策略执行监控集成SCORING模型开发模型实施模型实施集成到现有的业务系统,决策支持系统中。在线客户服务系统设计STRATEGY收益模拟R=信用额度*使用率*利息*人数*(1-p(呆帐))Loss=信用额度*人数*p(呆帐)使P=Revenue Loss最大化压力测试经济发展 p(呆帐)经济萧条 p(呆帐)信用记分模型实施的时间窗Actions takenPrediction of Good/BadModel AppliedTime1 monthModel AppliedActions taken结束
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 管理文书 > 施工组织


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!